Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)

Slides:



Advertisements
Ähnliche Präsentationen
Bräuche und Feste Einleitung Aufgabe www-Recherche Präsentation
Advertisements

Software Assurance Erweiterte Software Assurance Services
Christus im AT „Und von Moses und von allen Propheten anfangend,
On the Criteria to Be Used in Decomposing Systems into Modules
Autos: Tomasz Cebulski Bartek Czerny
Studientag Facharbeit 2003/04
Sprachen lernen mit Neuen Medien
Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg
Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung)  im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A.
eine Plattform für annotierte Korpora in XML
Warum sind die Wünsche von Kindern wichtig für die Stadtentwicklung?
Vermittlung von Informationskompetenz
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
1. Die Energiesituation in Deutschland und in der Welt
Grundkurs Theoretische Informatik, Folie 3.1 © 2004 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 3 Gottfried Vossen Kurt-Ulrich Witt.
1 Ein Computermodell zur Bestimmung von Begriffstypen Christof Rumpf Heinrich-Heine-Universität Tag der Forschung
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger
Praxis-Repetitorium JAVA zusätzliche, ergänzende Lehrveranstaltung
Christian Schindelhauer
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
Grammatikentwicklung
Die formalen Sprachen bei ETAP
Training im Christentum
Justyna Wędrychowicz Joanna Marszałek. DEUTSCHE VERSION POLNISCHE VERSION.
Wir möchten dich heute fragen, was für dich im Leben am wichtigsten ist? Co jest dla Ciebie najważniejsze w życiu? An der Umfrage nahmen 56 Personen teil.
Im Zuge unserer Befragung gaben uns 260 Personen über ihr Leseverhalten Auskunft.
Präsentation des Projekts infosenior. ch Netzwerktagung «BBB 100» 6
Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
Präpositionen mit Dativ und Akkusativ
Hypertext Markup Language
Der Europäische Frühling 2008 Dialog verbindet Kulturen.
Internet - Grundkurs - Einführung1 Inhalte Einführung in das Internet Zugang zum Internet Wie funktioniert das Internet? Das Programmpaket Internet Explorer.
Internet: Funktionsweise und Dienste
Theologische Hochschule Friedensau BS5P1-3: Literaturstudium und Recherche Baustein 7 Recherche im Internet 1 Dozent: Dietmar Päschel, Dipl.-Theol. Wintersemester.
Anglo-Amerikanische Korpuslinguistik Anglo-American Corpus Linguistics Erstellt von Gudrun Krenn Slawische Korpuslinguistik SE SS 2006 Dr. Branko Tošović
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Dokumentation der Umfrage
Texterfahrung seit 2001 M. A. Universität Essen 2005 Selbstständig seit 2010 Lektorat Yvonne Pioch.
17. November 2010 Heinz Cronimund Vorbereiten von öV-Reisen via Internet.
1 Universitätsbibliothek Johann Christian Senckenberg Das Angebot E lektronischer M edien eLearning Netzwerktag am 30. Juni 2008 Subtitel Dr. Klaus Junkes-Kirchen.
A: Was machst du? B: Ich spiele Fussball. A: Was willst du? B: Ich will nach Asien. A: Woher kommst du? B: Ich komme aus Polen. A: Wo wohnst du? B:
Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 ( )
Französisch-Slawische Korpuslinguistik Французско- славянская корпусная лингвистика Aigner Ruth Prenn Linde SE Korpuslinguistik O. Univ.-Prof. Dr. Branko.
Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin
Lernprogramm zur Bestimmung der Wortarten
Polen – unsere Heimat.
Formale Sprachen Reguläre Sprachen Rudolf FREUND, Marian KOGLER.
Hauptseminar SS 2006 Hinweise für Autoren.
NEMECKÝ JAZYK.
OpenStreetMap.org Einleitung und Erläuterung von OSM 1Created by: Rudolf Kremsner.
Übung zu Einführung in die LDV I
Andrea Karner Susi Luginger
Lesemotivation und Lernstrategien
Oberschule, Klassenstufe 2 von Eliza Woldan und Izabela Osińska
Das Internet Inhalt: Geschichte Netzschema
Herzlich willkommen in Oberpullendorf! Üdvözöllek Felsőpulyán!
erstellt von: Rita Plos
Referentin: Lydienne Reith
Autorkou materiálu a všech jeho částí, není-li uvedeno jinak, je Lucie Krejčí. Dostupné z Metodického portálu ISSN: , financovaného.
Fragebogen Studierende
Werbung und Marketing: Worauf muss geachtet werden?
Tasks UNDERSTAND KNOW COMPREHEND know comprehend understandit ž, n, d, c, r, s, t, a, n, d w, t žn dcr stan dwt [žn] – [dcr] – [stan] – [dwt] SELECTION.
3 2 1 Rot:0; Grün: 128; Blau: 128 Schriftgröße: 32
26. Oktober 2005Autor: Walter Leuenberger Computeria Urdorf Treff vom 26. Oktober 2005 Suchmaschinen im Internet Google & Co.
Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)
Praha & EU: Investujeme do vaší budoucnosti Evropský sociální fond Gymnázium, Praha 10, Voděradská 2 Projekt OBZORY Massenmedien.
PCNEWS-Datenbanken ( ). Homepage-Elemente.
Ergebnisse und Diskussion
 Präsentation transkript:

Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011 Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego) www.nkjp.pl Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011

Vorgeschichte Słownik frekwencyjny polszczyzny współczesnej – Kurcz et al. 1990 Korpus, bestehend aus 500.000 Wörtern 100.000 Samples aus 5 Funktionalstilen morphologisch annotiert und disambiguiert Texte von 1963 bis 1967 (das Wörterbuch wurde 1990 veröffentlicht) Heute zugänglich unter: www.mimuw.edu.pl/polszczyzna/pl196x

Die 100 häufigsten polnischen Lexeme Frequenzörterbuch des Polnischen (1963-67) w, i, być, się, na, nie, z, on, do, ten, to1, że, a, o, ja, który, mięć, jak, co, ale, tak, pan, od, po, móc, przez, taki, dla, tylko, za, ty, tysiąc, swój, jeden, bardzo, siebie, czy, rok, jeszcze, przy, wiedzieć, dwa, pierwszy, inny, mówić, nasz, sprawa, sam, my, wszystek, czas, chcieć, praca, zostać, powiedzieć, to2, tu, oraz, lata (rok), musieć, cały, bo, dzień, mój, więc, nowy, przed, drugi, jednak, pod, pani, nawet, jaki, też, można, no, nic, ludzie, każdy, dziewięćset, również, trzy, kraj, żeby, wszystko, miejsce, tam, człowiek, jakiś, nad, widzieć, coś, teraz, przecież, kiedy, może, wielki, życie, bez, polski PWN Korpus des Polnischen 2001 (korpus.pwn.pl) w, i, się (siebie), być, z, na, nie, on, do, ten, to, że, a, który, o, mieć, jak1, po, ja, co, od, ale, za, móc, tak, przez, już, dla, swój, tylko, taki, czy, bardzo, wszystek (wszystko), sam1, rok (r.), człowiek (ludzie), jeden, inny, ty, mówić, czas, bo, my, chcieć, jeszcze, przed, też, wiedzieć, pan, lata (rok), jednak, przy, wielki, mój, zostać, nowy, dwa, pod, raz, pierwszy, nasz, oraz, lub, musieć, dzień, nawet, cały, praca, gdy, można, powiedzieć, polski, by, życie, więc, każdy, sprawa, jaki, jako, dobry, także, bez1, kiedy, tam, tu, polska, no, drugi, miejsce, nic, osoba, wiele, teraz, u, jakiś, świat, coś

Vorgänger und Teilkorpora des NKJP Korpus des Instituts für Informatik der AW / PAN (in Zusammenarbeit mit dem Institut der Polnischen Sprache PAN): 250 Mio. Wörter, detailliertes Suchprogramm, im Netz: www.korpus.pl Korpus PWN: 100 Mio., (40 Mio. Wörter im Netz: korpus.pwn.pl) Korpus PELCRA: 100 Mio. Wörter mit benutzerfreundlichem Suchprogramm, im Netz: korpus.ia.uni.lodz.pl

Grundvoraussetzungen zum NKJP Projekt des polnischen Hochschulministeriums (MNiSW) Nr R1700303 Geplant für 1 Milliarde Wörter 300 Mio. Wörter im ausgewogenen Kernkorpus morphologisch annotiert und disambiguiert Übungskorpus aus 1 Mio. Wörtern, auch detailliert annotiert und disambiguiert nach syntaktischen Kategorien, Eigennamen und homonymen Wortbedeutungen. gebühren- und registrationsfrei.

Repräsentativität des Kernkorpus Repräsentativität ist nicht mit Ausgewogenheit gleichzusetzen. Das Korpus des Frequenzörterbuches war ideal ausgewogen – je 20% aus 5 Funktionalstilen, aber war nicht repräsentativ im Sinne der Sprachproduktion oder Sprachrezeption eines durchschnittlichen Polen. Voraussetzung der Repräsentativität des NKJP ist die Struktur der Leserschaft (Fragebogen des Leserschaftsinstituts) Vor allem Zeitungen und Periodika (50%), Belletristik (mit Schlüsseltexten aus der polnischen Literatur, wissenschaftliche und Sachbücher (29%)) Andere Typen geschriebener Texte (11%): Gesetze, Gebrauchsanweisungen, Flugblätter, Websites und Blogs 10% der gesprochenen Sprache - darunter auch quasi-spoken und to-be-spoken (Parlamentsprotokolle)

Struktur des Kernkorpus Bücher 29% Belletristik 16% narrative Sachbücher 5,5% wissenschaftliche und Handbücher 2% Ratgeber, Hobby, Interviews und andere Bücher 5,5% Presse 50% Zeitungen 26% Zeitschriften (auch Fach- und Hobbyzeitschriften) 24% andere veröffentlichte Texte (Gesetze, Anweisungen, Werbung) 4% Webtexte (Blogs, Foren und Chats, Web-Sites) 7% gesprochene Texte 10% (Aufnahmen alltäglicher Gespräche – 1%, Reden, Interviews, Protokolle)

Andere slavische Korpora und ihre Struktur Parallelkorpora und andere K. http://www.uni-regensburg.de/Fakultaeten/phil_Fak_IV/Slavistik/RPC (slavisches Paralelkorpus) http://ucnk.ff.cuni.cz/intercorp-info.php http://pelcra.ia.uni.lodz.pl http://www.korpus.pl http://korpus.pwn.pl http://monika.univ.gda.pl/~literat http://riznica.ihjj.hr http://www.ulif.org.ua/ulif/ Nationalkorpora http://www.tekstlab.uio.no/Bosnian/Corpus.html http://www.ibl.bas.bg/BGNC_bg.htm http://www.ucnk.ff.cuni.cz http://www.hnk.ffzg.hr/default.htm http://www.nkjp.pl http://www.ruscorpora.ru http://korpus.juls.savba.sk/index.sk.html http://www.fidaplus.net (Slowenisch)

Český Národní Korpus (ausgewogene Subkorpora) Textsorten in Syn 2000 (100 Mio. Wörter) Presse 60%, Belletristik 25%, Sachbücher 15% Textsorten in Syn 2005 (100 Mio. Wörter) Presse 33%, Belletristik 40%, Sachbücher 27% Zeitraum Zeitungstexte nach 1990 Buchautoren geboren nach 1880

Korpus des slovenischen FIDA Plus Textarten Presse – 88%, Bücher (auch Übersetzungen) 9%, Rest (Internet) – 3% Inhalt Belletristik – 3,5%, Rest – 96,5% Zeiträume 1990-1999 – 30% (1979-1990 – 0,04%) 2000-2006 – 70%

Nacional’nyj Korpus Russkogo Jazyka (www.ruscorpora.ru) Belletristik 40% andere geschriebene Texte (Presse) 56% gesprochene Texte 4% Zeitraum: seit dem Ende des 18. Jh.

Korpus des DWDS (www.dwds.de) Belletristik (ca. 26%) journalistische Prosa (ca. 27%) Fachprosa (ca. 22%) Gebrauchstexte (ca. 20%) transkribierte Texte gesprochener Sprache (ca. 5%) Zeitraum: seit 1900

Textannotierung und Desambiguierung Jeder Korpustext wird mit einem Header versetzt, der über Titel, Verfasser, Erscheinungsjahr und anderes informiert. Annotierung der Texteinheiten: (Co) mamy (do roboty) Lemmatische A. - Textwörter werden den Lemmata zugeschrieben, z.B. [lemma=mieć] Morphologische A. - den Wortformen werden Wortarten grammatische Kategorien zugeschieben, z.B. [lemma=mieć, pos=verb/fin pers=pri num=pl (temp=praes mod=ind)] Syntaktische, semantische Annotation (in Vorbereitung) Die Annotierung verläuft völlig automatisch, aber bevor man das Programm erstellt, muss ein großes Übungskorpus (1 Mio.) vor Hand unabhängig annotiert werden. Desambiguierungsvorgang basiert auf einigen geordneten Kontextregeln, z.B. bei der Wortform mamy: (zu mieć oder mama) reicht es zu prüfen, ob es im selben Satz ein anderes Prädikat gibt.

Textannotierung für das polnisch-russische Korpus <RUS>В{в=PR=} северо-восточном{северо-восточный=A=пр,ед,муж|северо-восточный=A=пр,ед,сред} углу {угол=S,муж,неод=дат,ед| угол=S,муж,неод=местн,ед} Африки{африка=S,жен,неод=им,мн| африка=S,жен,неод=род,ед| африка=S,жен,неод=вин,мн} лежит{лежать=V,несов=непрош,ед,изъяв,3-л} Египет{египет=S,муж,неод=им,ед| египет=S,муж,неод=вин,ед}.<RUS> <POL>W [w:prep:loc:nwok] północno [północny:adja]- [-:interp]wschodnim [wschodni:adj:sg:loc:m3:pos] kącie [kąt:subst:sg:loc:m3] Afryki [afryka:subst:sg:gen:f] leży [leżeć:fin:sg:ter:imperf] Egipt [egipt:subst:sg:acc:m3].</POL>

Bisherige Textsammlung im Netz 1,5 Miliarde Wörter Über 2.000 Bücher, darunter: Barańczak, Białoszewski, Brandys, Dąbrowska, Dygat, Głowacki, Iwaszkiewicz, Kapuściński, Lem, Miłosz, Mrożek, Myśliwski, Nałkowska, Sapkowski, Stasiuk, Szczypiorski, Tokarczuk, Rymkiewicz Über 400 Pressetitel aus verschiedenen Regionen Polens Zwei verschiedene Suchmaschinen Ein detailiertes Suchprogramm Poliqarp Ein benutzerfreundliches Suchprogramm PELCRA Ausgewogenes Kernkorpus (300 Mio.) erscheint bald.

Suchwerkzeuge Poliqarp – Search Tool des IPI PAN, das mithilfe regulärer Ausdrücke nach beliebigen Realisierungen morphologischer Kategorien in unbegrenzten Zusammensetzungen sucht. PELCRA Search Tool basiert auf einer relationalen Datenbasis: es sucht nur nach Wortformen und Lexemen, zeigt Konkordanzen und Kollokationen, Stil- und Zeitdiagramme einzelner Wörter und Wortkombinationen.

Worauf ein Wörterbuch basieren kann? Andere Wörterbücher Offen benutzt und verbessert Durch Plagiat oder Nachahmung Kentnisse und Sprachgefühl der Lexikographen (Introspektion) Kann trügerisch sein Textquellen Wörterbuchkartei nach einer manueller Exzerption Korpus

Textquellen polnischer Wörterbücher Słownik języka polskiego von Samuel B. Linde 1807, das erste wissenschaftliche Wörterbuch der polnischen Sprache, benutzte und zitierte über 850 literarische und Sachtexte seit dem 16. Jh., er hat daraus eine Kartei erstellt Słownik języka polskiego sog. warschauer (Karłowicz, Kryński, Niedźwiedzki 1900-1927) geben kein Textkorpus offenbar, aber das Wörterbuch selbst soll nach Autoren als Korpus dienen: „es soll objektives mit keiner Theorie ausgestattet Sprachinventar sein, Material, aus dem erst Sprachwissenschaftler Schlussfolgerungen ziehen werden”. być bezstronnym, nieuprzedzonym żadną teoryją gramatyczną lub purystyczną, ścisłym inwentarzem języka, dokładną i obszérną skarbnicą jego zasobów, […] materyjałem, z którego dopiéro językoznawcy spostrzeżenia swe i wnioski snuć będą (Karłowicz et al.)

Das Korpus als Wörterbuchbasis Nur ein Wörterbuchverlag hat sein eigenes Korpus gesammelt: PWN Heutzutage dient der NKJP mindestens einem grossen Wörterbuch – dem Grossen Polnischen Wörterbuch: www.wsj.pl. Auch andere Wörterbücher können mithilfe des NKJP bearbeitet werden.

Was dem NKJP noch fehlt ein ausgewogenes Kernkorpus (erscheint bald) Ein Werkzeug, das aus großen Textmengen morphologische und syntaktische Informationen extrahieren könnte – so wie etwa Word Sketch Engine (www.sketchengine.co.uk). Teilweise ersetzt es Kollokationssucher, Zeit- und Stildiagramme in PELCRA Tool

Textquellen polnischer Wörterbücher Słownik polszczyzny XVI wieku - 8 Mio. Kerteikarten Słownik języka polskiego von Doroszewski – 6 Mio. Karteikarten Słownik języka polskiego von Szymczak – 1 Mio. Karteikarten

Was kann man aus dem Korpus erfahren, was nicht im Wörterbuch steht?

Suchbeispiele Semantische Prosodie in Kollokationen von ewidentny und oczywisty Zeit- und Stilverlaufe am Beispiel von oczywisty und ewidentny Lokale Orientierung der Gegenstände - Präpositionen zum Substantiv drzwi Potenzierung substantivischer Attribute in Genitivgefügen Perfektive Verben mit dem Präfix na- höchstens 2 Wörter von der Präposition na entfernt Die längste Konsonantenfolge

Semantische Prosodie: oczywisty - ewidentny Oczywisty: fakt, przyczyna, stwierdzenie, am häufigsten prädikativ benutzt: to jest oczywiste). Ewidentny: błąd ‘Fehler’‚ sprzeczność ‚Widerspruch‘, faul, naruszenie ‘Verstoß’‚ pomyłka ,Irrtum’, brak ‘Fehler’. Im Deutschen scheint sich evident von offensichtlich oder augenfällig nicht auf diese Weise evaluativ zu unterscheiden.

Lokale Orientierung der Präpositionen: przed drzwiami und za drzwiami NKJP: przed drzwiami 973, za drzwiami 2000 DWDS: vor der Tür 1077, hinter der Tür 197 Czy ma pan świadomość, że ci, którzy czekają za drzwiami, bardzo się boją? ‘Sind Sie sich dessen bewusst, dass die Leute vor der Tür große Angst (vor Ihnen) haben?’ Za drzwi! ‘Da ist die Tür!’

Syntaktische Kombinierbarkeit grammatischer Kategorien Potenzierung substantivischer Attribute im Genitiv - [pos=subst & case=gen]{9,} Do przeprowadzania kontroli spełnienia obowiązku zawarcia umowy ubezpieczenia OC posiadaczy pojazdów mechanicznych są obowiązane: a) Policja, b) organy celne ... ‘Folgende Organe sind verpflichtet die Pflichterfüllung beim Abschluss des Versicherungsvertrags durch Besitzer mechanischer Fahrzeugen zu kontrollieren s…’ (Gesetz)

Aspekt im Korpus Perfektive Verben mit dem Präfix na- höchstens 2 Wörter von der Präposition na entfernt [pos=verb & pos!=ger & aspect=perf & orth="na.*"][]{,2}[orth=na] Napisać coś na papierze.

Phonetik im Korpus Die längste Konsonantenfolge (ohne Bigraphen) [orth=".*[bcćdfghklłmnńśprstwzźż]{5,}.*" & orth!=".*ch.*|.*cz.*|.*dż.*|.*dź.*|.*rz.*|.*sz.*"] bezwzględny

Das Korpus ist für Sie da www.nkjp.pl