Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)

Ähnliche Präsentationen


Präsentation zum Thema: "Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)"—  Präsentation transkript:

1 Marek Łaziński, M.Lazinski@uw.edu.pl Wien 8.3.2011
Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego) Marek Łaziński, Wien

2 Vorgeschichte Słownik frekwencyjny polszczyzny współczesnej – Kurcz et al. 1990 Korpus, bestehend aus Wörtern Samples aus 5 Funktionalstilen morphologisch annotiert und disambiguiert Texte von 1963 bis 1967 (das Wörterbuch wurde 1990 veröffentlicht) Heute zugänglich unter:

3 Die 100 häufigsten polnischen Lexeme
Frequenzörterbuch des Polnischen ( ) w, i, być, się, na, nie, z, on, do, ten, to1, że, a, o, ja, który, mięć, jak, co, ale, tak, pan, od, po, móc, przez, taki, dla, tylko, za, ty, tysiąc, swój, jeden, bardzo, siebie, czy, rok, jeszcze, przy, wiedzieć, dwa, pierwszy, inny, mówić, nasz, sprawa, sam, my, wszystek, czas, chcieć, praca, zostać, powiedzieć, to2, tu, oraz, lata (rok), musieć, cały, bo, dzień, mój, więc, nowy, przed, drugi, jednak, pod, pani, nawet, jaki, też, można, no, nic, ludzie, każdy, dziewięćset, również, trzy, kraj, żeby, wszystko, miejsce, tam, człowiek, jakiś, nad, widzieć, coś, teraz, przecież, kiedy, może, wielki, życie, bez, polski PWN Korpus des Polnischen 2001 (korpus.pwn.pl) w, i, się (siebie), być, z, na, nie, on, do, ten, to, że, a, który, o, mieć, jak1, po, ja, co, od, ale, za, móc, tak, przez, już, dla, swój, tylko, taki, czy, bardzo, wszystek (wszystko), sam1, rok (r.), człowiek (ludzie), jeden, inny, ty, mówić, czas, bo, my, chcieć, jeszcze, przed, też, wiedzieć, pan, lata (rok), jednak, przy, wielki, mój, zostać, nowy, dwa, pod, raz, pierwszy, nasz, oraz, lub, musieć, dzień, nawet, cały, praca, gdy, można, powiedzieć, polski, by, życie, więc, każdy, sprawa, jaki, jako, dobry, także, bez1, kiedy, tam, tu, polska, no, drugi, miejsce, nic, osoba, wiele, teraz, u, jakiś, świat, coś

4 Vorgänger und Teilkorpora des NKJP
Korpus des Instituts für Informatik der AW / PAN (in Zusammenarbeit mit dem Institut der Polnischen Sprache PAN): 250 Mio. Wörter, detailliertes Suchprogramm, im Netz: Korpus PWN: 100 Mio., (40 Mio. Wörter im Netz: korpus.pwn.pl) Korpus PELCRA: 100 Mio. Wörter mit benutzerfreundlichem Suchprogramm, im Netz: korpus.ia.uni.lodz.pl

5 Grundvoraussetzungen zum NKJP
Projekt des polnischen Hochschulministeriums (MNiSW) Nr R Geplant für 1 Milliarde Wörter 300 Mio. Wörter im ausgewogenen Kernkorpus morphologisch annotiert und disambiguiert Übungskorpus aus 1 Mio. Wörtern, auch detailliert annotiert und disambiguiert nach syntaktischen Kategorien, Eigennamen und homonymen Wortbedeutungen. gebühren- und registrationsfrei.

6 Repräsentativität des Kernkorpus
Repräsentativität ist nicht mit Ausgewogenheit gleichzusetzen. Das Korpus des Frequenzörterbuches war ideal ausgewogen – je 20% aus 5 Funktionalstilen, aber war nicht repräsentativ im Sinne der Sprachproduktion oder Sprachrezeption eines durchschnittlichen Polen. Voraussetzung der Repräsentativität des NKJP ist die Struktur der Leserschaft (Fragebogen des Leserschaftsinstituts) Vor allem Zeitungen und Periodika (50%), Belletristik (mit Schlüsseltexten aus der polnischen Literatur, wissenschaftliche und Sachbücher (29%)) Andere Typen geschriebener Texte (11%): Gesetze, Gebrauchsanweisungen, Flugblätter, Websites und Blogs 10% der gesprochenen Sprache - darunter auch quasi-spoken und to-be-spoken (Parlamentsprotokolle)

7 Struktur des Kernkorpus
Bücher 29% Belletristik 16% narrative Sachbücher 5,5% wissenschaftliche und Handbücher 2% Ratgeber, Hobby, Interviews und andere Bücher 5,5% Presse 50% Zeitungen 26% Zeitschriften (auch Fach- und Hobbyzeitschriften) 24% andere veröffentlichte Texte (Gesetze, Anweisungen, Werbung) 4% Webtexte (Blogs, Foren und Chats, Web-Sites) 7% gesprochene Texte 10% (Aufnahmen alltäglicher Gespräche – 1%, Reden, Interviews, Protokolle)

8

9 Andere slavische Korpora und ihre Struktur
Parallelkorpora und andere K. (slavisches Paralelkorpus) Nationalkorpora (Slowenisch)

10 Český Národní Korpus (ausgewogene Subkorpora)
Textsorten in Syn 2000 (100 Mio. Wörter) Presse 60%, Belletristik 25%, Sachbücher 15% Textsorten in Syn 2005 (100 Mio. Wörter) Presse 33%, Belletristik 40%, Sachbücher 27% Zeitraum Zeitungstexte nach 1990 Buchautoren geboren nach 1880

11 Korpus des slovenischen FIDA Plus
Textarten Presse – 88%, Bücher (auch Übersetzungen) 9%, Rest (Internet) – 3% Inhalt Belletristik – 3,5%, Rest – 96,5% Zeiträume – 30% ( – 0,04%) – 70%

12 Nacional’nyj Korpus Russkogo Jazyka (www.ruscorpora.ru)
Belletristik 40% andere geschriebene Texte (Presse) 56% gesprochene Texte 4% Zeitraum: seit dem Ende des 18. Jh.

13 Korpus des DWDS (www.dwds.de)
Belletristik (ca. 26%) journalistische Prosa (ca. 27%) Fachprosa (ca. 22%) Gebrauchstexte (ca. 20%) transkribierte Texte gesprochener Sprache (ca. 5%) Zeitraum: seit 1900

14 Textannotierung und Desambiguierung
Jeder Korpustext wird mit einem Header versetzt, der über Titel, Verfasser, Erscheinungsjahr und anderes informiert. Annotierung der Texteinheiten: (Co) mamy (do roboty) Lemmatische A. - Textwörter werden den Lemmata zugeschrieben, z.B. [lemma=mieć] Morphologische A. - den Wortformen werden Wortarten grammatische Kategorien zugeschieben, z.B. [lemma=mieć, pos=verb/fin pers=pri num=pl (temp=praes mod=ind)] Syntaktische, semantische Annotation (in Vorbereitung) Die Annotierung verläuft völlig automatisch, aber bevor man das Programm erstellt, muss ein großes Übungskorpus (1 Mio.) vor Hand unabhängig annotiert werden. Desambiguierungsvorgang basiert auf einigen geordneten Kontextregeln, z.B. bei der Wortform mamy: (zu mieć oder mama) reicht es zu prüfen, ob es im selben Satz ein anderes Prädikat gibt.

15 Textannotierung für das polnisch-russische Korpus
<RUS>В{в=PR=} северо-восточном{северо-восточный=A=пр,ед,муж|северо-восточный=A=пр,ед,сред} углу {угол=S,муж,неод=дат,ед| угол=S,муж,неод=местн,ед} Африки{африка=S,жен,неод=им,мн| африка=S,жен,неод=род,ед| африка=S,жен,неод=вин,мн} лежит{лежать=V,несов=непрош,ед,изъяв,3-л} Египет{египет=S,муж,неод=им,ед| египет=S,муж,неод=вин,ед}.<RUS> <POL>W [w:prep:loc:nwok] północno [północny:adja]- [-:interp]wschodnim [wschodni:adj:sg:loc:m3:pos] kącie [kąt:subst:sg:loc:m3] Afryki [afryka:subst:sg:gen:f] leży [leżeć:fin:sg:ter:imperf] Egipt [egipt:subst:sg:acc:m3].</POL>

16 Bisherige Textsammlung im Netz
1,5 Miliarde Wörter Über Bücher, darunter: Barańczak, Białoszewski, Brandys, Dąbrowska, Dygat, Głowacki, Iwaszkiewicz, Kapuściński, Lem, Miłosz, Mrożek, Myśliwski, Nałkowska, Sapkowski, Stasiuk, Szczypiorski, Tokarczuk, Rymkiewicz Über 400 Pressetitel aus verschiedenen Regionen Polens Zwei verschiedene Suchmaschinen Ein detailiertes Suchprogramm Poliqarp Ein benutzerfreundliches Suchprogramm PELCRA Ausgewogenes Kernkorpus (300 Mio.) erscheint bald.

17 Suchwerkzeuge Poliqarp – Search Tool des IPI PAN, das mithilfe regulärer Ausdrücke nach beliebigen Realisierungen morphologischer Kategorien in unbegrenzten Zusammensetzungen sucht. PELCRA Search Tool basiert auf einer relationalen Datenbasis: es sucht nur nach Wortformen und Lexemen, zeigt Konkordanzen und Kollokationen, Stil- und Zeitdiagramme einzelner Wörter und Wortkombinationen.

18 Worauf ein Wörterbuch basieren kann?
Andere Wörterbücher Offen benutzt und verbessert Durch Plagiat oder Nachahmung Kentnisse und Sprachgefühl der Lexikographen (Introspektion) Kann trügerisch sein Textquellen Wörterbuchkartei nach einer manueller Exzerption Korpus

19 Textquellen polnischer Wörterbücher
Słownik języka polskiego von Samuel B. Linde 1807, das erste wissenschaftliche Wörterbuch der polnischen Sprache, benutzte und zitierte über 850 literarische und Sachtexte seit dem 16. Jh., er hat daraus eine Kartei erstellt Słownik języka polskiego sog. warschauer (Karłowicz, Kryński, Niedźwiedzki ) geben kein Textkorpus offenbar, aber das Wörterbuch selbst soll nach Autoren als Korpus dienen: „es soll objektives mit keiner Theorie ausgestattet Sprachinventar sein, Material, aus dem erst Sprachwissenschaftler Schlussfolgerungen ziehen werden”. być bezstronnym, nieuprzedzonym żadną teoryją gramatyczną lub purystyczną, ścisłym inwentarzem języka, dokładną i obszérną skarbnicą jego zasobów, […] materyjałem, z którego dopiéro językoznawcy spostrzeżenia swe i wnioski snuć będą (Karłowicz et al.)

20 Das Korpus als Wörterbuchbasis
Nur ein Wörterbuchverlag hat sein eigenes Korpus gesammelt: PWN Heutzutage dient der NKJP mindestens einem grossen Wörterbuch – dem Grossen Polnischen Wörterbuch: Auch andere Wörterbücher können mithilfe des NKJP bearbeitet werden.

21 Was dem NKJP noch fehlt ein ausgewogenes Kernkorpus (erscheint bald)
Ein Werkzeug, das aus großen Textmengen morphologische und syntaktische Informationen extrahieren könnte – so wie etwa Word Sketch Engine ( Teilweise ersetzt es Kollokationssucher, Zeit- und Stildiagramme in PELCRA Tool

22 Textquellen polnischer Wörterbücher
Słownik polszczyzny XVI wieku - 8 Mio. Kerteikarten Słownik języka polskiego von Doroszewski – 6 Mio. Karteikarten Słownik języka polskiego von Szymczak – 1 Mio. Karteikarten

23 Was kann man aus dem Korpus erfahren, was nicht im Wörterbuch steht?

24 Suchbeispiele Semantische Prosodie in Kollokationen von ewidentny und oczywisty Zeit- und Stilverlaufe am Beispiel von oczywisty und ewidentny Lokale Orientierung der Gegenstände - Präpositionen zum Substantiv drzwi Potenzierung substantivischer Attribute in Genitivgefügen Perfektive Verben mit dem Präfix na- höchstens 2 Wörter von der Präposition na entfernt Die längste Konsonantenfolge

25 Semantische Prosodie: oczywisty - ewidentny
Oczywisty: fakt, przyczyna, stwierdzenie, am häufigsten prädikativ benutzt: to jest oczywiste). Ewidentny: błąd ‘Fehler’‚ sprzeczność ‚Widerspruch‘, faul, naruszenie ‘Verstoß’‚ pomyłka ,Irrtum’, brak ‘Fehler’. Im Deutschen scheint sich evident von offensichtlich oder augenfällig nicht auf diese Weise evaluativ zu unterscheiden.

26 Lokale Orientierung der Präpositionen: przed drzwiami und za drzwiami
NKJP: przed drzwiami 973, za drzwiami 2000 DWDS: vor der Tür 1077, hinter der Tür 197 Czy ma pan świadomość, że ci, którzy czekają za drzwiami, bardzo się boją? ‘Sind Sie sich dessen bewusst, dass die Leute vor der Tür große Angst (vor Ihnen) haben?’ Za drzwi! ‘Da ist die Tür!’

27 Syntaktische Kombinierbarkeit grammatischer Kategorien
Potenzierung substantivischer Attribute im Genitiv - [pos=subst & case=gen]{9,} Do przeprowadzania kontroli spełnienia obowiązku zawarcia umowy ubezpieczenia OC posiadaczy pojazdów mechanicznych są obowiązane: a) Policja, b) organy celne ... ‘Folgende Organe sind verpflichtet die Pflichterfüllung beim Abschluss des Versicherungsvertrags durch Besitzer mechanischer Fahrzeugen zu kontrollieren s…’ (Gesetz)

28 Aspekt im Korpus Perfektive Verben mit dem Präfix na- höchstens 2 Wörter von der Präposition na entfernt [pos=verb & pos!=ger & aspect=perf & orth="na.*"][]{,2}[orth=na] Napisać coś na papierze.

29 Phonetik im Korpus Die längste Konsonantenfolge (ohne Bigraphen)
[orth=".*[bcćdfghklłmnńśprstwzźż]{5,}.*" & orth!=".*ch.*|.*cz.*|.*dż.*|.*dź.*|.*rz.*|.*sz.*"] bezwzględny

30 Das Korpus ist für Sie da


Herunterladen ppt "Nationalkorpus des Polnischen (Narodowy Korpus Języka Polskiego)"

Ähnliche Präsentationen


Google-Anzeigen