Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

Ähnliche Präsentationen


Präsentation zum Thema: "Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02."—  Präsentation transkript:

1 Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02

2 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 2 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wörterbücher für menschliche Benutzer

3 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 3 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wörterbücher für menschliche Benutzer Wahrig-Projekt I

4 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 4 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wahrig-Projekt II Wörterbücher für menschliche Benutzer Wahrig-Projekt I

5 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 5 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Leibniz-Projekt Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wahrig-Projekt II Wörterbücher für menschliche Benutzer Wahrig-Projekt I

6 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 6 Das Wahrig Textkorpus digital Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000

7 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 7 Das Wahrig Textkorpus digital Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000 Berliner Zeitung Süddeutsche Zeitung Der Spiegel

8 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 8 Das Wahrig Textkorpus digital Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000 Berliner Zeitung Süddeutsche Zeitung Der Spiegel Neue Zürcher Zeitung Der Standard

9 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 9 Das Wahrig Textkorpus digital Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000 Berliner Zeitung Süddeutsche Zeitung Der Spiegel Neue Zürcher Zeitung Der Standard Spektrum der Wissenschaft (ab 1993) Brigitte (ab 1997)

10 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 10 Das WTD: Umfang 450 Mio. Textwörter

11 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 11 Das WTD: Struktur XML-Format (CES/TEI) Kodierung meta-linguistischer Header-Information beim Dokument (z.Zt. 20 Tags) Kodierung linguistischer Information beim Token (später) Markierung von Nicht-Texten (Schrottfilter): zwischen 1 und 10% des Umfangs ausgefiltert

12 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 12 Metalinguistische Information Nachrichten SPORT AKTUELL Neue Ideen, Kraftfahrzeuge optimal erscheinen zu lassen Wenn die Lichter angehen Bei Hecklichtern und Innenraumbeleuchtung werden Sicherheit und Komfort ausgebaut

13 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 13 Schrott Primärmarktkurse für Franken-Neuemissionen Betrag Emissions-Rendite(inMio.) CouponZeichnungsfristLiberierungpreisGeldBrief(in%)Inlandsc huldner12513/4Eurofima99/0410.5.9917.5.99100,900­2,000­ 1,8001,9430021/4KantonBern99/0730.4.9918.5.9999,800­ 1,350­1,1502,4420027/8KantonalbankAargau99/08... (NZZ 1999) 1. Bundesliga Herren: Alba Berlin - TuS Herten 115:94, Bayer Leverkusen - TVG Trier 91:69, Tally Oberelchingen - MTV Gießen 55:59, Hitachi Landshut - Steiner Bayreuth 80:89; Spitze: 1. Bayer Leverkusen 28:2 Pkt., 2. Alba Berlin 24:4, 3. Brandt Hagen 22:8, 4. TTL Bamberg 20:8. (Berliner Zeitung 1996)

14 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 14 Das WTD im Vergleich Umfang Anz. Dokumenttypen BNC100 Mio. 4000 DWDS150 Mio.(500 Mio.)1500 IdS ? ? WTD450 Mio. 7 FR/WSJ 1

15 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 15 Linguistische Annotation I Wortart-Tagging (TnT, STTS) –Korrektheit ca. 96,5 % –Nach Training Korrektheit ca. 97,5 % Lemmatisierung, zweifach, auf der Basis von –Bertelsmann deutsche Rechtschreibung –Wahrig, Deutsches Wörterbuch –Korrektheit >96 % Harmonisierung der Rechtschreibung (Corrigo)

16 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 16 Lückensuche: SZ 5/99 Ausgangsbasis: Liste nicht-lemmatisierter Tokens

17 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 17 Automatische Auswahlverfahren I Ausfiltern von: Eigennamen (BLV- Eigennamenlisten): 0,5% Eigennamen (Tagger): 16% Fremdsprachiges Material (Tagger): 2% Abkürzungen: 0,3% Nichtwörtern (ßenseiter, schööön, www.festspiel-plus- heimat.de...): 4,6% (Wortfilter, reg. Ausdrücke) irrelevanten Wörtern (Straßennamen, Ortsableitungen, Wörter mit vielen Bindestrichen...): 22% (Wortfilter, reg. Ausdrücke)

18 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 18 Filterung Ca. 450. 000 Textwörter, 135.000 Wortformen, 90.000 gute Kandidaten

19 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 19 Automatische Auswahlverfahren I Weitere Reduktion durch Trunkierung: Bsp: [Abgeordnetensitzes, Abgeordnetensitzen, Abgeordnetensitze] > Abgeordnetensitz [Abhörprotokoll, Abhörprotokollen, Abhörprotokolle] > Abhörprotokoll [abbrannte, abbrannten] > abbrannten wortartspezifische Reduktion um ca.: Nomen 16%, Verben 17%, Adjektive 56%

20 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 20 Stichprobe: 1000 Wörter Rohliste

21 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 21 Beispiele gute Kandidaten/Lücke: –Tierhaltung, Wahlhelfer, Wohngebiet, zerstörerisch gute Kandidaten/Neologismus –Datenautobahn, Docu-Soap,Kinderfreibetrag, Solidaritätszuschlag, Abfallwirtschaft falsche Kandidaten: –wolfsburger, Xetra-Computerhandel, zweitgrößter, Überraschungskonzert, ästhetisch-harmlos

22 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 22 Automatische Auswahlverfahren II Streuung über Jahrgänge und Titel: positive Bewertung: z.B. Frequenzsteigung über mehrere Jahrgänge hinweg (floppen: 2/5/5/13/27 über 5 Jahrgänge SZ) positive Bewertung: regional interessantes Vorkommen nur in einem Titel wie NZZ (auszonen) negative Bewertung: z.B. Vorkommen (fast) nur in einem Titel (Klausenerplatz: Gesamtfrequenz 79, davon 77 Berliner Zeitung)

23 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 23 Wahrig, Deutsche Rechtschreibung 5000 Neuaufnahmekandidaten: 80% mit Bewertungsverfahren ermittelt / 20% nach höchster Gesamtfrequenz ca. 78% Substantive, 17%Adjektive, 5% Verben 570 schweiz./850 österr. Kandidaten Ca. 700 als Lemmata übernommen 400 aus anderen Quellen (v.a. Sprachberatung)

24 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 24 schwächeln: Häufigkeit in Jahrgängen

25 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 25 schwächeln: Häufigkeit in Ressorts

26 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 26 Neue Verwendungen Tagger (ADJD) gegen Lemmatisierer (Verb) zunehmend, überwiegend, genügend, vorwiegend, besorgt, begeistert, zwingend

27 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 27 Häufigkeit von Verbbelegen

28 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 28 Leichenschau Abelmoschus, Abendfalter, Abendländerin, Abenduniversität, abendwärts, Abendweite, Aberhundert, Aberraute, aberrieren, Abersaat, Abertausend, ABF, abfasen, abfasern, abfleischen, abfluchten

29 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 29 Signifikante Belege

30 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 30 Definitionen: Beispiele Unter Telematik versteht man technische Systeme, die die Verkehrsströme so intelligent verteilen und steuern sollen, dass auf der vorhandenen Verkehrsfläche mehr Autos flüssiger vorankommen. Unter Ligaschießen versteht man ein freies Schießen, bei dem sich mehrere Vereine für das Finalschießen qualifizieren. Unter Ökostrom versteht man Energie, die aus Wasser- und Windkraft, Biomasse oder Sonne erzeugt wird.

31 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 31 Definitionen: Mehr Beispiele

32 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 32 Morphologie: Wortschatzgruppierung Minister Bundesminister Exminister Kriegsminister Kultusminister Kultusministerin Premierminister Reichsminister Agrarminister Arbeitsminister Arbeitsministerin Außenminister Außenministerin Bauminister Bundesminister Bundesministerin Europaminister Finanzminister Gesundheitsministerin Handelsminister Innenminister Justizminister Kanzleramtsminister Kultusminister Kultusministerin Landwirtschaftsminister Olympiaminister Premierminister Sozialministerin Staatskanzleiminister Staatsminister Tourismusminister Umweltminister Verkehrsminister Verteidigungsminister Wirtschaftsminister Wohnungsbauminister Bundesarbeitsminister Bundesbildungsminister Bundesfinanzminister Bundeswirtschaftsminister DDR-Staatssicherheitsmin. Kultur-Staatsminister SPD-Innenminister US-Außenminister US-Verteidigungsminister

33 15.2.02Manfred Pinkal, Sehr große Korpora für große Wörterbücher 33 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Leibniz-Projekt Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wahrig-Projekt II Wörterbücher für menschliche Benutzer Wahrig-Projekt I


Herunterladen ppt "Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02."

Ähnliche Präsentationen


Google-Anzeigen