Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken,
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 2 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wörterbücher für menschliche Benutzer
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 3 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wörterbücher für menschliche Benutzer Wahrig-Projekt I
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 4 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wahrig-Projekt II Wörterbücher für menschliche Benutzer Wahrig-Projekt I
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 5 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Leibniz-Projekt Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wahrig-Projekt II Wörterbücher für menschliche Benutzer Wahrig-Projekt I
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 6 Das Wahrig Textkorpus digital Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 7 Das Wahrig Textkorpus digital Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika Berliner Zeitung Süddeutsche Zeitung Der Spiegel
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 8 Das Wahrig Textkorpus digital Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika Berliner Zeitung Süddeutsche Zeitung Der Spiegel Neue Zürcher Zeitung Der Standard
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 9 Das Wahrig Textkorpus digital Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika Berliner Zeitung Süddeutsche Zeitung Der Spiegel Neue Zürcher Zeitung Der Standard Spektrum der Wissenschaft (ab 1993) Brigitte (ab 1997)
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 10 Das WTD: Umfang 450 Mio. Textwörter
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 11 Das WTD: Struktur XML-Format (CES/TEI) Kodierung meta-linguistischer Header-Information beim Dokument (z.Zt. 20 Tags) Kodierung linguistischer Information beim Token (später) Markierung von Nicht-Texten (Schrottfilter): zwischen 1 und 10% des Umfangs ausgefiltert
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 12 Metalinguistische Information Nachrichten SPORT AKTUELL Neue Ideen, Kraftfahrzeuge optimal erscheinen zu lassen Wenn die Lichter angehen Bei Hecklichtern und Innenraumbeleuchtung werden Sicherheit und Komfort ausgebaut
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 13 Schrott Primärmarktkurse für Franken-Neuemissionen Betrag Emissions-Rendite(inMio.) CouponZeichnungsfristLiberierungpreisGeldBrief(in%)Inlandsc huldner12513/4Eurofima99/ ,9002,000 1,8001, /4KantonBern99/ ,800 1,3501,1502, /8KantonalbankAargau99/08... (NZZ 1999) 1. Bundesliga Herren: Alba Berlin - TuS Herten 115:94, Bayer Leverkusen - TVG Trier 91:69, Tally Oberelchingen - MTV Gießen 55:59, Hitachi Landshut - Steiner Bayreuth 80:89; Spitze: 1. Bayer Leverkusen 28:2 Pkt., 2. Alba Berlin 24:4, 3. Brandt Hagen 22:8, 4. TTL Bamberg 20:8. (Berliner Zeitung 1996)
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 14 Das WTD im Vergleich Umfang Anz. Dokumenttypen BNC100 Mio DWDS150 Mio.(500 Mio.)1500 IdS ? ? WTD450 Mio. 7 FR/WSJ 1
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 15 Linguistische Annotation I Wortart-Tagging (TnT, STTS) –Korrektheit ca. 96,5 % –Nach Training Korrektheit ca. 97,5 % Lemmatisierung, zweifach, auf der Basis von –Bertelsmann deutsche Rechtschreibung –Wahrig, Deutsches Wörterbuch –Korrektheit >96 % Harmonisierung der Rechtschreibung (Corrigo)
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 16 Lückensuche: SZ 5/99 Ausgangsbasis: Liste nicht-lemmatisierter Tokens
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 17 Automatische Auswahlverfahren I Ausfiltern von: Eigennamen (BLV- Eigennamenlisten): 0,5% Eigennamen (Tagger): 16% Fremdsprachiges Material (Tagger): 2% Abkürzungen: 0,3% Nichtwörtern (ßenseiter, schööön, heimat.de...): 4,6% (Wortfilter, reg. Ausdrücke) irrelevanten Wörtern (Straßennamen, Ortsableitungen, Wörter mit vielen Bindestrichen...): 22% (Wortfilter, reg. Ausdrücke)
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 18 Filterung Ca Textwörter, Wortformen, gute Kandidaten
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 19 Automatische Auswahlverfahren I Weitere Reduktion durch Trunkierung: Bsp: [Abgeordnetensitzes, Abgeordnetensitzen, Abgeordnetensitze] > Abgeordnetensitz [Abhörprotokoll, Abhörprotokollen, Abhörprotokolle] > Abhörprotokoll [abbrannte, abbrannten] > abbrannten wortartspezifische Reduktion um ca.: Nomen 16%, Verben 17%, Adjektive 56%
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 20 Stichprobe: 1000 Wörter Rohliste
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 21 Beispiele gute Kandidaten/Lücke: –Tierhaltung, Wahlhelfer, Wohngebiet, zerstörerisch gute Kandidaten/Neologismus –Datenautobahn, Docu-Soap,Kinderfreibetrag, Solidaritätszuschlag, Abfallwirtschaft falsche Kandidaten: –wolfsburger, Xetra-Computerhandel, zweitgrößter, Überraschungskonzert, ästhetisch-harmlos
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 22 Automatische Auswahlverfahren II Streuung über Jahrgänge und Titel: positive Bewertung: z.B. Frequenzsteigung über mehrere Jahrgänge hinweg (floppen: 2/5/5/13/27 über 5 Jahrgänge SZ) positive Bewertung: regional interessantes Vorkommen nur in einem Titel wie NZZ (auszonen) negative Bewertung: z.B. Vorkommen (fast) nur in einem Titel (Klausenerplatz: Gesamtfrequenz 79, davon 77 Berliner Zeitung)
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 23 Wahrig, Deutsche Rechtschreibung 5000 Neuaufnahmekandidaten: 80% mit Bewertungsverfahren ermittelt / 20% nach höchster Gesamtfrequenz ca. 78% Substantive, 17%Adjektive, 5% Verben 570 schweiz./850 österr. Kandidaten Ca. 700 als Lemmata übernommen 400 aus anderen Quellen (v.a. Sprachberatung)
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 24 schwächeln: Häufigkeit in Jahrgängen
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 25 schwächeln: Häufigkeit in Ressorts
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 26 Neue Verwendungen Tagger (ADJD) gegen Lemmatisierer (Verb) zunehmend, überwiegend, genügend, vorwiegend, besorgt, begeistert, zwingend
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 27 Häufigkeit von Verbbelegen
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 28 Leichenschau Abelmoschus, Abendfalter, Abendländerin, Abenduniversität, abendwärts, Abendweite, Aberhundert, Aberraute, aberrieren, Abersaat, Abertausend, ABF, abfasen, abfasern, abfleischen, abfluchten
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 29 Signifikante Belege
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 30 Definitionen: Beispiele Unter Telematik versteht man technische Systeme, die die Verkehrsströme so intelligent verteilen und steuern sollen, dass auf der vorhandenen Verkehrsfläche mehr Autos flüssiger vorankommen. Unter Ligaschießen versteht man ein freies Schießen, bei dem sich mehrere Vereine für das Finalschießen qualifizieren. Unter Ökostrom versteht man Energie, die aus Wasser- und Windkraft, Biomasse oder Sonne erzeugt wird.
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 31 Definitionen: Mehr Beispiele
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 32 Morphologie: Wortschatzgruppierung Minister Bundesminister Exminister Kriegsminister Kultusminister Kultusministerin Premierminister Reichsminister Agrarminister Arbeitsminister Arbeitsministerin Außenminister Außenministerin Bauminister Bundesminister Bundesministerin Europaminister Finanzminister Gesundheitsministerin Handelsminister Innenminister Justizminister Kanzleramtsminister Kultusminister Kultusministerin Landwirtschaftsminister Olympiaminister Premierminister Sozialministerin Staatskanzleiminister Staatsminister Tourismusminister Umweltminister Verkehrsminister Verteidigungsminister Wirtschaftsminister Wohnungsbauminister Bundesarbeitsminister Bundesbildungsminister Bundesfinanzminister Bundeswirtschaftsminister DDR-Staatssicherheitsmin. Kultur-Staatsminister SPD-Innenminister US-Außenminister US-Verteidigungsminister
Manfred Pinkal, Sehr große Korpora für große Wörterbücher 33 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Leibniz-Projekt Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wahrig-Projekt II Wörterbücher für menschliche Benutzer Wahrig-Projekt I