Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02.

Slides:



Advertisements
Ähnliche Präsentationen
Der Sozialstaat ist finanzierbar!
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
1. 2 Untersuchungsdesign Zielgruppe:Bevölkerung ab 14 Jahre Befragungsgebiet:Land Brandenburg Stichprobe:Soll:3.000 Befragte Ist:3.052 Befragte Auswahl:telefonische.
Telefonnummer.
IT – Struktur an Schulen
= = = = 47 = 47 = 48 = =
Standortfaktoren INTERN - Ausdrucksstark präsentieren.
IMS Universität Stuttgart 1 Einführung in XML Hannah Kermes HS: Elektronische Wörterbücher Do,
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Internet facts 2006-III Graphiken zum Berichtsband AGOF e.V. März 2007.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Internet facts 2005-IV Graphiken zu dem Berichtsband AGOF e.V. Juli 2006.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Niedersächsisches Ministerium für Inneres und Sport 1 Planung der neuen Akademie für Brand- und Katastrophenschutz in Scheuen Einwohnerversammlung Groß
Prof. Dr. Bernhard Wasmayr
Inhalte und Maßnahmen eingegeben haben,
Grundschutztools
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
AWA 2007 Natur und Umwelt Natürlich Leben
Lesen macht stark-Lesekompetenztests
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
Im Zuge unserer Befragung gaben uns 260 Personen über ihr Leseverhalten Auskunft.
Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
AGOF facts & figures: Branchenpotenziale im Internet Q4 2013: Entertainment Basis: internet facts / mobile facts 2013-II.
Wer ist am schnellsten? Manfred Jeitler Institut für Hochenergiephysik
Eine Einführung in die CD-ROM
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Dokumentation der Umfrage
...ich seh´es kommen !.
Where Europe does business Lück, JDZB | Seite © GfW NRW 252 a.
Präsentation läuft auch vollautomatisch ab … wie du möchtest
Auslegung eines Vorschubantriebes
Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.
Messung der Ionisierungsenergie von Wasserstoff
Schirach, Baldur Benedikt von, Politiker 希特勒青年團總負責人
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
Bitte F5 drücken.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
L.O.C. Mehrzweckreiniger 1 l Konzentrat 9,00 € ( GP 6,91 €)
Symmetrische Blockchiffren DES – der Data Encryption Standard
AGOF facts & figures: Branchenpotenziale im Internet Q1 2014: Reise & Touristik Basis: internet facts / mobile facts 2013III.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Analyseprodukte numerischer Modelle
2014 Januar 2014 So Mo Di Mi Do Fr Sa So
AGOF facts & figures: Branchenpotenziale im Internet Q1 2014: Mode & Schuhe Basis: internet facts / mobile facts 2013-III.
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Deutschlandpokal Eishockey Spielplan / Ergebnisse Vorrunde - Freitag 16:00 – 16:20 A Sindelfingen 2 – Friedrichshafen0:2 16:20 – 16:40 A Rastatt1 - Mannheim.
Zusammengestellt von OE3DSB
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Vortrag von Rechtsanwältin Verena Nedden, Fachanwältin für Steuerrecht zur Veranstaltung Wege zum bedingungslosen Grundeinkommen der Piratenpartei Rhein-Hessen.
Projekt Messendorferstraße Graz TOP 1-33 /EG Wohnhaus 1 Grundstück 2 Schlafen10,28 m² Wohnen /Kochen 15,35 m² Diele 2,50 m² Bad mit WC 4,40m² Terrasse.
Der Erotik Kalender 2005.
AGOF facts & figures: Branchenpotenziale im Internet Q2 2014: Parfum & Kosmetik Basis: internet facts / mobile facts 2014-I.
Familie Beutner, Konrad-Voelckerstrasse, Edenkoben/Pfalz, Tel:
Fragebogen Studierende
Bürgermeister Absolute Stimmen Gesamt. Bürgermeister Prozentuale Aufteilung Gesamt.
Folie Einzelauswertung der Gemeindedaten
Quiz zum Fleischkonsum
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
AGOF facts & figures: Branchenpotenziale im Internet Q4 2014: Unterhaltungselektronik Basis: internet facts / mobile facts 2014-III.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
AGOF facts & figures: Branchenpotenziale im Internet Q3 2014: Telekommunikation Basis internet facts / mobile facts 2014-II.
Wer ist der Herr? Apostelgeschichte 2,22-36
 Präsentation transkript:

Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken,

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 2 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wörterbücher für menschliche Benutzer

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 3 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wörterbücher für menschliche Benutzer Wahrig-Projekt I

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 4 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wahrig-Projekt II Wörterbücher für menschliche Benutzer Wahrig-Projekt I

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 5 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Leibniz-Projekt Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wahrig-Projekt II Wörterbücher für menschliche Benutzer Wahrig-Projekt I

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 6 Das Wahrig Textkorpus digital Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 7 Das Wahrig Textkorpus digital Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika Berliner Zeitung Süddeutsche Zeitung Der Spiegel

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 8 Das Wahrig Textkorpus digital Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika Berliner Zeitung Süddeutsche Zeitung Der Spiegel Neue Zürcher Zeitung Der Standard

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 9 Das Wahrig Textkorpus digital Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika Berliner Zeitung Süddeutsche Zeitung Der Spiegel Neue Zürcher Zeitung Der Standard Spektrum der Wissenschaft (ab 1993) Brigitte (ab 1997)

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 10 Das WTD: Umfang 450 Mio. Textwörter

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 11 Das WTD: Struktur XML-Format (CES/TEI) Kodierung meta-linguistischer Header-Information beim Dokument (z.Zt. 20 Tags) Kodierung linguistischer Information beim Token (später) Markierung von Nicht-Texten (Schrottfilter): zwischen 1 und 10% des Umfangs ausgefiltert

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 12 Metalinguistische Information Nachrichten SPORT AKTUELL Neue Ideen, Kraftfahrzeuge optimal erscheinen zu lassen Wenn die Lichter angehen Bei Hecklichtern und Innenraumbeleuchtung werden Sicherheit und Komfort ausgebaut

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 13 Schrott Primärmarktkurse für Franken-Neuemissionen Betrag Emissions-Rendite(inMio.) CouponZeichnungsfristLiberierungpreisGeldBrief(in%)Inlandsc huldner12513/4Eurofima99/ ,900­2,000­ 1,8001, /4KantonBern99/ ,800­ 1,350­1,1502, /8KantonalbankAargau99/08... (NZZ 1999) 1. Bundesliga Herren: Alba Berlin - TuS Herten 115:94, Bayer Leverkusen - TVG Trier 91:69, Tally Oberelchingen - MTV Gießen 55:59, Hitachi Landshut - Steiner Bayreuth 80:89; Spitze: 1. Bayer Leverkusen 28:2 Pkt., 2. Alba Berlin 24:4, 3. Brandt Hagen 22:8, 4. TTL Bamberg 20:8. (Berliner Zeitung 1996)

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 14 Das WTD im Vergleich Umfang Anz. Dokumenttypen BNC100 Mio DWDS150 Mio.(500 Mio.)1500 IdS ? ? WTD450 Mio. 7 FR/WSJ 1

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 15 Linguistische Annotation I Wortart-Tagging (TnT, STTS) –Korrektheit ca. 96,5 % –Nach Training Korrektheit ca. 97,5 % Lemmatisierung, zweifach, auf der Basis von –Bertelsmann deutsche Rechtschreibung –Wahrig, Deutsches Wörterbuch –Korrektheit >96 % Harmonisierung der Rechtschreibung (Corrigo)

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 16 Lückensuche: SZ 5/99 Ausgangsbasis: Liste nicht-lemmatisierter Tokens

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 17 Automatische Auswahlverfahren I Ausfiltern von: Eigennamen (BLV- Eigennamenlisten): 0,5% Eigennamen (Tagger): 16% Fremdsprachiges Material (Tagger): 2% Abkürzungen: 0,3% Nichtwörtern (ßenseiter, schööön, heimat.de...): 4,6% (Wortfilter, reg. Ausdrücke) irrelevanten Wörtern (Straßennamen, Ortsableitungen, Wörter mit vielen Bindestrichen...): 22% (Wortfilter, reg. Ausdrücke)

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 18 Filterung Ca Textwörter, Wortformen, gute Kandidaten

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 19 Automatische Auswahlverfahren I Weitere Reduktion durch Trunkierung: Bsp: [Abgeordnetensitzes, Abgeordnetensitzen, Abgeordnetensitze] > Abgeordnetensitz [Abhörprotokoll, Abhörprotokollen, Abhörprotokolle] > Abhörprotokoll [abbrannte, abbrannten] > abbrannten wortartspezifische Reduktion um ca.: Nomen 16%, Verben 17%, Adjektive 56%

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 20 Stichprobe: 1000 Wörter Rohliste

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 21 Beispiele gute Kandidaten/Lücke: –Tierhaltung, Wahlhelfer, Wohngebiet, zerstörerisch gute Kandidaten/Neologismus –Datenautobahn, Docu-Soap,Kinderfreibetrag, Solidaritätszuschlag, Abfallwirtschaft falsche Kandidaten: –wolfsburger, Xetra-Computerhandel, zweitgrößter, Überraschungskonzert, ästhetisch-harmlos

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 22 Automatische Auswahlverfahren II Streuung über Jahrgänge und Titel: positive Bewertung: z.B. Frequenzsteigung über mehrere Jahrgänge hinweg (floppen: 2/5/5/13/27 über 5 Jahrgänge SZ) positive Bewertung: regional interessantes Vorkommen nur in einem Titel wie NZZ (auszonen) negative Bewertung: z.B. Vorkommen (fast) nur in einem Titel (Klausenerplatz: Gesamtfrequenz 79, davon 77 Berliner Zeitung)

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 23 Wahrig, Deutsche Rechtschreibung 5000 Neuaufnahmekandidaten: 80% mit Bewertungsverfahren ermittelt / 20% nach höchster Gesamtfrequenz ca. 78% Substantive, 17%Adjektive, 5% Verben 570 schweiz./850 österr. Kandidaten Ca. 700 als Lemmata übernommen 400 aus anderen Quellen (v.a. Sprachberatung)

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 24 schwächeln: Häufigkeit in Jahrgängen

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 25 schwächeln: Häufigkeit in Ressorts

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 26 Neue Verwendungen Tagger (ADJD) gegen Lemmatisierer (Verb) zunehmend, überwiegend, genügend, vorwiegend, besorgt, begeistert, zwingend

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 27 Häufigkeit von Verbbelegen

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 28 Leichenschau Abelmoschus, Abendfalter, Abendländerin, Abenduniversität, abendwärts, Abendweite, Aberhundert, Aberraute, aberrieren, Abersaat, Abertausend, ABF, abfasen, abfasern, abfleischen, abfluchten

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 29 Signifikante Belege

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 30 Definitionen: Beispiele Unter Telematik versteht man technische Systeme, die die Verkehrsströme so intelligent verteilen und steuern sollen, dass auf der vorhandenen Verkehrsfläche mehr Autos flüssiger vorankommen. Unter Ligaschießen versteht man ein freies Schießen, bei dem sich mehrere Vereine für das Finalschießen qualifizieren. Unter Ökostrom versteht man Energie, die aus Wasser- und Windkraft, Biomasse oder Sonne erzeugt wird.

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 31 Definitionen: Mehr Beispiele

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 32 Morphologie: Wortschatzgruppierung Minister Bundesminister Exminister Kriegsminister Kultusminister Kultusministerin Premierminister Reichsminister Agrarminister Arbeitsminister Arbeitsministerin Außenminister Außenministerin Bauminister Bundesminister Bundesministerin Europaminister Finanzminister Gesundheitsministerin Handelsminister Innenminister Justizminister Kanzleramtsminister Kultusminister Kultusministerin Landwirtschaftsminister Olympiaminister Premierminister Sozialministerin Staatskanzleiminister Staatsminister Tourismusminister Umweltminister Verkehrsminister Verteidigungsminister Wirtschaftsminister Wohnungsbauminister Bundesarbeitsminister Bundesbildungsminister Bundesfinanzminister Bundeswirtschaftsminister DDR-Staatssicherheitsmin. Kultur-Staatsminister SPD-Innenminister US-Außenminister US-Verteidigungsminister

Manfred Pinkal, Sehr große Korpora für große Wörterbücher 33 Lexika Bedeutungswörter- bücher für sprachtechnologische Anwendung Leibniz-Projekt Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter- bücher für menschliche Benutzer Wahrig-Projekt II Wörterbücher für menschliche Benutzer Wahrig-Projekt I