Berlin-Brandenburgische Akademie der Wissenschaften

Slides:



Advertisements
Ähnliche Präsentationen
Workshop „Mehr Personen – Mehr Daten – Mehr Repositorien“
Advertisements

Zentrales Verzeichnis Digitalisierter Drucke
Kommunikation in der Werbung
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Gestaltung eines Posters (Schrift: Punkt 70).
1 Retrodigitalisierung und Langzeitarchivierung Die Bedeutung internationaler Standards Die Idee der Verteilten Digitalen Forschungsbibliothek – Bericht.
Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Olaf Siegert IuK-Tagung Göttingen, 28. September 2006
Regionaltagung Mehr IT-Ausbildung – jetzt! Dortmund,
1 Hermann Maurer, TU Graz Vortrag für die e-Learning Conference Konferenz Eisenstadt, 1. Oktober 2013 Wir brauchen mehr zitierbares Material im Web … die.
Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg
Financial Webworks GmbH Copyright 2006 Fondstrends des Jahres 2005.
Die Deutschen im Herbst 2008
Das Erstellen einer Hausarbeit
Vermittlung von Informationskompetenz
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Workfloworchestrierung Grundlage für effiziente und qualitativ hochwertige (Massen)Digitalisierung Dipl. Sozw. Ralf Stockmann (SUB Göttingen)
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Schriftsteller und Schriftstellerinnen der Gruppe 47
Prof. Dr. Bernhard Wasmayr
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
Das F.A.Z-Archiv in der Bibliothek BiblioNet und CD-ROM
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
Was machen wir besser als die Wettbewerber
AWA 2007 Natur und Umwelt Natürlich Leben
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Unfallprävention auf Autobahnen
Dr. Hugo Portisch Was jetzt Das Buch – Die Veranstaltung Eine Arbeitshilfe für den Unterricht erstellt von Fritz Lošek, Landesschulrat für NÖ
Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
Bundespräsidenten der Bundesrepublik Deutschland ab 1949
wie eine Kindheit ohne Märchen,
„Was steht eigentlich hinter dem Roten Kreuz?“
Die Berner Fussballszenen
Atelieranbau Krimmel Darmstadt
Eine Einführung in die CD-ROM
Weichselbraun Julian 4YHWIM
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Die Geschichte des Computers
Dokumentation der Umfrage
Bevölkerungsexplosion oder?
Warum ist Vereinbarkeit ein Thema?
Lexikographie im digitalen Zeitalter: Das Goethe-Wörterbuch
E-learning Module in der medizinischen Grundausbildung - Erfahrungen und Entwicklungen - P. Groscurth Anatomisches Institut der Universität Zürich NET-ELC.
Die Jahrhunderte kommen und gehen 1812…1912…2012
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Die Stimmungslage der Nation im Sommer 2013 Allianz Zuversichtsstudie 2. Quartal 2013 Eine gemeinsame Studie der Allianz Deutschland und der Universität.
Lebenslauf Berufserfahrung Weiterbildung Ausbildung Schulbildung
Versuch einer Chronologie
Szenisches Lernen Wie Theaterelemente den Unterricht bereichern
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
So funktioniert EUROPA.
Was fällt euch zu Petrus ein?
Thema: Demographische Entwicklung im Vergleich Von: Felix Stohf
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Zur Sozial- und Kulturgeschichte der DDR Freies Tutorat im Wintersemester 2005 / Einführungsveranstaltung Einleitung.
Die Ganze Welt im Computer? Informationsbeschaffung im Internet
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
25 Ideen für die Stadt Qualitative und quantita- tive Analyse der Aussagen der Bozner Bürgerinnen und Bürger Bozen, 24. August 2004.
wie eine Kindheit ohne Märchen,
Folie Einzelauswertung der Gemeindedaten
Wortschatz? Wortschatz-Arbeit im DaF-Unterricht
Überblick Die Beteiligten Datum Ort Beginn Ende
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Gastprofessor Dr. Árpád v. Klimó Katholische Kirche und Katholiken: Österreich im europäischen Kontext (19. und 20. Jahrhundert)
FC Bayern München Renato Jovnaš VIII 1.
Der SPIEGEL: Deutsches Nachrichtenmagazin
Wortschatzarbeit mit digitalen Korpora
 Präsentation transkript:

Berlin-Brandenburgische Akademie der Wissenschaften Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken – Berlin-Brandenburgische Akademie der Wissenschaften www.dwds.de

Motivation ein gutes Wörterbuch sollte auf Corpusdaten basieren oder diese zumindest substanziell miteinbeziehen

Motivation Es gibt kein befriedigendes Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts. Gründe (vgl. Hartmut Schmidt (1994,1995)): fehlende ‚balancierte‘ Textcorpora zu stark einzelwortbezogene Darstellung unzureichende Darstellung der deutschen Sprache in Österreich und der Schweiz Deutschland liegt hinter England und Frankreich zurück ein gutes Wörterbuch sollte auf Corpusdaten basieren oder diese zumindest substanziell miteinbeziehen

Vorbereitungsphase Arbeitsgruppe: M. Bierwisch, W. Klein, H. Schmidt, D. Simon, A. Geyken Kuratorium: Enzensberger, Frühwald, Honnefelder, Lepennies, Rau, Weizsäcker, Zimmer Erstellung einer Machbarkeitsstudie für ein elektronisches Corpus; Beantragung eines DFG-Projekts

Ziele des DWDS DWDS: Erstellung eines ausgewogenen Corpus des 20./21. Jh. [Einschub – Wozu ein Korpus] DWDS: beschreibt nicht nur das Einzelwort, sondern das Wort in seinem Gebrauch (=> auf der Basis eines großen und ausgewogenen Corpus) DWDS: breite Nutzungsmöglichkeiten => On-line Plattform: akademische Basis für Sprachbeschreibung und Sprachvermittlung DWDS: Nutzung computerlexikographischer Methoden

Einschub – Warum Corpora …

Einschub – Warum Corpora …

Einschub – Warum Corpora …

Einschub – Warum Corpora …

Projektphasen Vorbereitungsphase (11/1997 - 02/2000) Erstellung der Textgrundlage (20. Jh.) (03/2000 - 06/2004 -> DFG-Projekt) Erstellung der Textgrundlage (17.-19. Jh.) -> DFG Projekt Deutsches Textarchiv Computerlinguistische Erschließung der Wörterbuchgrundlage (seit 10/2002)

Vorgehensweise Wie läßt sich die Wörterbucherstellung in einem zeitlich und finanziell planbaren Maß gestalten? => ‚breadth first‘-Strategie bei allen Projektetappen. ‚Industrielle‘ Digitalisierung der Texte modulare Erstellung des Wörterbuchs effiziente informatische Unterstützung des Bearbeitungsprozesses: Textfiltermethoden

Das Projekt DWDS: Stand Gliederung Einleitung Das Projekt DWDS: Stand 2.1 Corpuserstellung 2.2 Webpräsenz 2.3 Anwendung Sprachbeobachtung Ausblick: Schritte zu einem Digitalen Wörterbuch opportunistisch, d.h. aber nicht „wahllos“, weil dennoch referenzierbar und „repräsentativ“, d.h. beispielsweise BILD, FAZ, NZZ, SPIEGEL, SZ, ZEIT, aber auch Konkret, TAZ, Computerwoche...

(2.1) Corpuserstellung: Vorgehensweise Textauswahl und Copyrightvereinbarung Digitalisierung XML-Konvertierung Qualitätskontrolle

Ausgewogenheit der Textauswahl Belletristik (27%) Journalistische Prosa (26%) Wissenschaftliche Fachtexte (21%) Gebrauchsliteratur (21%) Transkriptionen gesprochener Sprache (5%)

Textauswahl Textauswahl wird vorgenommen von: Akademiemitgliedern der BBAW, Schriftstellern (Belletristik) Akademiemitgliedern (Wissenschaft und Journalistische Prosa) Arbeitsgruppe (Gebrauchstexte, Gesprochene Sprache)

Literatur über 300 Monographien

Zeitungen Stichproben aus 150 Zeitungen

Wissenschaft wir haben insgesamt ca. 125 Werke (über China und OCR, nicht CD) über 20.000 Dokumente, d.h. Monographien und sehr lange Aufsätze aus der Wissenschaft mit zusammen ca. 12 Mio Wörtern. Beinahe alle sind im Kerncorpus, Rechte haben wir maximal für ein Viertel der Menge und wir ersetzen sie durch CD-Material.

Werbung

Werbung

Flugblätter

Gebrauchsliteratur

Gebrauchsliteratur

Beispiele: Belletristik – 20er Jahre Grimm, Hans, Volk ohne Raum, München: Albert Langen 1926 Hesse, Hermann, Der Steppenwolf, Berlin: S. Fischer 1927 Kafka, Franz, Der Process, [1925] Luckner, Felix Graf, Seeteufel, Leipzig: Köhler 1921 LeFort, Gertrud von, Schweißtuch der Veronika, München: Kösel & Pustet 1928 Salten, Felix, Bambi: Eine Lebensgeschichte aus dem Walde, Berlin: Zsolnay 1926 Winkler, Josef, Der tolle Bomberg: Ein westfälischer Schelmenroman, Stuttgart u.a.: Dt. Verl. Anstalt 1923

Beispiele: Belletristik – 80er Jahre Merian, Svende, Der Tod des Märchenprinzen, Hamburg: Buntbuch Verlag 1980 Ransmayr, Christoph, Die letzte Welt, Nördlingen: Greno 1988 Strittmatter, Erwin, Der Laden, Berlin: Aufbau 1983 Bieler, Manfred, Der Bär, Hamburg: Hoffmann & Campe 1983 Loest, Erich, Völkerschlachtdenkmal, Hamburg: Hoffmann & Campe 1984 Nadolny, Sten, Die Entdeckung der Langsamkeit, München: Piper 1983 Pausewang, Gudrun, Die Wolke, Ravensburg: Maier 1987

RBB - Textquellen

Copyrightvereinbarungen Verlage (Aufbau Verlagsgruppe, Diogenes, DirectMedia, Eichborn, Fischer Verlags-gruppe, Hoffmann & Campe, Kiepenheuer & Witsch, Saur, Spiegel, Suhrkamp, Ullstein-Heyne-List-Econ, ZEIT, Zsolnay) Autoren: u.a. Böll, Dürrenmatt, Habermas, Hesse, G. Hauptmann, Klemperer, K. Kraus, S. Lenz, Th. und H. Mann, Moers, Perutz, Seghers, Süskind, Walser

Copyrightvereinbarungen DWDS verwendet die Werke bzw. Extrakte auf seiner on-line Plattform Einschränkungen: das Werk darf nicht rekonstruierbar sein nur Auszüge aus dem Werk im Corpus: reicht von 5% bis 75% kleine Belegkontexte: Je nach Vereinbarung: Paragraph oder 3 Sätze oder 1 Satz oder +/- 3 Wörter keine kommerzielle Nutzung

Kontextgröße Beispiel

Textakquise (1) Textgeber (60% des Kerncorpus): Verlage (s. oben) Bibliotheken (Staatsbibliothek Berlin) Archive (Deutsches Rundfunkarchiv)

Textakquise (2) Eigendigitalisierung (40%) Manuelle Transkription von 30.000 Zeitungsartikel (1900-1945), 250 Monographien (Fraktur). Transkription: Grepect GmbH (Peking) Metatagging (Autor, Titel, Seitenumbruch etc.): bis zu 15 studentische MitarbeiterInnen in Berlin

Corpuserstellung: Vorgehensweise Textauswahl und Copyrightvereinbarung Digitalisierung Qualitätskontrolle Integrierter Workflow und Dokumentenmanagement-System

Einschub: OCR oder Abtippen Abtippen: bei nicht serieller Fraktur und schlecht erhaltenen Antiqua-Vorlagen Double oder Triple-keying Genauigkeiten von 99,95%. OCR: bei serieller und wenig strukturierter Fraktur und gut erhaltenen Antiqua-Vorlagen

Berliner Tageblatt vom 18.2.1902

Geclippter Artikel und Datenblatt Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung <a>Block, Paul</a> <t>Das Drama von Springe</t> <st>Ein Rückblick auf den Prozeß Falkenhagen</st>   <pubdata>1902-02-18</pubdata> <journal>Berliner Tageblatt</journal> <page>1-2</page>

Text nach Abtippen in China: XML „light“ <a>Block, Paul</a> <t><b>Das Drama von Springe.</b></t> <st><b>Ein Rückblick auf den Prozeß Falkenhagen.</b></st> <p><b>Hannover,</b> 17. Februar.</p> <p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-<lbr/> spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle<lbr/> Form weben die tödtliche Schlinge, in der ein wackerer Mann zu<lbr/> Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen<lbr/> und einen Theil ihres Glücks …</p> <p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber<lbr/> einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land-<lbr/> räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen-<lbr/> aufruf erschien, schwarz gekleidet und verschleiert, saben Alle<lbr/>   [...] <PB NS=2>neugierig nach ihr hin. </p> <p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p> Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung

Konvertierung nach TEI: (1) Die Metadaten <teiHeader><fileDesc><publicationStmt> <publisher id="DWDS-Corpus-Publisher">BBAW - AG Digitales Wörterbuch</publisher> <availability n=„OR3S" status="restricted"></availability> </publicationStmt> <sourceDesc><biblFull><titleStmt> <title level="a" type="main">Das Drama von Springe.</title> <title level="a" type="sub">Ein Rückblick auf den Prozeß Falkenhagen.</title> <author>Block, Paul</author></titleStmt> <publicationStmt> <publisher id="Rechtsinhaber">Rudolf Mosse</publisher> <pubPlace>Berlin</pubPlace> <date>19020218</date> <seriesStmt><title level="j">Berliner Tageblatt</title> <idno type="Seite">1</idno></seriesStmt> </biblFull></sourceDesc></fileDesc>... <profileDesc><textClass><keywords> <term n="1">Zeitung</term> </keywords></textClass></profileDesc></teiHeader> Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung

Konvertierung nach TEI: (2) Der Text <text TEIform="text"> <body TEIform="body"> <p TEIform="p"> <hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p> <p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer- <lbr/> spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle <lbr/> Form weben die tödtliche Schlinge, in der ein wackerer Mann zu <lbr/> Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen <lbr/> und einen Theil ihres Glücks …</p> <p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber <lbr/> einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land- <lbr/> räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen- <lbr/> aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...] <lbr/> <PB NS=2>neugierig nach ihr hin. </p> [...] <p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p> </body> </text> Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung

Bedingter Trennstrich oder Bindestrich? Problemfälle der OCR/Abtippen – Beispiel 1 Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer- spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle Bedingter Trennstrich oder Bindestrich?

Worttrennungen am Zeilenende Kodierung in TEI: <w> <wform>Trauerspiel</wform> <seg>Trauer-</seg><lbr/> <seg>spiel</seg>  </w> Linguistische Annotierung: <w t="trauer#spiel" cs="n#n" c="noun"> Trauerspiel</w> Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung

Worttrennungen am Zeilenende Kodierung in TEI: <w> <wform>Trauerspiel</wform> <seg>Trauer-</seg><lbr/> <seg>spiel</seg>  </w> Linguistische Annotierung: <w t="trauer#spiel" cs="n#n" c="noun"> Trauerspiel</w> => Bedingter Trennstrich: Wortbestandteile werden zusammengezogen Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung

Worttrennungen am Zeilenende Kodierung in TEI: <w> <wform>Trauerspiel</wform> <seg>Trauer-</seg><lbr/> <seg>spiel</seg>  </w> Linguistische Annotierung: <w t="trauer#spiel" cs="n#n" c="noun"> Trauerspiel</w> => Bindestrich und Zeilenumbruch werden durch bedingten Trennstrich ersetzt Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung

Bedingter Trennstrich oder Bindestrich? Problemfälle der OCR/Abtippen – Beispiel 2 Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung Sondern ist Weingutsbesitzer und Wein- und Kognakhändler. Seine Kognakmarke ... Bedingter Trennstrich oder Bindestrich? => Lemma: Weinhändler und nicht Weinund!

Worttrennungen am Zeilenende Kodierung in TEI: <w> <wform>Weinund</wform> <seg>Wein-</seg><lbr/> <seg>und</seg>  </w> Linguistische Annotierung: <w state="unknown" errC="001"> Weinund</w> Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung

Worttrennungen am Zeilenende Kodierung in TEI: <w> <wform>Weinund</wform> <seg>Wein-</seg><lbr/> <seg>und</seg>  </w> Linguistische Annotierung: <w state="unknown" errC="001"> Weinund</w> => Wortbestandteile bleiben erhalten Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung

Worttrennungen am Zeilenende Kodierung in TEI: <w> <wform>Weinund</wform> <seg>Wein-</seg><lbr/> <seg>und</seg>  </w> Linguistische Annotierung: <w state="unknown" errC="001"> Weinund</w> => Wortbestandteile bleiben erhalten => Zeilenumbruch wird durch 'Leerzeichen' ersetzt Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung

Linguistische Annotierung Unbekannte Wörter werden identifiziert und annotiert: Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung <w n="6" c="w.art">die</w> <w n="7" state="unknown" errC="001">tödtliche</w> <w n="8" nb="sg" g="f" s=„artef" c="noun">Schlinge</w>

Ergebnis nach der linguistischen Aufbereitung <text TEIform="text"> <body TEIform="body"> <p TEIform="p"> <hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p> <p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer- spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle Form weben die tödtliche Schlinge, in der ein wackerer Mann zu Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen und einen Theil ihres Glücks …</p> <p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land- räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen- aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...] <PB NS=2>neugierig nach ihr hin. </p> [...] <p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p> </body> </text> Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung

Ergebnis nach der linguistischen Aufbereitung <text TEIform="text"> <body TEIform="body"> <p TEIform="p"> <hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p> <p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer- spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle Form weben die <w errC=„001" state=„unknown"> tödtliche </w> Schlinge, in der ein wackerer Mann zu Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen und einen Theil ihres Glücks …</p> <p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land- räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen- aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...] <PB NS=2>neugierig nach ihr hin. </p> [...] <p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p> </body> </text> Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung => Annotierung unbekannter Wörter

Problemfälle OCR/Abtippen Grenzen der automatischen Analyse: Falsche Analysen sind im Nachhinein nur noch mühsam „per Kopf“ zu erkennen   Preis#geh#krön#teen (statt Preisgekrönten) Weit|geh#hände (statt Weitgehende) Hoch#bedeut#hände (statt Hochbedeutende) Zeit#raub#hände (statt Zeitraubende) Zeichen#orient#hirt (statt zeichenorientiert) Lebens#orient#hirte (statt Lebensorientierte) Clipping   Abtippen / OCR  Konvertierung XML/TEI Linguistische Annotierung

Corpuserstellung: Vorgehensweise Textauswahl Digitalisierung Qualitätskontrolle Integrierter Workflow und Dokumentenmanagement-System

Qualitätskontrolle Nach der linguistischen Analyse verbleiben mehrere 100.000 Prüffälle (d.h. für das linguistische Analysewerkzeug unbekannte Wörter) Quasi-“Industrielle“ Vorgehensweise: 30 Mio Textwörter = 30000 Zeitungsartikel, ca. 200 Monographien; Neben der Firma in China 2 Mitarbeiter und ca. 12 Studentische Hilfskräfte; neben der Korrektur ist aber auch die Frage nach lexikalisch interessantem Material. Es verbleiben nach dem Abtippen mehrere 100000 Wörter, die von der linguistischen Analyse nicht erkannt wurden. Wie klassifiziert und korrigiert man dieses Material am effektivsten?

Prüffälle: Klassifizierung einer Stichprobe Digitalisierungsfehler (saben statt sahen) Namen bzw. Ableitungen: Geographie: Abessinien, japanesisch Familiennamen: Moltke, vossische Veraltete Abkürzungen und Akronyme (lebh . Beif. rechts u. im Zentr.) Historische Rechtschreibung (diktirt, That) lexikographisch interessantes Material (Antichambrist, branchekundig statt heutzutage branchenkundig)

Ergebnis: DWDS-Corpus Kerncorpus: Größe: 100 Millionen Textwörter - ausgewogen rechtlich abgesichert XML/TEI Format linguistisch voranalysiert Ergänzungscorpus: Größe: 1 Milliarde Textwörter

Automatische linguistische Analyse Lemmatisierung: Ärzte, Arztes -> Arzt Disambiguierung von Wortarten: (1) Er tritt vor die Tür vs. das kommt vor Präposition Verbpartikel (2) Der Strauß Blumen vs. Richard Strauß Nomen Eigenname Automatische Analyse durch einen Part-of-Speech Tagger (s. www.dwds.de) Quasi-“Industrielle“ Vorgehensweise: 30 Mio Textwörter = 30000 Zeitungsartikel, ca. 200 Monographien; Neben der Firma in China 2 Mitarbeiter und ca. 12 Studentische Hilfskräfte; neben der Korrektur ist aber auch die Frage nach lexikalisch interessantem Material. Es verbleiben nach dem Abtippen mehrere 100000 Wörter, die von der linguistischen Analyse nicht erkannt wurden. Wie klassifiziert und korrigiert man dieses Material am effektivsten?

Exkurs: Corpora und Größe Corpus Textwörter verschiedene Wörter Dürrenmatt (Verdacht) 33.888 6.201 Brown (US, 1969) 1 Million 50.406 Limas (D, 1973) 98.138 British Nat. Corp. (1993) 100 Mio. 659.270 DWDS-Kerncorpus (2003) 2,1 Millionen DWDS-Ergänzungscorpus (2003) 1 Mrd. ? der Augenblick Hungertobel undurchdringlich=1 undurchdringliche=1 undurchdringlichen=1 unverbesserlich=1

Experiment British National Corpus (100 Mio): hinreichend groß? Unbekannt ist: Wie wächst das Vokabular bei wachsender Corpusgröße [ab 100 Mio]? Konvergiert die Menge der verschiedenen Wortformen bei genügend großer Corpusmenge? [Besonderheit des Deutschen: Komposition]

Aufarbeitung des Corpus Produktive Wortbildung im Deutschen: lange Komposita: z.B. Frühlingsanfangsschokoladenhohlkörper Einsatz von automatischen Verfahren zur Wortzerlegung: Das Programm TAGH (s. www.dwds.de) Grundidee: verschiedene Wortformen werden auf ihre Grundformen reduziert. So zählen Haus, Häuser, Hauses beispielsweise zur gleichen Grundform, nämlich Haus. Durch Abgleich der Zerlegungen mit den Wörterbüchern lassen sich neue Wortformen identifizieren.

AutomatischeWortzerlegung Die korrekte Zerlegung von abgeleiteten oder zusammengesetzten Wortformen spielt dabei eine sehr große Rolle. Dadurch können beispielsweise die Selbstbauanlage, Selbstbauanleitung den Bestandteilen Selbstbau, Anlage bzw. Anleitung zugeordnet werden. Umgekehrt würden falsche Zerlegungen zu einem „falschen Alarm“ führen. In solchen Fällen würde das Verfahren fälschlicherweise neue Wörter vorschlagen: Gendarm sollte ein Einzelwort bleiben und nicht in Gen und Darm zerlegt werden. Telekommunikation sollte am besten gar nicht oder als Tele+kommunikation analysiert werden, keinesfalls jedoch als Tele+komm+unikat+ion, noch in Tele+komm+uni+kation und auch nicht in Telekom+muni+kation (Muni = schweiz. der Zuchtstier)

(2.2) Webpräsenz – www.dwds.de Wörterbuchabfrage: Wörterbuch der deutschen Gegenwartssprache (WDG, 1961-1977) Corpora: DWDS-Kerncorpus, ZEIT (wochenaktuell), Tagesspiegel (ab Okt. 2005) Wortinformationssystem: WDG und Corpus Automatisch generierte Informationen: Synonyme, Ober- und Unterbegriffe Kollokationen

Maske - Wortinformation

WDG-Artikel

Quellenverzeichnis

Stichwörter von Thälmann

Stichwort: Schlotbaron

Wortinfo – Syn etc.

Corpus,1

Corpus,2

Corpus,3

Corpus,4

Kollok , 1

Kollok, 2

Weitere Web-Anwendungen Verknüpfung Beleg – Wörterbuch Vernetzung Wörterbuch mit anderen on-line Angeboten Verknüpfung Beleg – Bild – Volltext Wörterbuch der deutschen Gegenwartssprache WDG: größte frei zugängliche gegenwartssprachliche deutsche Wörterbuch WDG: Kernbestandteil des zukünftigen digitalen Wörterbuchsystems.

ii) on-line Plattform - Vernetzung ZEIT-online Wörterbuchportal dict.leo.org (größtes deutsch-englisches on-line Wörterbuch) uni-deutsch (BMBF, DAAD) etwa 40.000 Seitenaufrufe (p.i.) täglich Ergebnisse im Internet sichtbar: Das DWDS ist das „kleine D“ bei leo.org ca. alle halbe Minute nimmt eine virt. Person ein Wort nach

iii) Verknüpfung Beleg - Volltext - Bild Basis: etwa 20.000 Zeitungsartikel (Berliner Tageblatt, Vossische Zeitung, Die ZEIT). Berücksichtigung des Copyrightstatus bei der Kontextanzeige Wenn Rechte am Volltext oder Bild vorhanden => interne Verknüpfung Wenn keine Rechte vorhanden => externe Verknüpfung

(C) Fortlaufende Sprachbeobachtung „Eigentlich hätte uns das Wort nicht durch die Lappen gehen dürfen“, gesteht Beate Varnhorn, Chefredakteurin von Wahrig, der Wörterbuchmarke bei Bertelsmann. Doch immer wieder ist das Wort „Ceranfeld“ Sprachbeobachtern durchgerutscht.... Nun bekommen die [Wörterbuchmacher] Unterstützung von Computerlinguisten. Deren Programme sollen Texte schneller nach neuen Wörtern durchsuchen und dabei weniger Fehler machen.” (Süddeutsche Zeitung, 2.7.2002)

(C) Fortlaufende Sprachbeobachtung Möglichkeiten (Beispiele): empirische Ermittlung der Entwicklung von ´s (Helga´s Hundesalon, Kant´s Schriften) empirische Ermittlung der Entwicklung von Anglizismen Korrektiv für Wörterbücher Erweiterung von Wörterbüchern Vorzüge des elektronischen Mediums: der unbegrenzte Platz; der Gebrauch von Wörtern im Kontext kann nachgezeichnet werden

Beispiel 1: WDG Corpus: sternhagelbesoffen (0 Corpusbelege) sternhagelvoll (40) Beispiel 2: Grimm Neubearbeitung (1998) Corpus: Angstkauf (0) Angstkäufe (17)

Beispiel 3: Duden (10-Bände, 2001) Stichwort: Selbst Wörterbuch: 244 Einträge Selbstabholer ... Selbstbedienung ... Selbsterfahrung ... Selbstzweifel Corpus: 7884 verschiedene Wörter von Selbstabbau bis Selbstzündung Beispiel mit Selbstbau-Sarg ...

Nicht im Duden, aber im Corpus sehr häufig: Selbstauskunft (185) Selbstmordanschlag (171) ... Selbstbedienungsmentalität (143) Selbstbau (105) Selbstbeschäftigung (105) Selbstgänger (91) Selbstnutzung (81) Selbstinteresse (80) Selbstähnlichkeit (77) Selbstlernen (30) Nicht im Duden, aber im Corpus sehr häufig: Selbstverpflichtung (2139 Mal) Selbstmordattentäter (801) Selbstregierung (727) Selbstregulierung (450) Selbstbeschreibung (380) Selbstbefragung (312) ...

Im Duden, aber nicht im Corpus: Selbstabholerin Selbstanzeigerin Selbstbucherin Selbstentlader Selbsterzeugerin Selbstinserent Selbstladevorrichtung Selbstverstand Selbststellerin Selbstverlegerin Selbstverpflegerin

das stetige Anwachsen der Wortform gilt nicht nur für Eigennamen, sondern auch für die produktive Wortbildungsmuster.

Wortform(en): Selbstbau-Sarg Orig: o. A Wortform(en): Selbstbau-Sarg Orig: o.A., Der Niedergang nach dem Abgang, in: Süddeutsche Zeitung 08.11.1997, S. 13 Sargdiscounter, Sonderangebote, Selbstbau-Särge, vorsorgliche Hausbesuche bei potentiellen Kunden, Werbung bei Zielgruppen in Krankenhaus und Altenheim, Provisionsverträge mit Hausmeistern und Rettungsdienstpersonal – dies alles muß zugelassen werden. Datum: 1997-11-08 Seite: unknown Textsorte: Zeitung Feuilleton

Beispiel 4: rückläufige Wörterbücher Mater (1967): etwa 100 verschiedene Substantive mit -kasten Farbkasten ... Baukasten, Steinbaukasten DWDS-Corpus: 1500 verschiedene Substantive mit –kasten insgesamt 177 Substantive auf -baukasten Baukasten, Modellbaukasten, Chemiebaukasten, Metallbaukasten, Stabilbaukasten, Steinbaukasten, Legobaukasten, Satzbaukasten (alle Frequenz > 10) ... Begriffsbaukasten

„Stolpe greift zielsicher in den Begriffsbaukasten.“ Geis, Matthias, Stolpe - die Krönung einer Kampagne, in: die tageszeitung - 12 ½ Jahre taz auf CD-ROM, Berlin: Contrapress-Media-GmbH 1999 [1992]

Beispiel 5: Zeitliche Veränderungen NACHHALTIG, adj. und adv. auf längere zeit anhaltend und wirkend: nachhaltiger ertrag des bodens wird nur erzielt, wenn der boden in gutem stand erhalten wird. (DWB – Grimm) nachhaltig<Adj.>: 1. Sich auf längere Zeit stark auswirkend: einen –en Eindruck hinterlassen; etw. wirkt sich nachhaltig aus; jmdn. N. beeinflussen. 2. (Forstw.) die Nachhaltigkeit (2) betreffend, auf ihr beruhend: -e Forstwirtschaft (Duden 2001)

1. Wörterbücher: nachhaltig ohne Wertung Im Corpus bis Ende der 30er Jahre nur neutrale und positive Wertung [des betroffenen Objekts]: Eindruck, Einfluß, Erfolg, Wirkung ab 1940 auch negative Wertung: z.B. Brände, Zerstörung, Zerstörungsangriffe, Straßenzerstörungen, Schäden, Verminung

2. Was ist alles nachhaltig? 1900-1909: Wirkung, Eindruck, Erfolg, Einfluß, Besserung (5) 1910-1919: Weise, Druck, Abgabedruck, Genuß, Stärkung, ... (10) 1920-1929: Fleiß, Kraft, Bewirtschaftung, Widerstand, Spuren...(6) 1930-1939: Bedeutung, Unterstützung, Abhilfemaßnahmen ... (5) 1940-1949: Zerstörung, Zerstörungsangriffe, Straßenzerstörungen, Schäden, Brände, Abwehr, Sprengung, Verminung .. (12) 1950-1959: Interesse, Überwindung, Entspannung, Wirtschaftlichkeit, Verhinderung, Verbesserung, Störung ... (16) 1960-1969: Anstrengungen, Abbau, Impuls, Versuch ... (16) 1970-1979: Verkehrsstunden, Aufwertung, Anerkennung ... (20) 1980-1989: Abfuhr, Akzeptanzschub ... (72) 1990-1999: Entwicklung, Tourismus, Politik, Zukunft ... (> 100) interessant: nachhaltige Entwicklung ist am hochfrequentesten, aber erst seit 1995 im Corpus belegt. Ebenso ist nachhaltiger Tourismus seit

nachhaltige Sprachbeobachtung? Ich hoffe, ich konnte Ihnen den Nutzen der Sprachbeobachtung an diesen Beispielen aufzeigen. Nicht belegt in unserem Corpus ist die Verbindung nachhaltige Sprachbeobachtung? Vielleicht läßt sich dies noch in der ein- oder anderen Veröffentlichung über die Tagung nachholen...

Sprachbeobachtung mit Computerlinguistik Institut für deutsche Sprache Projekt Deutscher Wortschatz – Uni Leipzig Lothar Lemnitzer (www.wortwarte.de) DWDS: Prototyp: ZEIT-Wörter der Woche

Wörter der Woche - ZEIT

ZEIT-Woewo – 2

3. Schritte zu einem Digitalen Wörterbuch Vorzüge des elektronischen Mediums: unbegrenzter Platz (für die Darstellung der Stichwörter) Gewichtung entsprechend des Vorkommens in Texten Belege können beliebig sortiert, ein- und ausgeblendet werden Das Wörterbuch kann „modular“ erarbeitet werden

Basis des Digitalen Wörterbuchs DWDS-Kerncorpus mit Suchmaschine Wörterbuch der deutschen Gegenwartssprache (1977) - 6 Bände, 5000 Seiten, ca. 130.000 Stichwörter Wörterbuch der deutschen Gegenwartssprache WDG: größte frei zugängliche gegenwartssprachliche deutsche Wörterbuch WDG: Kernbestandteil des zukünftigen digitalen Wörterbuchsystems.

„Modular“: Statt Corpus + Wörterbuch ...

... ein System von Wörterbüchern entspricht der traditionellen Ebene der Sprachanalyse

... und einer Texterschliessungskomponente opportunistisch, d.h. aber nicht „wahllos“, weil dennoch referenzierbar und „repräsentativ“, d.h. beispielsweise BILD, FAZ, NZZ, SPIEGEL, SZ, ZEIT, aber auch Konkret, TAZ, Computerwoche...

... mit Wörterbuchmodulen als Kooperationen

„Modul“ Kollokationen in Kooperation mit C. Fellbaum (Princeton) im Rahmen des Wolfgang-Paul-Preis Projekts - Thema: Kollokationen im Wörterbuch Corpusbasierte lexikographische Beschreibung von Verb/Nomen Idiomen: sein Mütchen kühlen, den Nagel auf den Kopf treffen, sein blaues Wunder erleben, ...

... mit Filtern opportunistisch, d.h. aber nicht „wahllos“, weil dennoch referenzierbar und „repräsentativ“, d.h. beispielsweise BILD, FAZ, NZZ, SPIEGEL, SZ, ZEIT, aber auch Konkret, TAZ, Computerwoche...

Filter 2 opportunistisch, d.h. aber nicht „wahllos“, weil dennoch referenzierbar und „repräsentativ“, d.h. beispielsweise BILD, FAZ, NZZ, SPIEGEL, SZ, ZEIT, aber auch Konkret, TAZ, Computerwoche...

Filter 3 opportunistisch, d.h. aber nicht „wahllos“, weil dennoch referenzierbar und „repräsentativ“, d.h. beispielsweise BILD, FAZ, NZZ, SPIEGEL, SZ, ZEIT, aber auch Konkret, TAZ, Computerwoche...

DWDS – Texterschließung ist vielseitig nutzbar: Zusammenfassung DWDS stellt Sprach- und Wortschatzforschung auf eine neue empirische Grundlage. DWDS – Texterschließung ist vielseitig nutzbar: Linguistische Suchmaschine Lemmatisierung, Wortartenzuordnung Kooperation zur Erarbeitung weiterer Wörterbuchmodule Gewinnung weiterer Textgeber opportunistisch, d.h. aber nicht „wahllos“, weil dennoch referenzierbar und „repräsentativ“, d.h. beispielsweise BILD, FAZ, NZZ, SPIEGEL, SZ, ZEIT, aber auch Konkret, TAZ, Computerwoche...