Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –

Ähnliche Präsentationen


Präsentation zum Thema: "Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –"—  Präsentation transkript:

1 Wolfenbüttel, Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken – Berlin-Brandenburgische Akademie der Wissenschaften

2 Motivation

3 Es gibt kein befriedigendes Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts. Gründe (vgl. Hartmut Schmidt (1994,1995)): - fehlende balancierte Textcorpora - zu stark einzelwortbezogene Darstellung - unzureichende Darstellung der deutschen Sprache in Österreich und der Schweiz - Deutschland liegt hinter England und Frankreich zurück Motivation

4 -Arbeitsgruppe: M. Bierwisch, W. Klein, H. Schmidt, D. Simon, A. Geyken -Kuratorium: Enzensberger, Frühwald, Honnefelder, Lepennies, Rau, Weizsäcker, Zimmer -Erstellung einer Machbarkeitsstudie für ein elektronisches Corpus; Beantragung eines DFG- Projekts Vorbereitungsphase

5 DWDS: Erstellung eines ausgewogenen Corpus des 20./21. Jh. [Einschub – Wozu ein Korpus] DWDS: beschreibt nicht nur das Einzelwort, sondern das Wort in seinem Gebrauch (=> auf der Basis eines großen und ausgewogenen Corpus) DWDS: breite Nutzungsmöglichkeiten => On-line Plattform: akademische Basis für Sprachbeschreibung und Sprachvermittlung DWDS: Nutzung computerlexikographischer Methoden Ziele des DWDS

6 Einschub – Warum Corpora …

7

8

9

10 -Vorbereitungsphase (11/ /2000) -Erstellung der Textgrundlage (20. Jh.) (03/ /2004 -> DFG-Projekt) -Erstellung der Textgrundlage ( Jh.) -> DFG Projekt Deutsches Textarchiv -Computerlinguistische Erschließung der Wörterbuchgrundlage (seit 10/2002) Projektphasen

11 -Wie läßt sich die Wörterbucherstellung in einem zeitlich und finanziell planbaren Maß gestalten? => breadth first-Strategie bei allen Projektetappen. 1.Industrielle Digitalisierung der Texte 2.modulare Erstellung des Wörterbuchs 3.effiziente informatische Unterstützung des Bearbeitungsprozesses: Textfiltermethoden Vorgehensweise

12 1.Einleitung 2.Das Projekt DWDS: Stand 2.1 Corpuserstellung 2.2 Webpräsenz 2.3 Anwendung Sprachbeobachtung 3.Ausblick: Schritte zu einem Digitalen Wörterbuch Gliederung

13 1.Textauswahl und Copyrightvereinbarung 2.Digitalisierung 3.XML-Konvertierung 4.Qualitätskontrolle (2.1) Corpuserstellung: Vorgehensweise

14 Belletristik (27%) Journalistische Prosa (26%) Wissenschaftliche Fachtexte (21%) Gebrauchsliteratur (21%) Transkriptionen gesprochener Sprache (5%) Ausgewogenheit der Textauswahl

15 Textauswahl wird vorgenommen von: Akademiemitgliedern der BBAW, Schriftstellern (Belletristik) Akademiemitgliedern (Wissenschaft und Journalistische Prosa) Arbeitsgruppe (Gebrauchstexte, Gesprochene Sprache) Textauswahl

16 Literatur

17 Zeitungen

18 Wissenschaft

19 Werbung

20

21 Flugblätter

22 Gebrauchsliteratur

23

24 Grimm, Hans, Volk ohne Raum, München: Albert Langen 1926 Hesse, Hermann, Der Steppenwolf, Berlin: S. Fischer 1927 Kafka, Franz, Der Process, [1925] Luckner, Felix Graf, Seeteufel, Leipzig: Köhler 1921 LeFort, Gertrud von, Schweißtuch der Veronika, München: Kösel & Pustet 1928 Salten, Felix, Bambi: Eine Lebensgeschichte aus dem Walde, Berlin: Zsolnay 1926 Winkler, Josef, Der tolle Bomberg: Ein westfälischer Schelmenroman, Stuttgart u.a.: Dt. Verl. Anstalt 1923 Beispiele: Belletristik – 20er Jahre

25 Merian, Svende, Der Tod des Märchenprinzen, Hamburg: Buntbuch Verlag 1980 Ransmayr, Christoph, Die letzte Welt, Nördlingen: Greno 1988 Strittmatter, Erwin, Der Laden, Berlin: Aufbau 1983 Bieler, Manfred, Der Bär, Hamburg: Hoffmann & Campe 1983 Loest, Erich, Völkerschlachtdenkmal, Hamburg: Hoffmann & Campe 1984 Nadolny, Sten, Die Entdeckung der Langsamkeit, München: Piper 1983 Pausewang, Gudrun, Die Wolke, Ravensburg: Maier 1987 Beispiele: Belletristik – 80er Jahre

26 26 RBB - Textquellen

27 Verlage (Aufbau Verlagsgruppe, Diogenes, DirectMedia, Eichborn, Fischer Verlags- gruppe, Hoffmann & Campe, Kiepenheuer & Witsch, Saur, Spiegel, Suhrkamp, Ullstein- Heyne-List-Econ, ZEIT, Zsolnay) Autoren: u.a. Böll, Dürrenmatt, Habermas, Hesse, G. Hauptmann, Klemperer, K. Kraus, S. Lenz, Th. und H. Mann, Moers, Perutz, Seghers, Süskind, Walser Copyrightvereinbarungen

28 DWDS verwendet die Werke bzw. Extrakte auf seiner on-line Plattform Einschränkungen: das Werk darf nicht rekonstruierbar sein nur Auszüge aus dem Werk im Corpus: reicht von 5% bis 75% kleine Belegkontexte: Je nach Vereinbarung: Paragraph oder 3 Sätze oder 1 Satz oder +/- 3 Wörter keine kommerzielle Nutzung Copyrightvereinbarungen

29 29 Kontextgröße Beispiel

30 Textgeber (60% des Kerncorpus): Verlage (s. oben) Bibliotheken (Staatsbibliothek Berlin) Archive (Deutsches Rundfunkarchiv) Textakquise (1)

31 Eigendigitalisierung (40%) Manuelle Transkription von Zeitungsartikel ( ), -250 Monographien (Fraktur). Transkription: Grepect GmbH (Peking) Metatagging (Autor, Titel, Seitenumbruch etc.): bis zu 15 studentische MitarbeiterInnen in Berlin Textakquise (2)

32 1.Textauswahl und Copyrightvereinbarung 2.Digitalisierung 3.Qualitätskontrolle 4.Integrierter Workflow und Dokumentenmanagement-System Corpuserstellung: Vorgehensweise

33 Abtippen: bei nicht serieller Fraktur und schlecht erhaltenen Antiqua-Vorlagen Double oder Triple-keying Genauigkeiten von 99,95%. OCR: bei serieller und wenig strukturierter Fraktur und gut erhaltenen Antiqua-Vorlagen Einschub: OCR oder Abtippen

34 Berliner Tageblatt vom

35 Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Geclippter Artikel und Datenblatt Block, Paul Das Drama von Springe Ein Rückblick auf den Prozeß Falkenhagen Berliner Tageblatt 1-2

36 Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Text nach Abtippen in China: XML light Block, Paul Das Drama von Springe. Ein Rückblick auf den Prozeß Falkenhagen. Hannover, 17. Februar. Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer- spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle Form weben die tödtliche Schlinge, in der ein wackerer Mann zu Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen und einen Theil ihres Glücks … Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land- räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen- aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...] neugierig nach ihr hin. [...] Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!

37 Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Konvertierung nach TEI: (1) Die Metadaten BBAW - AG Digitales Wörterbuch Das Drama von Springe. Ein Rückblick auf den Prozeß Falkenhagen. Block, Paul Rudolf Mosse Berlin Berliner Tageblatt 1... Zeitung

38 Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Konvertierung nach TEI: (2) Der Text Hannover, 17. Februar. Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer- spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle Form weben die tödtliche Schlinge, in der ein wackerer Mann zu Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen und einen Theil ihres Glücks … Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land- räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen- aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...] neugierig nach ihr hin. [...] Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!

39 Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Problemfälle der OCR/Abtippen – Beispiel 1 Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer - spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle Bedingter Trennstrich oder Bindestrich?

40 Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Worttrennungen am Zeilenende Kodierung in TEI: Trauerspiel Trauer- spiel Linguistische Annotierung: Trauerspiel

41 Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Kodierung in TEI: Trauerspiel Trauer- spiel Linguistische Annotierung: Trauerspiel => Bedingter Trennstrich: Wortbestandteile werden zusammengezogen Worttrennungen am Zeilenende

42 Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Kodierung in TEI: Trauerspiel Trauer- spiel Linguistische Annotierung: Trauerspiel => Bindestrich und Zeilenumbruch werden durch bedingten Trennstrich ersetzt Worttrennungen am Zeilenende

43 Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Problemfälle der OCR/Abtippen – Beispiel 2 Sondern ist Weingutsbesitzer und Wein- und Kognakhändler. Seine Kognakmarke... Bedingter Trennstrich oder Bindestrich? => Lemma: Weinhändler und nicht Weinund!

44 Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Kodierung in TEI: Weinund Wein- und Linguistische Annotierung: Weinund Worttrennungen am Zeilenende

45 Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Kodierung in TEI: Weinund Wein- und Linguistische Annotierung: Weinund => Wortbestandteile bleiben erhalten Worttrennungen am Zeilenende

46 Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Kodierung in TEI: Weinund Wein- und Linguistische Annotierung: Weinund => Wortbestandteile bleiben erhalten => Zeilenumbruch wird durch 'Leerzeichen' ersetzt Worttrennungen am Zeilenende

47 Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Unbekannte Wörter werden identifiziert und annotiert: Linguistische Annotierung die tödtliche Schlinge

48 Hannover, 17. Februar. Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer- spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle Form weben die tödtliche Schlinge, in der ein wackerer Mann zu Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen und einen Theil ihres Glücks … Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land- räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen- aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...] neugierig nach ihr hin. [...] Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke! Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Ergebnis nach der linguistischen Aufbereitung

49 Hannover, 17. Februar. Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer- spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle Form weben die tödtliche Schlinge, in der ein wackerer Mann zu Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen und einen Theil ihres Glücks … Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land- räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen- aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...] neugierig nach ihr hin. [...] Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke! Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung Ergebnis nach der linguistischen Aufbereitung => Annotierung unbekannter Wörter

50 Problemfälle OCR/Abtippen Grenzen der automatischen Analyse: Falsche Analysen sind im Nachhinein nur noch mühsam per Kopf zu erkennen -Preis#geh#krön#teen (statt Preisgekrönten) -Weit|geh#hände (statt Weitgehende) -Hoch#bedeut#hände (statt Hochbedeutende) -Zeit#raub#hände (statt Zeitraubende) -Zeichen#orient#hirt (statt zeichenorientiert) -Lebens#orient#hirte (statt Lebensorientierte) Clipping Abtippen / OCR Konvertierung XML/TEI Linguistische Annotierung

51 1.Textauswahl 2.Digitalisierung 3.Qualitätskontrolle 4.Integrierter Workflow und Dokumentenmanagement-System Corpuserstellung: Vorgehensweise

52 Nach der linguistischen Analyse verbleiben mehrere Prüffälle (d.h. für das linguistische Analysewerkzeug unbekannte Wörter) Qualitätskontrolle

53 Digitalisierungsfehler (saben statt sahen) Namen bzw. Ableitungen: Geographie: Abessinien, japanesisch Familiennamen: Moltke, vossische Veraltete Abkürzungen und Akronyme (lebh. Beif. rechts u. im Zentr.) Historische Rechtschreibung (diktirt, That) lexikographisch interessantes Material (Antichambrist, branchekundig statt heutzutage branchenkundig) Prüffälle: Klassifizierung einer Stichprobe

54 54 Ergebnis: DWDS-Corpus Kerncorpus: Größe: 100 Millionen Textwörter - ausgewogen - rechtlich abgesichert - XML/TEI Format - linguistisch voranalysiert Ergänzungscorpus: Größe: 1 Milliarde Textwörter

55 Lemmatisierung: Ärzte, Arztes -> Arzt Disambiguierung von Wortarten: (1) Er tritt vor die Tür vs. das kommt vor PräpositionVerbpartikel (2) Der Strauß Blumen vs. Richard Strauß NomenEigenname Automatische Analyse durch einen Part-of- Speech Tagger (s. Automatische linguistische Analyse

56 Exkurs: Corpora und Größe CorpusTextwörterverschiedene Wörter Dürrenmatt (Verdacht) Brown (US, 1969)1 Million Limas (D, 1973)1 Million British Nat. Corp. (1993)100 Mio DWDS-Kerncorpus (2003)100 Mio.2,1 Millionen DWDS-Ergänzungscorpus (2003) 1 Mrd.?

57 British National Corpus (100 Mio): hinreichend groß? Unbekannt ist: Wie wächst das Vokabular bei wachsender Corpusgröße [ab 100 Mio]? Konvergiert die Menge der verschiedenen Wortformen bei genügend großer Corpusmenge? [Besonderheit des Deutschen: Komposition] Experiment

58

59

60

61

62 62 Aufarbeitung des Corpus Produktive Wortbildung im Deutschen: lange Komposita: z.B. Frühlingsanfangsschokoladenhohlkörper Einsatz von automatischen Verfahren zur Wortzerlegung: Das Programm TAGH (s. Grundidee: verschiedene Wortformen werden auf ihre Grundformen reduziert. So zählen Haus, Häuser, Hauses beispielsweise zur gleichen Grundform, nämlich Haus. Durch Abgleich der Zerlegungen mit den Wörterbüchern lassen sich neue Wortformen identifizieren.

63 63 AutomatischeWortzerlegung Die korrekte Zerlegung von abgeleiteten oder zusammengesetzten Wortformen spielt dabei eine sehr große Rolle. Dadurch können beispielsweise die Selbstbauanlage, Selbstbauanleitung den Bestandteilen Selbstbau, Anlage bzw. Anleitung zugeordnet werden. Umgekehrt würden falsche Zerlegungen zu einem falschen Alarm führen. In solchen Fällen würde das Verfahren fälschlicherweise neue Wörter vorschlagen: Gendarm sollte ein Einzelwort bleiben und nicht in Gen und Darm zerlegt werden. Telekommunikation sollte am besten gar nicht oder als Tele+kommunikation analysiert werden, keinesfalls jedoch als Tele+komm+unikat+ion, noch in Tele+komm+uni+kation und auch nicht in Telekom+muni+kation (Muni = schweiz. der Zuchtstier)

64

65

66 66 (2.2) Webpräsenz – Wörterbuchabfrage: Wörterbuch der deutschen Gegenwartssprache (WDG, ) Corpora: DWDS-Kerncorpus, ZEIT (wochenaktuell), Tagesspiegel (ab Okt. 2005) Wortinformationssystem: -WDG und Corpus -Automatisch generierte Informationen: Synonyme, Ober- und Unterbegriffe Kollokationen

67 67 Maske - Wortinformation

68 68 WDG-Artikel

69 69 Quellenverzeichnis

70 70 Stichwörter von Thälmann

71 71 Stichwort: Schlotbaron

72 72 Wortinfo – Syn etc.

73 73 Corpus,1

74 74 Corpus,2

75 75 Corpus,3

76 76 Corpus,4

77 77 Kollok, 1

78 78 Kollok, 2

79 i.Verknüpfung Beleg – Wörterbuch ii.Vernetzung Wörterbuch mit anderen on-line Angeboten iii.Verknüpfung Beleg – Bild – Volltext Weitere Web-Anwendungen

80 ZEIT-online Wörterbuchportal dict.leo.org (größtes deutsch-englisches on-line Wörterbuch) uni-deutsch (BMBF, DAAD) etwa Seitenaufrufe (p.i.) täglich ii) on-line Plattform - Vernetzung

81

82

83 Basis: etwa Zeitungsartikel (Berliner Tageblatt, Vossische Zeitung, Die ZEIT). Berücksichtigung des Copyrightstatus bei der Kontextanzeige Wenn Rechte am Volltext oder Bild vorhanden => interne Verknüpfung Wenn keine Rechte vorhanden => externe Verknüpfung iii) Verknüpfung Beleg - Volltext - Bild

84

85

86

87

88

89

90

91

92 92 (C) Fortlaufende Sprachbeobachtung Eigentlich hätte uns das Wort nicht durch die Lappen gehen dürfen, gesteht Beate Varnhorn, Chefredakteurin von Wahrig, der Wörterbuchmarke bei Bertelsmann. Doch immer wieder ist das Wort Ceranfeld Sprachbeobachtern durchgerutscht.... Nun bekommen die [Wörterbuchmacher] Unterstützung von Computerlinguisten. Deren Programme sollen Texte schneller nach neuen Wörtern durchsuchen und dabei weniger Fehler machen. (Süddeutsche Zeitung, )

93 Möglichkeiten (Beispiele): a)empirische Ermittlung der Entwicklung von ´s (Helga´s Hundesalon, Kant´s Schriften) b) empirische Ermittlung der Entwicklung von Anglizismen c) Korrektiv für Wörterbücher d) Erweiterung von Wörterbüchern (C) Fortlaufende Sprachbeobachtung

94 Beispiel 1: WDG Corpus: sternhagelbesoffen (0 Corpusbelege) sternhagelvoll (40) Beispiel 2: Grimm Neubearbeitung (1998) Corpus: Angstkauf (0) Angstkäufe (17)

95 Beispiel 3: Duden (10-Bände, 2001) Stichwort: Selbst Wörterbuch: 244 Einträge Selbstabholer... Selbstbedienung... Selbsterfahrung... Selbstzweifel Corpus: 7884 verschiedene Wörter

96 Nicht im Duden, aber im Corpus sehr häufig: Selbstverpflichtung (2139 Mal) Selbstmordattentäter (801) Selbstregierung(727) Selbstregulierung(450) Selbstbeschreibung(380) Selbstbefragung(312)... Selbstauskunft(185) Selbstmordanschlag (171)... Selbstbedienungsmentalität (143) Selbstbau (105) Selbstbeschäftigung(105) Selbstgänger(91) Selbstnutzung(81) Selbstinteresse(80) Selbstähnlichkeit(77) Selbstlernen(30)

97 Im Duden, aber nicht im Corpus: - Selbstabholerin - Selbstanzeigerin - Selbstbucherin - Selbstentlader - Selbsterzeugerin - Selbstinserent Selbstladevorrichtung Selbstverstand Selbststellerin Selbstverlegerin Selbstverpflegerin

98

99

100 Wortform(en): Selbstbau-Sarg Orig: o.A., Der Niedergang nach dem Abgang, in: Süddeutsche Zeitung , S. 13 Sargdiscounter, Sonderangebote, Selbstbau-Särge, vorsorgliche Hausbesuche bei potentiellen Kunden, Werbung bei Zielgruppen in Krankenhaus und Altenheim, Provisionsverträge mit Hausmeistern und Rettungsdienstpersonal – dies alles muß zugelassen werden. Datum: Seite: unknown Textsorte: Zeitung Feuilleton

101 Beispiel 4: rückläufige Wörterbücher Mater (1967): etwa 100 verschiedene Substantive mit -kasten Farbkasten... Baukasten, Steinbaukasten DWDS-Corpus: 1500 verschiedene Substantive mit –kasten insgesamt 177 Substantive auf -baukasten Baukasten, Modellbaukasten, Chemiebaukasten, Metallbaukasten, Stabilbaukasten, Steinbaukasten, Legobaukasten, Satzbaukasten (alle Frequenz > 10)... Begriffsbaukasten

102 Stolpe greift zielsicher in den Begriffsbaukasten. Geis, Matthias, Stolpe - die Krönung einer Kampagne, in: die tageszeitung - 12 ½ Jahre taz auf CD-ROM, Berlin: Contrapress-Media-GmbH 1999 [1992]

103 Beispiel 5: Zeitliche Veränderungen NACHHALTIG, adj. und adv. auf längere zeit anhaltend und wirkend: nachhaltiger ertrag des bodens wird nur erzielt, wenn der boden in gutem stand erhalten wird. (DWB – Grimm) nachhaltig : 1. Sich auf längere Zeit stark auswirkend: einen –en Eindruck hinterlassen; etw. wirkt sich nachhaltig aus; jmdn. N. beeinflussen. 2. (Forstw.) die Nachhaltigkeit (2) betreffend, auf ihr beruhend: -e Forstwirtschaft ( Duden 2001 )

104 1. Wörterbücher: nachhaltig ohne Wertung Im Corpus bis Ende der 30er Jahre nur neutrale und positive Wertung [des betroffenen Objekts]: Eindruck, Einfluß, Erfolg, Wirkung ab 1940 auch negative Wertung: z.B. Brände, Zerstörung, Zerstörungsangriffe, Straßenzerstörungen, Schäden, Verminung

105 2. Was ist alles nachhaltig? : Wirkung, Eindruck, Erfolg, Einfluß, Besserung (5) : Weise, Druck, Abgabedruck, Genuß, Stärkung,... (10) : Fleiß, Kraft, Bewirtschaftung, Widerstand, Spuren...(6) : Bedeutung, Unterstützung, Abhilfemaßnahmen... (5) : Zerstörung, Zerstörungsangriffe, Straßenzerstörungen, Schäden, Brände, Abwehr, Sprengung, Verminung..(12) : Interesse, Überwindung, Entspannung, Wirtschaftlichkeit, Verhinderung, Verbesserung, Störung...(16) : Anstrengungen, Abbau, Impuls, Versuch...(16) : Verkehrsstunden, Aufwertung, Anerkennung...(20) : Abfuhr, Akzeptanzschub...(72) : Entwicklung, Tourismus, Politik, Zukunft... (> 100)

106 nachhaltige Sprachbeobachtung?

107 107 Sprachbeobachtung mit Computerlinguistik Institut für deutsche Sprache Projekt Deutscher Wortschatz – Uni Leipzig Lothar Lemnitzer (www.wortwarte.de)www.wortwarte.de DWDS: Prototyp: ZEIT-Wörter der Woche

108 108 Wörter der Woche - ZEIT

109 109 ZEIT-Woewo – 2

110 Schritte zu einem Digitalen Wörterbuch Vorzüge des elektronischen Mediums: unbegrenzter Platz (für die Darstellung der Stichwörter) Gewichtung entsprechend des Vorkommens in Texten Belege können beliebig sortiert, ein- und ausgeblendet werden Das Wörterbuch kann modular erarbeitet werden

111 DWDS-Kerncorpus mit Suchmaschine Wörterbuch der deutschen Gegenwartssprache (1977) - 6 Bände, 5000 Seiten, ca Stichwörter Basis des Digitalen Wörterbuchs

112 Modular: Statt Corpus + Wörterbuch...

113 ... ein System von Wörterbüchern

114 ... und einer Texterschliessungskomponente

115 ... mit Wörterbuchmodulen als Kooperationen

116 in Kooperation mit C. Fellbaum (Princeton) im Rahmen des Wolfgang-Paul-Preis Projekts - Thema: Kollokationen im Wörterbuch Corpusbasierte lexikographische Beschreibung von Verb/Nomen Idiomen: sein Mütchen kühlen, den Nagel auf den Kopf treffen, sein blaues Wunder erleben,... Modul Kollokationen

117 ... mit Filtern

118 Filter 2

119 Filter 3

120 Zusammenfassung 1.DWDS stellt Sprach- und Wortschatzforschung auf eine neue empirische Grundlage. 2.DWDS – Texterschließung ist vielseitig nutzbar: -Linguistische Suchmaschine -Lemmatisierung, Wortartenzuordnung 3.Kooperation zur Erarbeitung weiterer Wörterbuchmodule 4.Gewinnung weiterer Textgeber


Herunterladen ppt "Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –"

Ähnliche Präsentationen


Google-Anzeigen