Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Ähnliche Präsentationen


Präsentation zum Thema: "Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović"—  Präsentation transkript:

1 Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović Erstellt von Karin Markut немецкие одноязычные корпуса Deutsche einsprachige Korpora

2 немецкие одноязычные корпуса Institut für Slawistik BAS Bayerisches Archiv für Sprachsignale 1995 gegründet Korpora mit gelesener Sprache Korpora mit spontaner Sprache Korpora mit akzentuierter/dialektaler Sprache Korpora mit Telefon-Sprache Korpora mit hoher technischer Qualität (Studio) BAS DSAv DWDS

3 Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Korpus Besteht aus Tokens ( Sätzen) deutscher Zeitungstexte aus der Frankfurter Rundschau Die Texte sind der CD "Multilingual Corpus 1" der European Corpus Initiative entnommen und wurden erweitert. Lizenz für wissenschaftliche Nutzung frei Eine Volllizenz kostet 4000 EURO, und eine Upgradelizenz 1500 EURO. BAS DSAv DWDS

4 Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik DSAv Deutsches Spracharchiv 28 aufbereitete Korpora Tonaufnahmen und Transkripte : -Binnendeutsche Umgangssprachen / Standardsprache -Auslandsdeutsche Varietäten -verbale Interaktionen: Sprechen im sozialen Kontext (z.B. Beratungsgespräche) // Spracherwerb / Sprachentwicklung BAS DSAv DWDS

5 Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik DWDS Digitale Wörterbuch der deutschen Sprache des 20. Jh. Wörterbuch Korpora -DWDS-Kernkorpus -ZEIT-Korpus -Berliner Tagesspiegel, PNN -DDR-Corpus -Corpus jüdischer Periodika -Demonstrationskorpus zur Anonymisierung von Eigennamen BAS DSAv DWDS

6 Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik DWDS – Kernkorpus: 100 Mill. laufende Textwörter von Anzahl der Dokumente: Textsorten: Schöne Literatur (ca. 26%) Journalistische Prosa (ca. 27%) Fachprosa (ca. 22%) Gebrauchstexte (ca. 20%) (Transkribierte) Texte gesprochener Sprache (ca. 5%) BAS DSAv DWDS

7 Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik ZEIT-Korpus: Umfang: 45 Mill. Tokens in Artikeln Textgrundlage: alle ZEIT-Ausgaben von Das ZEIT-Corpus wird täglich aktualisiert. Berliner Tagesspiegel und Potsdamer Neuesten Nachrichten: Umfang: 170 Mill. Tokens ( Artikel) bzw. 15 Mill. Tokens Textgrundlage: alle online erschienenen Artikel zw und Juni BAS DSAv DWDS

8 Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik DDR-Korpus: umfasst 1150 Dokumente von Jüdische Periodika - 8 Zeitschriften (26 Mill. Tokens) bis 1938 Alle Korpora = lemmatisiert und mit Wortartinformationen versehen BAS DSAv DWDS Projektrealisierung in drei Etappen Textkorpuserstellung Computerlinguistische Erschließung Lexikographische Arbeit

9 Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Digitalisierung - Von der Textvorlage zur XML-Datei Kernkorpus: über 40 Mill. Textwörter digitalisiert in XML-Dateien aufbereitet [~ DIN A 4 Seiten] BAS DSAv DWDS

10 Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik BAS DSAv DWDS Online-Recherche mit Anmeldung: Textkorpus 102 Mio. Wörter, ohne Anmeldung: Textkorpus 22 Mio. Wörter,


Herunterladen ppt "Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović"

Ähnliche Präsentationen


Google-Anzeigen