Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der.

Ähnliche Präsentationen


Präsentation zum Thema: "Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der."—  Präsentation transkript:

1 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 DTA – Deutsches Textarchiv Tag der Geisteswissenschaften Berlin-Brandenburgische Akademie der Wissenschaften 31. Oktober 2007

2 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 IRahmenbedingungen IIKorpuszusammensetzung IIIArbeitsablauf IVWerkzeuge V Ziele Deutsches Textarchiv Übersicht

3 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Rahmendaten Arbeitsgruppe Antragsteller:Prof. W. Klein (MPI f. Psycholinguistik), Prof. M. Bierwisch (BBAW), Prof. M. Grötschel (ZIB) Projektleitung:Dr. A. Geyken Mitarbeiter:C. Fritze, O. Duntze (Projektkoordination, Textbeschaffung, Textstrukturierung etc.); A. Siebert (Computerlinguistik, Webprogrammierung); B. Jurish (Computerlinguistik) Förderung - DFG-Projekt - Gesamtlaufzeit 7 Jahre - Bewilligung für die ersten drei Jahre (Juli 2007 – Juni 2010)

4 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Rahmendaten Projektziele - Digitalisierung von ca. 750 Texten aus dem Zeitraum von 1780–1900 - Bereitstellung als Volltexte (XML/TEI-P5) - Bereitstellung der Bilddigitalisate - Verknüpfung von Text und Bild - Insgesamt ca. 200.000–250.000 Seiten

5 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Korpuszusammensetzung – Textsorten

6 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Korpuszusammensetzung – Zeitlicher Verlauf

7 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Arbeitsablauf Bilddigitalisierung - überwiegend Digitalisierung durch externen Dienstleister - für kleineren Teil hausinterne Digitalisierung - Qualitätsanforderungen: - 300 dpi - 24 bit Farbtiefe - Komplettdigitalisierung inkl. Einband, Spiegel, Vorsatz etc. - Master werden als unkomprimierte TIFFs archiviert

8 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Arbeitsablauf Volltexterfassung - komplexe Texte über Dienstleister - Erfassungsgenauigkeit ca. 99,98 % - Möglichkeit der Vorstrukturierung beim Dienstleister: kursiver Text kursiver Text - automatisierte Umwandlung in TEI-konformes Markup: kursiver Text kursiver Text - manuelle Nachauszeichnung bei Problemfällen - einfache Texte mit OCR - Erkennungsgenauigkeit deutlich geringer als bei manueller Texterfassung, daher Nachkorrektur notwendig - ggf. automatisierte Textauszeichnung bei klar definierbaren Strukturen möglich - manuelle Textauszeichnung, z. T. unterstützt in Korrekturumgebung

9 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Werkzeuge Korrekturumgebung - Text-Bild-Koppelung - ermöglicht effiziente Korrektur von OCR-Fehlern

10 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Werkzeuge Korrekturumgebung - Text-Bild-Koppelung - ermöglicht effiziente Korrektur von OCR-Fehlern - ermöglicht visuell basiertes Tagging

11 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Werkzeuge Phonetische Suche - Problem: in historischen Sprachstufen verschiedene graphematische Realisierungen - u.a. bei Diphthongen, T vs. Th usw. - z.B.: Teil Theil, Teyl, Theyl, Tail … - Normalisierter Text ist für historisches Textkorpus nicht wünschenswert Unterschiedliche Schreibweisen sollen durch intelligente Suche abgefangen werden Morphologische Analyse - Texte werden durch automatisierte Verfahren linguistisch annotiert - ermöglicht komplexe linguistische Abfragen - Basis für korpusbasierte sprachwissenschaftliche Untersuchungen

12 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Werkzeuge

13 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

14 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

15 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Ziele Das »Aktive Archiv« - Die Texte des DTA werden der Öffentlichkeit im »open access« bereitgestellt - Das DTA ist den Grundsätzen der »Berliner Erklärung« vom Oktober 2003 verpflichtet - Die Nutzer sollen die Texte online bearbeiten können, z. B. durch - linguistische Annotation - Auszeichnung von Textstrukturen - Freitextanmerkungen - Lesezeichen - … - Möglichkeit der Integration weiterer Texte durch die Nutzer Entwicklung vom »passiven Archiv« zum »aktiven online-Arbeitsplatz«

16 Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Kontakt Berlin-Brandenburgische Akademie der Wissenschaften Deutsches Textarchiv Jägerstr. 22/23 10117 Berlin www.deutsches-textarchiv.de


Herunterladen ppt "Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der."

Ähnliche Präsentationen


Google-Anzeigen