Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin www.bbaw.de C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der.

Slides:



Advertisements
Ähnliche Präsentationen
Rubina Vock, Freie Universität Berlin
Advertisements

Workshop „Mehr Personen – Mehr Daten – Mehr Repositorien“
Einsatz neuer Technologien auf dem Slavistik-Portal Ivo Ulrich, Staatsbibliothek zu Berlin 32. ABDOS-Tagung, Martin (Slowakei), 19. Mai 2009.
Internationale Standards für digitales Archivgut
Parallelpublikationen in der Leibniz-Arbeitsstelle
Zentrales Verzeichnis Digitalisierter Drucke
Arbeitsbericht 2011 (Auszug)
1 Jahr Digitization Lifecycle Überblick & Ausblick.
UNIGI-NET Das Datennetz der Uni Gießen
Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)
Präsentation zur Verwendung bei Pfarrkonventen / KTAs
Digitalisierung von Akten der Büros der Vorsitzenden des FDGB Archivdirektorin Petra Rauschenbach
Digitalisierung in Göttingen
Dr. Klaus-Rainer Brintzinger, Universität Tübingen
E-Publikationen und Universitätsbibliographie
Universitätsbibliographie online ZIM / UB Kolloquiumsreihe
Der Stellenmarkt im Focus
Informationsveranstaltung für kommunale Mandatsträger, eGovernment aus einem Guss im Saarland Dr. Christian Ege Staatssekretär im Ministerium.
Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.
1 Ein Computermodell zur Bestimmung von Begriffstypen Christof Rumpf Heinrich-Heine-Universität Tag der Forschung
Workfloworchestrierung Grundlage für effiziente und qualitativ hochwertige (Massen)Digitalisierung Dipl. Sozw. Ralf Stockmann (SUB Göttingen)
Digitale Zukunft – Von der Digitalisierung zur Dokumentverfügbarkeit
PinK Plattform für intelligente Kollaborationsportale Dr. Joachim Quantz, e.V. Berlin, 13. September 2005.
1 Organisatorische Aspekte Management und Organisationsformen von Retrodigitalisierungsprojekten – Von der Idee zur Umsetzung Andrea Rapp - SUB Göttingen.
ExKurs B_OPAC 1/6 Dr. Barbara Hoffmann LiteraturKompetenz Bibliothekskataloge: Kasseler OPAC Online Public Access Catalogue – Öffentlicher Bestands-
Informationsveranstaltung München,
Zur Rolle der Universitätsbibliotheken im Kontext der digitalen Weltbibliothek Vortrag auf der 37. Jahrestagung der Gesellschaft für Informatik am
Vom Image zum Volltext – Texterkennung im Projekt „OstDok“
Stefan Klausewitz, EOD-Digitalisierung- wie funktioniert das eigentlich? Stefan Klausewitz, Abteilung Historische sammlungen.
Basisworkshop erp4school
Raumzeitstrukturen Zeiten der Stadt und Lebensqualität Bozen 12. und Prof. Dr. Dietrich Henckel Technische Universität Berlin Institut für Stadt-
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
Vorgriffsstundenrückgabe
Hypertext Markup Language
Projektdaten Projektzeitraum: 1 Juni 2008 – 31 Dezember 2010 Programm: European Territorial Co-operation Austria – Czech Republic Budget:
Softwareunterstützung bei der Analyse von Weiterbildungsbedarfen
November digital tender ist die durchgängige, plattformunabhängige Online- Abwicklung von Ausschreibungen...
1 Semiautomatische Medienresonanz- und Diffusions-Analyse Waltraud Wiedermann, GF APA-DeFacto und APA-MediaWatch Michael Granitzer, Know-Center.
1 Trends and Challenges in American Librarianship Dr. Diann Rusch-Feja Director of Information Resources International University Bremen. American Librarianship.
...ich seh´es kommen !.
08. Oktober 2010 © GmbH Vorstellung der Verbesserungen hinsichtlich der Funktionalität der Navigation in EurekaPlus - Login-Bereich - Module.
Methodologie und Technologie Technische Fragen zur online Publikation und Verfügbarmachung historischer Quellen.
Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.
Lexikographie im digitalen Zeitalter: Das Goethe-Wörterbuch
1 Universitätsbibliothek Johann Christian Senckenberg Das Angebot E lektronischer M edien eLearning Netzwerktag am 30. Juni 2008 Subtitel Dr. Klaus Junkes-Kirchen.
Präsentation läuft auch vollautomatisch ab … wie du möchtest
1 // Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Systemarchitektur Trad. & offener Katalog Metadatenexporte & Neuigkeiten.
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
Was Benutzer wollen – mehr als Metadaten Anette Seiler 98. Deutscher Bibliothekartag, Erfurt, 5. Juni 2009.
Netzwerk Teilchenwelt
Arbeitsgruppe Zukunft Arbeitsgemeinschaft Donauländer Arbeitsgruppe Zukunft der Arbeitsgemeinschaft Ergebnisse der moderierten Sitzungen vom14.
Analyseprodukte numerischer Modelle
2014 Januar 2014 So Mo Di Mi Do Fr Sa So
Der Erotik Kalender 2005.
Die Online-Enzyklopädie für Profis
Seite 1 Gegründet im Jahr 1669, ist die Universität Innsbruck heute mit mehr als Studierenden und über Mitarbeitenden die größte und wichtigste.
Digitising Patterns of Power (DPP)
Anonym | Sicher | Benutzerfreundlich
Überblick Kurzinfo zur Max-Planck-Gesellschaft und Max Planck Digital Library §137l UrhG in der Max-Planck-Gesellschaft Aktion, Rücklauf, Bearbeitung.
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
Virtuelle Fachbibliothek MATHEMATIK Die Virtuelle Fachbibliothek Mathematik Konzept und Realisierung Christian Herrmann
1 TextGrid Virtuelle Forschungsumgebung in den eHumanities Kathleen Smith und Felix Lohmeier (SUB) Seminar Digitale Publikationen und Editionen in der.
ASIM, Arbeitsgruppe Qualitätskriterien Letzte Sitzung, Mitglieder Arbeitsgruppe „Qualitätskriterien“ Erste Sitzung nach dem „Neustart“ am Teilnehmer.
Text Mining auf annotierten Texten
Vorlesungsverzeichnisse der Universität Bern: Von der Digitalisierung zur Faktenbasis Niklaus Bütikofer Universität Bern Universitätsarchiv Weiterbildungsprogramm.
Fachbereich: FB Germanistik
 Präsentation transkript:

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 DTA – Deutsches Textarchiv Tag der Geisteswissenschaften Berlin-Brandenburgische Akademie der Wissenschaften 31. Oktober 2007

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 IRahmenbedingungen IIKorpuszusammensetzung IIIArbeitsablauf IVWerkzeuge V Ziele Deutsches Textarchiv Übersicht

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Rahmendaten Arbeitsgruppe Antragsteller:Prof. W. Klein (MPI f. Psycholinguistik), Prof. M. Bierwisch (BBAW), Prof. M. Grötschel (ZIB) Projektleitung:Dr. A. Geyken Mitarbeiter:C. Fritze, O. Duntze (Projektkoordination, Textbeschaffung, Textstrukturierung etc.); A. Siebert (Computerlinguistik, Webprogrammierung); B. Jurish (Computerlinguistik) Förderung - DFG-Projekt - Gesamtlaufzeit 7 Jahre - Bewilligung für die ersten drei Jahre (Juli 2007 – Juni 2010)

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Rahmendaten Projektziele - Digitalisierung von ca. 750 Texten aus dem Zeitraum von 1780– Bereitstellung als Volltexte (XML/TEI-P5) - Bereitstellung der Bilddigitalisate - Verknüpfung von Text und Bild - Insgesamt ca – Seiten

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Korpuszusammensetzung – Textsorten

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Korpuszusammensetzung – Zeitlicher Verlauf

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Arbeitsablauf Bilddigitalisierung - überwiegend Digitalisierung durch externen Dienstleister - für kleineren Teil hausinterne Digitalisierung - Qualitätsanforderungen: dpi - 24 bit Farbtiefe - Komplettdigitalisierung inkl. Einband, Spiegel, Vorsatz etc. - Master werden als unkomprimierte TIFFs archiviert

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Arbeitsablauf Volltexterfassung - komplexe Texte über Dienstleister - Erfassungsgenauigkeit ca. 99,98 % - Möglichkeit der Vorstrukturierung beim Dienstleister: kursiver Text kursiver Text - automatisierte Umwandlung in TEI-konformes Markup: kursiver Text kursiver Text - manuelle Nachauszeichnung bei Problemfällen - einfache Texte mit OCR - Erkennungsgenauigkeit deutlich geringer als bei manueller Texterfassung, daher Nachkorrektur notwendig - ggf. automatisierte Textauszeichnung bei klar definierbaren Strukturen möglich - manuelle Textauszeichnung, z. T. unterstützt in Korrekturumgebung

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Werkzeuge Korrekturumgebung - Text-Bild-Koppelung - ermöglicht effiziente Korrektur von OCR-Fehlern

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Werkzeuge Korrekturumgebung - Text-Bild-Koppelung - ermöglicht effiziente Korrektur von OCR-Fehlern - ermöglicht visuell basiertes Tagging

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Werkzeuge Phonetische Suche - Problem: in historischen Sprachstufen verschiedene graphematische Realisierungen - u.a. bei Diphthongen, T vs. Th usw. - z.B.: Teil Theil, Teyl, Theyl, Tail … - Normalisierter Text ist für historisches Textkorpus nicht wünschenswert Unterschiedliche Schreibweisen sollen durch intelligente Suche abgefangen werden Morphologische Analyse - Texte werden durch automatisierte Verfahren linguistisch annotiert - ermöglicht komplexe linguistische Abfragen - Basis für korpusbasierte sprachwissenschaftliche Untersuchungen

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Werkzeuge

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Ziele Das »Aktive Archiv« - Die Texte des DTA werden der Öffentlichkeit im »open access« bereitgestellt - Das DTA ist den Grundsätzen der »Berliner Erklärung« vom Oktober 2003 verpflichtet - Die Nutzer sollen die Texte online bearbeiten können, z. B. durch - linguistische Annotation - Auszeichnung von Textstrukturen - Freitextanmerkungen - Lesezeichen - … - Möglichkeit der Integration weiterer Texte durch die Nutzer Entwicklung vom »passiven Archiv« zum »aktiven online-Arbeitsplatz«

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007 Deutsches Textarchiv Kontakt Berlin-Brandenburgische Akademie der Wissenschaften Deutsches Textarchiv Jägerstr. 22/ Berlin