Charlotte Schubert, Gerhard Heyer Universität Leipzig eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert, Gerhard Heyer Universität Leipzig
Textorientierte Altertumswissenschaften und sprachverarbeitende Informatik: Eine interdisziplinäre Kooperation „Die ... Wissenschaft um das Altertum hat natürlich keine ewige Dauer, ihr Stoff ist zu erschöpfen. Nicht zu erschöpfen ist die immer neue Akkomodation jeder Zeit an das Altertum, das Sich- daran-Messen.“ (F. Nietzsche, Unzeitgemäße Betrachtungen, Gedanken und Entwürfe zu der unzeitgemäßen Betrachtung: Wir Philologen, Nr.7, München 1964, 391) C. Schubert, G. Heyer eAQUA
Der Projektverbund: Geistes- und NaturwissenschaftlerInnen H.-Schmidt-Universität Hamburg Prof. Dr. Burkhard Meißner Projekt CAMENA, Universität Heidelberg Prof. Dr. Wilhelm Kühlmann Universität Leipzig Prof. Dr. Charlotte Schubert / Prof. Dr. Reinhold Scholl Prof. Dr. Marcus Deufert / Prof. Dr. Kurt Sier Prof. Dr. Gerhard Heyer Wissenschaftlicher Beirat Prof. G. Crane (Tufts University, USA), Dr. J. Garcés (British Library, UK), Prof. E.Gaussier (Grenoble, FRA) C. Schubert, G. Heyer eAQUA
Bereits erfolgreich laufende Kooperationen: Leipzig/Altertumswissenschaften: Etablierung eines gemeinsamen Masterstudiengangs Classical Studies (akkreditiert) Leipzig/Alte Geschichte und Informatik (ASV): Aufbau einer TLG- basierten Kookkurrenz- und Satz-Datenbank (http://wortschatz.uni- leipzig.de/eaqua/) Leipzig/ Alte Geschichte und Universitätsbibliothek: Digitalisierungsprojekte (Deutsches Papyrus-Portal, Codex Sinaiticus mit British Library) C. Schubert, G. Heyer eAQUA
Die Wissensbasis Die digitalen Bibliotheken antiker Texte: (fast) vollständige Korpora: Perseus, Thesaurus Linguae Graecae (TLG), Bibliotheca Teubneriana Latina (BTL), Library of Latin Text, PHI (Inschriften, Papyri) Anwendung und Weiternutzung: Kooperation mit folgenden Partnern und freie Nutzung des zu entwickelnden Tools: Perseus, USA (2,1 Mio Zugriffe/Monat) British Library, UK (2 Mio Zugriffe/Monat) Camena/ Termini, Heidelberg (200.000 Zugriffe/Monat) Wortschatz-Portal der ASV, Leipzig ( Webseite: ca. 1 Mio Zugriffe/Monat, Webservice: 5 Mio/Monat) Publikation der Einzelprojekte C. Schubert, G. Heyer eAQUA
Das Ziel: Vom Wissensrohstoff zu strukturiertem Wissen Von der Überlieferungsgeschichte zur Wissenschaftsgeschichte: Transferstufen, Weiterverwendungen, Umwertungen, Neubildungen I. Neue inhaltliche Zusammenhänge: Gewinnung von neuen und inhaltlich relevanten Zusammenhängen Teilprojekte Atthidographen, Platon Ergänzung von fragmentarischen Texten Teilprojekte Inschriften/ Papyri Neue metrische Zusammenhänge Teilprojekt Plautinische Metrik II. Wissensnetze Bestimmung bzw. Überprüfung von Autorenschaften, Referenzen, Abhängigkeiten und Zitaten Teilprojekt Camena C. Schubert, G. Heyer eAQUA
Beispiel: Gewinnung von neuen und inhaltlich relevanten Zusammenhängen C. Schubert, G. Heyer eAQUA
Architektur der Plattform C. Schubert, G. Heyer eAQUA
Warum ist die ASV für diese Aufgaben qualifiziert? Erfahrungen mit großen und kleinen Textkorpora Leipzig Corpus Collection (LCC): 18 fertige Normgrößenkorpora (http://corpora.uni-leipzig.de/) Mitglied in D-SPIN/CLARIN Erfahrungen mit Text Mining Kookurrenzanalyse Überwachtes und unüberwachtes POS-Tagging Differenzanalyse Semantische Wortähnlichkeiten Morphologische Analyse Rechtschreibkorrektur (Aufbereitung von verrauschten Korpora) Anmerkungen: ----------------- C. Schubert, G. Heyer eAQUA
Wechselwirkung zwischen Geistes- und Naturwissenschaften Altertumswissenschaften Informatik Ergänzung fachspezifischer Arbeits- methoden durch Texttechnologien Erweiterung der Fragestellungen (Von der Überlieferungs- zur Wissenschaftsgeschichte) Codierungsprobleme (Griechisch, Latein, Textkommentare) Die Texte umfassen einen großen Zeit- raum, daher Probleme mit konsistenten Bezeichnern und semantischem Wandel Möglichkeit der Einflussnahme auf die Entwicklung fachspezifischer Textanalyse-Werkzeuge Vorreiter einer neuen Generation traditioneller Geisteswissenschaft Verallgemeinerung der entwickelten Verfahren zu einer allgemeinen Stilometrie Übertragung dieser Verfahren auf andere Anwendungen (Identifikation und Verifikation von Autorenschaften) Herausforderungen Chancen Anmerkungen: ----------------- C. Schubert, G. Heyer eAQUA
C. Schubert, G. Heyer eAQUA
Charlotte Schubert, Gerhard Heyer Universität Leipzig eAQUA Extraktion von strukturiertem Wissen aus Antiken Quellen für die Altertumswissenschaft Charlotte Schubert, Gerhard Heyer Universität Leipzig Anmerkungen: ----------------- C. Schubert, G. Heyer eAQUA