Canonical Text Service und Text Re-Use am Beispiel des DTA-Korpus Jochen Tiepmar Abteilung für Automatische Sprachverarbeitung Institut für Informatik.

Slides:

Advertisements

Ähnliche Präsentationen

WPM Künstliche Intelligenz Projekt: “Schiffe-Versenken”

Advertisements

Software Assurance Erweiterte Software Assurance Services

Zur SCORM-Fähigkeit konventioneller XML-unterstützender eLearning Developer Tools im Projekt I-can-EIB OFFIS Oldenburger Forschungs- und Entwicklungsinstitut.

Institut für Bibliotheks- und Informationswissenschaft Literaturverwaltung mit Plone Matti Stöhr Vortrag auf dem Plone-Workshop im Rahmen der Multimedia-Tage.

Dublin Core Antje Schregel, Dublin Core Was ist DC? Architektur von DC (Elements, Qualifiers) Anwendung Aktuelle Situation Projekte.

DFG-Projekt Architektur- und Ingenieurzeichnungen der deutschen Renaissance. Digitalisierung und wissenschaftliche Erschließung des Zeichnungsbestandes.

Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg

1 Sprachressourcen-Gipfel IDS Mannheim Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel |

Anmerkungen zu XML Im September 2000 Entwicklung/Anspruch von XML

Seminar Stochastik im WS 02/03

Web-CMS der Universität Ulm

© 2003 Guido Badertscher Spontane Vernetzung - UPnP 9. Jänner 2004 Spontane Vernetzung Guido Badertscher.

Bernd Oberknapp, UB Freiburg

Übung 5 Mehrstufige Client/Server-Systeme mit Enterprise Java Beans

DEPARTMENT FÜR INFORMATIK

DissOnline / Digitale Dissertationen Dr. P. Schirmbacher Offene Standards und internationale / nationale Abstimmung Gliederung: 1.Open Archive.

Archivierung und Erschließung von Audio/Video-Material mit miless und MyCoRe F. Lützenkirchen Universitätsbibliothek.

Juristische Online-Datenbanken: Juris und Beck-Online

Datenbanken 2 - WML - Prof. Dr. Stefan Böttcher - WS 2000/01 Wireless Markup Language (WML) Quelle: Ziel: Daten aus dem Internet an.

Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.

XINDICE The Apache XML Project Name: Jacqueline Langhorst

DNS – Domain Name System

1 Endliche Automaten in der Sprachtechnologie Kursthemen Karin Haenelt

Treffen mit Siemens Siemens: Werner Ahrens Volkmar Morisse Projektgruppe: Ludger Lecke Christian Platta Florian Pepping Themen:

1 Reverse Engineering WS 07 / 08 A. Zündorf. Fachgebiet Software Engineering Übersicht © Albert Zündorf, Kassel University 2 Organisatorisches.

Programmierung verteilter Systeme Institut für Informatik Universität Augsburg Augsburg Tel.: Fax: Web:

Physiker Tagung Fachvortrag AKI Leipzig, 22. März 2002 Verteilte Experten-Datenbank Viele Wege – auch ein Ziel? Thomas Severiens.

Uwe Habermann Venelina Jordanova VFP Code in Silverlight Anwendungen ausführen.

1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.

1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:

UML Begleitdokumentation des Projekts

Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,

Erste Schritte mit PHP 5 von Max Brandt, 22. September 2006.

Teilprojekt Z2 „Methoden und Werkzeuge zur rechnergestützten medienwissenschaftlichen Analyse“ (Laufzeit: ) Gegenstand: Entwurf des Prototyps.

Entwicklung verteilter Anwendungen I, WS 13/14 Prof. Dr. Herrad Schmidt WS 13/14 Kapitel 12 Folie 2 Web Services (1)

The Project is partly funded by the European Commission eTEN Programme euromuse.net training for use of Harmonise euromuse.net Das Harmonise-Interface.

UNIVERSITÄT ZU KÖLN HISTORISCH-KULTURWISSENSCHAFTLICHE INFORMATIONSVERARBEITUNG REUSABLE - CONTENT SS 2013 MARIA WAGNER ReST.

Nicolas Frings Maximilian Bernd Stefan Piernikarcyk

Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.

Wird ganz am Anfang der HTML-Datei geschrieben Doctype html public bedeutet, dass man sich auf die Öffentlichkeit der html-dtd bezieht Html ist die meist.

IFB Speyer Daniel Jonietz dj 2 XAMPP - Was ist das? Paket mit: – X – Apache (Webserver) – MySQL oder SQLite (Datenbank) – Perl (Skriptsprache) –

Entwicklung verteilter Anwendungen II, SS 13 Prof. Dr. Herrad Schmidt SS 13 Kapitel 4 Folie 2 REST Web Services (1)

Sesame Florian Mayrhuber

XML-Query. Übersicht Was ist XML-Query? Vergleich RDB XML-Dokument Syntaktisches und Use-Cases Kritik und Diskussion.

1 // Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Systemarchitektur Trad. & offener Katalog Metadatenexporte & Neuigkeiten.

… und was man damit machen kann.

Ausgabe vom Seite 1, XML Eine Einführung XML - Eine Einführung.

Abteilung für automatische Sprachverarbeitung

Einführung in Datenbankmodellierung und SQL

Aggregatsfunktion SQL = Structured Query Language.

SCAPE Informationstag und Demo-Event Österreichische Nationalbibliothek Max Kaiser Leiter Abteilung Forschung und Entwicklung Österreichische Nationalbibliothek.

XML1 XML-Motivation HTML definiert nur einen bestimmten Dokumenttyp Viele Web-Technologien benötigen eine allgemeinere Sprache zur Dokumentstrukturierung.

Webhosting an der Universität Zürich

Jede Präsentation beginnt mit dieser Seite

ELP-TT Training teachers to use the European Language Portfolio EFSZ-Kurzprojekt ELP_TT2 Koordination: Mag. Margarete Nezbeda.

Dokumenten- und Publikationsserver

IPv6 Von Judith Weerda Diese Vorlage kann als Ausgangspunkt für die Präsentation von Schulungsmaterialien in einer Gruppensitzung dienen. Abschnitte.

© lok-datenbank.de lok-datenbank.de. © lok-datenbank.de lok-datenbank.de Das Team An der Entwicklung des lok-datenbank-Konzeptes sind.

Stundenplanung Programm zur Stunden- und Zimmerplanung auf der Basis von Datenbanken und unter Berücksichtigung von Mehrfachnutzung im (lokalen) Netz (Internet.

AP3 – Informationsmodell ByMedConnect Archetypen Hans Demski Helmholtz Zentrum München Arbeitsgruppe MEDIS Institut für Medizinsche und Biologische Bildgebung.

„Wenn du den Fluss Halys überschreitest, wirst du

ROS – Robot Operating System

Alexander Krischan 8C. Vorraussetzungen zur Installation mit VestaCP Anmelden…

XML in der Praxis: Electronic Bill Presentment (EBP) Institut für Wirtschaftsinformatik J. W. Goethe-University J. W. Goethe University Institute of Information.

GATE/Annie Zara Kanaeva, November 2002, Information Extraction.

Web Services Spezielle Methoden der SWT Liste V – WS 2008/2009 Christian Boryczewski.

Technische Universität München, Informatik XI Angewandte Informatik / Kooperative Systeme Praktikum Mobile Web 2.0 – 2.Teil Wolfgang Wörndl, Robert Eigner.

Bausteine für eine virtuelle Forschungsumgebung in Musikwissenschaft.

MusicXML und MEI.

Zusatzfeatures für herkömmliche OPACs

Präsentation transkript:

Canonical Text Service und Text Re-Use am Beispiel des DTA-Korpus Jochen Tiepmar Abteilung für Automatische Sprachverarbeitung Institut für Informatik Universität Leipzig

Grundlegendes Canonical Text Services (CTS) – Protokoll für webbasierten Textservice für Zitation – Entwickelt im Homermultitext Projekt ( Smith et.al – Eindeutige Identifier (Unique Resource Name, URN) spezifizieren Textabschnitte (passages) – Implementierungen auf Basis von Tripelstore und XML-Datenbank vorhanden, waren aber nicht für unsere Zwecke nutzbar – Diese (MySQL-basierte) Implementierung ist Teil des ESF-Projektes „Bibliothek der Milliarden Wörter“ – Der Inhalt dieser Präsentation kann auf live nachvollzogen werdenwww.urncts.de Canoncal Text Services - Jochen Tiepmar 2014

Kanonische Zitation Shakespeare Sonette Sonett 1…Sonett 35Vers 1Wort 1…Wort 10…Vers 5…Sonett 154 “Shakespeare, Sonett 1, Vers 1”

Kanonische Zitation Dokumenteneinordung „von draußen“ Shakespeare → Sonnets → english → 1st edition Textabschnitt innerhalb des Dokumentes Sonnet 1 → Vers 1 Kombiniert Shakespeare → Sonnets → english → 1st edition → Sonnet 1→ Vers 1 CTS-URN urn:cts:demo:shakespeare.sonnets.en.1:1.1 Canoncal Text Services - Jochen Tiepmar 2014

Canonical Text Services (CTS) Canoncal Text Services - Jochen Tiepmar 2014 urn:cts:demo:shakespeare.sonnets.en.1:1.1 Shakespeare Sonette Sonett 1…Sonett 35Vers 1Wort 1…Wort 10…Vers 5…Sonett 154 Shak espe are Sone tte Sone tt 1 Sone tt 35 Vers 1 Wort 1 … Wort 0 Vers 5 … Sone tt 154 … So ne tt 35 Ve rs 1 … Shakes peare Sonette … Sonett 154 Shakespear e Kapitel 2 …Satz1…Wort 410Wort 115…Kapitel154 CTS “From fairest creatures we desire increase,”

Typen von Textabschnitten Einfach (Kapitel 12, Vers 2, Lied 1985, Edition, Werk) urn:cts:demo:shakespeare.sonnets.en.1:1.1 urn:cts:demo:shakespeare.sonnets.en.1: Spanne urn:cts:demo:shakespeare.sonnets.en.1: urn:cts:demo:shakespeare.sonnets.en.1: Teilabschnitt Spanne über Teilabschnitte Canoncal Text Services - Jochen Tiepmar 2014

Deutsches Text Archiv in CTS 1712 Werke in je 3 Editionen -> 5136 Editionen translit, transcript, norm Tokens, Zeichen Keine Einteilung in Kapitel oder Ähnliches, „nur“ Sätze Tokens pro Edition Min 75 Avg 62769, Max : Canoncal Text Services - Jochen Tiepmar 2014 urn:cts:dta:albertinus.landtstoertzer de.translit:11 Visualisierung: Stefan Jaenickes TRAVizStefan Jaenickes TRAViz

Weitere Datensätze PBC Parallel Bible Corpus 831 Editionen 247‘292‘629 Tokens Perseus 3 „Versionen“ Plaintext, XML, Updated greekLit, latinLit, (farsiLit, pdlrefwk) 407 bzw 1137 Editionen 6‘096‘120 bzw 27‘295‘030 Tokens Canoncal Text Services - Jochen Tiepmar 2014

Statistiken Testumgebung: - Ubuntu-Server Testsetup: - Hole Liste aller Editionen - Frage je den Abschnitt [URN_der_Edition]:1-2 ab Canoncal Text Services - Jochen Tiepmar 2014

DTA Statistiken Canoncal Text Services - Jochen Tiepmar ‘136 Editions. 334‘820‘482 Tokens. 2‘284‘090‘670 Characters. Durchschnittliche Abschnittslänge: 203 Characters

Perseus_xml Statistiken Canoncal Text Services - Jochen Tiepmar Editions. 6‘096‘120 Tokens. 44‘217‘523 Characters. Durchschnittliche Abschnittslänge: 26‘838 Characters

Perseus_new Statistiken Canoncal Text Services - Jochen Tiepmar Editions. 27‘295‘030 Tokens. 222‘456‘065 Characters. Durchschnittliche Abschnittslänge: 28‘930 Characters

PBC Statistiken Canoncal Text Services - Jochen Tiepmar Editions. 247‘292‘629 Tokens. 1‘357‘136‘926 Characters Durchschnittliche Abschnittslänge: 352‘634 Characters

1 Milliarde Wörter? Hat zufällig jemand ein paar Wörter übrig??? Canoncal Text Services - Jochen Tiepmar 2014 CTS-InstanzAnzahl Tokens DTA334‘820‘482 PBC247‘292‘629 Perseus_new27‘295‘030 Perseus_xml6‘096‘120 Perseus_plain5‘525‘132 insg621‘029‘393

1 Milliarde künstlicher Wörter 1 CTS mit zufällig generierten Editionen 1’281’272’600 Tokens (min. 3/edition, max. 69’118/edition) Test 1) Alle Editionen auflisten 2) Konsturiere vollen Textabschnitt für jede Edition (kein XML) Canoncal Text Services - Jochen Tiepmar 2014

Language Support – UTF8 Canoncal Text Services - Jochen Tiepmar 2014

Future Work URNs als IDs ähnlich CITE-Architektur Nutzen der URNs als IDs für andere Projekte Standardisierung CTS - Ausgabe als Standardformat für GUI Unabhängigkeit von eigentlicher Textstruktur Eigenschaften der URNs Sprachkürzel in URN für Übersetzung nutzen urn:cts:demo:shakespeare.sonnets.en.1: Canoncal Text Services - Jochen Tiepmar 2014

Future Work – Volltextsuche Canoncal Text Services - Jochen Tiepmar 2014 Shakespeare Sonette Sonett 1…Sonett 35Vers 1Wort 1…Wort 10…Vers 5…Sonett 154 “Shakespeare, Sonett 1, Vers 1” “Shakespeare, Sonett X, …”

Future Work – Volltextsuche – „Rückrichtung“ – Text ReUse, Zitatsuche, Duplikatsuche, Plagiatsuche – Analyse beliebig großer Textabschnitte (Bigramm, Trigramm,…) ohne zusätzliche Datenaufbereitung – Textspannen über mehrere Texteinheiten (Sätze, Kapitel) schwierig Canoncal Text Services - Jochen Tiepmar 2014

Vielen Dank Canoncal Text Services - Jochen Tiepmar 2014