Christian Chiarcos chiarcos@uni-potsdam.de ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian.

Slides:



Advertisements
Ähnliche Präsentationen
Ontology Tools II Jan Polowinski
Advertisements

Objektorientierte Datenbanken
Dublin Core Antje Schregel, Dublin Core Was ist DC? Architektur von DC (Elements, Qualifiers) Anwendung Aktuelle Situation Projekte.
Natascha Schumann TU Darmstadt IuK-Konferenz, März 2003
GESIS Bernd Hermes, Heiko Hellweg, Dr. Maximilian Stempfhuber Informationszentrum Sozialwissenschaften, Bonn Unterstützung kooperativer Verfahren beim.
eine Plattform für annotierte Korpora in XML
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Ontologien- Query 1 Teil2
DEPARTMENT FÜR INFORMATIK
Datenbankzugriff im WWW (Kommerzielle Systeme)
Digitalisierung und Aufbereitung von Sprachdaten
eXist Open Source Native XML Database
Erschließen von semantischen Referenzen mit Ontology-Reasoning-Werkzeugen Das Ziel dieser Masterarbeit war die Erweiterung des ORBI Systems um ein Inferenz-System.
DOM (Document Object Model)
ATHOS Benutzertreffen 27.September Report of the Lab Glashütten, 27.September 2007 HighQSoft GmbH, Karst Schaap
AGXIS – Ein Konzept für eine generische Schnittstellenbeschreibung Dr.-Ing. Ulrich Hussels, RISA GmbH 07. Juni 2005 Workshop Umweltdatenbanken 2005.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Information und Technik Nordrhein-Westfalen Das personalisierte Portal Düsseldorf, Das personalisierte Portal.
WIESEL – Integration von Wissensmanagement und E-Learning auf der Basis von Semantic Web Technologien Matthias Rust, XML-Tage 2004, Berlin WIESEL Integration.
XML in Datenbanksystemen. © Prof. T. Kudraß, HTWK Leipzig 2 2 Warum wird XML eingesetzt? Antworten von Unternehmen: erweiterte Suchmöglichkeiten im Unternehmen.
SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.
Access 2000 Datenbanken.
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
Fortgeschrittene Methoden der Wissensorganisation
RDF-Schema Seminar: „Semantic Web“ André Rosin,
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
CRM Editor auf der Basis von Qt (Beispiel von Ubi erat Lupa)
UML Begleitdokumentation des Projekts
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
SEP Halgurt Mustafa Ali Can Önder Marius Morawski Matthias Seidl Themen: Integration von RDQL und OWQL innerhalb des Apache Cocoon Frameworks Semantische.
Citavi im Prozess der wissenschaftlichen Arbeit
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Kurs: Digital Objects Processing - CMS vs. Digital Library
Ontologien im Wissensmanagement
SharePoint 2010 for Information Architects
Nicolas Frings Maximilian Bernd Stefan Piernikarcyk
Proseminar: „Webtechnologien für Ecommerce“
Your name Bedeutung von Internet- Technologien Gruppe 1 Andreas Feuerstein Philipp Hochratner Christian Weinzinger.
Sesame Florian Mayrhuber
Allgemeines zu Datenbanken
Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin
… und was man damit machen kann.
VU Semistrukturierte Daten 1
Ausgabe vom Seite 1, XML Eine Einführung XML - Eine Einführung.
Oliver Spritzendorfer Thomas Fekete
Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.
Wissen praktisch ablegen
M&D- Status Seminar Datenanfragen Verfügbare Datensätze Nachfrage zu den Datensätzen Metadaten Benutzer-Anfragen Information/Schulung Probleme To Do Liste.
CMS Content-Management-Systeme (CMS), dienen der Verwaltung und Pflege von Dokumenten und Inhalten in Inter- und Intranetanwendungen. Den Entwickler oder.
Dublin Core IT-Zertifikat Daten- und Metadatenstandards.
xRM1 Pilot Implementierung
Daten- und Metadatenstandards SoSe 2009 IT-Zertifikat der Philosophischen Fakultät der Universität zu Köln Dozent: Patrick Sahle 26. Juni 2009: Dublin.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Semantic Web.
Bern University of Applied Sciences Engineering and Information Technology Documentation generator for XML-based description standards Ausgangslage: Die.
Lexit.at Michael Hausenblas Semantische Darstellung und Abfrage von Rechtsnormen – IRIS 2004 Semantische Darstellung und Abfrage von Rechtsnormen am Beispiel.
Datenbanken im Web 1.
Oracle Portal think fast. think simple. think smart. Dieter Lorenz, Christian Witt.
Webserver, Apache und XAMPP
Webserver Apache & Xampp Referenten: Elena, Luziano und Sükran
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
XML in der Praxis: Electronic Bill Presentment (EBP) Institut für Wirtschaftsinformatik J. W. Goethe-University J. W. Goethe University Institute of Information.
E-Archiv Durch die Präsentation führt sie: Jack Kraus ScanView ist ein Produkt der Allgeier IT GmbH (Feb 2010)
BUNDESANSTALT FÜR WASSERBAU Karlsruhe Hamburg Ilmenau BAW - DH / NOKIS Folie-Nr. 1 NOKIS-Workshop 10. und 11. März 2004 FTZ Westküste der CAU Kiel,
 Präsentation transkript:

Christian Chiarcos chiarcos@uni-potsdam.de ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de

Großflächige Akzeptanz und Ausweitung empirischer, v. a Großflächige Akzeptanz und Ausweitung empirischer, v.a. korpusbasierter Arbeiten in den letzten 20 Jahren. „There‘s no data like more data.“ Neue technische und methodische Anforderungen für die Arbeit mit linguistischen Datensammlungen

Probleme bei der Arbeit mit Korpora Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer Nachhaltige Archivierung und Dokumentation ? Die Vielfalt linguistischer Annotationen nimmt immer mehr zu Zusammenführung verschiedener Annotationen, die mit verschiedenen Spezialwerkzeugen geschaffen wurden ? Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition Wie kann Otto Normallinguist vor Fehlschlüssen bewahrt werden ?

Probleme bei der Arbeit mit Korpora Sustainability Platform for Linguistic Corpora and Resources SPLICR Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer Nachhaltige Archivierung und Dokumentation ? Die Vielfalt linguistischer Annotationen nimmt immer mehr zu Zusammenführung verschiedener Annotationen, die mit verschiedenen Spezialwerkzeugen geschaffen wurden ? Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition Wie kann Otto Normallinguist vor Fehlschlüssen bewahrt werden ? Datenbank der Annotationen zur Informationsstruktur ANNIS Ontologien linguistischer Annotationen OLiA

Probleme bei der Arbeit mit Korpora Sustainability Platform for Linguistic Corpora and Resources SPLICR Datenbank der Annotationen zur Informationsstruktur ANNIS SFB 632 Information Structure Ontologien linguistischer Annotationen OLiA

ANNIS & SPLICR ANNIS (SFB632 „Informationsstruktur“) Querying und Visualisierung von Mehrebenenannotationen SPLICR (SFB441 „Linguistische Datenstrukturen“) Nachhaltige Archivierung linguistischer Daten Ontologien linguistischer Annotationen ... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen Schlussworte einführende worte über den förderungskontext und sinn und zweck der komponenten

ANNIS SFB 632 „Informationsstruktur“ Potsdam, HU Berlin Projekt „Linguistische Datenbank“ (Stede/Lüdeling) Datenbank für die dort aufgebauten Annotationen zur Informationsstruktur 10 Datenprojekte unterschiedlicher linguistischer Disziplinen Typologie, Historische Sprachwissenschaft, Korpuslinguistik, Computerlinguistik

ANNIS Besondere Anforderungen Mehrebenenannotation Diskursphänomene erfordern die Betrachtung unterschiedlicher linguistischer Beschreibungsebenen Morphologie und Syntax Semantik Phonologie und Prosodie Anaphorik Diskursstruktur Informationsstruktur und Informationsstatus

ANNIS Besondere Anforderungen Mehrebenenannotation Annotation von Diskursphänomenen erfordert unterschiedliche spezialisierte Werkzeuge Toolbox/Shoebox Exmaralda/ELAN Annotate/Synpathy MMAX/Palinka RSTTool Links ergänzen

ANNIS Besondere Anforderungen Mehrebenenannotation Annotation von Diskursphänomenen erfordert unterschiedliche spezialisierte Werkzeuge Keines dieser Werkzeuge erlaubt, auf andere Annotationsebenen zuzugreifen oder diese angemessen darzustellen Integration der Daten in einer einzigen Datenbank Anfragen über mehrere Annotationsebenen hinweg

Mehrebenenannotation Syntaxannotation NP NK NK NK Die einstige Fußball-Weltmacht ART ADJA NN Annotate, Synpathy

Mehrebenenannotation Anaphorik MMAX

Mehrebenenannotation Diskursstruktur RST Tool

Mehrebenenannotation Partitur-Annotation Exmaralda

ANNIS ANNIS Annotierte Daten Gemeinsames Datenformat Linguistische Datenbank Annotierte Daten Suche, Visualisierung, Export Morphologie, Syntax, Anaphorik, Diskursstruktur, Partitur-Annotationen Gemeinsames Datenformat PAULA Potsdamer Austauschformat für linguistische Annotationen

ANNIS Besondere Anforderungen Anfragen über mehrere Annotationsebenen hinweg Gemeinsames Datenbankformat für unterschiedliche Daten Direkter Einsatz in der empirischen Forschung Komfortable und mächtige Suchmöglichkeiten Statistische Funktionalität

ANNIS ANNIS 1 (2003-2006) entwickelt 2003-2006 Anfragesprache ANNIS-QL Partituransicht reine Hauptspeicherlösung im Browser zu benutzen lokale Installation möglich kann auf Anfrage zugänglich gemacht werden

ANNIS Suchfenster, Textansicht, Partituransicht (ANNIS 1)

ANNIS Anfragesprache ANNIS-QL Anfragen über mehrere Annotationsschichten ... um Wechselwirkungen zu studieren givenness=‘giv‘ & syncat=‘pp‘ & rhetrel=‘contrast‘ ... um abweichende Annotationsentscheidungen zu identifizieren ann1::givenness=‘new‘ & ann2::givenness=‘giv‘ & #1 _=_ #2 ... um Annotationen auf Vollständigkeit zu prüfen aboutness=‘ref‘ & givenness=‘‘ & #1 _=_ #2

ANNIS ANNIS 2 (seit 2006) entwickelt seit Mitte 2006 in Kooperation mit Ulf Leser, HU Berlin Weiterentwicklung von ANNIS 1 graphischer Editor für ANNIS-QL-Anfragen relationale DB (PostGreS) Erweiterung von ANNIS-QL differenzierte Visualisierung für unterschiedliche Datentypen reine Serveranwendung

ANNIS 2 Baumsuche* * Mehrfache Vorfeldbesetzung (TIGER)

ANNIS 2 Ergebnisliste* * Mehrfache Vorfeldbesetzung (TIGER)

ANNIS 2 Ergebnispräsentation: Baumansicht

ANNIS 2 Ergebnispräsentation: Koreferenz-Ansicht

ANNIS 2 Aktueller Status momentan ein Forschungsprototyp „Erprobungsphase“ mit interessierten Kooperationspartnern offizielles Release Anfang 2009 geplant Testzugänge dann möglich soll langfristig quelloffen zur Verfügung gestellt werden aktuelle Entwicklungen Verbesserung der Stabilität und Performanz Erweiterung der Datenbasis verbesserte statistische Funktionalität Export einer Trefferliste in einem Tabellenformat

ANNIS & SPLICR ANNIS SPLICR Ontologien linguistischer Annotationen Querying und Visualisierung von Mehrebenenannotationen SPLICR Nachhaltige Archivierung linguistischer Daten Ontologien linguistischer Annotationen ... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen Schlussworte

SPLICR Infrastruktur für ein Nachhaltigkeitsarchiv Sustainability Platform for Linguistic Corpora and Resources Kooperationsprojekt „Nachhaltigkeit linguistischer Daten“ (Reis/Hinrichs) Datenbank für die nachhaltige Archivierung der Daten aller beteiligten SFBs SFB 441 „Linguistische Datenstrukturen“, Tübingen SFB 538 „Mehrsprachigkeit“, Hamburg SFB 632 „Informationsstruktur“, Potsdam/HU Berlin

SPLICR Besondere Anforderungen Nachhaltige Archivierung Daten sollen langfristig zugänglich gemacht werden Entscheidungshilfe dafür, welche Korpora ein Nutzer anfordern sollte Daten sollen sich dem Nutzer ohne langwieriges Studium der Dokumentation erschließen Direkt lesbares Datenformat (XML)

SPLICR Besondere Anforderungen SPLICR dient zum Nachweis und zur Erhaltung existierender Ressourcen heterogene Datenbasis Daten werden nur so weit verändert, wie für die Datenbankrepräsentation notwendig Vorlagen-basierte Anfragen auf Robustheit optimiert weniger auf Performanz keine Statistikfunktionalität Abfragen für jeweils nur eine Ressource und eine Annotationsebene

SPLICR Ressourcenüberblick und -auswahl andere philosophie zum umgang mit metadaten: werden nicht abgefragt, sondern zum filtern der ressourcen verwendet

SPLICR Suchfunktionalität Volltextsuche Suche nach Zeichenfolgen in den Originaldaten Konzeptsuche Suche nach Annotationen mit Hilfe kurzer konzeptueller Beschreibungen Rückgabekontext „Clause“ statt //ntNode[@cat=‘S‘] Annotationsschicht „Parts of Speech“ statt //*/pos/@genau:value Annotationswert „Auxilliary Verb, finite“ statt //*/pos[@genau:value=‘VAFIN‘] Baumsuche sucht nach Annotationen oder Annotationskonzepten erweitert Konzeptsuche um Dominanz- und Präzedenzrelationen

SPLICR Konzeptsuche

SPLICR Baumsuche

SPLICR Präsentation der Suchergebnisse verschiedene Visualisierungen der XML-Struktur der Daten Textansicht alle Annotationen ausgeblendet Boxansicht ähnlich der ANNIS-Partituransicht Baumansicht Visualisierung des XML-Baumes nicht notwendigerweise ein Baum im linguistischen Sinne XML formatierte Ausgabe der XML-Daten

SPLICR Ergebnisansicht: Boxansicht

SPLICR Ergebnisansicht: Baumansicht

SPLICR wird nach Beendigung des Nachhaltigkeitsprojektes (Dezember 2008) in Betrieb genommen erfasst die Daten und Metadaten der erfassten Ressourcen die Konzeptsuche erfordert zusätzlich, die Annotationen und das Korpusformat auf bestimmte Weise zu dokumentieren Ontologien linguistischer Annotationen

ANNIS & SPLICR ANNIS SPLICR Ontologien linguistischer Annotationen Querying und Visualisierung von Mehrebenenannotationen SPLICR Nachhaltige Archivierung linguistischer Daten Ontologien linguistischer Annotationen ... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen Schlussworte

OLiA Motivation Überwindung der Kluft zwischen real existierender Annotation und den Intuitionen ihrer Nutzer verbesserte Aufbereitung konzeptbasierte Suche gesteigerte Transparenz Dokumentation von Annotationen Formalisierung von Annotationsschemata Abbildung zwischen Annotationen auf eine wohldefinierte Basisterminologie

OLiA Motivation: Annotation vs. Intuition Annotationsschemata erzwingen eine eindeutige Kategorisierung sämtlicher Phänomene Neben theoretischen Überlegungen gehen aber auch pragmatische Designentscheidungen in Annotationsschemata ein in unterschiedlichen Korpora/Annotationsschemata abweichend „Otto Normallinguist“ muss Strategien entwickeln, Tag-Definitionen schnell zu erfassen, um mit den Daten arbeiten zu können

OLiA Motivation: Annotation vs. Intuition Strategien zum Deuten von linguistischen Annotationen Die „intuitive“ Methode Was sich wie „Hilfsverb“ anhört, meint das sicher auch. Die Analogie-Methode Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben definiert werden. Das ist hier sicherlich genauso. Die „Schau-mer-mal“-Methode Was war doch gleich das Tag für Hilfsverben im Korpus ? Die „richtige“ Methode Was sagt eigentlich die Dokumentation ?

OLiA Motivation: Annotation vs. Intuition Strategien zum Deuten von linguistischen Annotationen Die „intuitive“ Methode Was sich wie „Hilfsverb“ anhört, meint das sicher auch. Die Analogie-Methode Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben definiert werden. Das ist hier sicherlich genauso. Die „Schau-mer-mal“-Methode Was war doch gleich das Tag für Hilfsverben im Korpus ? Die „richtige“ Methode Was sagt eigentlich die Dokumentation ? Minimaler Aufwand Maximaler Aufwand

OLiA Annotation vs. Intuition Die „intuitive“ Methode Was sich wie „Hilfsverb“ anhört, meint das sicher auch Naja, nicht bei Morphy* Und auch nicht bei STTS** * http://www.wolfganglezius.de/doku.php?id=public:cl:morphy (15.10.08) ** Schiller et al. (1999), S.29

OLiA Annotation vs. Intuition Die Analogie-Methode „Hilfsverb“ bezeichnet also eigentlich potentielle Hilfsverben Naja, nicht im Connexor-Tagset* Aber glaub mir, das ist nicht das Ende, denn das ist noch lange nicht gekommen. * http://www.connexor.eu/technology/machinese/demo/syntax/ (15.10.08)

OLiA Annotation vs. Intuition Die „Schau-mer-mal“-Methode Was war doch gleich das Tag für Hilfsverben im Korpus ? erster Beleg in TIGERSampler: VAFIN

OLiA Annotation vs. Intuition Die „richtige“ Methode Was sagt eigentlich die Dokumentation ? Manchmal etwas zu viel TüBa-D/Z: 146 Seiten* Susanne: 483 Seiten** Manchmal etwas zu wenig Z.B. als reine Tag-Liste Vor allem aber: Jedes Annotationsschema auf seine eigene Weise ? * H. Telljohann et al. (2006), Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z) ** G. Sampson (1996), The Susanne corpus and analytic scheme

OLiA Die Idee Formale Modellierung der linguistischen Basisterminologie „Referenzmodell“* Formale Spezifikation der Terminologie jedes einzelnen Annotationsschemas „Annotationsmodell“ Annotationskonzepte werden als Subkonzepte von Referenzkonzepten spezifiziert „Linking“ kann komplex sein** * Bezogen auf die in SPLICR und ANNIS vorliegenden Annotationen ** Annotationskonzept C, Referenzkonzepte A,B

OLiA Die Idee Formalisierung XML-basierte Formalismen OWL/DL Abweichungen von Referenzdefinitionen klar herausgestellt Hilfsverben in STTS: explizit und eindeutig kompakte Repräsentation XML-basierte Formalismen leicht in menschenlesbare Darstellung konvertierbar HTML-Dokumentation OWL/DL

OLiA Die Idee Formalisierung XML-basierte Formalismen Abweichungen von Referenzdefinitionen klar herausgestellt Hilfsverben in STTS: explizit und eindeutig kompakte Repräsentation XML-basierte Formalismen leicht in menschenlesbare Darstellung konvertierbar HTML-Dokumentation Formalisierung als Ontologie (OWL/DL)

OLiA Ontologien in der Informationsverarbeitung Konzeptualisierung einer bestimmten Domäne z.B. eine Taxonomie linguistischer Termini hierarchisch und relational strukturiert OWL (Web Ontology Language)* formale Beschreibungssprache für Ontologien XML-basiert Semantic Web * Web Ontology Language, http://www.w3.org/2004/OWL/ (10.10.08)

OLiA Projekte zur linguistischen Terminologie: EAGLES Expert Advisory Group on Language Engineering* Standardisierungsprojekt der EU (1993 – 1996) Empfehlungen für Annotationschemata v.a. Wortarten, Morphologie, Syntax; Lexika ausgehend von existierenden Schemata Identifizierung sich wiederholender Begriffe kein nennenswerter theoretischer Unterbau keine Referenzdefinitionen * http://www.ilc.cnr.it/EAGLES96/home.html (06.09.2008)

OLiA Projekte zur linguistischen Terminologie: GOLD General Ontology for Linguistic Description* im Rahmen des E-MELD-Projektes zur Dokumentation bedrohter Sprachen entwickelt (2001-2006) auf der Basis v.a. typologischer Literatur Schwerpunkt auf Morphosyntax OWL/DL * http://www.linguistics-ontology.org/ (06.09.2007) ** Electronic Metastructure for Endangered Languages Data (http://www.emeld.org/index.cfm, 06.09.2007)

OLiA Weitere Projekte zur linguistischen Terminologie (Auswahl) Data Category Registry (Ide 2003)* Weiterentwicklung der EAGLES-Empfehlungen, erweitert um Definitionen OntoTag (de Cea et al. 2003) Ontologie morphosyntaktischer Annotationen des Spanischen Typological Database System Ontology (Dimitriadis et al., 2005)** OWL-Ontologie der Terminologie typologischer Datensammlungen * http://www.isocat.org/ (15.10.08) ** http://languagelink.let.uu.nl/tds/main.html (15.10.08)

OLiA Weitere Projekte zur linguistischen Terminologie (Auswahl) IDS-Ontologie (Schneider 2007) Terminologie zur Grammatikbeschreibung im Deutschen G. Wilcock (2008) OWL-Ontologie für HPSG als Erweiterung von GOLD A. Burchardt et al. (2008) OWL-Formalisierung annotierter Korpora und ihrer Annotation Die OliA-Ontologien sollen modular strukturiert sein, um diese Ontologien als externe Wissensquellen einbinden zu können.

OLiA Strukturkomponenten Annotationsmodell 10 Annotationsmodelle zu mehreren Europäischen und Außereuropäischen Sprachen Wortarten, Morphologie, Syntax, Koreferenz, Informationsstruktur OLiA Referenzmodell Generalisiert über die Annotationsmodelle Basiert u.a. auf EAGLES und GOLD Linking Erweiterbare Architektur Anbindung externer Referenzmodels (GOLD, OntoTag, Data Category Registry) möglich OLiA Referenzmodel reference.owl stts.owl susanne.owl russ.owl stts-link.rdf susanne-link.rdf importiert russ-link.rdf model.owl Ontologie, die übrige Komponenten importiert

OLiA Annotationsmodell, Referenzmodell und Linking: Beispiel

OLiA Ontologieerstellung mit Protégé: Konzepthierarchie Die Konzepthierarchie definiert eine Taxonomie von Basiskonzepten für das Referenzmodell (e-eagles.owl) wie auch Annotationsmodelle (z.B. stts.owl)

OLiA Ontologieerstellung mit Protégé: Relationen Relationen (Properties) ordnen Konzept- Instanzen andere Konzeptinstanzen zu, z.B. einem LinguisticElement ein GrammaticalFeature

OLiA Ontologieerstellung mit Protégé: Individuen Individuen sind durch die Zugehörigkeit zu einem oder mehreren Konzepten und bestimmte Merkmalswerte/Relationen charakterisiert. Individuen der Unterkonzepte von LinguisticElement wird ein Annotations- wert zugeordnet.

OLiA Dokumentation anwendungs-spezifischer HTML-Export Konzepte sind mittels Hyperlinks verbunden in SPLICR zu Dokumentations-zwecken eingesetzt Annotationsmodelle sind den Korpora mit entsprechenden Annotationen zugeordnet Konzepte des STTS Annotationsmodells Referenzkonzepte

OLiA Anwendung jenseits der Dokumentation Dokumentation von Annotationsschemata (SPLICR) kompakte und einheitliche Darstellungsweise erleichtert das Auffinden relevanter Informationen über die Annotation Suchfunktionalität SPLICR: Ausgangsdaten für Konzeptsuche OntoClient: direkte Übersetzung ontologischer Beschreibungen in konkrete Tags

OLiA Metadaten und Konzeptsuche in SPLICR Registriert und spezifiziert die zu einem Korpus gehörigen Daten Manifest Metadaten für die Suche Definieren Rückgabekontexte (Clause, Sentence) annotation-concepts.xml Metadaten für das XML-Format Definieren, wie Attribut-Wert-Paare in einem Korpus dargestellt werden eTEI Metadaten annotation-structures.xml Metadaten, die Primärdaten und die Annotation betreffend Metadaten für die Suche Definieren mögliche Attribut-Wert-Paare in einem Korpus Korpus Sammlung von XML-Dokumenten Primärdaten und Annotationen annotation-values.xml

OLiA Ontologien und Metadaten in SPLICR Registriert und spezifiziert die zu einem Korpus gehörigen Daten Manifest Metadaten für konzeptbasierte Suche sind aus OLiA- Ontologien extrahierbar Metadaten für die Suche Definieren Rückgabekontexte (Clause, Sentence) annotation-concepts.xml Metadaten für das XML-Format Definieren, wie Attribut-Wert-Paare in einem Korpus dargestellt werden eTEI Metadaten annotation-structures.xml Ordnen einner Annotation ein OLiA Annotationsmodell zu Metadaten, die Primärdaten und die Annotation betreffend Metadaten für die Suche Definieren mögliche Attribut-Wert-Paare in einem Korpus ermöglicht die Anwendung des OntoClient für die ontologie- basierte Suche Korpus Sammlung von XML-Dokumenten Primärdaten und Annotationen annotation-values.xml

OLiA Ontologiebasierte Suche Suchanfrage ... pos in { Noun \ Nominal } & cat = ... Noun Konsultation der Ontologie ermittle Tags für jedes angefragte Ontologie- Konzept 2. wende Operatoren an CommonNoun Substantive Linking Nominal ProperNoun VerbalNoun MassNoun CountableNoun Referenzmodell tibet: CommonNoun tibet: ProperNoun tibet: InanimateNoun tibet: AnimateNoun tibet: Person NAME NOM_inan NOM_pers NOM_inan_lq NOM_anim NOM_pers_anim Annotationsmodell NOM_anim_lq Ausgabe der erweiterten Anfrage ... pos = NOM_inan | NOM_inan_lq | NOM_anim | NOM_anim_lq | NOM_anim_pers | NOM_pers | NAME & cat = ...

OLiA OntoClient OntoClient Beispielanwendungen JAVA-Bibliothek erweitert beliebige Korpusanfragesprachen um ontologiebasierte Suche Beispielanwendungen Ontologie-basierte Suche für CQP Ontologie-basierte Suche in ANNIS 1 wird in SPLICR und ANNIS 2 integriert

OLiA OntoClient + ANNIS 1 ontologische Beschreibung generierte ANNIS-QL-Anfrage

OLiA unterstützt die konsistente Dokumentation von Annotationen HTML-Darstellung ermöglicht Nutzern, schnell annotierte Korpora zu konsultieren ohne auf die vollständige Dokumentation zurückgreifen zu müssen SPLICR Konzeptsuche / OntoClient ermöglicht Anfragen über unterschiedlich annotierte Korpora hinweg OntoClient

ANNIS & SPLICR ANNIS SPLICR Ontologien linguistischer Annotationen Querying und Visualisierung von Mehrebenenannotationen SPLICR Nachhaltige Archivierung linguistischer Daten Ontologien linguistischer Annotationen ... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen Schlussworte

Vergleich von ANNIS und SPLICR komplexes Datenformat Datenkonvertierung mittels existierender Konverter geringer Aufbereitungsaufwand neben der unmittelbaren Konvertierung empirische Arbeit mit Mehrebenen-annotationen relativ einfaches Datenformat eigene Konverter leicht zu entwickeln hoher Aufbereitungsaufwand neben der unmittelbaren Konvertierung nachhaltige Archivierung von Datensammlungen

Verfügbarkeit ANNIS 1 Zugang zur Potsdamer Installation kann auf Wunsch bereitgestellt werden lokale Installation kann auf Anfrage bei chiarcos@uni-potsdam.de bereitgestellt werden Datenkonverter sind über ein Webformular erreichbar

Verfügbarkeit ANNIS 2 befindet sich momentan noch in der Erprobungsphase Veröffentlichung wird momentan vorbereitet und ist für 2009 zu erwarten Anfang 2009 sollen Nutzer freie Testzugänge erhalten können Mittelfristig ist eine Veröffentlichung des Quellcodes geplant Lizenz noch unklar, aber quelloffen

Verfügbarkeit SPLICR wird nach Beendigung des Projekts „Nachhaltigkeit linguistischer Daten“ (Dezember 2008) der Öffentlichkeit zugänglich gemacht momentan werden die SFB-Korpora in die Plattform integriert Daten und Metadaten (z.B. zur Zugänglichkeit) Veröffentlichung des Quellcodes unter einer quelloffenen Lizenz geplant

Verfügbarkeit OLiA-Ontologien werden in den Releases von ANNIS 2 und SPLICR enthalten sein über das Internet zugänglich http://nachhalt.sfb632.uni-potsdam.de/owl/all.rdf (in Protégé zu öffnen) Werkzeuge HTML-Visualisierung OntoClient

Vielen Dank für Ihre Aufmerksamkeit

Beteiligte Kollegen ANNIS-Team (U Potsdam, HU Berlin) Manfred Stede, Anke Lüdeling, Ulf Leser, Stefanie Dipper, Michael Götze, Julia Ritz, Amir Zeldes, Florian Zipser, Viktor Rosenfeld, Karsten Hütter, Thomas Krause, Tilman Wegst (extern) SPLICR-Team (U Tübingen, U Hamburg) Erhard Hinrichs, Marga Reis, Andreas Witt, Georg Rehm, Timm Lehmberg, Oliver Schonefeld, Richard Eckart (TU Darmstadt), Johannes Dellert, Kilian Evang, Magdalena Leshtanska OLiA-Team (U Potsdam) Angelika Adam, Alexander Becker, Johannes Bubenzer, Thomas Augustin

Diskussionspunkte weitere Aspekte (Auswahl) Technische Details zu den Datenbanken Wahrung von Urheber- und Nutzungsrechten an Daten und Annotationen Beispielpipelines für konkrete Datensätze Erstellung und Wartung von Ontologien Statistische Funktionalität

Anhang Technische Details zu ANNIS & SPLICR Client-Server-Architekturen Inkrementeller Datenabruf Unicode Datenbank SPLICR XML-Datenbank eXist / Annolab optimiert für hierarchische Annotationen SQL-Datenbank Metadaten ANNIS Relationale Datenbank PostGreS erlaubt Umgang mit hierarchischen und graph-basierten Annotationen

Anhang Architektur ANNIS 2 Baumsuche ANNIS-QL-Suche Backend

Anhang Architektur SPLICR SQL Datenbank Metadaten XML Datenbank aufbereitete Korpusdaten XQuery SQL Dateisystem Originaldaten OLiA-Ontologien Annotationsschemata Anfrageobjekte diverse Anfragemodi Formulardaten Backend XML (Daten) JSON (Visualisierung)

Anhang ANNIS und WEKA TIGER XML Exmaralda RST Tool MMAX POS, morph, syntax Informationsstruktur Diskursstruktur Koreferenz Konvertierung nach PAULA ANNIS Integration unterschiedlicher Annotationen desselben Satzes von Dokumenten Extrahierung von Merkmalstabellen ANNIS 2 wird Standardroutinen dafür enthalten Konvertierung nach ARFF WEKA WEKA* Arbeitsumgebung für Statistikanalysen statistische, neuronale, symbolische Klassifikatoren * http://sourceforge.net/projects/weka/

Anhang WEKA Vorverarbeitung: Auswahl relevanter Merkmale aus einer ARFF-Tabelle

Anhang WEKA Beispielanalyse (Entscheidungsbaum) Informationsstatus und referentielle Ausdrücke im Deutschen (Potsdamer Kommentarkorpus)