Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos

Ähnliche Präsentationen


Präsentation zum Thema: "ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos"—  Präsentation transkript:

1 ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos

2 Großflächige Akzeptanz und Ausweitung empirischer, v.a. korpusbasierter Arbeiten in den letzten 20 Jahren. Theres no data like more data. Neue technische und methodische Anforderungen für die Arbeit mit linguistischen Datensammlungen

3 Probleme bei der Arbeit mit Korpora Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer Nachhaltige Archivierung und Dokumentation ? Die Vielfalt linguistischer Annotationen nimmt immer mehr zu Zusammenführung verschiedener Annotationen, die mit verschiedenen Spezialwerkzeugen geschaffen wurden ? Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition Wie kann Otto Normallinguist vor Fehlschlüssen bewahrt werden ?

4 Probleme bei der Arbeit mit Korpora Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer Nachhaltige Archivierung und Dokumentation ? Die Vielfalt linguistischer Annotationen nimmt immer mehr zu Zusammenführung verschiedener Annotationen, die mit verschiedenen Spezialwerkzeugen geschaffen wurden ? Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition Wie kann Otto Normallinguist vor Fehlschlüssen bewahrt werden ? Ontologien linguistischer Annotationen OLiA Datenbank der Annotationen zur Informationsstruktur ANNIS Sustainability Platform for Linguistic Corpora and Resources SPLICR

5 Probleme bei der Arbeit mit Korpora Ontologien linguistischer Annotationen OLiA Datenbank der Annotationen zur Informationsstruktur ANNIS Sustainability Platform for Linguistic Corpora and Resources SPLICR SFB 632 Information Structure

6 ANNIS & SPLICR ANNIS (SFB632 Informationsstruktur) –Querying und Visualisierung von Mehrebenenannotationen SPLICR (SFB441 Linguistische Datenstrukturen) –Nachhaltige Archivierung linguistischer Daten Ontologien linguistischer Annotationen... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen Schlussworte

7 ANNIS SFB 632 Informationsstruktur Potsdam, HU Berlin Projekt Linguistische Datenbank (Stede/Lüdeling) Datenbank für die dort aufgebauten Annotationen zur Informationsstruktur –10 Datenprojekte unterschiedlicher linguistischer Disziplinen Typologie, Historische Sprachwissenschaft, Korpuslinguistik, Computerlinguistik

8 ANNIS Besondere Anforderungen Mehrebenenannotation Diskursphänomene erfordern die Betrachtung unterschiedlicher linguistischer Beschreibungsebenen –Morphologie und Syntax –Semantik –Phonologie und Prosodie –Anaphorik –Diskursstruktur –Informationsstruktur und Informationsstatus

9 ANNIS Besondere Anforderungen Mehrebenenannotation Annotation von Diskursphänomenen erfordert unterschiedliche spezialisierte Werkzeuge –Toolbox/Shoebox –Exmaralda/ELAN –Annotate/Synpathy –MMAX/Palinka –RSTTool Links ergänzen

10 ANNIS Besondere Anforderungen Mehrebenenannotation Annotation von Diskursphänomenen erfordert unterschiedliche spezialisierte Werkzeuge Keines dieser Werkzeuge erlaubt, auf andere Annotationsebenen zuzugreifen oder diese angemessen darzustellen Integration der Daten in einer einzigen Datenbank Anfragen über mehrere Annotationsebenen hinweg

11 Mehrebenenannotation Syntaxannotation Annotate, Synpathy NK NP NK Die einstigeFußball-Weltmacht ARTADJANN

12 Mehrebenenannotation Anaphorik MMAX

13 Mehrebenenannotation Diskursstruktur RST Tool

14 Mehrebenenannotation Partitur-Annotation Exmaralda

15 ANNIS Annotierte Daten Morphologie, Syntax, Anaphorik, Diskursstruktur, Partitur-Annotationen Gemeinsames Datenformat ANNIS Linguistische Datenbank Suche, Visualisierung, Export PAULA Potsdamer Austauschformat für linguistische Annotationen

16 ANNIS Besondere Anforderungen Anfragen über mehrere Annotationsebenen hinweg Gemeinsames Datenbankformat für unterschiedliche Daten Direkter Einsatz in der empirischen Forschung –Komfortable und mächtige Suchmöglichkeiten –Statistische Funktionalität

17 ANNIS ANNIS 1 ( ) entwickelt Anfragesprache ANNIS-QL Partituransicht reine Hauptspeicherlösung im Browser zu benutzen –lokale Installation möglich –kann auf Anfrage zugänglich gemacht werden

18 ANNIS Suchfenster, Textansicht, Partituransicht (ANNIS 1)

19 ANNIS Anfragesprache ANNIS-QL Anfragen über mehrere Annotationsschichten –... um Wechselwirkungen zu studieren givenness=giv & syncat=pp & rhetrel=contrast –... um abweichende Annotationsentscheidungen zu identifizieren ann1::givenness=new & ann2::givenness=giv & #1 _=_ #2 –... um Annotationen auf Vollständigkeit zu prüfen aboutness=ref & givenness= & #1 _=_ #2

20 ANNIS ANNIS 2 (seit 2006) entwickelt seit Mitte 2006 –in Kooperation mit Ulf Leser, HU Berlin Weiterentwicklung von ANNIS 1 –graphischer Editor für ANNIS-QL-Anfragen –relationale DB (PostGreS) –Erweiterung von ANNIS-QL –differenzierte Visualisierung für unterschiedliche Datentypen –reine Serveranwendung

21 ANNIS 2 Baumsuche* * Mehrfache Vorfeldbesetzung (TIGER)

22 ANNIS 2 Ergebnisliste* * Mehrfache Vorfeldbesetzung (TIGER)

23 ANNIS 2 Ergebnispräsentation: Baumansicht

24 ANNIS 2 Ergebnispräsentation: Koreferenz-Ansicht

25 ANNIS 2 Aktueller Status momentan ein Forschungsprototyp –Erprobungsphase mit interessierten Kooperationspartnern –offizielles Release Anfang 2009 geplant Testzugänge dann möglich –soll langfristig quelloffen zur Verfügung gestellt werden aktuelle Entwicklungen –Verbesserung der Stabilität und Performanz –Erweiterung der Datenbasis –verbesserte statistische Funktionalität Export einer Trefferliste in einem Tabellenformat

26 ANNIS & SPLICR ANNIS –Querying und Visualisierung von Mehrebenenannotationen SPLICR –Nachhaltige Archivierung linguistischer Daten Ontologien linguistischer Annotationen... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen Schlussworte

27 SPLICR Infrastruktur für ein Nachhaltigkeitsarchiv Sustainability Platform for Linguistic Corpora and Resources Kooperationsprojekt Nachhaltigkeit linguistischer Daten (Reis/Hinrichs) Datenbank für die nachhaltige Archivierung der Daten aller beteiligten SFBs –SFB 441 Linguistische Datenstrukturen, Tübingen –SFB 538 Mehrsprachigkeit, Hamburg –SFB 632 Informationsstruktur, Potsdam/HU Berlin

28 SPLICR Besondere Anforderungen Nachhaltige Archivierung –Daten sollen langfristig zugänglich gemacht werden –Entscheidungshilfe dafür, welche Korpora ein Nutzer anfordern sollte –Daten sollen sich dem Nutzer ohne langwieriges Studium der Dokumentation erschließen –Direkt lesbares Datenformat (XML)

29 SPLICR Besondere Anforderungen SPLICR dient zum Nachweis und zur Erhaltung existierender Ressourcen –heterogene Datenbasis Daten werden nur so weit verändert, wie für die Datenbankrepräsentation notwendig –Vorlagen-basierte Anfragen –auf Robustheit optimiert weniger auf Performanz –keine Statistikfunktionalität –Abfragen für jeweils nur eine Ressource und eine Annotationsebene

30 SPLICR Ressourcenüberblick und -auswahl

31 SPLICR Suchfunktionalität Volltextsuche –Suche nach Zeichenfolgen in den Originaldaten Konzeptsuche –Suche nach Annotationen mit Hilfe kurzer konzeptueller Beschreibungen Rückgabekontext Clause statt Annotationsschicht Parts of Speech statt Annotationswert Auxilliary Verb, finitestatt Baumsuche –sucht nach Annotationen oder Annotationskonzepten –erweitert Konzeptsuche um Dominanz- und Präzedenzrelationen

32 SPLICR Konzeptsuche

33 SPLICR Baumsuche

34 SPLICR Präsentation der Suchergebnisse verschiedene Visualisierungen der XML- Struktur der Daten –Textansicht alle Annotationen ausgeblendet –Boxansicht ähnlich der ANNIS-Partituransicht –Baumansicht Visualisierung des XML-Baumes nicht notwendigerweise ein Baum im linguistischen Sinne –XML formatierte Ausgabe der XML-Daten

35 SPLICR Ergebnisansicht: Boxansicht

36 SPLICR Ergebnisansicht: Baumansicht

37 SPLICR wird nach Beendigung des Nachhaltigkeitsprojektes (Dezember 2008) in Betrieb genommen erfasst die Daten und Metadaten der erfassten Ressourcen die Konzeptsuche erfordert zusätzlich, die Annotationen und das Korpusformat auf bestimmte Weise zu dokumentieren Ontologien linguistischer Annotationen

38 ANNIS & SPLICR ANNIS –Querying und Visualisierung von Mehrebenenannotationen SPLICR –Nachhaltige Archivierung linguistischer Daten Ontologien linguistischer Annotationen... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen Schlussworte

39 OLiA Motivation Überwindung der Kluft zwischen real existierender Annotation und den Intuitionen ihrer Nutzer –verbesserte Aufbereitung konzeptbasierte Suche –gesteigerte Transparenz Dokumentation von Annotationen Formalisierung von Annotationsschemata Abbildung zwischen Annotationen auf eine wohldefinierte Basisterminologie

40 OLiA Motivation: Annotation vs. Intuition Annotationsschemata erzwingen eine eindeutige Kategorisierung sämtlicher Phänomene Neben theoretischen Überlegungen gehen aber auch pragmatische Designentscheidungen in Annotationsschemata ein –in unterschiedlichen Korpora/Annotationsschemata abweichend Otto Normallinguist muss Strategien entwickeln, Tag-Definitionen schnell zu erfassen, um mit den Daten arbeiten zu können

41 OLiA Motivation: Annotation vs. Intuition Strategien zum Deuten von linguistischen Annotationen –Die intuitive Methode Was sich wie Hilfsverb anhört, meint das sicher auch. –Die Analogie-Methode Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben definiert werden. Das ist hier sicherlich genauso. –Die Schau-mer-mal-Methode Was war doch gleich das Tag für Hilfsverben im Korpus ? –Die richtige Methode Was sagt eigentlich die Dokumentation ?

42 OLiA Motivation: Annotation vs. Intuition Strategien zum Deuten von linguistischen Annotationen –Die intuitive Methode Was sich wie Hilfsverb anhört, meint das sicher auch. –Die Analogie-Methode Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben definiert werden. Das ist hier sicherlich genauso. –Die Schau-mer-mal-Methode Was war doch gleich das Tag für Hilfsverben im Korpus ? –Die richtige Methode Was sagt eigentlich die Dokumentation ? Minimaler Aufwand Maximaler Aufwand

43 OLiA Annotation vs. Intuition Die intuitive Methode –Was sich wie Hilfsverb anhört, meint das sicher auch –Naja, nicht bei Morphy* –Und auch nicht bei STTS** * ( )http://www.wolfganglezius.de/doku.php?id=public:cl:morphy ** Schiller et al. (1999), S.29

44 OLiA Annotation vs. Intuition Die Analogie-Methode –Hilfsverb bezeichnet also eigentlich potentielle Hilfsverben –Naja, nicht im Connexor-Tagset* * ( )http://www.connexor.eu/technology/machinese/demo/syntax/ Aber glaub mir, das ist nicht das Ende, denn das ist noch lange nicht gekommen.

45 Die Schau-mer-mal-Methode –Was war doch gleich das Tag für Hilfsverben im Korpus ? –erster Beleg in TIGERSampler: VAFIN OLiA Annotation vs. Intuition

46 Die richtige Methode –Was sagt eigentlich die Dokumentation ? –Manchmal etwas zu viel TüBa-D/Z:146 Seiten* Susanne: 483 Seiten** –Manchmal etwas zu wenig Z.B. als reine Tag-Liste –Vor allem aber: Jedes Annotationsschema auf seine eigene Weise OLiA Annotation vs. Intuition ? ? * H. Telljohann et al. (2006), Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z) **G. Sampson (1996), The Susanne corpus and analytic scheme

47 OLiA Die Idee Formale Modellierung der linguistischen Basisterminologie Referenzmodell* Formale Spezifikation der Terminologie jedes einzelnen Annotationsschemas Annotationsmodell Annotationskonzepte werden als Subkonzepte von Referenzkonzepten spezifiziert Linking kann komplex sein** * Bezogen auf die in SPLICR und ANNIS vorliegenden Annotationen **Annotationskonzept C, Referenzkonzepte A,B

48 OLiA Die Idee Formalisierung Abweichungen von Referenzdefinitionen klar herausgestellt Hilfsverben in STTS: explizit und eindeutig kompakte Repräsentation XML-basierte Formalismen leicht in menschenlesbare Darstellung konvertierbar HTML-Dokumentation OWL/DL

49 OLiA Die Idee Formalisierung Abweichungen von Referenzdefinitionen klar herausgestellt Hilfsverben in STTS: explizit und eindeutig kompakte Repräsentation XML-basierte Formalismen leicht in menschenlesbare Darstellung konvertierbar HTML-Dokumentation Formalisierung als Ontologie (OWL/DL)

50 OLiA Ontologien in der Informationsverarbeitung Ontologie –Konzeptualisierung einer bestimmten Domäne z.B. eine Taxonomie linguistischer Termini –hierarchisch und relational strukturiert OWL (Web Ontology Language)* –formale Beschreibungssprache für Ontologien –XML-basiert –Semantic Web * Web Ontology Language, ( )http://www.w3.org/2004/OWL/

51 OLiA Projekte zur linguistischen Terminologie: EAGLES Expert Advisory Group on Language Engineering* –Standardisierungsprojekt der EU (1993 – 1996) Empfehlungen für Annotationschemata –v.a. Wortarten, Morphologie, Syntax; Lexika –ausgehend von existierenden Schemata Identifizierung sich wiederholender Begriffe –kein nennenswerter theoretischer Unterbau keine Referenzdefinitionen * ( )http://www.ilc.cnr.it/EAGLES96/home.html

52 OLiA Projekte zur linguistischen Terminologie: GOLD General Ontology for Linguistic Description* –im Rahmen des E-MELD-Projektes zur Dokumentation bedrohter Sprachen entwickelt ( ) auf der Basis v.a. typologischer Literatur –Schwerpunkt auf Morphosyntax –OWL/DL * ( )http://www.linguistics-ontology.org/ ** Electronic Metastructure for Endangered Languages Data (http://www.emeld.org/index.cfm, )http://www.emeld.org/index.cfm

53 OLiA Weitere Projekte zur linguistischen Terminologie (Auswahl) Data Category Registry (Ide 2003)* –Weiterentwicklung der EAGLES-Empfehlungen, erweitert um Definitionen OntoTag (de Cea et al. 2003) –Ontologie morphosyntaktischer Annotationen des Spanischen Typological Database System Ontology (Dimitriadis et al., 2005)** –OWL-Ontologie der Terminologie typologischer Datensammlungen *http://www.isocat.org/ ( )http://www.isocat.org/ **http://languagelink.let.uu.nl/tds/main.html ( )http://languagelink.let.uu.nl/tds/main.html

54 OLiA Weitere Projekte zur linguistischen Terminologie (Auswahl) IDS-Ontologie (Schneider 2007) –Terminologie zur Grammatikbeschreibung im Deutschen G. Wilcock (2008) –OWL-Ontologie für HPSG als Erweiterung von GOLD A. Burchardt et al. (2008) –OWL-Formalisierung annotierter Korpora und ihrer Annotation Die OliA-Ontologien sollen modular strukturiert sein, um diese Ontologien als externe Wissensquellen einbinden zu können.

55 OLiA Strukturkomponenten Annotationsmodell 10 Annotationsmodelle zu mehreren Europäischen und Außereuropäischen Sprachen Wortarten, Morphologie, Syntax, Koreferenz, Informationsstruktur OLiA Referenzmodell Generalisiert über die Annotationsmodelle Basiert u.a. auf EAGLES und GOLD Linking Erweiterbare Architektur Anbindung externer Referenzmodels (GOLD, OntoTag, Data Category Registry) möglich reference.owl stts.owl importiert stts-link.rdf susanne.owl susanne-link.rdf russ.owl russ-link.rdf model.owl OLiA Referenzmodel Ontologie, die übrige Komponenten importiert

56 OLiA Annotationsmodell, Referenzmodell und Linking: Beispiel

57 OLiA Ontologieerstellung mit Protégé: Konzepthierarchie Die Konzepthierarchie definiert eine Taxonomie von Basiskonzepten für das Referenzmodell (e-eagles.owl) wie auch Annotationsmodelle (z.B. stts.owl)

58 OLiA Ontologieerstellung mit Protégé: Relationen Relationen (Properties) ordnen Konzept- Instanzen andere Konzeptinstanzen zu, z.B. einem LinguisticElement ein GrammaticalFeature

59 OLiA Ontologieerstellung mit Protégé: Individuen Individuen sind durch die Zugehörigkeit zu einem oder mehreren Konzepten und bestimmte Merkmalswerte/Relationen charakterisiert. Individuen der Unterkonzepte von LinguisticElement wird ein Annotations- wert zugeordnet.

60 OLiA Dokumentation anwendungs-spezifischer HTML-Export –Konzepte sind mittels Hyperlinks verbunden in SPLICR zu Dokumentations-zwecken eingesetzt Annotationsmodelle sind den Korpora mit entsprechenden Annotationen zugeordnet Referenzkonzepte Konzepte des STTS Annotationsmodells

61 OLiA Anwendung jenseits der Dokumentation Dokumentation von Annotationsschemata (SPLICR) –kompakte und einheitliche Darstellungsweise erleichtert das Auffinden relevanter Informationen über die Annotation Suchfunktionalität –SPLICR: Ausgangsdaten für Konzeptsuche –OntoClient: direkte Übersetzung ontologischer Beschreibungen in konkrete Tags

62 OLiA Metadaten und Konzeptsuche in SPLICR Korpus Manifest annotation-concepts.xml annotation-structures.xml annotation-values.xml eTEI Metadaten Registriert und spezifiziert die zu einem Korpus gehörigen Daten Metadaten, die Primärdaten und die Annotation betreffend Sammlung von XML-Dokumenten Primärdaten und Annotationen Metadaten für die Suche Definieren Rückgabekontexte (Clause, Sentence) Metadaten für das XML-Format Definieren, wie Attribut-Wert-Paare in einem Korpus dargestellt werden Metadaten für die Suche Definieren mögliche Attribut-Wert-Paare in einem Korpus

63 OLiA Ontologien und Metadaten in SPLICR Korpus Manifest annotation-concepts.xml annotation-structures.xml annotation-values.xml eTEI Metadaten Registriert und spezifiziert die zu einem Korpus gehörigen Daten Metadaten, die Primärdaten und die Annotation betreffend Sammlung von XML-Dokumenten Primärdaten und Annotationen Metadaten für die Suche Definieren Rückgabekontexte (Clause, Sentence) Metadaten für das XML-Format Definieren, wie Attribut-Wert-Paare in einem Korpus dargestellt werden Metadaten für die Suche Definieren mögliche Attribut-Wert-Paare in einem Korpus OLiA Ontologien Ordnen einner Annotation ein OLiA Annotationsmodell zu Metadaten für konzeptbasierte Suche sind aus OLiA- Ontologien extrahierbar ermöglicht die Anwendung des OntoClient für die ontologie- basierte Suche

64 OLiA Ontologiebasierte Suche Suchanfrage... pos in { Noun \ Nominal } & cat =... Konsultation der Ontologie 1.ermittle Tags für jedes angefragte Ontologie- Konzept 2. wende Operatoren an Noun ProperNoun MassNounCountableNoun CommonNoun Nominal VerbalNoun Substantive tibet: ProperNoun tibet: InanimateNoun tibet: AnimateNoun tibet: Person tibet: CommonNoun NOM_inan NOM_anim_lq NOM_inan_lq NOM_pers NOM_pers_anim NAME NOM_anim Referenzmodell Annotationsmodell Linking Ausgabe der erweiterten Anfrage... pos = NOM_inan | NOM_inan_lq | NOM_anim | NOM_anim_lq | NOM_anim_pers | NOM_pers | NAME & cat =...

65 OLiA OntoClient OntoClient –JAVA-Bibliothek –erweitert beliebige Korpusanfragesprachen um ontologiebasierte Suche Beispielanwendungen –Ontologie-basierte Suche für CQP –Ontologie-basierte Suche in ANNIS 1 wird in SPLICR und ANNIS 2 integriert

66 OLiA OntoClient + ANNIS 1 ontologische Beschreibung generierte ANNIS-QL-Anfrage

67 OLiA unterstützt die konsistente Dokumentation von Annotationen –HTML-Darstellung ermöglicht Nutzern, schnell annotierte Korpora zu konsultieren –ohne auf die vollständige Dokumentation zurückgreifen zu müssen –SPLICR Konzeptsuche / OntoClient ermöglicht Anfragen über unterschiedlich annotierte Korpora hinweg –OntoClient

68 ANNIS & SPLICR ANNIS –Querying und Visualisierung von Mehrebenenannotationen SPLICR –Nachhaltige Archivierung linguistischer Daten Ontologien linguistischer Annotationen... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen Schlussworte

69 Vergleich von ANNIS und SPLICR komplexes Datenformat Datenkonvertierung mittels existierender Konverter geringer Aufbereitungsaufwand neben der unmittelbaren Konvertierung empirische Arbeit mit Mehrebenen- annotationen relativ einfaches Datenformat eigene Konverter leicht zu entwickeln hoher Aufbereitungsaufwand neben der unmittelbaren Konvertierung nachhaltige Archivierung von Datensammlungen ANNIS SPLICR

70 Verfügbarkeit ANNIS 1 –Zugang zur Potsdamer Installation kann auf Wunsch bereitgestellt werden –lokale Installation kann auf Anfrage bei bereitgestellt werden –Datenkonverter sind über ein Webformular erreichbar

71 Verfügbarkeit ANNIS 2 –befindet sich momentan noch in der Erprobungsphase –Veröffentlichung wird momentan vorbereitet und ist für 2009 zu erwarten Anfang 2009 sollen Nutzer freie Testzugänge erhalten können –Mittelfristig ist eine Veröffentlichung des Quellcodes geplant Lizenz noch unklar, aber quelloffen

72 Verfügbarkeit SPLICR –wird nach Beendigung des Projekts Nachhaltigkeit linguistischer Daten (Dezember 2008) der Öffentlichkeit zugänglich gemacht –momentan werden die SFB-Korpora in die Plattform integriert Daten und Metadaten (z.B. zur Zugänglichkeit) –Veröffentlichung des Quellcodes unter einer quelloffenen Lizenz geplant

73 Verfügbarkeit OLiA-Ontologien –werden in den Releases von ANNIS 2 und SPLICR enthalten sein –über das Internet zugänglich (in Protégé zu öffnen) –Werkzeuge HTML-Visualisierung OntoClient

74 Vielen Dank für Ihre Aufmerksamkeit

75 Beteiligte Kollegen ANNIS-Team (U Potsdam, HU Berlin) Manfred Stede, Anke Lüdeling, Ulf Leser, Stefanie Dipper, Michael Götze, Julia Ritz, Amir Zeldes, Florian Zipser, Viktor Rosenfeld, Karsten Hütter, Thomas Krause, Tilman Wegst (extern) SPLICR-Team (U Tübingen, U Hamburg) Erhard Hinrichs, Marga Reis, Andreas Witt, Georg Rehm, Timm Lehmberg, Oliver Schonefeld, Richard Eckart (TU Darmstadt), Johannes Dellert, Kilian Evang, Magdalena Leshtanska OLiA-Team (U Potsdam) Angelika Adam, Alexander Becker, Johannes Bubenzer, Thomas Augustin

76 Diskussionspunkte weitere Aspekte (Auswahl) –Technische Details zu den Datenbanken –Wahrung von Urheber- und Nutzungsrechten an Daten und Annotationen –Beispielpipelines für konkrete Datensätze –Erstellung und Wartung von Ontologien –Statistische Funktionalität

77 Anhang Technische Details zu ANNIS & SPLICR Client-Server-Architekturen –Inkrementeller Datenabruf –Unicode Datenbank –SPLICR XML-Datenbank –eXist / Annolab –optimiert für hierarchische Annotationen SQL-Datenbank –Metadaten –ANNIS Relationale Datenbank –PostGreS –erlaubt Umgang mit hierarchischen und graph-basierten Annotationen

78 Anhang Architektur ANNIS 2 Backend Baumsuche ANNIS-QL-Suche

79 Anhang Architektur SPLICR SQL Datenbank Metadaten XML Datenbank aufbereitete Korpusdaten XQuerySQL Dateisystem Originaldaten OLiA-Ontologien Annotationsschemata Anfrageobjekte diverse Anfragemodi Formulardaten Backend XML (Daten) JSON (Visualisierung)

80 Anhang ANNIS und WEKA ANNIS TIGER XML Exmaralda RST Tool MMAX POS, morph, syntax Informationsstruktur Diskursstruktur Koreferenz Konvertierung nach PAULA Integration unterschiedlicher Annotationen desselben Satzes von Dokumenten Konvertierung nach ARFF WEKA WEKA* Arbeitsumgebung für Statistikanalysen statistische, neuronale, symbolische Klassifikatoren * Extrahierung von Merkmalstabellen ANNIS 2 wird Standardroutinen dafür enthalten

81 Anhang WEKA Vorverarbeitung: Auswahl relevanter Merkmale aus einer ARFF-Tabelle

82 Anhang WEKA Beispielanalyse (Entscheidungsbaum) Informationsstatus und referentielle Ausdrücke im Deutschen (Potsdamer Kommentarkorpus)


Herunterladen ppt "ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos"

Ähnliche Präsentationen


Google-Anzeigen