Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Christian Chiarcos chiarcos@uni-potsdam.de ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian.

Ähnliche Präsentationen


Präsentation zum Thema: "Christian Chiarcos chiarcos@uni-potsdam.de ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian."—  Präsentation transkript:

1 Christian Chiarcos chiarcos@uni-potsdam.de
ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos

2 Großflächige Akzeptanz und Ausweitung empirischer, v. a
Großflächige Akzeptanz und Ausweitung empirischer, v.a. korpusbasierter Arbeiten in den letzten 20 Jahren. „There‘s no data like more data.“ Neue technische und methodische Anforderungen für die Arbeit mit linguistischen Datensammlungen

3 Probleme bei der Arbeit mit Korpora
Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer Nachhaltige Archivierung und Dokumentation ? Die Vielfalt linguistischer Annotationen nimmt immer mehr zu Zusammenführung verschiedener Annotationen, die mit verschiedenen Spezialwerkzeugen geschaffen wurden ? Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition Wie kann Otto Normallinguist vor Fehlschlüssen bewahrt werden ?

4 Probleme bei der Arbeit mit Korpora
Sustainability Platform for Linguistic Corpora and Resources SPLICR Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer Nachhaltige Archivierung und Dokumentation ? Die Vielfalt linguistischer Annotationen nimmt immer mehr zu Zusammenführung verschiedener Annotationen, die mit verschiedenen Spezialwerkzeugen geschaffen wurden ? Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition Wie kann Otto Normallinguist vor Fehlschlüssen bewahrt werden ? Datenbank der Annotationen zur Informationsstruktur ANNIS Ontologien linguistischer Annotationen OLiA

5 Probleme bei der Arbeit mit Korpora
Sustainability Platform for Linguistic Corpora and Resources SPLICR Datenbank der Annotationen zur Informationsstruktur ANNIS SFB 632 Information Structure Ontologien linguistischer Annotationen OLiA

6 ANNIS & SPLICR ANNIS (SFB632 „Informationsstruktur“)
Querying und Visualisierung von Mehrebenenannotationen SPLICR (SFB441 „Linguistische Datenstrukturen“) Nachhaltige Archivierung linguistischer Daten Ontologien linguistischer Annotationen ... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen Schlussworte einführende worte über den förderungskontext und sinn und zweck der komponenten

7 ANNIS SFB 632 „Informationsstruktur“
Potsdam, HU Berlin Projekt „Linguistische Datenbank“ (Stede/Lüdeling) Datenbank für die dort aufgebauten Annotationen zur Informationsstruktur 10 Datenprojekte unterschiedlicher linguistischer Disziplinen Typologie, Historische Sprachwissenschaft, Korpuslinguistik, Computerlinguistik

8 ANNIS Besondere Anforderungen
Mehrebenenannotation Diskursphänomene erfordern die Betrachtung unterschiedlicher linguistischer Beschreibungsebenen Morphologie und Syntax Semantik Phonologie und Prosodie Anaphorik Diskursstruktur Informationsstruktur und Informationsstatus

9 ANNIS Besondere Anforderungen
Mehrebenenannotation Annotation von Diskursphänomenen erfordert unterschiedliche spezialisierte Werkzeuge Toolbox/Shoebox Exmaralda/ELAN Annotate/Synpathy MMAX/Palinka RSTTool Links ergänzen

10 ANNIS Besondere Anforderungen
Mehrebenenannotation Annotation von Diskursphänomenen erfordert unterschiedliche spezialisierte Werkzeuge Keines dieser Werkzeuge erlaubt, auf andere Annotationsebenen zuzugreifen oder diese angemessen darzustellen Integration der Daten in einer einzigen Datenbank Anfragen über mehrere Annotationsebenen hinweg

11 Mehrebenenannotation Syntaxannotation
NP NK NK NK Die einstige Fußball-Weltmacht ART ADJA NN Annotate, Synpathy

12 Mehrebenenannotation Anaphorik
MMAX

13 Mehrebenenannotation Diskursstruktur
RST Tool

14 Mehrebenenannotation Partitur-Annotation
Exmaralda

15 ANNIS ANNIS Annotierte Daten Gemeinsames Datenformat
Linguistische Datenbank Annotierte Daten Suche, Visualisierung, Export Morphologie, Syntax, Anaphorik, Diskursstruktur, Partitur-Annotationen Gemeinsames Datenformat PAULA Potsdamer Austauschformat für linguistische Annotationen

16 ANNIS Besondere Anforderungen
Anfragen über mehrere Annotationsebenen hinweg Gemeinsames Datenbankformat für unterschiedliche Daten Direkter Einsatz in der empirischen Forschung Komfortable und mächtige Suchmöglichkeiten Statistische Funktionalität

17 ANNIS ANNIS 1 (2003-2006) entwickelt 2003-2006 Anfragesprache ANNIS-QL
Partituransicht reine Hauptspeicherlösung im Browser zu benutzen lokale Installation möglich kann auf Anfrage zugänglich gemacht werden

18 ANNIS Suchfenster, Textansicht, Partituransicht (ANNIS 1)

19 ANNIS Anfragesprache ANNIS-QL
Anfragen über mehrere Annotationsschichten ... um Wechselwirkungen zu studieren givenness=‘giv‘ & syncat=‘pp‘ & rhetrel=‘contrast‘ ... um abweichende Annotationsentscheidungen zu identifizieren ann1::givenness=‘new‘ & ann2::givenness=‘giv‘ & #1 _=_ #2 ... um Annotationen auf Vollständigkeit zu prüfen aboutness=‘ref‘ & givenness=‘‘ & #1 _=_ #2

20 ANNIS ANNIS 2 (seit 2006) entwickelt seit Mitte 2006
in Kooperation mit Ulf Leser, HU Berlin Weiterentwicklung von ANNIS 1 graphischer Editor für ANNIS-QL-Anfragen relationale DB (PostGreS) Erweiterung von ANNIS-QL differenzierte Visualisierung für unterschiedliche Datentypen reine Serveranwendung

21 ANNIS 2 Baumsuche* * Mehrfache Vorfeldbesetzung (TIGER)

22 ANNIS 2 Ergebnisliste* * Mehrfache Vorfeldbesetzung (TIGER)

23 ANNIS 2 Ergebnispräsentation: Baumansicht

24 ANNIS 2 Ergebnispräsentation: Koreferenz-Ansicht

25 ANNIS 2 Aktueller Status
momentan ein Forschungsprototyp „Erprobungsphase“ mit interessierten Kooperationspartnern offizielles Release Anfang 2009 geplant Testzugänge dann möglich soll langfristig quelloffen zur Verfügung gestellt werden aktuelle Entwicklungen Verbesserung der Stabilität und Performanz Erweiterung der Datenbasis verbesserte statistische Funktionalität Export einer Trefferliste in einem Tabellenformat

26 ANNIS & SPLICR ANNIS SPLICR Ontologien linguistischer Annotationen
Querying und Visualisierung von Mehrebenenannotationen SPLICR Nachhaltige Archivierung linguistischer Daten Ontologien linguistischer Annotationen ... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen Schlussworte

27 SPLICR Infrastruktur für ein Nachhaltigkeitsarchiv
Sustainability Platform for Linguistic Corpora and Resources Kooperationsprojekt „Nachhaltigkeit linguistischer Daten“ (Reis/Hinrichs) Datenbank für die nachhaltige Archivierung der Daten aller beteiligten SFBs SFB 441 „Linguistische Datenstrukturen“, Tübingen SFB 538 „Mehrsprachigkeit“, Hamburg SFB 632 „Informationsstruktur“, Potsdam/HU Berlin

28 SPLICR Besondere Anforderungen
Nachhaltige Archivierung Daten sollen langfristig zugänglich gemacht werden Entscheidungshilfe dafür, welche Korpora ein Nutzer anfordern sollte Daten sollen sich dem Nutzer ohne langwieriges Studium der Dokumentation erschließen Direkt lesbares Datenformat (XML)

29 SPLICR Besondere Anforderungen
SPLICR dient zum Nachweis und zur Erhaltung existierender Ressourcen heterogene Datenbasis Daten werden nur so weit verändert, wie für die Datenbankrepräsentation notwendig Vorlagen-basierte Anfragen auf Robustheit optimiert weniger auf Performanz keine Statistikfunktionalität Abfragen für jeweils nur eine Ressource und eine Annotationsebene

30 SPLICR Ressourcenüberblick und -auswahl
andere philosophie zum umgang mit metadaten: werden nicht abgefragt, sondern zum filtern der ressourcen verwendet

31 SPLICR Suchfunktionalität
Volltextsuche Suche nach Zeichenfolgen in den Originaldaten Konzeptsuche Suche nach Annotationen mit Hilfe kurzer konzeptueller Beschreibungen Rückgabekontext „Clause“ statt Annotationsschicht „Parts of Speech“ statt Annotationswert „Auxilliary Verb, finite“ statt Baumsuche sucht nach Annotationen oder Annotationskonzepten erweitert Konzeptsuche um Dominanz- und Präzedenzrelationen

32 SPLICR Konzeptsuche

33 SPLICR Baumsuche

34 SPLICR Präsentation der Suchergebnisse
verschiedene Visualisierungen der XML-Struktur der Daten Textansicht alle Annotationen ausgeblendet Boxansicht ähnlich der ANNIS-Partituransicht Baumansicht Visualisierung des XML-Baumes nicht notwendigerweise ein Baum im linguistischen Sinne XML formatierte Ausgabe der XML-Daten

35 SPLICR Ergebnisansicht: Boxansicht

36 SPLICR Ergebnisansicht: Baumansicht

37 SPLICR wird nach Beendigung des Nachhaltigkeitsprojektes (Dezember 2008) in Betrieb genommen erfasst die Daten und Metadaten der erfassten Ressourcen die Konzeptsuche erfordert zusätzlich, die Annotationen und das Korpusformat auf bestimmte Weise zu dokumentieren Ontologien linguistischer Annotationen

38 ANNIS & SPLICR ANNIS SPLICR Ontologien linguistischer Annotationen
Querying und Visualisierung von Mehrebenenannotationen SPLICR Nachhaltige Archivierung linguistischer Daten Ontologien linguistischer Annotationen ... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen Schlussworte

39 OLiA Motivation Überwindung der Kluft zwischen real existierender Annotation und den Intuitionen ihrer Nutzer verbesserte Aufbereitung konzeptbasierte Suche gesteigerte Transparenz Dokumentation von Annotationen Formalisierung von Annotationsschemata Abbildung zwischen Annotationen auf eine wohldefinierte Basisterminologie

40 OLiA Motivation: Annotation vs. Intuition
Annotationsschemata erzwingen eine eindeutige Kategorisierung sämtlicher Phänomene Neben theoretischen Überlegungen gehen aber auch pragmatische Designentscheidungen in Annotationsschemata ein in unterschiedlichen Korpora/Annotationsschemata abweichend „Otto Normallinguist“ muss Strategien entwickeln, Tag-Definitionen schnell zu erfassen, um mit den Daten arbeiten zu können

41 OLiA Motivation: Annotation vs. Intuition
Strategien zum Deuten von linguistischen Annotationen Die „intuitive“ Methode Was sich wie „Hilfsverb“ anhört, meint das sicher auch. Die Analogie-Methode Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben definiert werden. Das ist hier sicherlich genauso. Die „Schau-mer-mal“-Methode Was war doch gleich das Tag für Hilfsverben im Korpus ? Die „richtige“ Methode Was sagt eigentlich die Dokumentation ?

42 OLiA Motivation: Annotation vs. Intuition
Strategien zum Deuten von linguistischen Annotationen Die „intuitive“ Methode Was sich wie „Hilfsverb“ anhört, meint das sicher auch. Die Analogie-Methode Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben definiert werden. Das ist hier sicherlich genauso. Die „Schau-mer-mal“-Methode Was war doch gleich das Tag für Hilfsverben im Korpus ? Die „richtige“ Methode Was sagt eigentlich die Dokumentation ? Minimaler Aufwand Maximaler Aufwand

43 OLiA Annotation vs. Intuition
Die „intuitive“ Methode Was sich wie „Hilfsverb“ anhört, meint das sicher auch Naja, nicht bei Morphy* Und auch nicht bei STTS** * ( ) ** Schiller et al. (1999), S.29

44 OLiA Annotation vs. Intuition
Die Analogie-Methode „Hilfsverb“ bezeichnet also eigentlich potentielle Hilfsverben Naja, nicht im Connexor-Tagset* Aber glaub mir, das ist nicht das Ende, denn das ist noch lange nicht gekommen. * ( )

45 OLiA Annotation vs. Intuition
Die „Schau-mer-mal“-Methode Was war doch gleich das Tag für Hilfsverben im Korpus ? erster Beleg in TIGERSampler: VAFIN

46 OLiA Annotation vs. Intuition
Die „richtige“ Methode Was sagt eigentlich die Dokumentation ? Manchmal etwas zu viel TüBa-D/Z: 146 Seiten* Susanne: 483 Seiten** Manchmal etwas zu wenig Z.B. als reine Tag-Liste Vor allem aber: Jedes Annotationsschema auf seine eigene Weise ? * H. Telljohann et al. (2006), Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z) ** G. Sampson (1996), The Susanne corpus and analytic scheme

47 OLiA Die Idee Formale Modellierung der linguistischen Basisterminologie „Referenzmodell“* Formale Spezifikation der Terminologie jedes einzelnen Annotationsschemas „Annotationsmodell“ Annotationskonzepte werden als Subkonzepte von Referenzkonzepten spezifiziert „Linking“ kann komplex sein** * Bezogen auf die in SPLICR und ANNIS vorliegenden Annotationen ** Annotationskonzept C, Referenzkonzepte A,B

48 OLiA Die Idee Formalisierung XML-basierte Formalismen OWL/DL
Abweichungen von Referenzdefinitionen klar herausgestellt Hilfsverben in STTS: explizit und eindeutig kompakte Repräsentation XML-basierte Formalismen leicht in menschenlesbare Darstellung konvertierbar HTML-Dokumentation OWL/DL

49 OLiA Die Idee Formalisierung XML-basierte Formalismen
Abweichungen von Referenzdefinitionen klar herausgestellt Hilfsverben in STTS: explizit und eindeutig kompakte Repräsentation XML-basierte Formalismen leicht in menschenlesbare Darstellung konvertierbar HTML-Dokumentation Formalisierung als Ontologie (OWL/DL)

50 OLiA Ontologien in der Informationsverarbeitung
Konzeptualisierung einer bestimmten Domäne z.B. eine Taxonomie linguistischer Termini hierarchisch und relational strukturiert OWL (Web Ontology Language)* formale Beschreibungssprache für Ontologien XML-basiert Semantic Web * Web Ontology Language, ( )

51 OLiA Projekte zur linguistischen Terminologie: EAGLES
Expert Advisory Group on Language Engineering* Standardisierungsprojekt der EU (1993 – 1996) Empfehlungen für Annotationschemata v.a. Wortarten, Morphologie, Syntax; Lexika ausgehend von existierenden Schemata Identifizierung sich wiederholender Begriffe kein nennenswerter theoretischer Unterbau keine Referenzdefinitionen * ( )

52 OLiA Projekte zur linguistischen Terminologie: GOLD
General Ontology for Linguistic Description* im Rahmen des E-MELD-Projektes zur Dokumentation bedrohter Sprachen entwickelt ( ) auf der Basis v.a. typologischer Literatur Schwerpunkt auf Morphosyntax OWL/DL * ( ) ** Electronic Metastructure for Endangered Languages Data ( )

53 OLiA Weitere Projekte zur linguistischen Terminologie (Auswahl)
Data Category Registry (Ide 2003)* Weiterentwicklung der EAGLES-Empfehlungen, erweitert um Definitionen OntoTag (de Cea et al. 2003) Ontologie morphosyntaktischer Annotationen des Spanischen Typological Database System Ontology (Dimitriadis et al., 2005)** OWL-Ontologie der Terminologie typologischer Datensammlungen * ( ) ** ( )

54 OLiA Weitere Projekte zur linguistischen Terminologie (Auswahl)
IDS-Ontologie (Schneider 2007) Terminologie zur Grammatikbeschreibung im Deutschen G. Wilcock (2008) OWL-Ontologie für HPSG als Erweiterung von GOLD A. Burchardt et al. (2008) OWL-Formalisierung annotierter Korpora und ihrer Annotation Die OliA-Ontologien sollen modular strukturiert sein, um diese Ontologien als externe Wissensquellen einbinden zu können.

55 OLiA Strukturkomponenten
Annotationsmodell 10 Annotationsmodelle zu mehreren Europäischen und Außereuropäischen Sprachen Wortarten, Morphologie, Syntax, Koreferenz, Informationsstruktur OLiA Referenzmodell Generalisiert über die Annotationsmodelle Basiert u.a. auf EAGLES und GOLD Linking Erweiterbare Architektur Anbindung externer Referenzmodels (GOLD, OntoTag, Data Category Registry) möglich OLiA Referenzmodel reference.owl stts.owl susanne.owl russ.owl stts-link.rdf susanne-link.rdf importiert russ-link.rdf model.owl Ontologie, die übrige Komponenten importiert

56 OLiA Annotationsmodell, Referenzmodell und Linking: Beispiel

57 OLiA Ontologieerstellung mit Protégé: Konzepthierarchie
Die Konzepthierarchie definiert eine Taxonomie von Basiskonzepten für das Referenzmodell (e-eagles.owl) wie auch Annotationsmodelle (z.B. stts.owl)

58 OLiA Ontologieerstellung mit Protégé: Relationen
Relationen (Properties) ordnen Konzept- Instanzen andere Konzeptinstanzen zu, z.B. einem LinguisticElement ein GrammaticalFeature

59 OLiA Ontologieerstellung mit Protégé: Individuen
Individuen sind durch die Zugehörigkeit zu einem oder mehreren Konzepten und bestimmte Merkmalswerte/Relationen charakterisiert. Individuen der Unterkonzepte von LinguisticElement wird ein Annotations- wert zugeordnet.

60 OLiA Dokumentation anwendungs-spezifischer HTML-Export
Konzepte sind mittels Hyperlinks verbunden in SPLICR zu Dokumentations-zwecken eingesetzt Annotationsmodelle sind den Korpora mit entsprechenden Annotationen zugeordnet Konzepte des STTS Annotationsmodells Referenzkonzepte

61 OLiA Anwendung jenseits der Dokumentation
Dokumentation von Annotationsschemata (SPLICR) kompakte und einheitliche Darstellungsweise erleichtert das Auffinden relevanter Informationen über die Annotation Suchfunktionalität SPLICR: Ausgangsdaten für Konzeptsuche OntoClient: direkte Übersetzung ontologischer Beschreibungen in konkrete Tags

62 OLiA Metadaten und Konzeptsuche in SPLICR
Registriert und spezifiziert die zu einem Korpus gehörigen Daten Manifest Metadaten für die Suche Definieren Rückgabekontexte (Clause, Sentence) annotation-concepts.xml Metadaten für das XML-Format Definieren, wie Attribut-Wert-Paare in einem Korpus dargestellt werden eTEI Metadaten annotation-structures.xml Metadaten, die Primärdaten und die Annotation betreffend Metadaten für die Suche Definieren mögliche Attribut-Wert-Paare in einem Korpus Korpus Sammlung von XML-Dokumenten Primärdaten und Annotationen annotation-values.xml

63 OLiA Ontologien und Metadaten in SPLICR
Registriert und spezifiziert die zu einem Korpus gehörigen Daten Manifest Metadaten für konzeptbasierte Suche sind aus OLiA- Ontologien extrahierbar Metadaten für die Suche Definieren Rückgabekontexte (Clause, Sentence) annotation-concepts.xml Metadaten für das XML-Format Definieren, wie Attribut-Wert-Paare in einem Korpus dargestellt werden eTEI Metadaten annotation-structures.xml Ordnen einner Annotation ein OLiA Annotationsmodell zu Metadaten, die Primärdaten und die Annotation betreffend Metadaten für die Suche Definieren mögliche Attribut-Wert-Paare in einem Korpus ermöglicht die Anwendung des OntoClient für die ontologie- basierte Suche Korpus Sammlung von XML-Dokumenten Primärdaten und Annotationen annotation-values.xml

64 OLiA Ontologiebasierte Suche
Suchanfrage ... pos in { Noun \ Nominal } & cat = ... Noun Konsultation der Ontologie ermittle Tags für jedes angefragte Ontologie- Konzept 2. wende Operatoren an CommonNoun Substantive Linking Nominal ProperNoun VerbalNoun MassNoun CountableNoun Referenzmodell tibet: CommonNoun tibet: ProperNoun tibet: InanimateNoun tibet: AnimateNoun tibet: Person NAME NOM_inan NOM_pers NOM_inan_lq NOM_anim NOM_pers_anim Annotationsmodell NOM_anim_lq Ausgabe der erweiterten Anfrage ... pos = NOM_inan | NOM_inan_lq | NOM_anim | NOM_anim_lq | NOM_anim_pers | NOM_pers | NAME & cat = ...

65 OLiA OntoClient OntoClient Beispielanwendungen
JAVA-Bibliothek erweitert beliebige Korpusanfragesprachen um ontologiebasierte Suche Beispielanwendungen Ontologie-basierte Suche für CQP Ontologie-basierte Suche in ANNIS 1 wird in SPLICR und ANNIS 2 integriert

66 OLiA OntoClient + ANNIS 1
ontologische Beschreibung generierte ANNIS-QL-Anfrage

67 OLiA unterstützt die konsistente Dokumentation von Annotationen
HTML-Darstellung ermöglicht Nutzern, schnell annotierte Korpora zu konsultieren ohne auf die vollständige Dokumentation zurückgreifen zu müssen SPLICR Konzeptsuche / OntoClient ermöglicht Anfragen über unterschiedlich annotierte Korpora hinweg OntoClient

68 ANNIS & SPLICR ANNIS SPLICR Ontologien linguistischer Annotationen
Querying und Visualisierung von Mehrebenenannotationen SPLICR Nachhaltige Archivierung linguistischer Daten Ontologien linguistischer Annotationen ... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen Schlussworte

69 Vergleich von ANNIS und SPLICR
komplexes Datenformat Datenkonvertierung mittels existierender Konverter geringer Aufbereitungsaufwand neben der unmittelbaren Konvertierung empirische Arbeit mit Mehrebenen-annotationen relativ einfaches Datenformat eigene Konverter leicht zu entwickeln hoher Aufbereitungsaufwand neben der unmittelbaren Konvertierung nachhaltige Archivierung von Datensammlungen

70 Verfügbarkeit ANNIS 1 Zugang zur Potsdamer Installation kann auf Wunsch bereitgestellt werden lokale Installation kann auf Anfrage bei bereitgestellt werden Datenkonverter sind über ein Webformular erreichbar

71 Verfügbarkeit ANNIS 2 befindet sich momentan noch in der Erprobungsphase Veröffentlichung wird momentan vorbereitet und ist für 2009 zu erwarten Anfang 2009 sollen Nutzer freie Testzugänge erhalten können Mittelfristig ist eine Veröffentlichung des Quellcodes geplant Lizenz noch unklar, aber quelloffen

72 Verfügbarkeit SPLICR wird nach Beendigung des Projekts „Nachhaltigkeit linguistischer Daten“ (Dezember 2008) der Öffentlichkeit zugänglich gemacht momentan werden die SFB-Korpora in die Plattform integriert Daten und Metadaten (z.B. zur Zugänglichkeit) Veröffentlichung des Quellcodes unter einer quelloffenen Lizenz geplant

73 Verfügbarkeit OLiA-Ontologien
werden in den Releases von ANNIS 2 und SPLICR enthalten sein über das Internet zugänglich (in Protégé zu öffnen) Werkzeuge HTML-Visualisierung OntoClient

74 Vielen Dank für Ihre Aufmerksamkeit

75 Beteiligte Kollegen ANNIS-Team (U Potsdam, HU Berlin)
Manfred Stede, Anke Lüdeling, Ulf Leser, Stefanie Dipper, Michael Götze, Julia Ritz, Amir Zeldes, Florian Zipser, Viktor Rosenfeld, Karsten Hütter, Thomas Krause, Tilman Wegst (extern) SPLICR-Team (U Tübingen, U Hamburg) Erhard Hinrichs, Marga Reis, Andreas Witt, Georg Rehm, Timm Lehmberg, Oliver Schonefeld, Richard Eckart (TU Darmstadt), Johannes Dellert, Kilian Evang, Magdalena Leshtanska OLiA-Team (U Potsdam) Angelika Adam, Alexander Becker, Johannes Bubenzer, Thomas Augustin

76 Diskussionspunkte weitere Aspekte (Auswahl)
Technische Details zu den Datenbanken Wahrung von Urheber- und Nutzungsrechten an Daten und Annotationen Beispielpipelines für konkrete Datensätze Erstellung und Wartung von Ontologien Statistische Funktionalität

77 Anhang Technische Details zu ANNIS & SPLICR
Client-Server-Architekturen Inkrementeller Datenabruf Unicode Datenbank SPLICR XML-Datenbank eXist / Annolab optimiert für hierarchische Annotationen SQL-Datenbank Metadaten ANNIS Relationale Datenbank PostGreS erlaubt Umgang mit hierarchischen und graph-basierten Annotationen

78 Anhang Architektur ANNIS 2
Baumsuche ANNIS-QL-Suche Backend

79 Anhang Architektur SPLICR
SQL Datenbank Metadaten XML Datenbank aufbereitete Korpusdaten XQuery SQL Dateisystem Originaldaten OLiA-Ontologien Annotationsschemata Anfrageobjekte diverse Anfragemodi Formulardaten Backend XML (Daten) JSON (Visualisierung)

80 Anhang ANNIS und WEKA TIGER XML Exmaralda RST Tool MMAX
POS, morph, syntax Informationsstruktur Diskursstruktur Koreferenz Konvertierung nach PAULA ANNIS Integration unterschiedlicher Annotationen desselben Satzes von Dokumenten Extrahierung von Merkmalstabellen ANNIS 2 wird Standardroutinen dafür enthalten Konvertierung nach ARFF WEKA WEKA* Arbeitsumgebung für Statistikanalysen statistische, neuronale, symbolische Klassifikatoren *

81 Anhang WEKA Vorverarbeitung: Auswahl relevanter Merkmale aus einer
ARFF-Tabelle

82 Anhang WEKA Beispielanalyse (Entscheidungsbaum) Informationsstatus und referentielle Ausdrücke im Deutschen (Potsdamer Kommentarkorpus)


Herunterladen ppt "Christian Chiarcos chiarcos@uni-potsdam.de ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian."

Ähnliche Präsentationen


Google-Anzeigen