Repräsentation und Abfrage von multi-layer Korpora Elke Teich, FR 4

Slides:



Advertisements
Ähnliche Präsentationen
Word Order in German Subordiante Clauses
Advertisements

Zur SCORM-Fähigkeit konventioneller XML-unterstützender eLearning Developer Tools im Projekt I-can-EIB OFFIS Oldenburger Forschungs- und Entwicklungsinstitut.
RICHTIG ODER FALSCH ?.
EXMARaLDA Grundlagen.
eine Plattform für annotierte Korpora in XML
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Year 10 personal pronouns
Kapitel 4: Schule In this chapter you will: Talk about school
On a Buzzword: Hierachical Structure David Parnas.
Hands On – Einführung in XML
IMS Universität Stuttgart 1 Einführung in XML Hannah Kermes HS: Elektronische Wörterbücher Do,
Die Registervariablen: Tenor of Discourse
Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
XML - Abfragesprache Xpath. Problemstellung Unsere XML-Datei steht und wir wollen alle 1. Titel aller vergangenen Sendungen automatisch aus den Playlists.
XML-Schema HKI Proseminar Wintersemester 2010/11 Dozentin: Frau Kurz von Jan Kohl und Christian Lütticke.
A Location Representation for Generating Descriptive Walking Directions Jana Gliet Simon Jirka.
© 2002 Prof. Dr. G. Hellberg 1 XML-Seminar XML-Technologie: XML in Theorie und Praxis Prof. Dr. G. Hellberg XML-Technologie: XML in Theorie und Praxis.
MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.
Einführung in die Syntax
Lexikalisch-Funktionale Grammatik
Three minutes presentation I ArbeitsschritteW Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2010/2011 Giving directions.
XQuery-Anfragen Spezifikations- und Selektionsmethoden für Daten und Dienste Markus Mauch.
Kapitel 1 Komm mit! Level I erste Stufe.
- XML-Path Language (xPath) ist eine Empfehlung des W3C - es wurde entwickelt, um durch ein XML- Dokument zu navigieren - und ist ein großer Teil von.
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Talking about future plans Expression of time + present tense.
Deutsch III Sport berichten – Correcting German Writing 9. Oktober 2012.
Morphology and Syntax More on sentence structure.
Reflexive Verbs.
Datenbanktechnologie Daniel Ebner SS Mai Ulrike Lohner.
Proseminar: „Webtechnologien für Ecommerce“
Sesame Florian Mayrhuber
Dienstag den Aufgaben bis Mittwoch den IA 6.4: Geradeaus LB 6.4 A-C Guten Morgen!
XML in relationalen Datenbanken
Chapter 11 Deutsch 1 By: Caroline McCallum, Grant Cooper, Darth Dockins.
German Word Order explained!
Wohin fährst du in den Ferien?
Mehrbenutzerzugriff auf GIS-Daten
Guten Morgen! Heute ist Montag, der 26. September 2005.
Relativpronomen Der Mann ist mein Onkel. --Wir haben den Mann im Theater gesehen. You can express related ideas in separate sentences, or you can.
Video Annotation Tools Annotationssysteme Aufbaumodul 1 WS 2014/2015 Herr Manfred Thaller Maria Wagner.
I will be able to use the accusative pronouns in a sentence (Buch Seite 200)
Peter Brezany Institut für Softwarewissenschaften Universität Wien
October 27 th -31 st. German I Which subjects do you have? I have German. I have English and history. We are off (out of school).
Unterrichtsbeispiel Englisch Selbstgesteuertes Lernen: Informationen verarbeiten.
Name: ___________________________________________ Hör verstehen: (______/10) Mark whether you hear a “du”, an “ihr” or a “Sie” command Wer sagt.
Empirical Methods of Linguistic Research. What you will learn How to write an empirical research paper How to design an experiment / a questionnaire How.
Lexikalisch-Funktionale Grammatik   Subsumption   Unifikation   Von der K-Struktur zur F-Struktur.
XML Seminar: XP und XML 1 XP and XML Gregor Zeitlinger.
GERMAN WORD ORDER ORDER s. Sentences are made up by placing a variety of words in a specific order. If the order is wrong, the sentence is difficult to.
COMMANDS imperative 1. you (formal): Sie 2. you (familiar plural): ihr
E STUNDE Deutsch AP. Dienstag, der 28. Mai 2013 Deutsch AP (E Stunde)Heute ist ein E Tag Goal: to understand authentic written text, audio material and.
You need to use your mouse to see this presentation © Heidi Behrens.
Semantic Markup für Zwecke der Langzeitarchivierung in digitalen Bibliotheken Neubiberg,
Großvater Großmutter Großvater Großmutter Tante/Onkel Vater Mutter.
PREFIXES INSEPARABLE PREFIXES forget = vergessen receive = bekommen understand = verstehen mißverstehen SEPARABLE PREFIXES abfahren = drive off mitbringen.
Telling the way This presentation helps you to revise important phrases for telling the way. ►You can move through the presentation by mouseclicks.
Volume 1, Chapter 9.
What can I offer you as an Ayurveda Consultant?
Volume 1, Chapter 7.
3D CAD für den XFEL Betrieb
Heute ist Mittwoch, der 28. September 2005
Heute ist Montag, der 3. Oktober 2005
 Präsentation transkript:

Repräsentation und Abfrage von multi-layer Korpora Elke Teich, FR 4 Repräsentation und Abfrage von multi-layer Korpora Elke Teich, FR 4.6, UdS Silvia Hansen, FR 4.7, UdS Peter Fankhauser, FhG-IPSI, Darmstadt

Hintergrund Multi-layer Korpora – Repräsentation und Abfrage Kontext: vermehrt Annotation verschiedener Arten von linguistischer Information für verschiedene Zwecke Trainieren statistischer Verfahren Referenzkorpora für automatische Verfahren linguistische Abfragen Informationsextraktion Fragen multi-layer – was ist das? Anforderungen: Datenmodell Anforderungen: Extraktionsmechanismen Sprachvergleich (insb. Übersetzungen), Modellierung der Grammatik-Intonation Schnittstelle linguistische Datenbanken

Vortragsüberblick Ausgangssituation zwei Analyseszenarien Anforderungen an linguistische Datenbanken State-of-the-art: Zwei Methoden der Korpusrepräsentation Ein Ansatz zur Repräsentation und Abfrage von multi-layer Korpora Zusammenfassung und Ausblick

Ausgangssituation: Analyseszenarium (1) Kontrastive Analyse, Analyse von Übersetzungen Übersetzungskorpus populärwissenschaftliche Texte E-D Beispiel: nicht-agentive NP-Subjekte E-O: Textbooks write this process as HCl H++ Cl-. D-Ü: Lehrbücher beschreiben diesen Prozess als HCl H++ Cl-. D-Ü: In Lehrbüchern wird dieser Prozess als HCl H++ Cl- dargestellt.

Ausgangssituation: Analyseszenarium (1) multilingually comparable corpus English original texts (E-O) German translations (G-T) German original texts (G-O) English translations (E-T) parallel corpus parallel corpus monolingually comparable corpora nonagentive NP/NN subject Merkmale

Ausgangssituation: Analyseszenarium (1) (NP-SB (NN2 Textbooks) ) (VP-HD (VV0 write) (NP-OA (DD1 this) (NN1 process) (PP-MO (II as) (NP1 HCl H++ Cl-) (YC .) <?xml version="1.0"> <clause semfeat="nonagentive"> <phrase synform="NP" synfunc="SB"> <word pos="NN2">Textbooks</word> </phrase> <phrase synform="VP" synfunc="HD"> <word pos="VV0">write</word> <phrase synform="NP" synfunc="OA"> <word pos="DD1">this</word> <word pos="NN1">process</word> <phrase synform="PP" synfunc="MO"> <word pos="II">as</word> <word pos="NP1">HCl H++ Cl-</word> <word pos="YC">.</word> </clause> Blau: as Coder (SGML), manuell annotiert

Ausgangssituation: Analyseszenarium (2) Interaktion von Grammatik und Intonation Beispiel: Interaktion Satzkomplexität und Tonhöhenverlauf Problem: überlappende Segmente Korpus route descriptions (E), MRI, Macquarie University okay well you turn right and you go along the corridor and you turn left into the second little corridor and as soon as you do that the office will be straight on your right Merkmale: cont(inuing), init(ial), fin(al), para(tactic), hypo(tactic); tone

Ausgangssituation: Analyseszenarium (2) (clause:cont-init okay well you turn right) (clause:cont+para and you go along the corridor) (clause:cont+para and you turn left into the second little corridor) (clause:cont+hypo and as soon as you do that) (clause:fin the office will be straight on your right) //tone:t3 okay well you turn RIGHT//tone:t3 and you go along the CORridor and //tone:t3 you turn LEFT// tone:t3 into the second little CORridor//tone:t2 and as soon as you do THAT//tone:t1 the office will be straight on your RIGHT//

Anforderungen an linguistische Datenbanken Expressiveness: Repräsentation so mächtig wie nötig, um die relevanten Beziehungen ausdrücken zu können Simplicity: Repräsentation so orthogonal wie möglich, um Annotation, Verwaltung und Analyse zu unterstützen Integrity: Integrität der Annotation sollte gewährleistet sein Searchability: Abfragemechanismen müssen in der Lage sein, den linguistisch relevanten Beziehungen Rechnung zu tragen Mit den Analyseszenarien in Verbindung setzen!

State-of-the-art: Zwei Methoden der Korpusrepräsentation State-of-the-art: zwei Ansätze auf konzeptuell unterschiedlicher Grundlage Dominanz: gerichtete azyklische Graphen (DAG, Baum; treebanks, XML, EMU, und v. a.) Temporalität: annotation graphs (Bird & Liberman 2001) expressiveness, simplicity, integrity, searchability Mit den Analyseszenarien in Verbindung setzen!

Beispiel treebank <clause> (S (NP-SB (NN2 Textbooks) ) (VP-HD (VV0 write) (NP-OA (DD1 this) (NN1 process) (PP-MO (II as) (NP1 HCl H++ Cl-) (YC .) <clause> <phrase synform="NP" synfunc="SB"> <word pos="NN2">Textbooks</word> </phrase> <phrase synform="VP" synfunc="HD"> <word pos="VV0">write</word> <phrase synform="NP" synfunc="OA"> <word pos="DD1">this</word> <word pos="NN1">process</word> <phrase synform="PP" synfunc="MO"> <word pos="II">as</word> <word pos="NP1">HCl H++ Cl-</word> <word pos="YC">.</word> </clause> Temporalität: -

Beispiel annotation graph T/S T/VP-HD Dominanz: ~ T/NP-SB T/NP-OA T/PP-MO P/NN2 P/VV0 P/DD1 P/NN1 P/II P/NP1 P/YC 1 2 10 3 16 4 21 5 29 6 32 7 44 8 45 W/textbooks W/write W/this W/process W/as W/HCl H++ Cl- W/.

State-of-the-art: Zwei Methoden der Korpusrepräsentation Stärken/Schwächen von AGs: Temporale Abfolge von Segmenten Multi-layer Repräsentation durch Bezug auf eine gemeinsame timeline Hierarchie? Stärken/Schwächen von DAGs (XML): Hierarchie Temporale Abfolge (Ordered DAGs) XML: Überlappende Hierarchien/multi-layer? Mit den Analyseszenarien in Verbindung setzen!

State-of-the-art: Zwei Methoden der Korpusrepräsentation Expressiveness: Augmentierte AGs und ODAGs (XML) äquivalent Simplicity: AGs, ODAGs orthogonaler als XML AGs keine Unterscheidung Temporalität u. Hierarchie XML: Viele Modellierungsoptionen (Element vs. Attribut, Elementname vs. Elementinhalt)? Integrity: Tools für XML zur Überprüfung und Validierung Searchability: Tradeoff Spezialsyntax (AGs, Mate)  „einfache“ Querysprache SQL (AGs), XQuery, XSLT (XML)  mehr Tools Mit den Analyseszenarien in Verbindung setzen!

Repräsentation und Querying von multi-layer Korpora Modell: Nutzen der Stärken von AGs und ODAGs AGs: multi-layer (separate layers, gemeinsame timeline) ODAGs: Hierarchie (wenn sie Sinn macht) Format: XML; Vorteile: verfügbare Werkzeuge zum Editieren, Validieren, Transformieren Validierungsinstrumente etc für AGs in Entwicklung

Repräsentation und Querying von multi-layer Korpora Korpus: flaches Textfile (whitespace-normalisiert) layers: separate XML-Files (+ DTDs) elements: Attribute start und end markieren die character offsets der Elementinhalte (Elemente höher in der Hierarchie „erben“ diese Attribute) ids zum sharing von Elementen (plus Attribut-Wert) über multiple Hierarchien hinweg Variante von stand-off markup (Thompson & McKelvie 97) Demo: Alinierung Mit den Analyseszenarien in Verbindung setzen!

Repräsentation und Querying von multi-layer Korpora Querying: XQuery (XSLT) XQuery: Standardisierung durch W3C (W3C 2001b); Basis: XPath Beziehungstypen: (dominate =>) contain; overlap; 2 Funktionen: define function my:contains (AnyElement? $x, AnyElement? $y): Boolean {(($x/descendant-or-self::*[@start])[1]/@start <= ($y/descendant-or-self::*[@start])[1]/@start) and (($x/descendant-or-self::*[@end])[last()]/@end >= ($y/descendant-or-self::*[@end])[last()]/@end)} Mit den Analyseszenarien in Verbindung setzen! define function my:overlaps (AnyElement? $x, AnyElement? $y): Boolean {(($x/descendant-or-self::*[@start])[1]/@start <= ($y/descendant-or-self::*[@end])[last()]/@end) and (($y/descendant-or-self::*[@start])[1]/@start <= ($x/descendant-or-self::*[@end])[last()]/@end)}

Repräsentation und Querying von multi-layer Korpora Demo: 2 Queries (XQuery) containment: Einheiten, die mit nonagentive und NP/SB (NN) annotiert sind for $c in document('clauses1.xml')//clause[@semfeat='nonagentive'] where some $p in $c/phrase[@synfunc="SB"] satisfies some $w in document('pos.xml')//word[my:contains($p,.)] satisfies substring($w/@pos,1,2)='NN' return $c overlap: Einheiten, die mit tone3 und cont annotiert sind for $c in document('clauses2.xml')//clause[@comp='cont'] where some $i in document('inton-unit.xml')//inton-unit satisfies my:overlaps($c,$i) and @tone='t3' 1. Nonagentive clauses, NP-subjects

Zusammenfassung und Ausblick `State-of-the-art´ multi-layer Korpusrepräsentation: (Ordered) Directed Acyclic Graphs, Annotation Graphs Ausgangssituation kontrastive Analyse/Übersetzungen Grammatik-Intonation Schnittstelle Ableitung von Erfordernissen für die Korpusrepräsentation: Datenmodell, Abfrage Lösung: Kombination von Eigenschaften ODAGs und AGs; XML, XSLT, XQuery

Zusammenfassung und Ausblick Annotierte Korpora als linguistische Datenbanken: Linguistik Welche Arten von Beziehungen? Dominanz, lineare Abfolge, binding, Kohäsion, semantische Relationen... Verschiedene Perspektiven auf ein Korpus Abfragen auf mehreren Annotierungsschichten Vergleich verschiedener Annotierungen desselben Korpus Informatische Techniken superimposed information Querysprachen Tool kit: Skripts „externe“ tools (TSV, Baum, AG, your-XML) – our-XML Definition von Querytypen (XQuery; XSLT) zusätzliche layers; mehr Daten your-xml: z.B. Tiger

Teich E., S. Hansen & P. Fankhauser, Representing and querying multi-layer annotated corpora. In Proceedings of IRCS Workshop on Linguistic Databases, University of Pennsylvania, Philadelphia, December 2001 http://www.ldc.upenn.edu/annotation/database/proceedings.html