Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Repräsentation und Abfrage von multi-layer Korpora Elke Teich, FR 4

Ähnliche Präsentationen


Präsentation zum Thema: "Repräsentation und Abfrage von multi-layer Korpora Elke Teich, FR 4"—  Präsentation transkript:

1 Repräsentation und Abfrage von multi-layer Korpora Elke Teich, FR 4
Repräsentation und Abfrage von multi-layer Korpora Elke Teich, FR 4.6, UdS Silvia Hansen, FR 4.7, UdS Peter Fankhauser, FhG-IPSI, Darmstadt

2 Hintergrund Multi-layer Korpora – Repräsentation und Abfrage
Kontext: vermehrt Annotation verschiedener Arten von linguistischer Information für verschiedene Zwecke Trainieren statistischer Verfahren Referenzkorpora für automatische Verfahren linguistische Abfragen Informationsextraktion Fragen multi-layer – was ist das? Anforderungen: Datenmodell Anforderungen: Extraktionsmechanismen Sprachvergleich (insb. Übersetzungen), Modellierung der Grammatik-Intonation Schnittstelle linguistische Datenbanken

3 Vortragsüberblick Ausgangssituation
zwei Analyseszenarien Anforderungen an linguistische Datenbanken State-of-the-art: Zwei Methoden der Korpusrepräsentation Ein Ansatz zur Repräsentation und Abfrage von multi-layer Korpora Zusammenfassung und Ausblick

4 Ausgangssituation: Analyseszenarium (1)
Kontrastive Analyse, Analyse von Übersetzungen Übersetzungskorpus populärwissenschaftliche Texte E-D Beispiel: nicht-agentive NP-Subjekte E-O: Textbooks write this process as HCl H++ Cl-. D-Ü: Lehrbücher beschreiben diesen Prozess als HCl H++ Cl-. D-Ü: In Lehrbüchern wird dieser Prozess als HCl H++ Cl- dargestellt.

5 Ausgangssituation: Analyseszenarium (1)
multilingually comparable corpus English original texts (E-O) German translations (G-T) German original texts (G-O) English translations (E-T) parallel corpus parallel corpus monolingually comparable corpora nonagentive NP/NN subject Merkmale

6 Ausgangssituation: Analyseszenarium (1)
(NP-SB (NN2 Textbooks) ) (VP-HD (VV0 write) (NP-OA (DD1 this) (NN1 process) (PP-MO (II as) (NP1 HCl H++ Cl-) (YC .) <?xml version="1.0"> <clause semfeat="nonagentive"> <phrase synform="NP" synfunc="SB"> <word pos="NN2">Textbooks</word> </phrase> <phrase synform="VP" synfunc="HD"> <word pos="VV0">write</word> <phrase synform="NP" synfunc="OA"> <word pos="DD1">this</word> <word pos="NN1">process</word> <phrase synform="PP" synfunc="MO"> <word pos="II">as</word> <word pos="NP1">HCl H++ Cl-</word> <word pos="YC">.</word> </clause> Blau: as Coder (SGML), manuell annotiert

7 Ausgangssituation: Analyseszenarium (2)
Interaktion von Grammatik und Intonation Beispiel: Interaktion Satzkomplexität und Tonhöhenverlauf Problem: überlappende Segmente Korpus route descriptions (E), MRI, Macquarie University okay well you turn right and you go along the corridor and you turn left into the second little corridor and as soon as you do that the office will be straight on your right Merkmale: cont(inuing), init(ial), fin(al), para(tactic), hypo(tactic); tone

8 Ausgangssituation: Analyseszenarium (2)
(clause:cont-init okay well you turn right) (clause:cont+para and you go along the corridor) (clause:cont+para and you turn left into the second little corridor) (clause:cont+hypo and as soon as you do that) (clause:fin the office will be straight on your right) //tone:t3 okay well you turn RIGHT//tone:t3 and you go along the CORridor and //tone:t3 you turn LEFT// tone:t3 into the second little CORridor//tone:t2 and as soon as you do THAT//tone:t1 the office will be straight on your RIGHT//

9 Anforderungen an linguistische Datenbanken
Expressiveness: Repräsentation so mächtig wie nötig, um die relevanten Beziehungen ausdrücken zu können Simplicity: Repräsentation so orthogonal wie möglich, um Annotation, Verwaltung und Analyse zu unterstützen Integrity: Integrität der Annotation sollte gewährleistet sein Searchability: Abfragemechanismen müssen in der Lage sein, den linguistisch relevanten Beziehungen Rechnung zu tragen Mit den Analyseszenarien in Verbindung setzen!

10 State-of-the-art: Zwei Methoden der Korpusrepräsentation
State-of-the-art: zwei Ansätze auf konzeptuell unterschiedlicher Grundlage Dominanz: gerichtete azyklische Graphen (DAG, Baum; treebanks, XML, EMU, und v. a.) Temporalität: annotation graphs (Bird & Liberman 2001) expressiveness, simplicity, integrity, searchability Mit den Analyseszenarien in Verbindung setzen!

11 Beispiel treebank <clause> (S
(NP-SB (NN2 Textbooks) ) (VP-HD (VV0 write) (NP-OA (DD1 this) (NN1 process) (PP-MO (II as) (NP1 HCl H++ Cl-) (YC .) <clause> <phrase synform="NP" synfunc="SB"> <word pos="NN2">Textbooks</word> </phrase> <phrase synform="VP" synfunc="HD"> <word pos="VV0">write</word> <phrase synform="NP" synfunc="OA"> <word pos="DD1">this</word> <word pos="NN1">process</word> <phrase synform="PP" synfunc="MO"> <word pos="II">as</word> <word pos="NP1">HCl H++ Cl-</word> <word pos="YC">.</word> </clause> Temporalität: -

12 Beispiel annotation graph
T/S T/VP-HD Dominanz: ~ T/NP-SB T/NP-OA T/PP-MO P/NN2 P/VV0 P/DD1 P/NN1 P/II P/NP1 P/YC 1 2 10 3 16 4 21 5 29 6 32 7 44 8 45 W/textbooks W/write W/this W/process W/as W/HCl H++ Cl- W/.

13 State-of-the-art: Zwei Methoden der Korpusrepräsentation
Stärken/Schwächen von AGs: Temporale Abfolge von Segmenten Multi-layer Repräsentation durch Bezug auf eine gemeinsame timeline Hierarchie? Stärken/Schwächen von DAGs (XML): Hierarchie Temporale Abfolge (Ordered DAGs) XML: Überlappende Hierarchien/multi-layer? Mit den Analyseszenarien in Verbindung setzen!

14 State-of-the-art: Zwei Methoden der Korpusrepräsentation
Expressiveness: Augmentierte AGs und ODAGs (XML) äquivalent Simplicity: AGs, ODAGs orthogonaler als XML AGs keine Unterscheidung Temporalität u. Hierarchie XML: Viele Modellierungsoptionen (Element vs. Attribut, Elementname vs. Elementinhalt)? Integrity: Tools für XML zur Überprüfung und Validierung Searchability: Tradeoff Spezialsyntax (AGs, Mate)  „einfache“ Querysprache SQL (AGs), XQuery, XSLT (XML)  mehr Tools Mit den Analyseszenarien in Verbindung setzen!

15 Repräsentation und Querying von multi-layer Korpora
Modell: Nutzen der Stärken von AGs und ODAGs AGs: multi-layer (separate layers, gemeinsame timeline) ODAGs: Hierarchie (wenn sie Sinn macht) Format: XML; Vorteile: verfügbare Werkzeuge zum Editieren, Validieren, Transformieren Validierungsinstrumente etc für AGs in Entwicklung

16 Repräsentation und Querying von multi-layer Korpora
Korpus: flaches Textfile (whitespace-normalisiert) layers: separate XML-Files (+ DTDs) elements: Attribute start und end markieren die character offsets der Elementinhalte (Elemente höher in der Hierarchie „erben“ diese Attribute) ids zum sharing von Elementen (plus Attribut-Wert) über multiple Hierarchien hinweg Variante von stand-off markup (Thompson & McKelvie 97) Demo: Alinierung Mit den Analyseszenarien in Verbindung setzen!

17 Repräsentation und Querying von multi-layer Korpora
Querying: XQuery (XSLT) XQuery: Standardisierung durch W3C (W3C 2001b); Basis: XPath Beziehungstypen: (dominate =>) contain; overlap; 2 Funktionen: define function my:contains (AnyElement? $x, AnyElement? $y): Boolean <= and >= Mit den Analyseszenarien in Verbindung setzen! define function my:overlaps (AnyElement? $x, AnyElement? $y): Boolean <= and <=

18 Repräsentation und Querying von multi-layer Korpora
Demo: 2 Queries (XQuery) containment: Einheiten, die mit nonagentive und NP/SB (NN) annotiert sind for $c in where some $p in satisfies some $w in document('pos.xml')//word[my:contains($p,.)] satisfies return $c overlap: Einheiten, die mit tone3 und cont annotiert sind for $c in where some $i in document('inton-unit.xml')//inton-unit satisfies my:overlaps($c,$i) 1. Nonagentive clauses, NP-subjects

19 Zusammenfassung und Ausblick
`State-of-the-art´ multi-layer Korpusrepräsentation: (Ordered) Directed Acyclic Graphs, Annotation Graphs Ausgangssituation kontrastive Analyse/Übersetzungen Grammatik-Intonation Schnittstelle Ableitung von Erfordernissen für die Korpusrepräsentation: Datenmodell, Abfrage Lösung: Kombination von Eigenschaften ODAGs und AGs; XML, XSLT, XQuery

20 Zusammenfassung und Ausblick
Annotierte Korpora als linguistische Datenbanken: Linguistik Welche Arten von Beziehungen? Dominanz, lineare Abfolge, binding, Kohäsion, semantische Relationen... Verschiedene Perspektiven auf ein Korpus Abfragen auf mehreren Annotierungsschichten Vergleich verschiedener Annotierungen desselben Korpus Informatische Techniken superimposed information Querysprachen Tool kit: Skripts „externe“ tools (TSV, Baum, AG, your-XML) – our-XML Definition von Querytypen (XQuery; XSLT) zusätzliche layers; mehr Daten your-xml: z.B. Tiger

21 Teich E., S. Hansen & P. Fankhauser, Representing
and querying multi-layer annotated corpora. In Proceedings of IRCS Workshop on Linguistic Databases, University of Pennsylvania, Philadelphia, December 2001


Herunterladen ppt "Repräsentation und Abfrage von multi-layer Korpora Elke Teich, FR 4"

Ähnliche Präsentationen


Google-Anzeigen