Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Aldric Dresden Geändert vor über 10 Jahren
1
Analyse thematischer Strukturen: Annotation und Automation
Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund
2
Inhaltsübersicht Motivation und Projektkontext
Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten Automatische Berechnung: GLexi 3 Annotationsexperimente 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 2
3
Projektkontext Projekt HyTex: „Hypertextualisierung auf textgrammatischer Grundlage“; Teilprojekt der DFG-Forschergruppe Texttechnologische Informations-modellierung Hypertextualisierung … Aufbereitung von linear organisierten Dokumenten für die selektiven, interaktiven Nutzungsformen in einem Hypertextsystem. … auf textgrammatischer Grundlage keine einfache 1:1-Konversion, sondern Erzeugung von Hypertextsichten auf der Basis textgrammatischer Annotationen, die die Vorteile (Mehrwerte) von Hypermedien bei der selektiven Lektüre ausschöpfen. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 3
4
Thematische Strukturen
Miguel de Cervantes Saavedra Geboren am in Alcalá de Henares, gestorben am in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. xxxxxxxxxxxx xxxxxxx xxxxxxxxxxxxx xxxxx xxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 4
5
Thematische Strukturen
Miguel de Cervantes Saavedra Geboren am in Alcalá de Henares, gestorben am in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx Inhalt Kapitel 1 Kapitel 2 Kapitel 2.1 … Kapitel n 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 5
6
Thematische Strukturen
Miguel de Cervantes Saavedra Geboren am in Alcalá de Henares, gestorben am in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. Themenkarte Inhalt Kapitel 1 Themenbezeichner Kapitel 2 Themenbezeichner Kapitel 2.1 Themenbezeichner und 2 … Kapitel n Themenbezeichner xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 6
7
Thematische Strukturen (cont.)
Erweiterung des Prototyps aus Phase I (vgl. u.a. um Themenkarten Themenkarte: ausgehend von Themenketten bzw. lexikalischen Ketten Darstellung als Themenkarte (~thematischer Index) thematisch motivierte Verlinkung von Themenbezeichnern Idee: Verbesserung der Orientierung für Rezipient 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 7
8
Inhaltsübersicht Motivation und Projektkontext
Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten Automatische Berechnung: GLexi 3 Annotationsexperimente 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 8
9
Lexikalische Ketten - Beispiel
Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 9
10
Lexikalische Ketten - Beispiel
Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 10
11
Lexikalische Ketten – Beispiel
Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 11
12
Lexikalische Ketten – Beispiel
Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 12
13
Lexikalische Ketten – Beispiel
Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. Kette1: sitzen – ausruhen – müde – einschlafen Kette2: Weide – Blatt – Blättern 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 13
14
Lexikalische Ketten Entspricht partieller Textrepräsentation,
eingeführt von Halliday & Hasan (Cohesion in English, 1976), technisch zuerst realisiert in CoLi durch Hirst & StOnge (1998) für englische Text, nützlich für verschiedene Anwendungen: Textzusammenfassung, Dialogmodellierung etc. u.W.n. bisher nur zwei Systeme für deutsche Texte, mit Unterschieden in Methodenwahl und Ressourcen Mehler (2006) Cramer & Finthammer (2007) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 14
15
Lexikalische Ketten Berechnung von Themenkarten für Korpora:
Wähle Themenbezeichner pro Modul – Merkmale für die Auswahl starke, lange lexikalische Ketten enthalten Themenbezeichner Häufigkeit, Position im Text, Markup … 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 15
16
Berechnung lexikalischer Ketten
Module unseres Chainers GLexi: Vorverarbeitung der Texte Ergebnis: Chainkandidaten Chainer-Kernmodul – semantische Suche (in GermaNet) Ergebnis: Meta-Chains Ausgabeerzeugung Ergebnis: z.B. visuelle Darstellung oder XML Ausgabe 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 16
17
Berechnung lexikalischer Ketten
13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 17
18
Berechnung lexikalischer Ketten
13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 18
19
Annotation lexikalischer Ketten
Qualitätsbewertung der Chains problematisch: Evaluationsdaten notwendig! Erstellung von Evaluationsdaten: Annotation von lexikalischen Ketten in Korpora Experimente zur manuellen Annotation – Organisation und Durchführung 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 19
20
Inhaltsübersicht Motivation und Projektkontext
Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten Automatische Berechnung: GLexi 3 Annotationsexperimente 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 20
21
Annotation lexikalischer Ketten
3 Annotationsexperimente: Experiment 1: manuelle Annotation lexikalischer Ketten Experiment 2: lexikalische Relationen für Chainkandidaten in GermaNet ermitteln Experiment 3: lexikalische Ketten als Mindmaps (Außerdem: einfache Annotation lexikalischer Ketten als Grundlage für Experimente zur Interaktion lexikalische Ketten - Anaphern/Koreferenz bzw. RST-Annotation.) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 21
22
Annotation lexikalischer Ketten
Experiment 1 – Rahmen: ca.10 Versuchspersonen 3 Texte („Fallschirmspringer überlebt freien Fall aus 3600 Metern Höhe“ aus FAZ.net vom 13. Februar 2007, „Traumberuf Unternehmensberater“ aus Unicum.de und „Großes Artesisches Becken“ aus deutsche Wikipedia) Versuchsaufbau: Liste aller Substantive in den 3 Texten, Bewertungsfragebogen (Relevanz der Substantive für Textverständnis – Skala 1-7), Schablone für Ketten (Linearisierung!), Liste erlaubter semantischer Relationen Feedbackfragebogen, 1 Stunde für Lesen und Annotieren, danach Abbruch ( Test: Zeitaufwand?) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 22
23
Annotation lexikalischer Ketten
13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 23
24
Annotation lexikalischer Ketten
Experiment 1 – Ergebnisse: fast alle Versuchspersonen brachen ihre Arbeit vor Ende der Versuchszeit ab! Kritikpunkte: Linearisierung der Annotation nicht möglich! Eher Netzstruktur zur Annotation sinnvoll?! (Mindmap) Viele Substantive nicht „unterbringbar“ Erlaubte semantische Relationen nicht ausreichend Inter-Annotator Agreement sehr gering! (Korrelation unter 0,4) entspricht Ergebnissen für das Englische von Morris & Hirst (2004, 2005) sowie Beigman Klebanov (2005) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 24
25
Annotation lexikalischer Ketten
Experiment 1 – Konsequenzen: Annotation muss in einfache Teilaufgaben untergliedert werden Bisher erzwungene Linearisierung ersetzen durch Netzstruktur (Mindmapping) Ausschluss einzelner Substantive aus Chaining erlauben, ergänzend Substantivgruppen / Phrasen als Chainkandidaten zulassen Aufgabe in 2 Teilaufgaben zergliedern: Manuelle Ermittlung / Annotation semantischer Relationen (Experiment 2) Manuelle Konstruktion „Mindmap-Chains“ (Experiment 3) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 25
26
Annotation lexikalischer Ketten
Experiment 2 – Rahmen: 3 Versuchspersonen Grundlage für Teilaufgabe 1 (Bestimmung von semantischen Relationen) Implementierung von GermaNet Viewer Aufgabe: Finde „Pfade“ zwischen Substantiven in GermaNet 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 26
27
Annotation lexikalischer Ketten
Implementierung: Marc Finthammer 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 27
28
Annotation lexikalischer Ketten
13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 28
29
Annotation lexikalischer Ketten
Experiment 2 – Ergebnisse: Beobachtete Konstellationen: Eine Verbindung ist in GermaNet leicht zu finden und ist sinnvoll; es gibt gefühlsmäßig eine Verbindungen, aber keinen sinnvollen Weg bzw. nur in die Leere laufende Wege in GermaNet; es gibt gefühlsmäßig keine Verbindungen, aber einen kurzen Pfad in GermaNet; es gibt gefühlsmäßig keine Verbindung, und entsprechend in GermaNet nur einen langen oder gar keinen Pfad. Generell ist der Aufwand der Navigation in GermaNet trotz Viewer extrem hoch. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 29
30
Annotation lexikalischer Ketten
Experiment 2 – Konsequenzen: Selbst die manuelle Bestimmung von Relationen ist nur schwer möglich Alternativer Weg: Human-Judgment Experiment ähnlich der Arbeiten Rubenstein & Goodenough (1965) sowie Miller & Charles (1991) für das Deutsche Bewertung von semantischer Nähe für Liste von Substantivpaaren (vgl. Cramer & Finthammer, Ergebnisse und Substantivliste auf zu finden!) diese Ergebnisse als Grundlage für Evaluation von semantischer Nähe innerhalb von lexikalischen Ketten 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 30
31
Annotation lexikalischer Ketten
Experiment 3 – Rahmen: 2 Versuchspersonen Als Grundlage für Entwicklung von Themenkarten gedacht "netzartige" Chains Aufgabe: Strukturiere (relevante) Wörter in Text als Mindmap 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 31
32
Annotation lexikalischer Ketten
13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 32
33
Annotation lexikalischer Ketten
Experiment 3 – Beobachtungen: Strukturierung der Substantive um ein Themenzentrum herum wurde im Vergleich zum Chaining als einfacher wahrgenommen; Es bleibt zu beachten: Reihenfolge beibehalten? Häufigkeit der Substantive berücksichtigen? Mehrworteinheiten? Relationstypen? Einsatz dieser Technik erfordert hohen Aufwand bei der Annotation, als Hilfestellung für die Entwicklung gerechtfertigt – als gold standard fragwürdig 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 33
34
Konsequenzen der Experimente
Methode zur Evaluation von GLexi notwendig! Unser Vorschlag: Evaluiere Performanz des Systems auf allen relevanten Ebenen separat. Abdeckung des Chainers Disambiguierungsqualität Qualität der Berechnung semantischer Nähe Anwendungsorientierte Evaluation 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 34
35
Vielen Dank!
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.