Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Analyse thematischer Strukturen: Annotation und Automation

Ähnliche Präsentationen


Präsentation zum Thema: "Analyse thematischer Strukturen: Annotation und Automation"—  Präsentation transkript:

1 Analyse thematischer Strukturen: Annotation und Automation
Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund

2 Inhaltsübersicht Motivation und Projektkontext
Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten Automatische Berechnung: GLexi 3 Annotationsexperimente 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 2

3 Projektkontext Projekt HyTex: „Hypertextualisierung auf textgrammatischer Grundlage“; Teilprojekt der DFG-Forschergruppe Texttechnologische Informations-modellierung Hypertextualisierung … Aufbereitung von linear organisierten Dokumenten für die selektiven, interaktiven Nutzungsformen in einem Hypertextsystem. … auf textgrammatischer Grundlage keine einfache 1:1-Konversion, sondern Erzeugung von Hypertextsichten auf der Basis textgrammatischer Annotationen, die die Vorteile (Mehrwerte) von Hypermedien bei der selektiven Lektüre ausschöpfen. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 3

4 Thematische Strukturen
Miguel de Cervantes Saavedra Geboren am in Alcalá de Henares, gestorben am in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. xxxxxxxxxxxx xxxxxxx xxxxxxxxxxxxx xxxxx xxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 4

5 Thematische Strukturen
Miguel de Cervantes Saavedra Geboren am in Alcalá de Henares, gestorben am in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx Inhalt Kapitel 1 Kapitel 2 Kapitel 2.1 Kapitel n 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 5

6 Thematische Strukturen
Miguel de Cervantes Saavedra Geboren am in Alcalá de Henares, gestorben am in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. Themenkarte Inhalt Kapitel 1 Themenbezeichner Kapitel 2 Themenbezeichner Kapitel 2.1 Themenbezeichner und 2 Kapitel n Themenbezeichner xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 6

7 Thematische Strukturen (cont.)
Erweiterung des Prototyps aus Phase I (vgl. u.a. um Themenkarten Themenkarte: ausgehend von Themenketten bzw. lexikalischen Ketten Darstellung als Themenkarte (~thematischer Index) thematisch motivierte Verlinkung von Themenbezeichnern Idee: Verbesserung der Orientierung für Rezipient 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 7

8 Inhaltsübersicht Motivation und Projektkontext
Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten Automatische Berechnung: GLexi 3 Annotationsexperimente 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 8

9 Lexikalische Ketten - Beispiel
Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 9

10 Lexikalische Ketten - Beispiel
Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 10

11 Lexikalische Ketten – Beispiel
Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 11

12 Lexikalische Ketten – Beispiel
Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 12

13 Lexikalische Ketten – Beispiel
Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. Kette1: sitzen – ausruhen – müde – einschlafen Kette2: Weide – Blatt – Blättern 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 13

14 Lexikalische Ketten Entspricht partieller Textrepräsentation,
eingeführt von Halliday & Hasan (Cohesion in English, 1976), technisch zuerst realisiert in CoLi durch Hirst & StOnge (1998) für englische Text, nützlich für verschiedene Anwendungen: Textzusammenfassung, Dialogmodellierung etc. u.W.n. bisher nur zwei Systeme für deutsche Texte, mit Unterschieden in Methodenwahl und Ressourcen Mehler (2006) Cramer & Finthammer (2007) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 14

15 Lexikalische Ketten Berechnung von Themenkarten für Korpora:
Wähle Themenbezeichner pro Modul – Merkmale für die Auswahl starke, lange lexikalische Ketten enthalten Themenbezeichner Häufigkeit, Position im Text, Markup 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 15

16 Berechnung lexikalischer Ketten
Module unseres Chainers GLexi: Vorverarbeitung der Texte  Ergebnis: Chainkandidaten Chainer-Kernmodul – semantische Suche (in GermaNet)  Ergebnis: Meta-Chains Ausgabeerzeugung  Ergebnis: z.B. visuelle Darstellung oder XML Ausgabe 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 16

17 Berechnung lexikalischer Ketten
13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 17

18 Berechnung lexikalischer Ketten
13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 18

19 Annotation lexikalischer Ketten
Qualitätsbewertung der Chains problematisch: Evaluationsdaten notwendig! Erstellung von Evaluationsdaten: Annotation von lexikalischen Ketten in Korpora Experimente zur manuellen Annotation – Organisation und Durchführung 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 19

20 Inhaltsübersicht Motivation und Projektkontext
Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten Automatische Berechnung: GLexi 3 Annotationsexperimente 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 20

21 Annotation lexikalischer Ketten
3 Annotationsexperimente: Experiment 1: manuelle Annotation lexikalischer Ketten Experiment 2: lexikalische Relationen für Chainkandidaten in GermaNet ermitteln Experiment 3: lexikalische Ketten als Mindmaps (Außerdem: einfache Annotation lexikalischer Ketten als Grundlage für Experimente zur Interaktion lexikalische Ketten - Anaphern/Koreferenz bzw. RST-Annotation.) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 21

22 Annotation lexikalischer Ketten
Experiment 1 – Rahmen: ca.10 Versuchspersonen 3 Texte („Fallschirmspringer überlebt freien Fall aus 3600 Metern Höhe“ aus FAZ.net vom 13. Februar 2007, „Traumberuf Unternehmensberater“ aus Unicum.de und „Großes Artesisches Becken“ aus deutsche Wikipedia) Versuchsaufbau: Liste aller Substantive in den 3 Texten, Bewertungsfragebogen (Relevanz der Substantive für Textverständnis – Skala 1-7), Schablone für Ketten (Linearisierung!), Liste erlaubter semantischer Relationen Feedbackfragebogen, 1 Stunde für Lesen und Annotieren, danach Abbruch ( Test: Zeitaufwand?) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 22

23 Annotation lexikalischer Ketten
13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 23

24 Annotation lexikalischer Ketten
Experiment 1 – Ergebnisse: fast alle Versuchspersonen brachen ihre Arbeit vor Ende der Versuchszeit ab! Kritikpunkte: Linearisierung der Annotation nicht möglich! Eher Netzstruktur zur Annotation sinnvoll?! (Mindmap) Viele Substantive nicht „unterbringbar“ Erlaubte semantische Relationen nicht ausreichend Inter-Annotator Agreement sehr gering! (Korrelation unter 0,4)  entspricht Ergebnissen für das Englische von Morris & Hirst (2004, 2005) sowie Beigman Klebanov (2005) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 24

25 Annotation lexikalischer Ketten
Experiment 1 – Konsequenzen: Annotation muss in einfache Teilaufgaben untergliedert werden Bisher erzwungene Linearisierung ersetzen durch Netzstruktur (Mindmapping) Ausschluss einzelner Substantive aus Chaining erlauben, ergänzend Substantivgruppen / Phrasen als Chainkandidaten zulassen Aufgabe in 2 Teilaufgaben zergliedern: Manuelle Ermittlung / Annotation semantischer Relationen (Experiment 2) Manuelle Konstruktion „Mindmap-Chains“ (Experiment 3) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 25

26 Annotation lexikalischer Ketten
Experiment 2 – Rahmen: 3 Versuchspersonen Grundlage für Teilaufgabe 1 (Bestimmung von semantischen Relationen)  Implementierung von GermaNet Viewer Aufgabe: Finde „Pfade“ zwischen Substantiven in GermaNet 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 26

27 Annotation lexikalischer Ketten
Implementierung: Marc Finthammer 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 27

28 Annotation lexikalischer Ketten
13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 28

29 Annotation lexikalischer Ketten
Experiment 2 – Ergebnisse: Beobachtete Konstellationen: Eine Verbindung ist in GermaNet leicht zu finden und ist sinnvoll; es gibt gefühlsmäßig eine Verbindungen, aber keinen sinnvollen Weg bzw. nur in die Leere laufende Wege in GermaNet; es gibt gefühlsmäßig keine Verbindungen, aber einen kurzen Pfad in GermaNet; es gibt gefühlsmäßig keine Verbindung, und entsprechend in GermaNet nur einen langen oder gar keinen Pfad. Generell ist der Aufwand der Navigation in GermaNet trotz Viewer extrem hoch. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 29

30 Annotation lexikalischer Ketten
Experiment 2 – Konsequenzen: Selbst die manuelle Bestimmung von Relationen ist nur schwer möglich Alternativer Weg: Human-Judgment Experiment ähnlich der Arbeiten Rubenstein & Goodenough (1965) sowie Miller & Charles (1991) für das Deutsche Bewertung von semantischer Nähe für Liste von Substantivpaaren (vgl. Cramer & Finthammer, Ergebnisse und Substantivliste auf zu finden!)  diese Ergebnisse als Grundlage für Evaluation von semantischer Nähe innerhalb von lexikalischen Ketten 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 30

31 Annotation lexikalischer Ketten
Experiment 3 – Rahmen: 2 Versuchspersonen Als Grundlage für Entwicklung von Themenkarten gedacht  "netzartige" Chains Aufgabe: Strukturiere (relevante) Wörter in Text als Mindmap 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 31

32 Annotation lexikalischer Ketten
13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 32

33 Annotation lexikalischer Ketten
Experiment 3 – Beobachtungen: Strukturierung der Substantive um ein Themenzentrum herum wurde im Vergleich zum Chaining als einfacher wahrgenommen; Es bleibt zu beachten: Reihenfolge beibehalten? Häufigkeit der Substantive berücksichtigen? Mehrworteinheiten? Relationstypen?  Einsatz dieser Technik erfordert hohen Aufwand bei der Annotation, als Hilfestellung für die Entwicklung gerechtfertigt – als gold standard fragwürdig 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 33

34 Konsequenzen der Experimente
Methode zur Evaluation von GLexi notwendig! Unser Vorschlag: Evaluiere Performanz des Systems auf allen relevanten Ebenen separat. Abdeckung des Chainers Disambiguierungsqualität Qualität der Berechnung semantischer Nähe Anwendungsorientierte Evaluation 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 34

35 Vielen Dank!


Herunterladen ppt "Analyse thematischer Strukturen: Annotation und Automation"

Ähnliche Präsentationen


Google-Anzeigen