Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund.

Ähnliche Präsentationen


Präsentation zum Thema: "Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund."—  Präsentation transkript:

1 Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund

2 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund2 Inhaltsübersicht Motivation und Projektkontext Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten –Automatische Berechnung: GLexi –3 Annotationsexperimente

3 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund3 Projektkontext HyTex:Hy texProjekt HyTex: Hypertextualisierung auf textgrammatischer Grundlage; Teilprojekt der DFG- Forschergruppe Texttechnologische Informations- modellierung Hypertextualisierung …Hypertextualisierung … Aufbereitung von linear organisierten Dokumenten für die selektiven, interaktiven Nutzungsformen in einem Hypertextsystem. … auf textgrammatischer Grundlage… auf textgrammatischer Grundlage keine einfache 1:1-Konversion, sondern Erzeugung von Hypertextsichten auf der Basis textgrammatischer Annotationen, die die Vorteile (Mehrwerte) von Hypermedien bei der selektiven Lektüre ausschöpfen.

4 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund4 Miguel de Cervantes Saavedra Geboren am in Alcalá de Henares, gestorben am in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. Thematische Strukturen xxxxxxxxxxxx xxxxxxx xxxxxxxxxxxxx xxxxxxxxxxxx xxxxx xxxxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx xxxxxxxxxx

5 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund5 Miguel de Cervantes Saavedra Geboren am in Alcalá de Henares, gestorben am in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. Thematische Strukturen xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx xxxxxxxxxx Inhalt Kapitel 1 Kapitel 2 Kapitel 2.1 … Kapitel n

6 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund6 Miguel de Cervantes Saavedra Geboren am in Alcalá de Henares, gestorben am in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. Thematische Strukturen xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx xxxxxxxxxx Inhalt Kapitel 1 Themenbezeichner Kapitel 2 Themenbezeichner Kapitel 2.1 Themenbezeichner 1 und 2 … Kapitel n Themenbezeichner

7 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund7 Thematische Strukturen (cont.) Erweiterung des Prototyps aus Phase I (vgl. u.a. um Themenkarten Themenkarte:Themenkarte: –ausgehend von Themenketten bzw. lexikalischen Ketten –Darstellung als Themenkarte (~thematischer Index) –thematisch motivierte Verlinkung von Themenbezeichnern Idee: Verbesserung der Orientierung für Rezipient

8 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund8 Inhaltsübersicht Motivation und Projektkontext Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten –Automatische Berechnung: GLexi –3 Annotationsexperimente

9 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund9 Lexikalische Ketten - Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

10 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund10 Lexikalische Ketten - Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

11 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund11 Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

12 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund12 Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

13 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund13 Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. Kette1: sitzen – ausruhen – müde – einschlafen Kette2: Weide – Blatt – Blättern

14 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund14 Lexikalische Ketten Entspricht partieller Textrepräsentation, eingeführt von Halliday & Hasan (Cohesion in English, 1976), technisch zuerst realisiert in CoLi durch Hirst & StOnge (1998) für englische Text, nützlich für verschiedene Anwendungen: –Textzusammenfassung, Dialogmodellierung etc. u.W.n. bisher nur zwei Systeme für deutsche Texte, mit Unterschieden in Methodenwahl und Ressourcen –Mehler (2006) –Cramer & Finthammer (2007)

15 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund15 Lexikalische Ketten Berechnung von Themenkarten für Korpora: Wähle Themenbezeichner pro Modul – Merkmale für die Auswahl –starke, lange lexikalische Ketten enthalten Themenbezeichner –Häufigkeit, Position im Text, Markup –…

16 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund16 Berechnung lexikalischer Ketten Module unseres Chainers GLexi: –Vorverarbeitung der Texte Ergebnis: Chainkandidaten –Chainer-Kernmodul – semantische Suche (in GermaNet) Ergebnis: Meta-Chains –Ausgabeerzeugung Ergebnis: z.B. visuelle Darstellung oder XML Ausgabe

17 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund17 Berechnung lexikalischer Ketten

18 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund18 Berechnung lexikalischer Ketten

19 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund19 Annotation lexikalischer Ketten Qualitätsbewertung der Chains problematisch: Evaluationsdaten notwendig! Erstellung von Evaluationsdaten: Annotation von lexikalischen Ketten in Korpora Experimente zur manuellen Annotation – Organisation und Durchführung

20 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund20 Inhaltsübersicht Motivation und Projektkontext Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten –Automatische Berechnung: GLexi –3 Annotationsexperimente

21 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund21 Annotation lexikalischer Ketten 3 Annotationsexperimente: –Experiment 1: manuelle Annotation lexikalischer Ketten –Experiment 2: lexikalische Relationen für Chainkandidaten in GermaNet ermitteln –Experiment 3: lexikalische Ketten als Mindmaps (Außerdem: einfache Annotation lexikalischer Ketten als Grundlage für Experimente zur Interaktion lexikalische Ketten - Anaphern/Koreferenz bzw. RST- Annotation.)

22 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund22 Annotation lexikalischer Ketten Experiment 1 – Rahmen: ca.10 Versuchspersonen 3 Texte (Fallschirmspringer überlebt freien Fall aus 3600 Metern Höhe aus FAZ.net vom 13. Februar 2007, Traumberuf Unternehmensberater aus Unicum.de und Großes Artesisches Becken aus deutsche Wikipedia) Versuchsaufbau: –Liste aller Substantive in den 3 Texten, –Bewertungsfragebogen (Relevanz der Substantive für Textverständnis – Skala 1-7), –Schablone für Ketten (Linearisierung!), –Liste erlaubter semantischer Relationen –Feedbackfragebogen, 1 Stunde für Lesen und Annotieren, danach Abbruch ( Test: Zeitaufwand?)

23 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund23 Annotation lexikalischer Ketten

24 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund24 Annotation lexikalischer Ketten Experiment 1 – Ergebnisse: fast alle Versuchspersonen brachen ihre Arbeit vor Ende der Versuchszeit ab! Kritikpunkte: –Linearisierung der Annotation nicht möglich! –Eher Netzstruktur zur Annotation sinnvoll?! (Mindmap) –Viele Substantive nicht unterbringbar –Erlaubte semantische Relationen nicht ausreichend Inter-Annotator Agreement sehr gering! (Korrelation unter 0,4) entspricht Ergebnissen für das Englische von Morris & Hirst (2004, 2005) sowie Beigman Klebanov (2005)

25 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund25 Annotation lexikalischer Ketten Experiment 1 – Konsequenzen: Annotation muss in einfache Teilaufgaben untergliedert werden Bisher erzwungene Linearisierung ersetzen durch Netzstruktur (Mindmapping) Ausschluss einzelner Substantive aus Chaining erlauben, ergänzend Substantivgruppen / Phrasen als Chainkandidaten zulassen Aufgabe in 2 Teilaufgaben zergliedern: –Manuelle Ermittlung / Annotation semantischer Relationen (Experiment 2) –Manuelle Konstruktion Mindmap-Chains (Experiment 3)

26 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund26 Annotation lexikalischer Ketten Experiment 2 – Rahmen: 3 Versuchspersonen Grundlage für Teilaufgabe 1 (Bestimmung von semantischen Relationen) Implementierung von GermaNet Viewer Aufgabe: Finde Pfade zwischen Substantiven in GermaNet

27 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund27 Annotation lexikalischer Ketten Implementierung: Marc Finthammer

28 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund28 Annotation lexikalischer Ketten

29 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund29 Annotation lexikalischer Ketten Experiment 2 – Ergebnisse: Beobachtete Konstellationen: –Eine Verbindung ist in GermaNet leicht zu finden und ist sinnvoll; –es gibt gefühlsmäßig eine Verbindungen, aber keinen sinnvollen Weg bzw. nur in die Leere laufende Wege in GermaNet; –es gibt gefühlsmäßig keine Verbindungen, aber einen kurzen Pfad in GermaNet; –es gibt gefühlsmäßig keine Verbindung, und entsprechend in GermaNet nur einen langen oder gar keinen Pfad. Generell ist der Aufwand der Navigation in GermaNet trotz Viewer extrem hoch.

30 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund30 Annotation lexikalischer Ketten Experiment 2 – Konsequenzen: Selbst die manuelle Bestimmung von Relationen ist nur schwer möglich Alternativer Weg: Human-Judgment Experiment ähnlich der Arbeiten Rubenstein & Goodenough (1965) sowie Miller & Charles (1991) für das Deutsche Bewertung von semantischer Nähe für Liste von Substantivpaaren (vgl. Cramer & Finthammer, Ergebnisse und Substantivliste auf zu finden!) diese Ergebnisse als Grundlage für Evaluation von semantischer Nähe innerhalb von lexikalischen Ketten

31 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund31 Annotation lexikalischer Ketten Experiment 3 – Rahmen: 2 Versuchspersonen Als Grundlage für Entwicklung von Themenkarten gedacht "netzartige" Chains Aufgabe: Strukturiere (relevante) Wörter in Text als Mindmap

32 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund32 Annotation lexikalischer Ketten

33 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund33 Annotation lexikalischer Ketten Experiment 3 – Beobachtungen: Strukturierung der Substantive um ein Themenzentrum herum wurde im Vergleich zum Chaining als einfacher wahrgenommen; Es bleibt zu beachten: –Reihenfolge beibehalten? –Häufigkeit der Substantive berücksichtigen? –Mehrworteinheiten? –Relationstypen? Einsatz dieser Technik erfordert hohen Aufwand bei der Annotation, als Hilfestellung für die Entwicklung gerechtfertigt – als gold standard fragwürdig

34 13/09/07Institut für deutsche Sprache und Literatur – Universität Dortmund34 Konsequenzen der Experimente Methode zur Evaluation von GLexi notwendig! Unser Vorschlag: Evaluiere Performanz des Systems auf allen relevanten Ebenen separat. –Abdeckung des Chainers –Disambiguierungsqualität –Qualität der Berechnung semantischer Nähe –Anwendungsorientierte Evaluation

35 Vielen Dank!


Herunterladen ppt "Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund."

Ähnliche Präsentationen


Google-Anzeigen