Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos IDS Jahrestagung Mannheim, 18.03.2005.

Ähnliche Präsentationen


Präsentation zum Thema: "Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos IDS Jahrestagung Mannheim, 18.03.2005."—  Präsentation transkript:

1 Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos IDS Jahrestagung Mannheim,

2 IMotivation Variation sprachlicher Mittel referentielle Ausdrücke bezeichnen prototypische Objekte in der Diskurswelt (Diskursreferent, Karttunen 1975) wirken kohärenzstiftend beeinflussen Wahrnehmung und Verständlichkeit Instrument zur Strukturierung von Texten

3 IMotivation Variation sprachlicher Mittel referentielle Ausdrücke variieren bzgl. ihrer morphosyntaktischen Kategorie (REF) Was wollte dein Kollege vorhin von der Gärtnerin ? Hans kaufte bei ihr Blumen.Pronomen Hans kaufte bei Maria Blumen.Eigenname Hans kaufte bei der Frau Blumen.definite NP Hans kaufte bei dieser Frau Blumen.NP + dem.prn

4 IMotivation Variation sprachlicher Mittel referentielle Ausdrücke variieren bzgl. ihrer morphosyntaktischen Kategorie (REF) der Wortstellung (WS) der grammatischen Rollen (GR) diese Variabilität ist nicht vollständig durch syntaktische und semantische Restriktionen determiniert

5 IMotivation Probleme Strenge einer Kodierungsentscheidung stilistische Präferenz oder sprachlich restriktiv Goldstandard-Problem für die Textgenerierung natürliche Texte können suboptimal sein Übereinstimmung ist damit kein hinreichendes Gütekriterium verschränkte Variabilität Abweichungen bzgl. der erwarteten Kodierung auf einer Ebene (z.B. REF) können durch Abweichungen auf einer anderen (z.B. WS) kompensiert werden

6 IIAlternativentexte Hintergrund Ziel Untersuchung dieser Freiheitsgrade Untersuchung kontextueller Parameter Grundidee (Mellish & Yeh 1997) Lückentext Probanden wählen für jede Lücke aus verschiedenen vorgegebenen Alternativen diese Kodierungsentscheidung kann mit der eines Textgenerierungssystems verglichen werden

7 IIAlternativentexte Zielstellung Betrachtung mehrer Ebenen sprachlicher Variation REF, WS, GR Sicherstellung hinreichender Überlappung kurze Texte (15-20 Sätze) skalierbare Variabilität der Lückentexte REF REF+WO REF+WO+GR

8 IIAlternativentexte Basisdaten Potsdamer Kommentarkorpus (Stede 2004) deutschsprachige Zeitungskommentare auf verschiedenen Ebenen annotiert Morphosyntax (TIGER) Koreferenz (PoCoS) rhetorische Struktur (URML) Informationsstruktur (SFB 632) integratives Metaformat (ANNIS)

9 IIAlternativentexte Erzeugung und Einsatz Erzeugung aus morphosyntaktisch (TIGER) und Koreferenz- (PoCoS) annotierten Texten wird ein Projekt-Skelett erzeugt, dann semimanuell mit Alternativen angereichert Einsatz menschliche Probanden werden mit dem daraus erstellten Lückentext (Entscheidungsbaum) konfrontiert Kodierungsentscheidungen (Pfade) werden separat gespeichert

10 IIAlternativentexte Semimanuelle Anreicherung Projekt-Skelett Koreferenz- Annotation morphosyntaktische Annotation nur eine Alternative enthaltend (den originalen Text) GR REFWS Alternativentext Alternativen- annotiert Alternativenannotation Variation des referentiellen Ausdrucks und Kongruenzprüfung + Variation der grammatischen Rollen (Passivierung, Verbwechsel) (+) Variation der Worstellung (+)

11 IIIX ALT Ein Format für Alternativentexte XML-basiert standoff-Architektur verteiltes Format mehrere Ebenen der Annotation beziehen sich auf dieselben Basisdaten werden separat gespeichert modulare Struktur erweiterbar platzeffizient

12 IIIX ALT Ein Format für Alternativentexte base.xml ref.xml die Worte des Textes für jeden Referenten verschiedene referen- tielle Ausdrücke segments.xml für jeden Satz alternative Ab- folgen von Wor- ten und Ver- weisen auf Referenten text.xml die Abfolge der Segmente in einem Text

13 IIIX ALT Ein Format für Alternativentexte base.xml ref.xml die Worte des Textes für jeden Referenten verschiedene referen- tielle Ausdrücke segments.xml für jeden Satz alternative Ab- folgen von Wor- ten und Ver- weisen auf Referenten text.xml die Abfolge der Segmente in einem Text paths.xml vom Nutzer oder Autor gewählte Kodierungsalter- nativen

14 IIIX ALT Beispiel base.xml ref.xmlsegments.xmltext.xml paths.xml Was wollte dein Kollege vorhin von der Gärtnerin ?

15 IIIX ALT Beispiel base.xml ref.xmlsegments.xmltext.xml paths.xml Was 1 wollte 2 dein 3 Kollege 4 vorhin 5 von 6 der 7 Gärtnerin 8 ? 9 word_1: was word_2: wollte word_3: dein....

16 IIIX ALT Beispiel base.xml ref.xml segments.xml paths.xml [[dein] 2 Kollege] 3 [Was] 1 wollte [[dein] 2 Kollege] 3 vorhin von [der Gärtnerin] 4 ? text.xml ref_3:[dein] 2 Kollege der Kollege [dein] 2 netter Kollege der Kollege Hans Hans der Hans dieser Hans...

17 IIIX ALT Beispiel base.xml ref.xml segments.xml text.xml paths.xml Was wollte dein Kollege vorhin von der Gärtnerin ? seg_1:alt_1alt_2... ref_1ref_3word_2 ref_3word_5 word_5ref_1word_6ref_4word_9

18 IIIX ALT Beispiel base.xml ref.xml segments.xml text.xml paths.xml Was wollte dein Kollege vorhin von der Gärtnerin ? seg_1:alt_1... ref_1(was) word_2(wollte) ref_3(dein Kollege) word_5(vorhin) word_6(von) ref_4(der Gärtnerin) word_9(?)

19 IIIX ALT Beispiel base.xml ref.xml segments.xml text.xml paths.xml Was wollte dein Kollege vorhin von der Gärtnerin ? seg_1:alt_1... ref_1 ref_1(was) word_2(wollte) ref_3 ref_3(dein Kollege) word_5(vorhin) word_6(von) ref_4 ref_4(der Gärtnerin) word_9(?) Entscheidungsknoten: referentielle Ausdrücke

20 IIIX ALT Beispiel base.xml ref.xml segments.xml text.xml paths.xml Was wollte dein Kollege vorhin von der Gärtnerin ? seg_1 seg_1:alt_1alt_ ref_3(Hans) word_2(wollte) word_5(vorhin) ref_1(was) word_6(von) ref_4(der G.) word_9(?) Entscheidungsknoten: Form der Äußerung

21 IIIX ALT Beispiel base.xml ref.xmlsegments.xml text.xml paths.xml [Was wollte dein Kollege vorhin von der Gärtnerin ?] 1 text_1:alt_text_1 seg_1 seg_2 [Hans kaufte bei ihr Blumen.] 2

22 IIIX ALT Ein partieller Entscheidungsbaum seg_1 ref_1 was wollte ref_3 dein Kollege der Hans vorhin von ref_4 der Gärtnerin ihr ?... ref_3 dein Kollege der Hans... wollte vorhin ref_1was von ref_4 der Gärtnerin ihr ?... alt_1alt_2

23 III X ALT Ein Pfad seg_1 ref_1 was wollte ref_3 dein Kollege der Hans vorhin von ref_4 der Gärtnerin ihr ?... ref_3 dein Kollege der Hans... wollte vorhin ref_1was von ref_4 der Gärtnerin ihr ?... alt_1

24 IIIX ALT Beispiel base.xml ref.xmlsegments.xmltext.xml paths.xml seg_1 ref_1 was wollte ref_3 dein Kollege der Hans vorhin von ref_4 der Gärtnerin ihr ?... pathid = orig alt_1

25 IVAnwendung und Auswertung paths.xml ordnet in jedem Pfad jedem Entscheidungsknoten eine getroffene Kodierungsentscheidung zu gestattet die Rekonstruktion des Textes enthält zusätzlich Verweise auf die Form des referentiellen Ausdrucks (REF) grammatische Relationen (GR) Wortstellung (WS) alleiniger Gegenstand der empirischen Auswertung

26 IVAnwendung und Auswertung Statistische Auswertung empirische Erfassung der Voraussagekraft verschiedener Kontextfaktoren für das Eintreten und die Variabilität einer gewählten Realisierungsoption Relevanz- (importance/salience) Indikatoren Givenness- (contextual boundedness/salience) Indikatoren praktisch hochrelevant für Aspekte der Maschinellen Textgenerierung, - zusammenfassung und -interpretation

27 IVAnwendung und Auswertung Theoretische Interpretation Vergleich von Voraussagen verschiedener Theorien zu referentieller Kohärenz und Anaphernresolution anhand empirischer Daten Centering Theory (Grosz et al. 1995) Givón (2001) Sgall et al. (1986)...

28 IVAnwendung und Auswertung Evaluation der Textgenerierung automatisch abgeleitete Kodierungspräferenzen werden mit manuell gewählten verglichen der Grad der Übereinstimmung, gewichtet mit der Variabilität einer Kodierungsentscheidung, kann als Gütefunktion verwendet werden Im Unterschied zum Goldstandard-Ansatz wird dabei über mehrere Varianten in einem festen lokalen Kontext generalisiert Minimierung von individuellen/stilistischen Artefakten

29 APlatzkomplexität wir betrachten einen Satz mit transitivem Verb, zwei Argumenten, einem Adjunkt und einem Adverb Hans kaufte gestern bei Maria Blumen.

30 APlatzkomplexität Hans kaufte gestern bei Maria Blumen. REF pro Referent durch eine große Konstante abschätzbar, z.B. 10, daher 10 3 =1000 GR Passivierung: 2 Verbalternation: mind. 2 (verkaufen) WS Vorfeldbesetzung + Variation im Mittelfeld ca. 4!=24 Permutationen Varianten pro Satz * 4 * 24 =

31 in Abhängigkeit von der Länge n eines Satzes base.xml O(log n + n) ref.xml O(n*log n) linear: max. konstant viele neue Referenten pro Satz mit konstant beschränkbarer Länge segment.xml O(n!*n c *log n) nur aus Verweisen bestehend text.xml O(1) gesamt verteilt O(n!*n c *log n) monolithisch O(n!*n c ) APlatzkomplexität Hans kaufte gestern bei Maria Blumen.


Herunterladen ppt "Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos IDS Jahrestagung Mannheim, 18.03.2005."

Ähnliche Präsentationen


Google-Anzeigen