Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Semimanuelle Generierung und Auswertung von Alternativentexten

Ähnliche Präsentationen


Präsentation zum Thema: "Semimanuelle Generierung und Auswertung von Alternativentexten"—  Präsentation transkript:

1 Semimanuelle Generierung und Auswertung von Alternativentexten
Christian Chiarcos Wortwahl reduzieren allgemeiner & zielgrp.pfg. IDS Jahrestagung Mannheim,

2 I Motivation Variation sprachlicher Mittel
referentielle Ausdrücke bezeichnen prototypische „Objekte“ in der Diskurswelt (Diskursreferent, Karttunen 1975) wirken kohärenzstiftend ð beeinflussen Wahrnehmung und Verständlichkeit ð Instrument zur Strukturierung von Texten explizite strukturbesprechung

3 I Motivation Variation sprachlicher Mittel
referentielle Ausdrücke variieren bzgl. ihrer morphosyntaktischen Kategorie (REF) Was wollte dein Kollege vorhin von der Gärtnerin ? Hans kaufte bei ihr Blumen. Pronomen Hans kaufte bei Maria Blumen. Eigenname Hans kaufte bei der Frau Blumen. definite NP Hans kaufte bei dieser Frau Blumen. NP + dem.prn beschränkg. auf REF + ütr.

4 I Motivation Variation sprachlicher Mittel
referentielle Ausdrücke variieren bzgl. ihrer morphosyntaktischen Kategorie (REF) der Wortstellung (WS) der grammatischen Rollen (GR) diese Variabilität ist nicht vollständig durch syntaktische und semantische Restriktionen determiniert

5 I Motivation Probleme Strenge einer Kodierungsentscheidung
stilistische Präferenz oder sprachlich restriktiv „Goldstandard-Problem“ für die Textgenerierung natürliche Texte können suboptimal sein Übereinstimmung ist damit kein hinreichendes Gütekriterium verschränkte Variabilität Abweichungen bzgl. der erwarteten Kodierung auf einer Ebene (z.B. REF) können durch Abweichungen auf einer anderen (z.B. WS) kompensiert werden gold standard expliziter

6 II Alternativentexte Hintergrund
Ziel Untersuchung dieser Freiheitsgrade Untersuchung kontextueller Parameter Grundidee (Mellish & Yeh 1997) Lückentext Probanden wählen für jede Lücke aus verschiedenen vorgegebenen Alternativen diese Kodierungsentscheidung kann mit der eines Textgenerierungssystems verglichen werden

7 II Alternativentexte Zielstellung
Betrachtung mehrer Ebenen sprachlicher Variation REF, WS, GR Sicherstellung hinreichender Überlappung kurze Texte (15-20 Sätze) skalierbare Variabilität der Lückentexte REF REF+WO REF+WO+GR aussage !

8 II Alternativentexte Basisdaten
Potsdamer Kommentarkorpus (Stede 2004) deutschsprachige Zeitungskommentare auf verschiedenen Ebenen annotiert Morphosyntax (TIGER) Koreferenz (PoCoS) rhetorische Struktur (URML) Informationsstruktur (SFB 632) integratives Metaformat (ANNIS)

9 II Alternativentexte Erzeugung und Einsatz
aus morphosyntaktisch (TIGER) und Koreferenz- (PoCoS) annotierten Texten wird ein Projekt-Skelett erzeugt, dann semimanuell mit Alternativen angereichert Einsatz menschliche Probanden werden mit dem daraus erstellten Lückentext („Entscheidungsbaum“) konfrontiert Kodierungsentscheidungen („Pfade“) werden separat gespeichert

10 II Alternativentexte Semimanuelle Anreicherung
Koreferenz- Annotation morphosyntaktische Annotation Alternativenannotation Projekt-Skelett Variation der grammatischen Rollen (Passivierung, Verbwechsel) (+ ) GR nur eine Alternative enthaltend (den originalen Text) REF Variation des referentiellen Ausdrucks und Kongruenzprüfung + Alternativentext Alternativen- annotiert WS Variation der Worstellung (+ )

11 III XALT Ein Format für Alternativentexte
XML-basiert standoff-Architektur verteiltes Format mehrere Ebenen der Annotation beziehen sich auf dieselben Basisdaten werden separat gespeichert modulare Struktur erweiterbar platzeffizient

12 III XALT Ein Format für Alternativentexte
base.xml die Worte des Textes ref.xml segments.xml text.xml für jeden Referenten verschiedene referen- tielle Ausdrücke für jeden Satz alternative Ab- folgen von Wor- ten und Ver- weisen auf Referenten die Abfolge der Segmente in einem Text projekt.xalt anfänglich einführen + bündig + übg.

13 III XALT Ein Format für Alternativentexte
base.xml die Worte des Textes ref.xml segments.xml text.xml vom Nutzer oder Autor gewählte Kodierungsalter- nativen für jeden Referenten verschiedene referen- tielle Ausdrücke für jeden Satz alternative Ab- folgen von Wor- ten und Ver- weisen auf Referenten die Abfolge der Segmente in einem Text vereinfachen paths.xml

14 Was wollte dein Kollege vorhin
III XALT Beispiel base.xml ref.xml segments.xml text.xml vereinfachen Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

15 Was1 wollte2 dein3 Kollege4 vorhin5
III XALT Beispiel word_1: was word_2: wollte word_3: dein .... base.xml ref.xml segments.xml text.xml vereinfachen Was1 wollte2 dein3 Kollege4 vorhin5 von6 der7 Gärtnerin8 ?9 paths.xml

16 [Was]1 wollte [[dein]2 Kollege]3 vorhin
III XALT Beispiel base.xml text.xml ref_3: [dein]2 Kollege der Kollege [dein]2 netter Kollege der Kollege Hans Hans der Hans dieser Hans ... ref.xml segments.xml vereinfachen [Was]1 wollte [[dein]2 Kollege]3 vorhin von [der Gärtnerin]4 ? paths.xml

17 Was wollte dein Kollege vorhin
III XALT Beispiel seg_1: alt_1 alt_2 ... ref_1 ref_3 word_2 word_2 ref_3 word_5 word_5 ref_1 word_6 word_6 ref_4 ref_4 word_9 word_9 base.xml ref.xml segments.xml text.xml vereinfachen Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

18 Was wollte dein Kollege vorhin
III XALT Beispiel seg_1: alt_1 ... ref_1 („was“) word_2 („wollte“) ref_3 („dein Kollege“) word_5 („vorhin“) word_6 („von“) ref_4 („der Gärtnerin“) word_9 („?“) base.xml ref.xml segments.xml text.xml vereinfachen Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

19 Was wollte dein Kollege vorhin
III XALT Beispiel seg_1: alt_1 ... ref_1 („was“) word_2 („wollte“) ref_3 („dein Kollege“) word_5 („vorhin“) word_6 („von“) ref_4 („der Gärtnerin“) word_9 („?“) base.xml ref.xml segments.xml text.xml Entscheidungsknoten: referentielle Ausdrücke vereinfachen Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

20 Was wollte dein Kollege vorhin
III XALT Beispiel seg_1: alt_1 alt_2 ... ... ref_3 („Hans“) word_2 („wollte“) word_5 („vorhin“) ref_1 („was“) word_6 („von“) ref_4 („der G.“) word_9 („?“) base.xml ref.xml segments.xml text.xml Entscheidungsknoten: Form der Äußerung vereinfachen Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

21 III XALT Beispiel base.xml ref.xml segments.xml text.xml
text_1: alt_text_1 seg_1 seg_2 base.xml ref.xml segments.xml text.xml vereinfachen [Was wollte dein Kollege vorhin von der Gärtnerin ?]1 paths.xml [Hans kaufte bei ihr Blumen.]2

22 III XALT Ein partieller Entscheidungsbaum
seg_1 alt_1 alt_2 was dein Kollege der Hans ref_1 ... ref_3 wollte wollte vorhin ref_3 dein Kollege der Hans ... was ref_1 vorhin von von ref_4 ref_4 der Gärtnerin der Gärtnerin ihr ... ihr ... ? ?

23 III XALT Ein Pfad seg_1 alt_1 was dein Kollege der Hans ref_1 ...
wollte wollte vorhin ref_3 dein Kollege der Hans ... was ref_1 vorhin von von ref_4 ref_4 der Gärtnerin der Gärtnerin ihr ... ihr ... ? ?

24 III XALT Beispiel seg_1 alt_1 base.xml was ... ref_1 wollte ref.xml
segments.xml text.xml ref_3 dein Kollege der Hans ... vereinfachen vorhin von ref_4 der Gärtnerin paths.xml ihr ... ? pathid = „orig“

25 IV Anwendung und Auswertung paths.xml
ordnet in jedem Pfad jedem Entscheidungsknoten eine getroffene Kodierungsentscheidung zu gestattet die Rekonstruktion des Textes enthält zusätzlich Verweise auf die Form des referentiellen Ausdrucks (REF) grammatische Relationen (GR) Wortstellung (WS) alleiniger Gegenstand der empirischen Auswertung

26 IV Anwendung und Auswertung Statistische Auswertung
empirische Erfassung der Voraussagekraft verschiedener Kontextfaktoren für das Eintreten und die Variabilität einer gewählten Realisierungsoption Relevanz- („importance/salience“) Indikatoren Givenness- („contextual boundedness/salience“) Indikatoren praktisch hochrelevant für Aspekte der Maschinellen Textgenerierung, -zusammenfassung und -interpretation

27 IV Anwendung und Auswertung Theoretische Interpretation
Vergleich von Voraussagen verschiedener Theorien zu referentieller Kohärenz und Anaphernresolution anhand empirischer Daten Centering Theory (Grosz et al. 1995) Givón (2001) Sgall et al. (1986) ...

28 IV Anwendung und Auswertung Evaluation der Textgenerierung
automatisch abgeleitete Kodierungspräferenzen werden mit manuell gewählten verglichen der Grad der Übereinstimmung, gewichtet mit der Variabilität einer Kodierungsentscheidung, kann als Gütefunktion verwendet werden Im Unterschied zum Goldstandard-Ansatz wird dabei über mehrere Varianten in einem festen lokalen Kontext generalisiert Minimierung von individuellen/stilistischen Artefakten

29 A Platzkomplexität wir betrachten einen Satz mit transitivem Verb, zwei Argumenten, einem Adjunkt und einem Adverb Hans kaufte gestern bei Maria Blumen.

30 A Platzkomplexität Hans kaufte gestern bei Maria Blumen.
REF pro Referent durch eine große Konstante abschätzbar, z.B. 10, daher 103=1000 GR Passivierung: 2 Verbalternation: mind. 2 (verkaufen) WS Vorfeldbesetzung + Variation im Mittelfeld ca. 4!=24 Permutationen Varianten pro Satz 1.000 * 4 * 24 =

31 A Platzkomplexität Hans kaufte gestern bei Maria Blumen.
in Abhängigkeit von der Länge n eines Satzes base.xml O(log n + n) ref.xml O(n*log n) linear: max. konstant viele neue Referenten pro Satz mit konstant beschränkbarer Länge segment.xml O(n!*nc*log n) nur aus Verweisen bestehend text.xml O(1) gesamt verteilt O(n!*nc*log n) monolithisch O(n!*nc)


Herunterladen ppt "Semimanuelle Generierung und Auswertung von Alternativentexten"

Ähnliche Präsentationen


Google-Anzeigen