Semimanuelle Generierung und Auswertung von Alternativentexten

Slides:



Advertisements
Ähnliche Präsentationen
H - A - M - L - E - T Handlungsmuster von Lehrerinnen und Lehrern beim Einsatz neuer Medien im Unterricht der Fächer Deutsch, Mathematik und Informatik.
Advertisements

Semantik und Wissensrepräsentation
Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems
Frame-Logik Eine Einführung Andreas Glausch.
IuK 2003 Ansätze zur TeX-to-MathML Konvertierung - Semantik durch fachspezifische Usepackages Prof. Dr. Günter Törner Sebastian Pokutta Universität Duisburg-Essen.
eine Plattform für annotierte Korpora in XML
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Mental Salience and Grammatical Form
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Heuristiken und Kontexteinflüsse
Universität Stuttgart Institut für Kernenergetik und Energiesysteme LE 3.1 ProzessqualitätLM 5 V-Modell-AnwendungenFolie 1 V-Modell für große Projekte.
Die Registervariablen: Tenor of Discourse
MULI Multilinguale Informationsstruktur
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
Etikettierungsebenen Jonathan Harrington. Das Ziel Etikettierungen verschiedener Ebenen aufzubauen, und miteinander zu verlinken.
Was ist die artikulatorische Grundlage von Locus-Gleichungen? Hauptseminar: Modelle der Sprachproduktion & - perzeption Dozent: Prof. Dr. Jonathan Harrington.
Der Synoptische Vergleich
1 Ein Computermodell zur Bestimmung von Begriffstypen Christof Rumpf Heinrich-Heine-Universität Tag der Forschung
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Sprachwissenschaftliches Institut Einführung in die HPSG Grammatiktheorie 4./11. Mai 2004.
Magnus Niemann Strukturierung von Topic Maps.
Sprachkonstruktion I Konstruktion einer neuen Sprache Einladung zu einem Sprachexperiment Sie sind eingeladen, sich an einem Sprachexperiment zu beteiligen.
Grammatik als Deduktionssystem
Lexikalisch-Funktionale-Grammatik
Grundlegende Analysen & Zwischendarstellungen
WAS WILL WISSENSCHAFT? - Sagen: Was WIE ist
2. Textkriterien Ulrich Mehlem WS 2008 / 2009
Die Optimalitätstheorie Verletzbare Regeln in Straßenverkehr und Syntax (Schmidt J., Starikova E.)
Universität Heidelberg Institut für Computerlinguistik HS Referentielle Semantik Wintersemester 2002 / 2003 Leitung Prof. Hellwig Fokussemantik:
CBT Generierung diagnostischer Trainingsfälle aus Arztbriefen Christian Betz, Alexander Hörnlein, Frank Puppe, Martin Schuhmann, Universität Würzburg,
-> Sprachpsychologie -> Blickbewegungen
Strukturgleichungsmodelle
Diskussion Dezimalklassifikation - Expertendiskussion Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2006/76 Diskusion Woran.
Erwerbskarrieren in Ostdeutschland – 20 Jahre nach der Deutschen Einheit und darüber hinaus - Korreferat – Birgit Schultz IWH/IAB-Workshop: 20.
Methoden der empirischen Sozialforschung II
Analyse (1) Oberstes Gebot: Typsicherheit muss in Sicht und Basis jeweils für sich gelten. Basisschema muss unverändert bleiben. Bei rein syntaktischer.
Tutorium
Die Registervariablen: Mode of Discourse
Spatial Decision Support Systems (SDSS)
Generalisierte additive Modelle
Entitäten Extraktion Einführung
Gradierte Grammatikalität SS 2003 Einheit 1. Quelle des Übels Klassische Linguistik Korpusorientiert (Tote Sprachen/ Literatur- sprachliche Norm) Dialektforschung.
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Objektmodellierung Objekte und Klassen Ein Objekt ist ein Exemplar.
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Beispiele der Textdefinitionen
Datenstrukturen innerhalb von XML Web Services. Agenda.
Woraus besteht eine PPT-Datei?
Flexible Datenstrukturen
Intelligente Dateisysteme
Hartmut Klauck Universität Frankfurt SS
Formale Sprachen Grammatiken und die Chomsky-Hierarchie
MGIMO-UNIVERSITÄT DES AUßENMINISTERIUMS RUSSLANDS
Noam CHOMSKY, Sheila GREIBACH
Mensch – Maschine - Kommunikation
Richtlinien für die Annotation von Koreferenzen
Semantic Web.
Grammatik als Deduktionssystem Theorie, Grammatik, Grammatiktheorie Grammatik Sprache Hypothese Sprachtheorie Theorie Erklärung Theoretisches Konstrukt.
Funktionale Unifikations-Grammatik (FUG)  Hauptmerkmale der FUG.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Foliendesign: Jörg Steinrücken & Tobias Kahn Vorlesung
Lexikalisch-Funktionale-Grammatik  Formaler Aufbau der F-Strukturen  Funktionale Beschreibungen  Funktionale Annotationen  Von der K-Struktur zur F-Struktur.
MS Word 2010 Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen.
Konnektoren Dezember 2015.
Prof. Dr. Andreas Voss, Hochschule für Angewandte Wissenschaften (HAW) Hamburg Präsentation am Freitag, 27. März 2009, TU Dortmund, Fakultät Erziehungswissenschaft.
VO#1: Lexikologie als sprachwissenschaftliche Disziplin Lexikologie, Matej-Bel-Univeristät in Banská Bystrica, Z. Tuhárska.
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
Vo#1 Stil und Stilistik Stilistik, Zuzana Tuhárska, Matej-Bel- Universität in Banská Bystrica.
Vo#1 Stil und Stilistik Stilistik, Zuzana Tuhárska, Matej-Bel- Universität in Banská Bystrica.
 Präsentation transkript:

Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de Wortwahl reduzieren allgemeiner & zielgrp.pfg. IDS Jahrestagung Mannheim, 18.03.2005

I Motivation Variation sprachlicher Mittel referentielle Ausdrücke bezeichnen prototypische „Objekte“ in der Diskurswelt (Diskursreferent, Karttunen 1975) wirken kohärenzstiftend ð beeinflussen Wahrnehmung und Verständlichkeit ð Instrument zur Strukturierung von Texten explizite strukturbesprechung

I Motivation Variation sprachlicher Mittel referentielle Ausdrücke variieren bzgl. ihrer morphosyntaktischen Kategorie (REF) Was wollte dein Kollege vorhin von der Gärtnerin ? Hans kaufte bei ihr Blumen. Pronomen Hans kaufte bei Maria Blumen. Eigenname Hans kaufte bei der Frau Blumen. definite NP Hans kaufte bei dieser Frau Blumen. NP + dem.prn beschränkg. auf REF + ütr.

I Motivation Variation sprachlicher Mittel referentielle Ausdrücke variieren bzgl. ihrer morphosyntaktischen Kategorie (REF) der Wortstellung (WS) der grammatischen Rollen (GR) diese Variabilität ist nicht vollständig durch syntaktische und semantische Restriktionen determiniert

I Motivation Probleme Strenge einer Kodierungsentscheidung stilistische Präferenz oder sprachlich restriktiv „Goldstandard-Problem“ für die Textgenerierung natürliche Texte können suboptimal sein Übereinstimmung ist damit kein hinreichendes Gütekriterium verschränkte Variabilität Abweichungen bzgl. der erwarteten Kodierung auf einer Ebene (z.B. REF) können durch Abweichungen auf einer anderen (z.B. WS) kompensiert werden gold standard expliziter

II Alternativentexte Hintergrund Ziel Untersuchung dieser Freiheitsgrade Untersuchung kontextueller Parameter Grundidee (Mellish & Yeh 1997) Lückentext Probanden wählen für jede Lücke aus verschiedenen vorgegebenen Alternativen diese Kodierungsentscheidung kann mit der eines Textgenerierungssystems verglichen werden

II Alternativentexte Zielstellung Betrachtung mehrer Ebenen sprachlicher Variation REF, WS, GR Sicherstellung hinreichender Überlappung kurze Texte (15-20 Sätze) skalierbare Variabilität der Lückentexte REF REF+WO REF+WO+GR aussage !

II Alternativentexte Basisdaten Potsdamer Kommentarkorpus (Stede 2004) deutschsprachige Zeitungskommentare auf verschiedenen Ebenen annotiert Morphosyntax (TIGER) Koreferenz (PoCoS) rhetorische Struktur (URML) Informationsstruktur (SFB 632) integratives Metaformat (ANNIS)

II Alternativentexte Erzeugung und Einsatz aus morphosyntaktisch (TIGER) und Koreferenz- (PoCoS) annotierten Texten wird ein Projekt-Skelett erzeugt, dann semimanuell mit Alternativen angereichert Einsatz menschliche Probanden werden mit dem daraus erstellten Lückentext („Entscheidungsbaum“) konfrontiert Kodierungsentscheidungen („Pfade“) werden separat gespeichert

II Alternativentexte Semimanuelle Anreicherung Koreferenz- Annotation morphosyntaktische Annotation Alternativenannotation Projekt-Skelett Variation der grammatischen Rollen (Passivierung, Verbwechsel) (+ ) GR nur eine Alternative enthaltend (den originalen Text) REF Variation des referentiellen Ausdrucks und Kongruenzprüfung + Alternativentext Alternativen- annotiert WS Variation der Worstellung (+ )

III XALT Ein Format für Alternativentexte XML-basiert standoff-Architektur verteiltes Format mehrere Ebenen der Annotation beziehen sich auf dieselben Basisdaten werden separat gespeichert modulare Struktur erweiterbar platzeffizient

III XALT Ein Format für Alternativentexte base.xml die Worte des Textes ref.xml segments.xml text.xml für jeden Referenten verschiedene referen- tielle Ausdrücke für jeden Satz alternative Ab- folgen von Wor- ten und Ver- weisen auf Referenten die Abfolge der Segmente in einem Text projekt.xalt anfänglich einführen + bündig + übg.

III XALT Ein Format für Alternativentexte base.xml die Worte des Textes ref.xml segments.xml text.xml vom Nutzer oder Autor gewählte Kodierungsalter- nativen für jeden Referenten verschiedene referen- tielle Ausdrücke für jeden Satz alternative Ab- folgen von Wor- ten und Ver- weisen auf Referenten die Abfolge der Segmente in einem Text vereinfachen paths.xml

Was wollte dein Kollege vorhin III XALT Beispiel base.xml ref.xml segments.xml text.xml vereinfachen Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

Was1 wollte2 dein3 Kollege4 vorhin5 III XALT Beispiel word_1: was word_2: wollte word_3: dein .... base.xml ref.xml segments.xml text.xml vereinfachen Was1 wollte2 dein3 Kollege4 vorhin5 von6 der7 Gärtnerin8 ?9 paths.xml

[Was]1 wollte [[dein]2 Kollege]3 vorhin III XALT Beispiel base.xml text.xml ref_3: [dein]2 Kollege der Kollege [dein]2 netter Kollege der Kollege Hans Hans der Hans dieser Hans ... ref.xml segments.xml vereinfachen [Was]1 wollte [[dein]2 Kollege]3 vorhin von [der Gärtnerin]4 ? paths.xml

Was wollte dein Kollege vorhin III XALT Beispiel seg_1: alt_1 alt_2 ... ref_1 ref_3 word_2 word_2 ref_3 word_5 word_5 ref_1 word_6 word_6 ref_4 ref_4 word_9 word_9 base.xml ref.xml segments.xml text.xml vereinfachen Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

Was wollte dein Kollege vorhin III XALT Beispiel seg_1: alt_1 ... ref_1 („was“) word_2 („wollte“) ref_3 („dein Kollege“) word_5 („vorhin“) word_6 („von“) ref_4 („der Gärtnerin“) word_9 („?“) base.xml ref.xml segments.xml text.xml vereinfachen Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

Was wollte dein Kollege vorhin III XALT Beispiel seg_1: alt_1 ... ref_1 („was“) word_2 („wollte“) ref_3 („dein Kollege“) word_5 („vorhin“) word_6 („von“) ref_4 („der Gärtnerin“) word_9 („?“) base.xml ref.xml segments.xml text.xml Entscheidungsknoten: referentielle Ausdrücke vereinfachen Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

Was wollte dein Kollege vorhin III XALT Beispiel seg_1: alt_1 alt_2 ... ... ref_3 („Hans“) word_2 („wollte“) word_5 („vorhin“) ref_1 („was“) word_6 („von“) ref_4 („der G.“) word_9 („?“) base.xml ref.xml segments.xml text.xml Entscheidungsknoten: Form der Äußerung vereinfachen Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

III XALT Beispiel base.xml ref.xml segments.xml text.xml text_1: alt_text_1 seg_1 seg_2 base.xml ref.xml segments.xml text.xml vereinfachen [Was wollte dein Kollege vorhin von der Gärtnerin ?]1 paths.xml [Hans kaufte bei ihr Blumen.]2

III XALT Ein partieller Entscheidungsbaum seg_1 alt_1 alt_2 was dein Kollege der Hans ref_1 ... ref_3 wollte wollte vorhin ref_3 dein Kollege der Hans ... was ref_1 vorhin von von ref_4 ref_4 der Gärtnerin der Gärtnerin ihr ... ihr ... ? ?

III XALT Ein Pfad seg_1 alt_1 was dein Kollege der Hans ref_1 ... wollte wollte vorhin ref_3 dein Kollege der Hans ... was ref_1 vorhin von von ref_4 ref_4 der Gärtnerin der Gärtnerin ihr ... ihr ... ? ?

III XALT Beispiel seg_1 alt_1 base.xml was ... ref_1 wollte ref.xml segments.xml text.xml ref_3 dein Kollege der Hans ... vereinfachen vorhin von ref_4 der Gärtnerin paths.xml ihr ... ? pathid = „orig“

IV Anwendung und Auswertung paths.xml ordnet in jedem Pfad jedem Entscheidungsknoten eine getroffene Kodierungsentscheidung zu gestattet die Rekonstruktion des Textes enthält zusätzlich Verweise auf die Form des referentiellen Ausdrucks (REF) grammatische Relationen (GR) Wortstellung (WS) alleiniger Gegenstand der empirischen Auswertung

IV Anwendung und Auswertung Statistische Auswertung empirische Erfassung der Voraussagekraft verschiedener Kontextfaktoren für das Eintreten und die Variabilität einer gewählten Realisierungsoption Relevanz- („importance/salience“) Indikatoren Givenness- („contextual boundedness/salience“) Indikatoren praktisch hochrelevant für Aspekte der Maschinellen Textgenerierung, -zusammenfassung und -interpretation

IV Anwendung und Auswertung Theoretische Interpretation Vergleich von Voraussagen verschiedener Theorien zu referentieller Kohärenz und Anaphernresolution anhand empirischer Daten Centering Theory (Grosz et al. 1995) Givón (2001) Sgall et al. (1986) ...

IV Anwendung und Auswertung Evaluation der Textgenerierung automatisch abgeleitete Kodierungspräferenzen werden mit manuell gewählten verglichen der Grad der Übereinstimmung, gewichtet mit der Variabilität einer Kodierungsentscheidung, kann als Gütefunktion verwendet werden Im Unterschied zum Goldstandard-Ansatz wird dabei über mehrere Varianten in einem festen lokalen Kontext generalisiert Minimierung von individuellen/stilistischen Artefakten

A Platzkomplexität wir betrachten einen Satz mit transitivem Verb, zwei Argumenten, einem Adjunkt und einem Adverb Hans kaufte gestern bei Maria Blumen.

A Platzkomplexität Hans kaufte gestern bei Maria Blumen. REF pro Referent durch eine große Konstante abschätzbar, z.B. 10, daher 103=1000 GR Passivierung: 2 Verbalternation: mind. 2 (verkaufen) WS Vorfeldbesetzung + Variation im Mittelfeld ca. 4!=24 Permutationen Varianten pro Satz 1.000 * 4 * 24 = 96.000

A Platzkomplexität Hans kaufte gestern bei Maria Blumen. in Abhängigkeit von der Länge n eines Satzes base.xml O(log n + n) ref.xml O(n*log n) linear: max. konstant viele neue Referenten pro Satz mit konstant beschränkbarer Länge segment.xml O(n!*nc*log n) nur aus Verweisen bestehend text.xml O(1) gesamt verteilt O(n!*nc*log n) monolithisch O(n!*nc)