Richtlinien für die Annotation von Koreferenzen Kerstin Kunz
I) Koreferenz als kognitives Kohärenzmittel
Kognition Informationsverarbeitung Vernetzungen von Wissenssystemen Interdependenz und Interaktion von kognitiven Prozessen Konzeptualisierung: Repräsentation von Realitätsbereichen Sprache als kognitives Subsystem Textrezeption: Repräsentation des Textes im Textweltmodell
Kohärenz Verbindung von Sätzen zu einem inhaltlich-logischen Zusammenhang Explizite Verknüpfungsstrategien Textoberfläche: z.B. temporal, lokal, pronominal Kohäsion Implizite Verknüpfungsstrategien Schlussfolgerung des Rezipienten Aktivierung des Kontextwissen Aktivierung des Weltwissen => Inferenzen => Koreferenz: explizite und implizite Relationen
Koreferenz Textinterner und textexterner Referenzbezug Textextern: Antezedent, Anapher(n) – Referent Textintern: Antezedent - Anapher(n) Referenzidentität Begriffserweiterung: direkte und indirekte anaphorische Relationen
Antezedent Anaphern Ein Mann .... Er .... Der Mann .... Der Mensch ... Ein anderer Mann Koreferenz Referent
Direkte Anaphern Referenzidentität: Antezedent, direkte Anaphern => außerprachlicher Referent Fortführung des Themas Relationstypen Rekurrenz Synonymie Hyponymie – Hyperonymie Pronominale Wiederaufnahme
Indirekte Anaphern Keine Referenzidentität zwischen Anker und indirekter Anapher Beibehaltung der Referenzdomäne durch semantische und konzeptuelle Relationen Thematische Rhematisierung Relationstypen Semantische Relationen Aktivierung von Wissen aus dem mentalen Lexikon Meronymie-basiert: Teil-von Beziehungen Konzeptuelle Relationen Aktivierung von Wissen aus dem Weltwissensspeicher Schema-basiert: Aktivierung eines expliziten Schemas Inferenz-basiert: implizite Weltwissensaktivierung
II) Annotationsschema für die manuelle Annotation von Koreferenzen im MMAX
Annotieren mit dem MMAX DTD Attribut-Fenster Markables Pointer Set membership Search-Fenster Kappa-Statistik
Das Attributfenster
Das Search-Fenster
Das Textkorpus Wirtschaftsmeldungen der Frankfurter Rundschau Insgesamt: 326 Meldungen; 125646 Token Tigerkorpus
Das Annotationsschema Antezedent Bezugsausdruck für direkte und indirekte Anaphern 2) Typen direkter Anaphern Rekurrenz: total, partiell IS-A-Relationen: Synonymie, Hyperonymie, Hyponymie Pronominaler Bezug: PPER, PDS, PPOS
Das Annotationsschema 3) Typen indirekter Anaphern Meronymie: Part-whole, entity-attribute, entity-member, place-area Schema-basiert: Conceptual, inferral
Probleme bei der Annotation Restriktionen durch das Tool Repräsentation mentaler Textrezeption durch maschinelles Annotationstool Eindimensionalität Pointing relation Unterscheidung zwischen Anker und Antezedent Zuordnung anaphorische Relation - Antezedent Membership Relation
Probleme bei der Annotation 2) Restriktionen durch Klassifizierung Eindeutige Festlegung der einzelnen Relationstypen Mischtypenproblematik Subjektivität des Annotierers
Ausblick Textsortenvergleich Multilingualer Vergleich Annotation durch mindestens zwei Annotierer