Analyse thematischer Strukturen: Annotation und Automation

Slides:



Advertisements
Ähnliche Präsentationen
Informatik II: Algorithmen und Datenstrukturen SS 2013
Advertisements

Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems
Dynamische Seiten mit Dreamweaver Zugriff auf (mysql) Datenbank mit PHP.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Grundlagen der Informatik
Evaluation. Gliederung Definition von Evaluation Charakterisierung Ziele und Aufgaben Formen und Methoden Richtlinien Methodenkoffer Literatur.
Untersuchung und szenariobasierte Entwicklung von Websites zur Orientierung in Universitätsstudiengängen unter Berücksichtigung von Prinzipien des Web.
Wort und Bild Leonardo da Vinci 1452 – 1519 Flugmaschinen.
Leseverstehen als kommunikative Handlung im Deutschunterricht
Universität Stuttgart Institut für Kernenergetik und Energiesysteme Was ist Refactoring? Bevor man die Integration angeht, mag es angebracht sein, den.
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
Das ‚Perceptual Magnet Model‘ von Patricia Kuhl
DOM (Document Object Model)
Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.
Der Umgang mit qualitativ erhobenen Daten: Strategien der Datenanalyse
Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
Kap. 6.2 Binäre B-Bäume Ullmann: (2, 3) - Bäume
Zusammenfassung Vorwoche
Seminarfach und Medienkompetenz
Compound Graphen und hierarchisches Layout
Zeitgemäße Medienbildung in der Schule
Christian Schindelhauer
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Einführung von Groupware
So erstellen Sie schnell und einfach eine Übersichtsfolie Herbert Manthei
Hauptseminar Automaten und Formale Sprachen
Grundschutztools
Tutorium Willkommen zurück, in der wunderbaren Welt der Statistik Teil II.
Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur.
Statistik als Powerpoint-Graph
Entitäten Extraktion Einführung
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Das Gegenteil von oben Oliver Uschmann.
Externe Bewertung in IB-Biologie
NEVP Noteneingabe- und Notenverwaltungsprogramm © Erklärungen zu Funktionen und Anwendungen, erstellt am 24. August 2007.
Raumzeitstrukturen Zeiten der Stadt und Lebensqualität Bozen 12. und Prof. Dr. Dietrich Henckel Technische Universität Berlin Institut für Stadt-
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Hyperion oder der Eremit von Griechenland
Vom Wunsch, Indianer zu werden
Wort des Lebens Februar 2010.
25 Jahre Studium ab 60 an der Universität Heidelberg:
Die rote Jacke (2002) Florian Baymeyer. Pre-film tasks.
Paulus Hochgatterer - "Caretta Caretta"
Abschlussvortrag zur Studienarbeit
12.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
E-learning Module in der medizinischen Grundausbildung - Erfahrungen und Entwicklungen - P. Groscurth Anatomisches Institut der Universität Zürich NET-ELC.
Nucleus-International.net Visualisierung Wie und Warum 04/2008
Das Amt für Planung, Statistik und Zeiten der Stadt und die Generaldirektion – Bereich Qualität Erhebung über den Zufriedenheitsgrad des Dienstes Kinderferien/Kinderferien.
Kinderferien / Kinderferien für Kinder im Vorschulalter
Schulungsunterlagen der AG RDA Vertretungen der Öffentlichen Bibliotheken.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Ihre Probleme, Träume und Lebensziele
European Satellite Navigation Competition 2008 Wettbewerbsregion NRW - erste Teilnahme.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Christian Schindelhauer Wintersemester 2006/07 2. Vorlesung
Informationen zur Sitzverteilung
Albrecht Dürer wir entdecken einen deutschen Künstler.
ARBEITSEBENEN IN DER GESTALTUNG. Realisieren Bedingt durch die Notwendigkeit der Herstellung des gestalteten Produkts oder Prototyps dafür ist der Gestalter.
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Schulungsunterlagen der AG RDA
Methoden der Sozialwissenschaften
© Fraunhofer-Institut für Angewandte Informationstechnik FIT Social Search.
Barockliteratur.
 Präsentation transkript:

Analyse thematischer Strukturen: Annotation und Automation Irene Cramer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund

Inhaltsübersicht Motivation und Projektkontext Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten Automatische Berechnung: GLexi 3 Annotationsexperimente 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 2

Projektkontext Projekt HyTex: „Hypertextualisierung auf textgrammatischer Grundlage“; Teilprojekt der DFG-Forschergruppe Texttechnologische Informations-modellierung Hypertextualisierung … Aufbereitung von linear organisierten Dokumenten für die selektiven, interaktiven Nutzungsformen in einem Hypertextsystem. … auf textgrammatischer Grundlage keine einfache 1:1-Konversion, sondern Erzeugung von Hypertextsichten auf der Basis textgrammatischer Annotationen, die die Vorteile (Mehrwerte) von Hypermedien bei der selektiven Lektüre ausschöpfen. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 3

Thematische Strukturen Miguel de Cervantes Saavedra Geboren am 29.09.1547 in Alcalá de Henares, gestorben am 23.04.1616 in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf. 1569 geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt. 1604 geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. xxxxxxxxxxxx xxxxxxx xxxxxxxxxxxxx xxxxx xxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 4

Thematische Strukturen Miguel de Cervantes Saavedra Geboren am 29.09.1547 in Alcalá de Henares, gestorben am 23.04.1616 in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf. 1569 geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt. 1604 geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx Inhalt Kapitel 1 Kapitel 2 Kapitel 2.1 … Kapitel n 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 5

Thematische Strukturen Miguel de Cervantes Saavedra Geboren am 29.09.1547 in Alcalá de Henares, gestorben am 23.04.1616 in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf. 1569 geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt. 1604 geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. Themenkarte Inhalt Kapitel 1 Themenbezeichner Kapitel 2 Themenbezeichner Kapitel 2.1 Themenbezeichner 1 und 2 … Kapitel n Themenbezeichner xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 6

Thematische Strukturen (cont.) Erweiterung des Prototyps aus Phase I (vgl. www.hytex.info) u.a. um Themenkarten Themenkarte: ausgehend von Themenketten bzw. lexikalischen Ketten Darstellung als Themenkarte (~thematischer Index) thematisch motivierte Verlinkung von Themenbezeichnern Idee: Verbesserung der Orientierung für Rezipient 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 7

Inhaltsübersicht Motivation und Projektkontext Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten Automatische Berechnung: GLexi 3 Annotationsexperimente 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 8

Lexikalische Ketten - Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 9

Lexikalische Ketten - Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 10

Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 11

Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 12

Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. Kette1: sitzen – ausruhen – müde – einschlafen Kette2: Weide – Blatt – Blättern 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 13

Lexikalische Ketten Entspricht partieller Textrepräsentation, eingeführt von Halliday & Hasan (Cohesion in English, 1976), technisch zuerst realisiert in CoLi durch Hirst & StOnge (1998) für englische Text, nützlich für verschiedene Anwendungen: Textzusammenfassung, Dialogmodellierung etc. u.W.n. bisher nur zwei Systeme für deutsche Texte, mit Unterschieden in Methodenwahl und Ressourcen Mehler (2006) Cramer & Finthammer (2007) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 14

Lexikalische Ketten Berechnung von Themenkarten für Korpora: Wähle Themenbezeichner pro Modul – Merkmale für die Auswahl starke, lange lexikalische Ketten enthalten Themenbezeichner Häufigkeit, Position im Text, Markup … 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 15

Berechnung lexikalischer Ketten Module unseres Chainers GLexi: Vorverarbeitung der Texte  Ergebnis: Chainkandidaten Chainer-Kernmodul – semantische Suche (in GermaNet)  Ergebnis: Meta-Chains Ausgabeerzeugung  Ergebnis: z.B. visuelle Darstellung oder XML Ausgabe 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 16

Berechnung lexikalischer Ketten 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 17

Berechnung lexikalischer Ketten 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 18

Annotation lexikalischer Ketten Qualitätsbewertung der Chains problematisch: Evaluationsdaten notwendig! Erstellung von Evaluationsdaten: Annotation von lexikalischen Ketten in Korpora Experimente zur manuellen Annotation – Organisation und Durchführung 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 19

Inhaltsübersicht Motivation und Projektkontext Darstellung thematischer Strukturen auf der Basis lexikalischer Ketten Automatische Berechnung: GLexi 3 Annotationsexperimente 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 20

Annotation lexikalischer Ketten 3 Annotationsexperimente: Experiment 1: manuelle Annotation lexikalischer Ketten Experiment 2: lexikalische Relationen für Chainkandidaten in GermaNet ermitteln Experiment 3: lexikalische Ketten als Mindmaps (Außerdem: einfache Annotation lexikalischer Ketten als Grundlage für Experimente zur Interaktion lexikalische Ketten - Anaphern/Koreferenz bzw. RST-Annotation.) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 21

Annotation lexikalischer Ketten Experiment 1 – Rahmen: ca.10 Versuchspersonen 3 Texte („Fallschirmspringer überlebt freien Fall aus 3600 Metern Höhe“ aus FAZ.net vom 13. Februar 2007, „Traumberuf Unternehmensberater“ aus Unicum.de und „Großes Artesisches Becken“ aus deutsche Wikipedia) Versuchsaufbau: Liste aller Substantive in den 3 Texten, Bewertungsfragebogen (Relevanz der Substantive für Textverständnis – Skala 1-7), Schablone für Ketten (Linearisierung!), Liste erlaubter semantischer Relationen Feedbackfragebogen, 1 Stunde für Lesen und Annotieren, danach Abbruch ( Test: Zeitaufwand?) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 22

Annotation lexikalischer Ketten 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 23

Annotation lexikalischer Ketten Experiment 1 – Ergebnisse: fast alle Versuchspersonen brachen ihre Arbeit vor Ende der Versuchszeit ab! Kritikpunkte: Linearisierung der Annotation nicht möglich! Eher Netzstruktur zur Annotation sinnvoll?! (Mindmap) Viele Substantive nicht „unterbringbar“ Erlaubte semantische Relationen nicht ausreichend Inter-Annotator Agreement sehr gering! (Korrelation unter 0,4)  entspricht Ergebnissen für das Englische von Morris & Hirst (2004, 2005) sowie Beigman Klebanov (2005) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 24

Annotation lexikalischer Ketten Experiment 1 – Konsequenzen: Annotation muss in einfache Teilaufgaben untergliedert werden Bisher erzwungene Linearisierung ersetzen durch Netzstruktur (Mindmapping) Ausschluss einzelner Substantive aus Chaining erlauben, ergänzend Substantivgruppen / Phrasen als Chainkandidaten zulassen Aufgabe in 2 Teilaufgaben zergliedern: Manuelle Ermittlung / Annotation semantischer Relationen (Experiment 2) Manuelle Konstruktion „Mindmap-Chains“ (Experiment 3) 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 25

Annotation lexikalischer Ketten Experiment 2 – Rahmen: 3 Versuchspersonen Grundlage für Teilaufgabe 1 (Bestimmung von semantischen Relationen)  Implementierung von GermaNet Viewer Aufgabe: Finde „Pfade“ zwischen Substantiven in GermaNet 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 26

Annotation lexikalischer Ketten Implementierung: Marc Finthammer 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 27

Annotation lexikalischer Ketten 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 28

Annotation lexikalischer Ketten Experiment 2 – Ergebnisse: Beobachtete Konstellationen: Eine Verbindung ist in GermaNet leicht zu finden und ist sinnvoll; es gibt gefühlsmäßig eine Verbindungen, aber keinen sinnvollen Weg bzw. nur in die Leere laufende Wege in GermaNet; es gibt gefühlsmäßig keine Verbindungen, aber einen kurzen Pfad in GermaNet; es gibt gefühlsmäßig keine Verbindung, und entsprechend in GermaNet nur einen langen oder gar keinen Pfad. Generell ist der Aufwand der Navigation in GermaNet trotz Viewer extrem hoch. 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 29

Annotation lexikalischer Ketten Experiment 2 – Konsequenzen: Selbst die manuelle Bestimmung von Relationen ist nur schwer möglich Alternativer Weg: Human-Judgment Experiment ähnlich der Arbeiten Rubenstein & Goodenough (1965) sowie Miller & Charles (1991) für das Deutsche Bewertung von semantischer Nähe für Liste von Substantivpaaren (vgl. Cramer & Finthammer, Ergebnisse und Substantivliste auf www.hytex.info zu finden!)  diese Ergebnisse als Grundlage für Evaluation von semantischer Nähe innerhalb von lexikalischen Ketten 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 30

Annotation lexikalischer Ketten Experiment 3 – Rahmen: 2 Versuchspersonen Als Grundlage für Entwicklung von Themenkarten gedacht  "netzartige" Chains Aufgabe: Strukturiere (relevante) Wörter in Text als Mindmap 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 31

Annotation lexikalischer Ketten 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 32

Annotation lexikalischer Ketten Experiment 3 – Beobachtungen: Strukturierung der Substantive um ein Themenzentrum herum wurde im Vergleich zum Chaining als einfacher wahrgenommen; Es bleibt zu beachten: Reihenfolge beibehalten? Häufigkeit der Substantive berücksichtigen? Mehrworteinheiten? Relationstypen?  Einsatz dieser Technik erfordert hohen Aufwand bei der Annotation, als Hilfestellung für die Entwicklung gerechtfertigt – als gold standard fragwürdig 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 33

Konsequenzen der Experimente Methode zur Evaluation von GLexi notwendig! Unser Vorschlag: Evaluiere Performanz des Systems auf allen relevanten Ebenen separat. Abdeckung des Chainers Disambiguierungsqualität Qualität der Berechnung semantischer Nähe Anwendungsorientierte Evaluation 13/09/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 34

Vielen Dank!