Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur.

Slides:



Advertisements
Ähnliche Präsentationen
Hypertext
Advertisements

Kohonennetze für Information Retrieval mit User Feedback
Statistische Aspekte der PSG
Sortieren I - Bubblesort -
Webseitenranking für Suchanfragen anhand von Linkgraphen
Anmerkungen zu XML Im September 2000 Entwicklung/Anspruch von XML
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Diese Fragen sollten Sie beantworten können
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
DOM (Document Object Model)
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.
Der Umgang mit qualitativ erhobenen Daten: Strategien der Datenanalyse
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Kap. 6.2 Binäre B-Bäume Ullmann: (2, 3) - Bäume
Grundlegende Analysen & Zwischendarstellungen
Compound Graphen und hierarchisches Layout
Christian Schindelhauer
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
Vorlesung Gestaltung von soziotechnischen Informationssystemen - RequirementsEngineering und Contextual Design- Thomas Herrmann, Lehrstuhl Informations-
Analyse thematischer Strukturen: Annotation und Automation
Statistik als Powerpoint-Graph
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Schnelles und effizientes Suchen. Was ist MPEG 7? Wie funktioniert MPEG? Was bietet MPEG 7? Wo wird MPEG 7 verwendet?
IMED-KOMM „Interkulturelle medizinische Kommunikation in Europa“
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
Zhu, Lin Liu, Yang Zhu, Yuelong. 1. Theoretisches Grundlagen Medium Hypermedia Multimedia 2. Analysebeispiel von Website SONY Vorteile Nachteile 3. Quellen.
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Präsentiert Informationen auf den Punkt gebracht.
Automatic composition of UI mashups Vortrag zum Seminar Webengineering 2011 Michael Reißner.
Effiziente Algorithmen
Erstellt von: Manuela, Marc und Midhat im Rahmen des MMF_3 Kurses.
Entstehung & Einflüsse Ideen, Wünsche, eigene Überlegungen bisheriges Dateisystem Einschrän- kungen: - technisch - zeitlich - fachlich Literatur, ältere.
Warum ist Vereinbarkeit ein Thema?
mathe online und Medienvielfalt im Mathematikunterricht
Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Polynome und schnelle Fourier-Transformation
Mehrkriterielle Optimierung mit Metaheuristiken
Ergebnisse und Wirkungen der Politik: Ein Überblick
Inhaltsverzeichnis Polnische Athlet über ihn Er als Schriftsteller Robert und Tanzen mit den Stars Show Erfolge Kreuzworträtsel.
WIRBELSÄULENPROJEKT BG/BRG KIRCHENGASSE Hans P. Holzer*, Günter Polt°, Harald Wurm° *Institut f. Sportwissenschaft Karl-Franzens Universität Graz °BG/BRG.
Das Amt für Planung, Statistik und Zeiten der Stadt und die Generaldirektion – Bereich Qualität Erhebung über den Zufriedenheitsgrad des Dienstes Kinderferien/Kinderferien.
Kinderferien / Kinderferien für Kinder im Vorschulalter
Das ABC der Statistik DIE SÄULENDIAGRAMME 1
Übung zu Einführung in die LDV I
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
ASTROnomie Interaktiv & Dynamisch ASTROID C. Reimers Institut für Astronomie, Universität Wien Projektleitung: E. Dorfi, Institut für Astronomie, Universität.
Arne Vater Wintersemester 2006/ Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
SFZ FN Sj. 13/14 Python 3 Rekursion Inf K1/2 Sj 13/14
8. Sachbeschreibung reduzieren und ordnen
FM III Prof. Dietrich Albert
Zum Einfluss subjektiver und objektiver Merkmale auf die Wiedererkennung von Werbeplakaten Antje Bauer & Stefanie Frehse Institut für Allgemeine Psychologie.
Semantic Web.
Schulungsunterlagen der AG RDA
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
Tanja Eder Slawische Korpuslinguistik Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association.
Hypertext 2015/2016.
 Präsentation transkript:

Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund2 Inhaltsübersicht Motivation und Projektkontext Lexikalische Ketten als Basis für Berechnung bzw. Visualisierung thematischer Strukturen Experimente zur Qualität lexikalischer Ketten –Abdeckung des Systems –Disambiguierungsqualität –Berechnung semantischer Nähe –Anwendungsorientierte Aspekte

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund3 Projektkontext HyTex:Hy texProjekt HyTex: Hypertextualisierung auf textgrammatischer Grundlage; Teilprojekt der DFG- Forschergruppe Texttechnologische Informations- modellierung Hypertextualisierung …Hypertextualisierung … Aufbereitung von linear organisierten Dokumenten für die selektiven, interaktiven Nutzungsformen in einem Hypertextsystem. … auf textgrammatischer Grundlage… auf textgrammatischer Grundlage keine einfache 1:1-Konversion, sondern Erzeugung von Hypertextsichten auf der Basis textgrammatischer Annotationen, die die Vorteile (Mehrwerte) von Hypermedien bei der selektiven Lektüre ausschöpfen.

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund4 Miguel de Cervantes Saavedra Geboren am in Alcalá de Henares, gestorben am in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. Thematische Strukturen xxxxxxxxxxxx xxxxxxx xxxxxxxxxxxxx xxxxxxxxxxxx xxxxx xxxxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx xxxxxxxxxx

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund5 Miguel de Cervantes Saavedra Geboren am in Alcalá de Henares, gestorben am in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. Thematische Strukturen xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx xxxxxxxxxx Inhalt Kapitel 1 Kapitel 2 Kapitel 2.1 … Kapitel n Glossar Eintrag 1 …. Eintrag 2 … … Eintrag n … Definition Def. 1: …

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund6 Miguel de Cervantes Saavedra Geboren am in Alcalá de Henares, gestorben am in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. Thematische Strukturen xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx xxxxxxxxxx Inhalt Kapitel 1 Themenbezeichner Kapitel 2 Themenbezeichner Kapitel 2.1 Themenbezeichner 1 und 2 … Kapitel n Themenbezeichner

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund7 Erweiterung des Prototyps aus Phase I (vgl. u.a. um Themenkarten Themenkarte:Themenkarte: –ausgehend von Themenketten bzw. lexikalischen Ketten –thematisch motivierte Verlinkung von Themen- bezeichnern –Darstellung als Themenkarte (~thematischer Index) Idee: Verbesserung der Orientierung für Rezipient Thematische Strukturen

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund8 Inhaltsübersicht Motivation und Projektkontext Lexikalische Ketten als Basis für Berechnung bzw. Visualisierung thematischer Strukturen Experimente zur Qualität lexikalischer Ketten –Abdeckung des Systems –Disambiguierungsqualität –Berechnung semantischer Nähe –Anwendungsorientierte Aspekte

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund9 Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund10 Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund11 Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund12 Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund13 Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. Kette1: sitzen – ausruhen – müde – einschlafen Kette2: Weide – Blatt – Blättern

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund14 Lexikalische Ketten Entspricht partieller Textrepräsentation, eingeführt von Halliday & Hasan (Cohesion in English, 1976), technisch zuerst realisiert in CoLi durch Hirst & StOnge (1998) für englische Text, nützlich für verschiedene Anwendungen: –Textzusammenfassung, Dialogmodellierung etc. u.W.n. bisher nur zwei Systeme für deutsche Texte, mit Unterschieden in Methodenwahl und Ressourcen –Mehler (2006) –Cramer & Finthammer (2007) –sowie umfangreiche Arbeiten zur semantischen Nähe I. Gurevych et. al.

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund15 Lexikalische Ketten Themenkarten Berechnung von Themenkarten: Wähle Themenbezeichner pro Modul – Merkmale für die Auswahl –starke, lange lexikalische Ketten enthalten Themenbezeichner –Häufigkeit, Position im Text, Markup –…

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund16 Berechnung lexikalischer Ketten Module unseres Chainers GLexi: –Vorverarbeitung der Texte Ergebnis: Chainkandidaten –Chainer-Kernmodul – semantische Suche (in GermaNet) Ergebnis: Meta-ChainsGermaNet –Ausgabeerzeugung Ergebnis: z.B. visuelle Darstellung oder XML Ausgabe

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund17 Exkurs: GermaNet Maschinenlesbares lexikalisch-semantisches Netz für das Deutsche Version 5.0 –umfasst ca lexikalische Einheiten, in ca Synonymenmengen (synsets) –umfasst ca Relationen (zwischen lexikalischen Einheiten und synsets); Beispiele für Relationen: Hyperonymie/Hyponymie (Hund – Tier) Antonymie (Jugend – Alter) Holonymie/Meronymie (Finger - Hand)

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund18 Berechnung lexikalischer Ketten

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund19 Berechnung lexikalischer Ketten

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund20 Performanzbewertung der Ketten Qualitätsbewertung der Ketten: Evaluations- daten notwendig Unser erster Gedanke: manuelle Annotation von Korpus 3 Experimente zur manuellen Annotation –Experiment 1: manuelle Annotation lexikalischer Ketten –Experiment 2: lexikalische Relationen für Kettenkandidaten in GermaNet ermitteln –Experiment 3: lexikalische Ketten als Mindmaps

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund21 Performanzbewertung der Ketten Ergebnis der Experimente: manuelle Annotation mit annehmbarem Inter-Annotator Agreement unrealistisch Beobachtung deckt sich mit veröffentlichten Ergebnissen für englische Daten Unser Vorschlag: Evaluiere Performanz des Systems auf allen relevanten Ebenen separat: –Abdeckung der Ketten (Phase I) –Disambiguierungsqualität (Phase II) –Qualität der Berechnung semantischer Nähe (Phase III) –Anwendungsorientierte Evaluation (Phase IV)

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund22 Inhaltsübersicht Motivation und Projektkontext Lexikalische Ketten als Basis für Berechnung bzw. Visualisierung thematischer Strukturen Experimente zur Qualität lexikalischer Ketten –Abdeckung des Systems –Disambiguierungsqualität –Berechnung semantischer Nähe –Anwendungsorientierte Aspekte

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund23 Evaluationsphase I – Abdeckung Ohne Vorverarbeitung deckt GermaNet ca. 56 % aller Substantive in unserem Fachkorpus ab Umfassende Vorverarbeitung notwendig! ca Substantivtokens in unsere Fachtextkorpus gliedern sich in 56 % in GermaNet44 % nicht in GermaNet enthalten, davon 15 % flektiert12 % Komposita17 % kleinere Klassen nicht abgedeckten Materials

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund24 Evaluationsphase I – Abdeckung Anders als im Englischen: –4 Fälle + Singular/Plural –Komposita = ein Wort! Verbesserung durch Vorverarbeitung: –Abdeckung durch Lemmatisierung von ca. 56% auf 71% verbessert –Abdeckung durch Kompositazerlegung von ca. 71% auf 83% verbessert Offene Punkte u.a.: –Daten Datum bzw. Medien Medium –Datenbankbenutzerschnittstelle Benutzerschnittstelle oder Schnittstelle? (Disambiguierungsqualität sinkt!)

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund25 Evaluationsphase I – Abdeckung Eigennamen –einfacher statistischer Ansatz; bisher nur klassische Typen Offen: –Abkürzungen und fremdsprachliche Fachbegriffe einfacher statistischer Ansatz wie bei Eigennamen denkbar und Erweiterung der semantische Ressource –Nominalisierte Verben (das Administrieren, das Pflegen etc.) Vorgehen unklar kleiner Klassen nicht abgedeckten Materials gliedern sich in 15 % EN30 % Fremdwörter25 % Abkürzungen20 % nom. Verben

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund26 Evaluationsphase II – Disambiguierung Ca. 45 % der Wörter in unserem Korpus in mehr als einem synset für diese mehrere Lesarten möglich (Bank – Geldinstitut, Sitzgelegenheit …) Grundlage für Evaluation der Disambi- guierungsperfomanz: manuell annotierte Daten

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund27 Evaluationsphase II – Disambiguierung pro verwendetes semantisches Maß berechne Rang- ordnung vergleiche diese Rangordnung mit manuell annotierten Daten Wort A Wort BBedeutung 1 Bedeutung 2Wu-PalmerRang Text Hypertext ,9231 0, Manuell annotierte Bedeutungen Text Hypertext1 Bester Wert des Wu-Palmer-Ähnlichkeitsmaßes (= Rang 1) liefert die korrekten Angaben für Bedeutung von Wort 1 und 2 (Bedeutung1 = 1 und Bedeutung 2 = 1)

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund28 Evaluationsphase II – Disambiguierung Für die 3 besten Maße (Resnik, Wu-Palmer und Lin) gilt: –nur ca % korrekte Disambiguierung –durch majority-vote: Disambiguierungsqualität auf ca % –Information Content basierte Herangehensweise: keine Verbesserung möglich insgesamt mittelmäßige Perfomanz – allerdings: Vergleich mit WSD nicht sinnvoll Verbesserungsmöglichkeit: –Meta-Chaining (ähnlich Silber/McCoy, 2002) und eigenes Maß basierend auf Maschinellem Lernen

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund29 Implementierung von insgesamt 11 Ähnlichkeits- maßen: –8 basierend auf GermaNet, –3 basierend auf Google-Kookurrenz-Werten Evaluation diese Maße mit Hilfe der Ergebnisse eines Human-Judgement Experiments: –Liste von Substantiv-Paaren –Bewertung dieser Paare hinsichtlich semant. Nähe durch 35 Versuchspersonen –Berechnung der Korrelation zwischen Human- Judgement und den Werten der 11 Ähnlichkeitsmaße Evaluationsphase III – Berechnung semantischer Nähe

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund30 Evaluationsphase III – Berechnung semantischer Nähe Wortpaar

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund31 Evaluationsphase III – Berechnung semantischer Nähe Wortpaar

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund32 Evaluationsphase III – Berechnung semantischer Nähe Anzahl der Bewertungen

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund33 Evaluationsphase III – Berechnung semantischer Nähe Angabe der Ähnlichkeit Wort-Paare geordnet entsprechend ihrer Ähnlichkeitswerte Human Judgement Resnik

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund34 Evaluationsphase III – Berechnung semantischer Nähe Korrelation zwischen Human-Judgement und Ähnlichkeitsmaßen verhältnismäßig gering! Offene Fragen: –Müssen Ähnlichkeitsmaße überhaupt kontinuierlich sein? –Welche Merkmale (z.B. bzgl. GermaNet) müssten zusätzlich in der Berechnung von semantischer Ähnlichkeit berücksichtigt werden? –Wie interagiert die Qualität der Ähnlichkeitsmaße mit der Disambiguierungsqualität des Chainers? –Kann man die GermaNet und Google basierten Maße sinnvoll, vor allem gewinnbringend, miteinander verbinden?

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund35 Evaluationsphase IV – Anwendungsorientierte Evaluation

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund36 Evaluationsphase IV – Anwendungsorientierte Evaluation

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund37 Evaluationsphase IV – Anwendungsorientierte Evaluation Themenbezeichner für ersten Abschnitt daraus: Themenkarte

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund38 Evaluationsphase IV – Anwendungsorientierte Evaluation Erste Evaluationsergebnisse zeigen, dass –die manuelle Annotation von Themenkarten und Themenbezeichner möglich ist, –lexikalische Ketten in der Regel einen wichtigen Hinweis für Themenbezeichner darstellen, –es allerdings Abschnitt gibt, in denen das Thema nicht durch einen Themenbezeichner repräsentiert werden kann, –neben den lexikalischen Ketten weitere Merkmale nötig sind. In Arbeit: –Umfangreichere Annotationen von Evaluationsdaten für Evaluationsphase IV ( Gold Standard) –Systematische Evaluation anhand dieses Gold Standards –Ermittlung weiterer Merkmale für die Berechnung von Themenbezeichnern bzw. Themenkarten

Vielen Dank!

15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund40 Literatur Alexander Budanitsky and Graeme Hirst Semantic distance in wordnet: An experimental, application-oriented evaluation of five measures. In Workshop on WordNet and Other Lexical Resources at NAACL-2000, Pittsburgh, PA, June M. A. K. Halliday und Ruqaiya Hasan Cohesion in English. Longman, London. Graeme Hirst und David St-Onge Lexical chains as representation of context for the detection and correction malapropisms. In C. Fellbaum, editor, WordNet: An electronic lexical database, chapter 13, pages 305– 332. The MIT Press, Cambrige, MA. Alexander Mehler Lexical chaining as a source of text chaining. In Proceedings of the 1st Computational Systemic Functional Grammar Conference, Sydney. Grogory H. Silber und Kathleen F. McCoy Efficiently computed lexical chains as an intermediate representation for automatic text summarization. Computational Linguistics, 28(4):487 – 496. Irene Cramer und Marc Finthammer. An Evaluation Procedure forWord Net Based Lexical Chaining: Methods and Issues. Angenommen für die Global WordNet Conference im Januar 2008 in Szeged, Ungarn.