Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur.

Ähnliche Präsentationen


Präsentation zum Thema: "Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur."—  Präsentation transkript:

1 Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund

2 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund2 Inhaltsübersicht Motivation und Projektkontext Lexikalische Ketten als Basis für Berechnung bzw. Visualisierung thematischer Strukturen Experimente zur Qualität lexikalischer Ketten –Abdeckung des Systems –Disambiguierungsqualität –Berechnung semantischer Nähe –Anwendungsorientierte Aspekte

3 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund3 Projektkontext HyTex:Hy texProjekt HyTex: Hypertextualisierung auf textgrammatischer Grundlage; Teilprojekt der DFG- Forschergruppe Texttechnologische Informations- modellierung Hypertextualisierung …Hypertextualisierung … Aufbereitung von linear organisierten Dokumenten für die selektiven, interaktiven Nutzungsformen in einem Hypertextsystem. … auf textgrammatischer Grundlage… auf textgrammatischer Grundlage keine einfache 1:1-Konversion, sondern Erzeugung von Hypertextsichten auf der Basis textgrammatischer Annotationen, die die Vorteile (Mehrwerte) von Hypermedien bei der selektiven Lektüre ausschöpfen.

4 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund4 Miguel de Cervantes Saavedra Geboren am 29.09.1547 in Alcalá de Henares, gestorben am 23.04.1616 in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf. 1569 geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt. 1604 geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. Thematische Strukturen xxxxxxxxxxxx xxxxxxx xxxxxxxxxxxxx xxxxxxxxxxxx xxxxx xxxxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx xxxxxxxxxx

5 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund5 Miguel de Cervantes Saavedra Geboren am 29.09.1547 in Alcalá de Henares, gestorben am 23.04.1616 in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf. 1569 geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt. 1604 geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. Thematische Strukturen xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx xxxxxxxxxx Inhalt Kapitel 1 Kapitel 2 Kapitel 2.1 … Kapitel n Glossar Eintrag 1 …. Eintrag 2 … … Eintrag n … Definition Def. 1: …

6 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund6 Miguel de Cervantes Saavedra Geboren am 29.09.1547 in Alcalá de Henares, gestorben am 23.04.1616 in Madrid. Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf. 1569 geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden. Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil. Literarisches Schaffen Sein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach. Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt. 1604 geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote. Miguel de Cervantes Saavedra stirbt 1616 in Madrid. Thematische Strukturen xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx xxxxxxxxxx Inhalt Kapitel 1 Themenbezeichner Kapitel 2 Themenbezeichner Kapitel 2.1 Themenbezeichner 1 und 2 … Kapitel n Themenbezeichner

7 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund7 Erweiterung des Prototyps aus Phase I (vgl. www.hytex.info) u.a. um Themenkarten www.hytex.info Themenkarte:Themenkarte: –ausgehend von Themenketten bzw. lexikalischen Ketten –thematisch motivierte Verlinkung von Themen- bezeichnern –Darstellung als Themenkarte (~thematischer Index) Idee: Verbesserung der Orientierung für Rezipient Thematische Strukturen

8 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund8 Inhaltsübersicht Motivation und Projektkontext Lexikalische Ketten als Basis für Berechnung bzw. Visualisierung thematischer Strukturen Experimente zur Qualität lexikalischer Ketten –Abdeckung des Systems –Disambiguierungsqualität –Berechnung semantischer Nähe –Anwendungsorientierte Aspekte

9 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund9 Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

10 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund10 Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

11 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund11 Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

12 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund12 Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

13 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund13 Lexikalische Ketten – Beispiel Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune. Kette1: sitzen – ausruhen – müde – einschlafen Kette2: Weide – Blatt – Blättern

14 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund14 Lexikalische Ketten Entspricht partieller Textrepräsentation, eingeführt von Halliday & Hasan (Cohesion in English, 1976), technisch zuerst realisiert in CoLi durch Hirst & StOnge (1998) für englische Text, nützlich für verschiedene Anwendungen: –Textzusammenfassung, Dialogmodellierung etc. u.W.n. bisher nur zwei Systeme für deutsche Texte, mit Unterschieden in Methodenwahl und Ressourcen –Mehler (2006) –Cramer & Finthammer (2007) –sowie umfangreiche Arbeiten zur semantischen Nähe I. Gurevych et. al.

15 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund15 Lexikalische Ketten Themenkarten Berechnung von Themenkarten: Wähle Themenbezeichner pro Modul – Merkmale für die Auswahl –starke, lange lexikalische Ketten enthalten Themenbezeichner –Häufigkeit, Position im Text, Markup –…

16 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund16 Berechnung lexikalischer Ketten Module unseres Chainers GLexi: –Vorverarbeitung der Texte Ergebnis: Chainkandidaten –Chainer-Kernmodul – semantische Suche (in GermaNet) Ergebnis: Meta-ChainsGermaNet –Ausgabeerzeugung Ergebnis: z.B. visuelle Darstellung oder XML Ausgabe

17 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund17 Exkurs: GermaNet Maschinenlesbares lexikalisch-semantisches Netz für das Deutsche Version 5.0 –umfasst ca. 77.000 lexikalische Einheiten, in ca. 53.000 Synonymenmengen (synsets) –umfasst ca. 68.000 Relationen (zwischen lexikalischen Einheiten und synsets); Beispiele für Relationen: Hyperonymie/Hyponymie (Hund – Tier) Antonymie (Jugend – Alter) Holonymie/Meronymie (Finger - Hand)

18 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund18 Berechnung lexikalischer Ketten

19 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund19 Berechnung lexikalischer Ketten

20 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund20 Performanzbewertung der Ketten Qualitätsbewertung der Ketten: Evaluations- daten notwendig Unser erster Gedanke: manuelle Annotation von Korpus 3 Experimente zur manuellen Annotation –Experiment 1: manuelle Annotation lexikalischer Ketten –Experiment 2: lexikalische Relationen für Kettenkandidaten in GermaNet ermitteln –Experiment 3: lexikalische Ketten als Mindmaps

21 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund21 Performanzbewertung der Ketten Ergebnis der Experimente: manuelle Annotation mit annehmbarem Inter-Annotator Agreement unrealistisch Beobachtung deckt sich mit veröffentlichten Ergebnissen für englische Daten Unser Vorschlag: Evaluiere Performanz des Systems auf allen relevanten Ebenen separat: –Abdeckung der Ketten (Phase I) –Disambiguierungsqualität (Phase II) –Qualität der Berechnung semantischer Nähe (Phase III) –Anwendungsorientierte Evaluation (Phase IV)

22 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund22 Inhaltsübersicht Motivation und Projektkontext Lexikalische Ketten als Basis für Berechnung bzw. Visualisierung thematischer Strukturen Experimente zur Qualität lexikalischer Ketten –Abdeckung des Systems –Disambiguierungsqualität –Berechnung semantischer Nähe –Anwendungsorientierte Aspekte

23 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund23 Evaluationsphase I – Abdeckung Ohne Vorverarbeitung deckt GermaNet ca. 56 % aller Substantive in unserem Fachkorpus ab Umfassende Vorverarbeitung notwendig! ca. 29.000 Substantivtokens in unsere Fachtextkorpus gliedern sich in 56 % in GermaNet44 % nicht in GermaNet enthalten, davon 15 % flektiert12 % Komposita17 % kleinere Klassen nicht abgedeckten Materials

24 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund24 Evaluationsphase I – Abdeckung Anders als im Englischen: –4 Fälle + Singular/Plural –Komposita = ein Wort! Verbesserung durch Vorverarbeitung: –Abdeckung durch Lemmatisierung von ca. 56% auf 71% verbessert –Abdeckung durch Kompositazerlegung von ca. 71% auf 83% verbessert Offene Punkte u.a.: –Daten Datum bzw. Medien Medium –Datenbankbenutzerschnittstelle Benutzerschnittstelle oder Schnittstelle? (Disambiguierungsqualität sinkt!)

25 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund25 Evaluationsphase I – Abdeckung Eigennamen –einfacher statistischer Ansatz; bisher nur klassische Typen Offen: –Abkürzungen und fremdsprachliche Fachbegriffe einfacher statistischer Ansatz wie bei Eigennamen denkbar und Erweiterung der semantische Ressource –Nominalisierte Verben (das Administrieren, das Pflegen etc.) Vorgehen unklar kleiner Klassen nicht abgedeckten Materials gliedern sich in 15 % EN30 % Fremdwörter25 % Abkürzungen20 % nom. Verben

26 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund26 Evaluationsphase II – Disambiguierung Ca. 45 % der Wörter in unserem Korpus in mehr als einem synset für diese mehrere Lesarten möglich (Bank – Geldinstitut, Sitzgelegenheit …) Grundlage für Evaluation der Disambi- guierungsperfomanz: manuell annotierte Daten

27 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund27 Evaluationsphase II – Disambiguierung pro verwendetes semantisches Maß berechne Rang- ordnung vergleiche diese Rangordnung mit manuell annotierten Daten Wort A Wort BBedeutung 1 Bedeutung 2Wu-PalmerRang Text Hypertext 1 2 1 0,9231 0,8333 1212 Manuell annotierte Bedeutungen Text Hypertext1 Bester Wert des Wu-Palmer-Ähnlichkeitsmaßes (= Rang 1) liefert die korrekten Angaben für Bedeutung von Wort 1 und 2 (Bedeutung1 = 1 und Bedeutung 2 = 1)

28 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund28 Evaluationsphase II – Disambiguierung Für die 3 besten Maße (Resnik, Wu-Palmer und Lin) gilt: –nur ca. 50-60 % korrekte Disambiguierung –durch majority-vote: Disambiguierungsqualität auf ca. 63-65 % –Information Content basierte Herangehensweise: keine Verbesserung möglich insgesamt mittelmäßige Perfomanz – allerdings: Vergleich mit WSD nicht sinnvoll Verbesserungsmöglichkeit: –Meta-Chaining (ähnlich Silber/McCoy, 2002) und eigenes Maß basierend auf Maschinellem Lernen

29 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund29 Implementierung von insgesamt 11 Ähnlichkeits- maßen: –8 basierend auf GermaNet, –3 basierend auf Google-Kookurrenz-Werten Evaluation diese Maße mit Hilfe der Ergebnisse eines Human-Judgement Experiments: –Liste von Substantiv-Paaren –Bewertung dieser Paare hinsichtlich semant. Nähe durch 35 Versuchspersonen –Berechnung der Korrelation zwischen Human- Judgement und den Werten der 11 Ähnlichkeitsmaße Evaluationsphase III – Berechnung semantischer Nähe

30 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund30 Evaluationsphase III – Berechnung semantischer Nähe Wortpaar

31 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund31 Evaluationsphase III – Berechnung semantischer Nähe Wortpaar

32 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund32 Evaluationsphase III – Berechnung semantischer Nähe Anzahl der Bewertungen

33 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund33 Evaluationsphase III – Berechnung semantischer Nähe Angabe der Ähnlichkeit Wort-Paare geordnet entsprechend ihrer Ähnlichkeitswerte Human Judgement Resnik

34 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund34 Evaluationsphase III – Berechnung semantischer Nähe Korrelation zwischen Human-Judgement und Ähnlichkeitsmaßen verhältnismäßig gering! Offene Fragen: –Müssen Ähnlichkeitsmaße überhaupt kontinuierlich sein? –Welche Merkmale (z.B. bzgl. GermaNet) müssten zusätzlich in der Berechnung von semantischer Ähnlichkeit berücksichtigt werden? –Wie interagiert die Qualität der Ähnlichkeitsmaße mit der Disambiguierungsqualität des Chainers? –Kann man die GermaNet und Google basierten Maße sinnvoll, vor allem gewinnbringend, miteinander verbinden?

35 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund35 Evaluationsphase IV – Anwendungsorientierte Evaluation

36 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund36 Evaluationsphase IV – Anwendungsorientierte Evaluation

37 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund37 Evaluationsphase IV – Anwendungsorientierte Evaluation Themenbezeichner für ersten Abschnitt daraus: Themenkarte

38 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund38 Evaluationsphase IV – Anwendungsorientierte Evaluation Erste Evaluationsergebnisse zeigen, dass –die manuelle Annotation von Themenkarten und Themenbezeichner möglich ist, –lexikalische Ketten in der Regel einen wichtigen Hinweis für Themenbezeichner darstellen, –es allerdings Abschnitt gibt, in denen das Thema nicht durch einen Themenbezeichner repräsentiert werden kann, –neben den lexikalischen Ketten weitere Merkmale nötig sind. In Arbeit: –Umfangreichere Annotationen von Evaluationsdaten für Evaluationsphase IV ( Gold Standard) –Systematische Evaluation anhand dieses Gold Standards –Ermittlung weiterer Merkmale für die Berechnung von Themenbezeichnern bzw. Themenkarten

39 Vielen Dank!

40 15/10/07Institut für deutsche Sprache und Literatur – Universität Dortmund40 Literatur Alexander Budanitsky and Graeme Hirst. 2001. Semantic distance in wordnet: An experimental, application-oriented evaluation of five measures. In Workshop on WordNet and Other Lexical Resources at NAACL-2000, Pittsburgh, PA, June 2001. M. A. K. Halliday und Ruqaiya Hasan. 1976. Cohesion in English. Longman, London. Graeme Hirst und David St-Onge. 1998. Lexical chains as representation of context for the detection and correction malapropisms. In C. Fellbaum, editor, WordNet: An electronic lexical database, chapter 13, pages 305– 332. The MIT Press, Cambrige, MA. Alexander Mehler. 2005. Lexical chaining as a source of text chaining. In Proceedings of the 1st Computational Systemic Functional Grammar Conference, Sydney. Grogory H. Silber und Kathleen F. McCoy. 2002. Efficiently computed lexical chains as an intermediate representation for automatic text summarization. Computational Linguistics, 28(4):487 – 496. Irene Cramer und Marc Finthammer. An Evaluation Procedure forWord Net Based Lexical Chaining: Methods and Issues. Angenommen für die Global WordNet Conference im Januar 2008 in Szeged, Ungarn.


Herunterladen ppt "Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur."

Ähnliche Präsentationen


Google-Anzeigen