Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

Ähnliche Präsentationen


Präsentation zum Thema: "Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &"—  Präsentation transkript:

1 Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

2 November 2001, Marcus Heidmann AIFB & Inhaltsübersicht 1.Problemstellung – Informationsextraktion 2.Einordnung der Arbeit in die Semantic Value Chain 3.Informationsextraktion 4.SMES Beispielanalyse 5.Prozess der Datenextraktion 6.Architekturüberblick SmesMiner 7.Demonstration des SmesMiner 8.Evaluation von SMES 9.Analyse der Firmennamenerkennung 10. Vergleich der Erkennungsleistung von Firmennamen 11. Zusammenfassung & Ausblick

3 November 2001, Marcus Heidmann AIFB & Problemstellung - Informationsrecherche Vision des Semantic Web: Maschinelle Agenten "verstehen" Informationen und unterstützen den Benutzer bei der Recherche Tim Berners-Lee Informationsrecherche zu viele Dokumente falsche Stichwörter Dokumente statt Antworten Eigennamen? Personen, Orte, Unternehmen Manuelle Extraktion von Informationen Informationsverknüpfung verschiedener Quellen

4 November 2001, Marcus Heidmann AIFB & Semantic Value Chain Generierung neuen Wissens durch Kombination der Information und Ableitung der Zusammenhänge Extraktion von Wissen und Verknüpfung von Inhalten mit den Wissensmodellen Anwendungen zum Aufsuchen und Finden von Wissen Werkzeugunterstützte Modellierung von Wissensbereichen und Domänen Knowledge Generation Knowledge Collecting Knowledge Retrieval Knowledge Modelling Faktengenerierung durch linguistische Analyse und Konzeptmapping SMES & Ontobroker Browserbasierte interaktive Abfragekomponente SmesMiner

5 November 2001, Marcus Heidmann AIFB & Informationsextraktion Tokenscanner Wortsegmentierung Syntaktische Analyse Parsing an die Börse (Präpositional-Phrase) die Börse (Nominal-Phrase) Verbgruppen Lexikalische Analyse Part-of-Speech Flexionsform Kompositerkennung Eigennamenerkennung Nomen (z.B. Aufgabe), Verb, Pronomen etc. Aufgaben (Genus:weiblich, Numerus:Plural) z.B. An- und Verkauf Firmen, Personen, Orte Token Klasse: Aufgabe (first_capital_word) Domänen Analyse Templatevereinigung Mustererkennung Der Umsatz beträgt 1,5 Mio AnkerZahl & WährungVerb

6 November 2001, Marcus Heidmann AIFB & SMES Beispielanalyse SMES SMES-Beispielausgaben von Marcus Heidmann. <W TC="31" POS="1" COMP="smes - beispiel ausgaben STEM="ausgabe" INFL="[6 7 8 9]">SMES-Beispielausgaben von Marcus Heidmann Person ohne Titel Nomen

7 November 2001, Marcus Heidmann AIFB & Prozess der Datenextraktion Domänen Lexikon Fakten Ontobroker Ontologie www.boersenmagazin.de HTML entfernen ASCII-Dateien AnalyseXML-Dateien AnalyseXML-Dateien SMES Konzept und Nomen Extraktion (XQL) Klassifizierung mit Domain Lexikon

8 November 2001, Marcus Heidmann AIFB & Architekturübersicht SmesMiner Fakten Basis Ontobroker Ontologie Synonym Wörterbuch Internet Dokumente Index Server Servlet SmesMiner

9 November 2001, Marcus Heidmann AIFB & SmesMiner DEMO

10 November 2001, Marcus Heidmann AIFB & Evaluation von SMES Analysebereich Anzahl Ausprägungen PrecisionRecall korrektfalschfehlt Firmennamen7455319693%80% Personennamen180162292%90% Ortsbezeichnungen497108198%86% Gesamt14227929995%83% Nomen14567821795%88% Analyse von 100 Testdokumenten durch manuellen Abgleich "wahre" Precision wahrscheinlich etwas niedriger Sehr gute Leistung bei der Eigennamenerkennung und der Identifikation von Nomen Probleme mit englischen Begriffen Lexikon aktualisieren

11 November 2001, Marcus Heidmann AIFB & Analyse der Firmennamenerkennung Analysebereich Anzahl Ausprägungen PrecisionRecall korrektfalschfehlt DAX1321586%50% Dow Jones812188%30% Nemax 508152735%46% Nemax 50 (Variation)8028274%98% Euro-Stoxx-501582765%46% Falsche Erkennung von zusammengesetzten Firmennamen, wenn ein Teil des Namens ein deutsches Wort ist (z.B. Münchener Rück, MAN) geringe Abdeckung des internen Firmennamenlexikons hohe Erkennungsleistung bei Gesellschaftsbezeichnungen durch Referenzauflösung

12 November 2001, Marcus Heidmann AIFB & Vergleich Firmennamen- Erkennungsleistung Systeme von MUC-7 (Englisch)

13 November 2001, Marcus Heidmann AIFB & Zusammenfassung & Ausblick 1.Konzepterkennung auf Dokumentenebene Unternehmen1 Unternehmen2 Kennzahl 1,25 Mio Person 2.Kontexterkennung 3.Zuordnung von Ausprägungen 4.Relationen zur Bildung von Ableitungen 5.Multilinguale Analyse

14 VIELEN DANK FÜR IHRE AUFMERKSAMKEIT Marcus Heidmann

15 Backup Folien

16 November 2001, Marcus Heidmann AIFB & Evaluation der Personennamen Personennamen

17 November 2001, Marcus Heidmann AIFB & Evaluation der Ortsbezeichnungen Ortsbezeichnungen

18 November 2001, Marcus Heidmann AIFB & Eigennamenerkennung Weighted Finite State Automaton

19 November 2001, Marcus Heidmann AIFB & SmesMiner – Anfrageerstellung

20 November 2001, Marcus Heidmann AIFB & SmesMiner - Dokumentenansicht

21 November 2001, Marcus Heidmann AIFB & SmesMiner – Ontobroker Ansicht

22 November 2001, Marcus Heidmann AIFB & SmesMiner – Einschränkung der Ergebnisse

23 November 2001, Marcus Heidmann AIFB & SmesMiner – Index Server Ansicht


Herunterladen ppt "Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &"

Ähnliche Präsentationen


Google-Anzeigen