Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &
November 2001, Marcus Heidmann AIFB & Inhaltsübersicht 1.Problemstellung – Informationsextraktion 2.Einordnung der Arbeit in die Semantic Value Chain 3.Informationsextraktion 4.SMES Beispielanalyse 5.Prozess der Datenextraktion 6.Architekturüberblick SmesMiner 7.Demonstration des SmesMiner 8.Evaluation von SMES 9.Analyse der Firmennamenerkennung 10. Vergleich der Erkennungsleistung von Firmennamen 11. Zusammenfassung & Ausblick
November 2001, Marcus Heidmann AIFB & Problemstellung - Informationsrecherche Vision des Semantic Web: Maschinelle Agenten "verstehen" Informationen und unterstützen den Benutzer bei der Recherche Tim Berners-Lee Informationsrecherche zu viele Dokumente falsche Stichwörter Dokumente statt Antworten Eigennamen? Personen, Orte, Unternehmen Manuelle Extraktion von Informationen Informationsverknüpfung verschiedener Quellen
November 2001, Marcus Heidmann AIFB & Semantic Value Chain Generierung neuen Wissens durch Kombination der Information und Ableitung der Zusammenhänge Extraktion von Wissen und Verknüpfung von Inhalten mit den Wissensmodellen Anwendungen zum Aufsuchen und Finden von Wissen Werkzeugunterstützte Modellierung von Wissensbereichen und Domänen Knowledge Generation Knowledge Collecting Knowledge Retrieval Knowledge Modelling Faktengenerierung durch linguistische Analyse und Konzeptmapping SMES & Ontobroker Browserbasierte interaktive Abfragekomponente SmesMiner
November 2001, Marcus Heidmann AIFB & Informationsextraktion Tokenscanner Wortsegmentierung Syntaktische Analyse Parsing an die Börse (Präpositional-Phrase) die Börse (Nominal-Phrase) Verbgruppen Lexikalische Analyse Part-of-Speech Flexionsform Kompositerkennung Eigennamenerkennung Nomen (z.B. Aufgabe), Verb, Pronomen etc. Aufgaben (Genus:weiblich, Numerus:Plural) z.B. An- und Verkauf Firmen, Personen, Orte Token Klasse: Aufgabe (first_capital_word) Domänen Analyse Templatevereinigung Mustererkennung Der Umsatz beträgt 1,5 Mio AnkerZahl & WährungVerb
November 2001, Marcus Heidmann AIFB & SMES Beispielanalyse SMES SMES-Beispielausgaben von Marcus Heidmann. <W TC="31" POS="1" COMP="smes - beispiel ausgaben STEM="ausgabe" INFL="[ ]">SMES-Beispielausgaben von Marcus Heidmann Person ohne Titel Nomen
November 2001, Marcus Heidmann AIFB & Prozess der Datenextraktion Domänen Lexikon Fakten Ontobroker Ontologie HTML entfernen ASCII-Dateien AnalyseXML-Dateien AnalyseXML-Dateien SMES Konzept und Nomen Extraktion (XQL) Klassifizierung mit Domain Lexikon
November 2001, Marcus Heidmann AIFB & Architekturübersicht SmesMiner Fakten Basis Ontobroker Ontologie Synonym Wörterbuch Internet Dokumente Index Server Servlet SmesMiner
November 2001, Marcus Heidmann AIFB & SmesMiner DEMO
November 2001, Marcus Heidmann AIFB & Evaluation von SMES Analysebereich Anzahl Ausprägungen PrecisionRecall korrektfalschfehlt Firmennamen %80% Personennamen %90% Ortsbezeichnungen %86% Gesamt %83% Nomen %88% Analyse von 100 Testdokumenten durch manuellen Abgleich "wahre" Precision wahrscheinlich etwas niedriger Sehr gute Leistung bei der Eigennamenerkennung und der Identifikation von Nomen Probleme mit englischen Begriffen Lexikon aktualisieren
November 2001, Marcus Heidmann AIFB & Analyse der Firmennamenerkennung Analysebereich Anzahl Ausprägungen PrecisionRecall korrektfalschfehlt DAX %50% Dow Jones812188%30% Nemax %46% Nemax 50 (Variation) %98% Euro-Stoxx %46% Falsche Erkennung von zusammengesetzten Firmennamen, wenn ein Teil des Namens ein deutsches Wort ist (z.B. Münchener Rück, MAN) geringe Abdeckung des internen Firmennamenlexikons hohe Erkennungsleistung bei Gesellschaftsbezeichnungen durch Referenzauflösung
November 2001, Marcus Heidmann AIFB & Vergleich Firmennamen- Erkennungsleistung Systeme von MUC-7 (Englisch)
November 2001, Marcus Heidmann AIFB & Zusammenfassung & Ausblick 1.Konzepterkennung auf Dokumentenebene Unternehmen1 Unternehmen2 Kennzahl 1,25 Mio Person 2.Kontexterkennung 3.Zuordnung von Ausprägungen 4.Relationen zur Bildung von Ableitungen 5.Multilinguale Analyse
VIELEN DANK FÜR IHRE AUFMERKSAMKEIT Marcus Heidmann
Backup Folien
November 2001, Marcus Heidmann AIFB & Evaluation der Personennamen Personennamen
November 2001, Marcus Heidmann AIFB & Evaluation der Ortsbezeichnungen Ortsbezeichnungen
November 2001, Marcus Heidmann AIFB & Eigennamenerkennung Weighted Finite State Automaton
November 2001, Marcus Heidmann AIFB & SmesMiner – Anfrageerstellung
November 2001, Marcus Heidmann AIFB & SmesMiner - Dokumentenansicht
November 2001, Marcus Heidmann AIFB & SmesMiner – Ontobroker Ansicht
November 2001, Marcus Heidmann AIFB & SmesMiner – Einschränkung der Ergebnisse
November 2001, Marcus Heidmann AIFB & SmesMiner – Index Server Ansicht