Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Überblick 2 Tools, die Rahmen des Knowledge Discovery eingesetzt werden können : Wordnet, ein erweitertes Lexikon Alembic Workbench, eine Toolsammlung zur Wissensextraktion aus unbekannten Texten
lexikalische Datenbank Input : unbekannte Texte Alembic : untestützt Wissensextraktion aus Texten Output: Mit SGML annotierte Texte Wordnet: lexikalische Datenbank
Wordnet Datenbank mit lexikalischen Informationen (englische Sprache) entwickelt an der Princeton University (URL : www.cogsci.princeton.edu/~wn ) angelehnt an psycholinguistische Theorien des menschlichen Wortgedächntisses
Wordnet traditionelle Wörterbücher Informationen alphabetisch gespeichert keine Querverweise auf Synonyme, verwandte Begriffe , ... Suche sehr zeitaufwendig
Wordnet speichert Informationen nach konzeptuellen Gesichtspunkten mit Hilfe sogenannter Synonym Sets Beispiel : { tree, plant,@ conifer,~ alder,~ ...} @ : steht für Hypernym-Relation ( Verallgemeinerung ) ~ : steht für Hyponym-Relation ( Spezialisierung )
Wordnet Datenbank ist in 5 Kategorien eingeteilt : Nomen, Verben, Adjektive, Adverben und Funktionswörter ( nicht implementiert) Einteilung beruht auf wissenschaftlicher Untersuchung über Wortassoziationen
Wordnet Nomen : Verben : werden in Hierarchien abgespeichert wichtige Relation : Hypernymität Verben : 15 Kategorien von Verben wichtige Relation : Entailment
Wordnet Adjektive : Unterteilung : deskriptive und relationale Adjektive wichtige Relation : Antonymität ähnliche deskriptive Adjektive werden in Clustern zusammengefaßt
wet dry Cluster watery parched damp arid moist anhydrous humid sere soggy dried-up
Wordnet umfaßt ca. 95600 verschiedene Wortformen, welche in ca. 70100 Bedeutungsklassen (Synonym Sets) gespeichert sind bietet bei der Suche ein breites Spektrum an Optionen wie Synonyme Antonyme Hyper-/Hyponyme Meronyme/Holonyme
Alembic Workbench wird zur Information Extraction (IE) verwendet entwickelt am MITRE, USA URL : http://www.mitre.org/technology/alembic-workbench Projektübersicht, Download
Alembic Workbench Sammlung von Tools zur Verbesserung des „tagging-Prozesses“ von Texten tags = Markierungen im Text, die Informationen charakterisieren Beispiel : <ENAMEX TYPE=PERSON>Bill Clinton</TYPE>
Alembic Workbench Entwicklungsziele : reichhaltige Möglichkeiten zur Analyse eines getagten Textes Fähigkeit, schnell Hypothesen zu entwickeln, wie man Tag-Informationen aus dem Text gewinnen kann Möglichkeit zur schnellen Analyse und Bewertung der Leistungsfähigkeit dieser Hypothesen
Alembic Workbench Komponenten : Editor Process-Text-Utility Rule Learner weitere Analyse-Tools
Alembic Workbench Ziel : Automatisches Erkennen von relevanten Fakten durch das Programm Ansatz : gemeinsames Erarbeiten von neuen Regeln durch Mensch und Maschine mixed-initiative Ansatz
Alembic Workbench
Alembic Workbench bietet verschiedene Möglichkeiten zur Analyse der getagten Texte Phrase Extraction : extrahiert alle mit Tags markierten Begriffe aus dem Text kann gewünschte Tags farblich markieren eingesetzt vor allem zur Fehlersuche und zur Analyse der Tags unabhängig vom Kontext
Alembic Workbench Resultate : (basierend auf Untersuchung von MITRE) signifikante Steigerung der Produktivität im Vergleich zu einer rein manuellen Bearbeitung mit einem Editor
Alembic Workbench
Ausblick Ziele : Alembic mit einem unbekannten Text trainieren und Ergebnisse analysieren eigenes Textanalyse-Tool, das mit Alembic und Wordnet zusammenarbeitet : möglicher Ansatz : Alembic extrahiert alle Nomen aus einem gegebenen Text und unser Programm sucht mit Hilfe von Wordnet gemeinsame Oberbegriffe ( Klassierung), z.B. alle Pflanzen und Tiere zu erkennen