Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Ähnliche Präsentationen


Präsentation zum Thema: "Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)"—  Präsentation transkript:

1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

2 Überblick 2 Tools, die Rahmen des Knowledge Discovery eingesetzt werden können : Wordnet, ein erweitertes Lexikon Alembic Workbench, eine Toolsammlung zur Wissensextraktion aus unbekannten Texten

3 Input : unbekannte Texte Alembic : untestützt Wissensextraktion aus Texten Wordnet: lexikalische Datenbank Output: Mit SGML annotierte Texte

4 Wordnet Datenbank mit lexikalischen Informationen (englische Sprache) entwickelt an der Princeton University –(URL : ) angelehnt an psycholinguistische Theorien des menschlichen Wortgedächntisses

5 traditionelle Wörterbücher –Informationen alphabetisch gespeichert –keine Querverweise auf Synonyme, verwandte Begriffe,... –Suche sehr zeitaufwendig Wordnet

6 –speichert Informationen nach konzeptuellen Gesichtspunkten mit Hilfe sogenannter Synonym Sets –Beispiel : { tree, conifer,~ : steht für Hypernym-Relation ( Verallgemeinerung ) ~ : steht für Hyponym-Relation ( Spezialisierung )

7 Wordnet –Datenbank ist in 5 Kategorien eingeteilt : Nomen, Verben, Adjektive, Adverben und Funktionswörter ( nicht implementiert) –Einteilung beruht auf wissenschaftlicher Untersuchung über Wortassoziationen

8 Wordnet –Nomen : werden in Hierarchien abgespeichert wichtige Relation : Hypernymität –Verben : 15 Kategorien von Verben wichtige Relation : Entailment

9 Adjektive : Unterteilung : deskriptive und relationale Adjektive wichtige Relation : Antonymität ähnliche deskriptive Adjektive werden in Clustern zusammengefaßt Wordnet

10 damp dried-upsoggy wet humid dry parched anhydrous sere arid watery Cluster moist

11 Wordnet –umfaßt ca verschiedene Wortformen, welche in ca Bedeutungsklassen (Synonym Sets) gespeichert sind –bietet bei der Suche ein breites Spektrum an Optionen wie Synonyme Antonyme Hyper-/Hyponyme Meronyme/Holonyme

12

13

14

15 Alembic Workbench –wird zur Information Extraction (IE) verwendet –entwickelt am MITRE, USA –URL : Projektübersicht, Download

16 Alembic Workbench –Sammlung von Tools zur Verbesserung des tagging-Prozesses von Texten –tags = Markierungen im Text, die Informationen charakterisieren –Beispiel : Bill Clinton

17 Alembic Workbench –Entwicklungsziele : reichhaltige Möglichkeiten zur Analyse eines getagten Textes Fähigkeit, schnell Hypothesen zu entwickeln, wie man Tag-Informationen aus dem Text gewinnen kann Möglichkeit zur schnellen Analyse und Bewertung der Leistungsfähigkeit dieser Hypothesen

18 Alembic Workbench Komponenten : –Editor –Process-Text-Utility –Rule Learner –weitere Analyse-Tools

19 Alembic Workbench –Ziel : Automatisches Erkennen von relevanten Fakten durch das Programm –Ansatz : gemeinsames Erarbeiten von neuen Regeln durch Mensch und Maschine –mixed-initiative Ansatz

20 Alembic Workbench

21

22

23

24 –bietet verschiedene Möglichkeiten zur Analyse der getagten Texte –Phrase Extraction : extrahiert alle mit Tags markierten Begriffe aus dem Text kann gewünschte Tags farblich markieren eingesetzt vor allem zur Fehlersuche und zur Analyse der Tags unabhängig vom Kontext

25 Alembic Workbench –Resultate : (basierend auf Untersuchung von MITRE) –signifikante Steigerung der Produktivität im Vergleich zu einer rein manuellen Bearbeitung mit einem Editor

26 Alembic Workbench

27 Ausblick –Ziele : Alembic mit einem unbekannten Text trainieren und Ergebnisse analysieren eigenes Textanalyse-Tool, das mit Alembic und Wordnet zusammenarbeitet : möglicher Ansatz : Alembic extrahiert alle Nomen aus einem gegebenen Text und unser Programm sucht mit Hilfe von Wordnet gemeinsame Oberbegriffe ( Klassierung), z.B. alle Pflanzen und Tiere zu erkennen


Herunterladen ppt "Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)"

Ähnliche Präsentationen


Google-Anzeigen