Knowledge Discovery mit Wordnet und Alembic Workbench

Slides:



Advertisements
Ähnliche Präsentationen
Seite 1 Find Economic Literature Stand
Advertisements

Willkommen auf der neuen Electrical Power Website Überblick über die neuen Features und die erweiterte Funktionalität unserer Website.
Datenbankdesign mit ACCESS.
NER Named Entity Recognition
What Computers still cant do A Critique of Artificial Reason Hubert L. Dreyfus.
Termextraktion Ziele der Extraktion Stand der Extraktionsprogramme
Arbeits- und Präsentationstechniken 1 Teil A: Wissenschaftstheoretische Grundlagen Prof. Dr. Richard Roth WS 2011/2012 APT 1 Prof. Dr. Richard Roth.
Literaturverwaltung und Wissensorganisation
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Was möchte ich dazu sagen? 1
Dreamweaver Tatjana Funk. Gebrauchtwagenkauf DW ist ein visueller Editor DW ist ein WYSIWYG Editor (What you see is what you get.
Universität Stuttgart Institut für Kernenergetik und Energiesysteme RUP in der Praxis Zum RUP existiert eine online Version. Mit dieser Version können.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Hypertextualisierung mit Topic Maps Ein Ansatz zur Unterstützung des Textverständnisses bei der selektiven Rezeption von Fachtexten.
SYSTRAN Information and translation technologies.
Support.ebsco.com Lernprogramm zur erweiterten Suche und zu Feldern zur gelenkten Suche.
Semantisch gestützte Suche im Internet
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
Jakob Voß: Grundlegende Aspekte des Semantic Web: Modellierung von Ontologien ( ) Modellierung von Ontologien Jakob Voß
Wismar Business School
Folie 1 Reengineering-Werkzeugen für Webseiten Johannes Martin, University of Victoria Ludger Martin, Technische Universität Darmstadt WSR 2001 Bad Honnef,
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
Entitäten Extraktion Einführung
2 Beispiele von Wissensorganisation 2.0 del.icio.us und BibSonomy vorgestellt von Sylvia Fabricius-Wiese 08. April 2008.
Die „Erweiterte Suche“
für regelmäßig wiederkehrende
EDC Entwicklerforum Geoprocessing im Web 18. Juli 2013 Benjamin Proß Ein erweiterbarer WPS Client für ArcMap.
Erste Schritte mit PHP 5 von Max Brandt, 22. September 2006.
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Teilprojekt Z2 „Methoden und Werkzeuge zur rechnergestützten medienwissenschaftlichen Analyse“ (Laufzeit: ) Gegenstand: Entwurf des Prototyps.
EXCEL PROFESSIONAL KURS
Ontologien im Wissensmanagement
Clever Search: A WordNet Based Wrapper for Internet Search Engines Peter M. Kruse, André Naujoks, Manuela Kunze, Dietmar Rösner Otto-von-Guericke-Universität.
DataMining Von Daten zu Informationen und Wissen
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
4 Grundlegende Zellformatierung
A Social Tagging Environment for Web Information Extraction
Wer weiß, gewinnt Wissens- und Medienplattformen im Internet w w w. s a f e r i n t e r n e t. a t.
Abteilung für automatische Sprachverarbeitung
Context-awareness Andreas Bossard, Matthias Hert.
Assoziative lexikalische Ketten
Erstellt von: Manuela, Marc und Midhat im Rahmen des MMF_3 Kurses.
W Ü R G Wir üben richtig gut .
Übung zu Einführung in die LDV I
Suchmaschinen.
Die Ganze Welt im Computer? Informationsbeschaffung im Internet
Theoretischer Hintergrund Systematische Wortschatzarbeit –
Willkommen bei der Präsentation von interessanten Eigenschaften der Wörterbücher Lingea Lexicon. Unter den Seiten können Sie mit Hilfe von Tasten und Maus.
TODOR TODOROV WS 14/15 PLANUNG VON SOFTWARE PROJEKTE CHRISTOPH STOLLWERK Sentiment Analysis.
Tasks UNDERSTAND KNOW COMPREHEND know comprehend understandit ž, n, d, c, r, s, t, a, n, d w, t žn dcr stan dwt [žn] – [dcr] – [stan] – [dwt] SELECTION.
Bern University of Applied Sciences Engineering and Information Technology Documentation generator for XML-based description standards Ausgangslage: Die.
Online-Wörterbücher LEO "Link Everything Online"
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen.
Tanja Eder Slawische Korpuslinguistik Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association.
der WKW Erste Schritte im Datenbank-Infosystem (DBIS)
Konzept Hilfsmittel für Wörterlernen Simplistischer Seitenaufbau à la Google Multimedia – und mehrsprachige Suche Unterstützung für 42 Sprachen Ergebnisse.
HYPERLINK WAS IST DAS WEB 2.0? SEMANTIC WEB.
Tutorial Holdings Management Erstellen, Bearbeiten und Zuweisen von Links für Full Text Finder support.ebsco.com.
MS Word 2010 Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen Text bearbeiten Word Texte eingeben und bearbeiten automatische und.
Arbeitsmaterialien im DFU-Unterricht
Christoph Wirtz | Seminarvortrag EBC | Lehrstuhl für Gebäude- und Raumklimatechnik Ein Tool zum automatisierten Erstellen von Conversion Scripts.
Fachsprache in Automobilprospekten Am Beispiel des Prospektes zum Hummer H2 Bastian Ludwig, Wissenschaftliches Arbeiten.
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
Was aus der S1 Klasse behalten werden sollte
Kontextualisierte Wortschatzvermittlung mit Hilfe des AWL Highlighters
Terminologie-Extraktion
 Präsentation transkript:

Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Überblick 2 Tools, die Rahmen des Knowledge Discovery eingesetzt werden können : Wordnet, ein erweitertes Lexikon Alembic Workbench, eine Toolsammlung zur Wissensextraktion aus unbekannten Texten

lexikalische Datenbank Input : unbekannte Texte Alembic : untestützt Wissensextraktion aus Texten Output: Mit SGML annotierte Texte Wordnet: lexikalische Datenbank

Wordnet Datenbank mit lexikalischen Informationen (englische Sprache) entwickelt an der Princeton University (URL : www.cogsci.princeton.edu/~wn ) angelehnt an psycholinguistische Theorien des menschlichen Wortgedächntisses

Wordnet traditionelle Wörterbücher Informationen alphabetisch gespeichert keine Querverweise auf Synonyme, verwandte Begriffe , ... Suche sehr zeitaufwendig

Wordnet speichert Informationen nach konzeptuellen Gesichtspunkten mit Hilfe sogenannter Synonym Sets Beispiel : { tree, plant,@ conifer,~ alder,~ ...} @ : steht für Hypernym-Relation ( Verallgemeinerung ) ~ : steht für Hyponym-Relation ( Spezialisierung )

Wordnet Datenbank ist in 5 Kategorien eingeteilt : Nomen, Verben, Adjektive, Adverben und Funktionswörter ( nicht implementiert) Einteilung beruht auf wissenschaftlicher Untersuchung über Wortassoziationen

Wordnet Nomen : Verben : werden in Hierarchien abgespeichert wichtige Relation : Hypernymität Verben : 15 Kategorien von Verben wichtige Relation : Entailment

Wordnet Adjektive : Unterteilung : deskriptive und relationale Adjektive wichtige Relation : Antonymität ähnliche deskriptive Adjektive werden in Clustern zusammengefaßt

wet dry Cluster watery parched damp arid moist anhydrous humid sere soggy dried-up

Wordnet umfaßt ca. 95600 verschiedene Wortformen, welche in ca. 70100 Bedeutungsklassen (Synonym Sets) gespeichert sind bietet bei der Suche ein breites Spektrum an Optionen wie Synonyme Antonyme Hyper-/Hyponyme Meronyme/Holonyme

Alembic Workbench wird zur Information Extraction (IE) verwendet entwickelt am MITRE, USA URL : http://www.mitre.org/technology/alembic-workbench Projektübersicht, Download

Alembic Workbench Sammlung von Tools zur Verbesserung des „tagging-Prozesses“ von Texten tags = Markierungen im Text, die Informationen charakterisieren Beispiel : <ENAMEX TYPE=PERSON>Bill Clinton</TYPE>

Alembic Workbench Entwicklungsziele : reichhaltige Möglichkeiten zur Analyse eines getagten Textes Fähigkeit, schnell Hypothesen zu entwickeln, wie man Tag-Informationen aus dem Text gewinnen kann Möglichkeit zur schnellen Analyse und Bewertung der Leistungsfähigkeit dieser Hypothesen

Alembic Workbench Komponenten : Editor Process-Text-Utility Rule Learner weitere Analyse-Tools

Alembic Workbench Ziel : Automatisches Erkennen von relevanten Fakten durch das Programm Ansatz : gemeinsames Erarbeiten von neuen Regeln durch Mensch und Maschine mixed-initiative Ansatz

Alembic Workbench

Alembic Workbench bietet verschiedene Möglichkeiten zur Analyse der getagten Texte Phrase Extraction : extrahiert alle mit Tags markierten Begriffe aus dem Text kann gewünschte Tags farblich markieren eingesetzt vor allem zur Fehlersuche und zur Analyse der Tags unabhängig vom Kontext

Alembic Workbench Resultate : (basierend auf Untersuchung von MITRE) signifikante Steigerung der Produktivität im Vergleich zu einer rein manuellen Bearbeitung mit einem Editor

Alembic Workbench

Ausblick Ziele : Alembic mit einem unbekannten Text trainieren und Ergebnisse analysieren eigenes Textanalyse-Tool, das mit Alembic und Wordnet zusammenarbeitet : möglicher Ansatz : Alembic extrahiert alle Nomen aus einem gegebenen Text und unser Programm sucht mit Hilfe von Wordnet gemeinsame Oberbegriffe ( Klassierung), z.B. alle Pflanzen und Tiere zu erkennen