Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
1
Entitäten Extraktion Einführung
Petra Maier WS 05/06
2
Begriffe Information Retrieval Entity Extraction
Information Extraction Text Understanding Data Mining
3
Begriffe Information Retrieval: Information Extraction
Finde relevante Dokumente für Anfrage Information Extraction Extrahiere beliebige Information aus Dokumenten Entitäten Relationen Fakten Entity Extraction: Extrahiere speziell Entitäten aus Dokumenten Data Mining Benutze Ergebnisse der Informations Extraktion aus einer gesamten Dokumentenkollektion, um neue Information zu erhalten Text Understanding Vollständige automatische Erfassung des Inhalts (semantische Analyse) Beinhaltet aus Summarization
4
Arten von Entitäten Named Entities“ Andere Entitäten Personen Geos
Länder Städte Berge etc Organisationen Universitäten Parteien Firmen Vereine Etc Ereignisse Sportereignisse (z.B. Tour de France) Kulturelle Ereignisse (z.B. Bayreuther Festspiele) Historische Ereignisse Etc. Andere Entitäten Terminologie, Keywords Datums- und Zeitangaben Preise URLS Adressen Massausdrücke ISBN Nummern Etc.
5
Warum Entitäten Extraktion?
Grundlage für Informations Extraktion Verbesserung der Retrievalqualität Einzelne Wörter enthalten zu wenig Information Basis für weiterfürhrende Techniken ( Vektorraum Modell) Clustering Summarization Automatische Klassifikation Navigation
6
Beispiel Wikipedia Suche: Search
7
Methoden Regel-/Lexikonbasiert Statistisch Mischformen
8
Regel-/Lexikonbasierte Verfahren
Rein Lexikonbasiert (Gazetters): Listen von berühmten Persönlichkeiten Listen von geographischen Entitäten Listen von Parteien, Firmen Regelbasiert Einfache reguläre Ausdrücke URLS, Preise, Datum, etc Lokale Grammatiken Personen, Firmen etc. Syntaktische Muster Terminologe, Keywords
9
Statistische Verfahren
2 Aufgaben: Identifikation von Kandidaten für Entitäten Syntaktische Muster (NN, etc) Simple Heuristiken: Großgeschriebene Sequenzen Bestimmung des Typs Methoden des Machine Learning Einbeziehung des Kontexts
10
Probleme Ambiguitäten: Normalisierung: Groß-/Kleinschreibung
Washington Apple, Sun Normalisierung: George Bush – George W. Bush – George Bush jr - .. Groß-/Kleinschreibung
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.