Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Entitäten Extraktion Einführung

Ähnliche Präsentationen


Präsentation zum Thema: "Entitäten Extraktion Einführung"—  Präsentation transkript:

1 Entitäten Extraktion Einführung
Petra Maier WS 05/06

2 Begriffe Information Retrieval Entity Extraction
Information Extraction Text Understanding Data Mining

3 Begriffe Information Retrieval: Information Extraction
Finde relevante Dokumente für Anfrage Information Extraction Extrahiere beliebige Information aus Dokumenten Entitäten Relationen Fakten Entity Extraction: Extrahiere speziell Entitäten aus Dokumenten Data Mining Benutze Ergebnisse der Informations Extraktion aus einer gesamten Dokumentenkollektion, um neue Information zu erhalten Text Understanding Vollständige automatische Erfassung des Inhalts (semantische Analyse) Beinhaltet aus Summarization

4 Arten von Entitäten Named Entities“ Andere Entitäten Personen Geos
Länder Städte Berge etc Organisationen Universitäten Parteien Firmen Vereine Etc Ereignisse Sportereignisse (z.B. Tour de France) Kulturelle Ereignisse (z.B. Bayreuther Festspiele) Historische Ereignisse Etc. Andere Entitäten Terminologie, Keywords Datums- und Zeitangaben Preise URLS Adressen Massausdrücke ISBN Nummern Etc.

5 Warum Entitäten Extraktion?
Grundlage für Informations Extraktion Verbesserung der Retrievalqualität Einzelne Wörter enthalten zu wenig Information Basis für weiterfürhrende Techniken ( Vektorraum Modell) Clustering Summarization Automatische Klassifikation Navigation

6 Beispiel Wikipedia Suche: Search

7 Methoden Regel-/Lexikonbasiert Statistisch Mischformen

8 Regel-/Lexikonbasierte Verfahren
Rein Lexikonbasiert (Gazetters): Listen von berühmten Persönlichkeiten Listen von geographischen Entitäten Listen von Parteien, Firmen Regelbasiert Einfache reguläre Ausdrücke URLS, Preise, Datum, etc Lokale Grammatiken Personen, Firmen etc. Syntaktische Muster Terminologe, Keywords

9 Statistische Verfahren
2 Aufgaben: Identifikation von Kandidaten für Entitäten Syntaktische Muster (NN, etc) Simple Heuristiken: Großgeschriebene Sequenzen Bestimmung des Typs Methoden des Machine Learning Einbeziehung des Kontexts

10 Probleme Ambiguitäten: Normalisierung: Groß-/Kleinschreibung
Washington Apple, Sun Normalisierung: George Bush – George W. Bush – George Bush jr - .. Groß-/Kleinschreibung


Herunterladen ppt "Entitäten Extraktion Einführung"

Ähnliche Präsentationen


Google-Anzeigen