Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Entitäten Extraktion Einführung Petra Maier WS 05/06.

Ähnliche Präsentationen


Präsentation zum Thema: "Entitäten Extraktion Einführung Petra Maier WS 05/06."—  Präsentation transkript:

1 Entitäten Extraktion Einführung Petra Maier WS 05/06

2 Begriffe Data MiningInformation RetrievalInformation ExtractionEntity ExtractionText Understanding

3 Begriffe Information Retrieval: –Finde relevante Dokumente für Anfrage Information Extraction –Extrahiere beliebige Information aus Dokumenten Entitäten Relationen Fakten Entity Extraction: –Extrahiere speziell Entitäten aus Dokumenten Data Mining –Benutze Ergebnisse der Informations Extraktion aus einer gesamten Dokumentenkollektion, um neue Information zu erhalten Text Understanding –Vollständige automatische Erfassung des Inhalts (semantische Analyse) –Beinhaltet aus Summarization

4 Arten von Entitäten Named Entities –Personen –Geos Länder Städte Berge etc –Organisationen Universitäten Parteien Firmen Vereine Etc –Ereignisse Sportereignisse (z.B. Tour de France) Kulturelle Ereignisse (z.B. Bayreuther Festspiele) Historische Ereignisse Etc. Andere Entitäten –Terminologie, Keywords –Datums- und Zeitangaben –Preise –URLS –Adressen –Massausdrücke –ISBN Nummern –Etc.

5 Warum Entitäten Extraktion? Grundlage für Informations Extraktion Verbesserung der Retrievalqualität Einzelne Wörter enthalten zu wenig Information Basis für weiterfürhrende Techniken ( Vektorraum Modell) –Clustering –Summarization –Automatische Klassifikation –Navigation

6 Beispiel Wikipedia Suche: SearchSearch

7 Methoden Regel-/Lexikonbasiert Statistisch Mischformen

8 Regel-/Lexikonbasierte Verfahren Rein Lexikonbasiert ( Gazetters): –Listen von berühmten Persönlichkeiten –Listen von geographischen Entitäten –Listen von Parteien, Firmen Regelbasiert –Einfache reguläre Ausdrücke URLS, Preise, Datum, etc –Lokale Grammatiken Personen, Firmen etc. –Syntaktische Muster Terminologe, Keywords

9 Statistische Verfahren 2 Aufgaben: –Identifikation von Kandidaten für Entitäten Syntaktische Muster (NN, etc) Simple Heuristiken: Großgeschriebene Sequenzen –Bestimmung des Typs Methoden des Machine Learning Einbeziehung des Kontexts

10 Probleme Ambiguitäten: –Washington –Apple, Sun Normalisierung: –George Bush – George W. Bush – George Bush jr -.. Groß-/Kleinschreibung


Herunterladen ppt "Entitäten Extraktion Einführung Petra Maier WS 05/06."

Ähnliche Präsentationen


Google-Anzeigen