Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

PG 520 Intelligence Service

Ähnliche Präsentationen


Präsentation zum Thema: "PG 520 Intelligence Service"—  Präsentation transkript:

1 PG 520 Intelligence Service
Gezielte Suche im Internet Forschung Praxis Lehrstuhl für künstliche Intelligenz

2 Informationen im Internet
Suchmaschinen: Es werden nur Dokumente geliefert, die den Suchbegriff enthalten. Die Seiten sind von sehr unterschiedlicher Qualität. Vorwissen über zuverlässige Seiten und ihre Struktur wird nicht ausgenutzt.

3 Intelligence Service Zusammenhänge zwischen Dokumenten:
Firmen wollen ihre Konkurrenz beobachten. Anleger wollen eine Entwicklung verfolgen. Bürger wollen wissen, wie es zu einer Entscheidung in der Politik kam. Direkte Fragebeantwortung: Innerhalb des Dokuments muss die betreffende Textstelle gefunden werden! Forschungsthema Named Entity Recognition!

4 Wie steht es jetzt eigentlich um den
Intelligence Service Wie steht es jetzt eigentlich um den Atommüll?

5 Recherche

6 16.Wahlperiode, Drucksache, Antrag
Named Entities erkennen 16.Wahlperiode, Drucksache, Antrag Drs-Nr. Typ Fraktion

7 16.Wahlperiode, Drucksache, Antrag
Named Entities erkennen 16.Wahlperiode, Drucksache, Antrag Drs-Nr. Typ Person

8 16.Wahlperiode, 57. Sitzung, 19.10.2006, TOP 5
16/2790 Überweisung beschlossen 16/267 Antrag abgelehnt

9 Direkte Fragebeantwortung
Der Antrag der FDP zur Entsorgung radioaktiven Abfalls wurde abgelehnt. Der Antrag der Grünen zur ergebnisoffenen Standortwahl für Endlagerung radioaktiven Mülls wurde an Ausschüsse verwiesen. Für diese Antworten braucht man manuell 7 Stunden – geht es automatisch schneller?

10 PG-Arbeit Named Entity Recognition:
Gezielte Recherche gemäß der Struktur bestimmter Webserver (Suchanfragen) Indexierung gemäß bestimmter Entitäten: Themen, Personen, Orte, Firmen... Named Entity Recognition: Einige Dokumente nach Entitäten annotieren, maschinell Annotationsregeln lernen Annotationsregeln anwenden Informationen zu den Entitäten zusammenstellen

11 Named Entity Recognition
Ursprung Message Understanding Contest Fragebeantwortung Dann: Markierung der Entitäten Traditionelle NE: Personen, Orte, Firmen Intelligence Service: Personen, Orte, Firmen, Datum, DrucksachenNr., Fraktionen, etc. Tom arbeitet bei Mercedes Benz PER O ORG

12 Probleme Alle möglichen NEs in Listen zu sammeln ist keine perfekte Lösung bzw. nicht immer möglich Beide Arten der Evidenz beachten: interne – Merkmale des Wortes an sich externe – Merkmale des das Wort umgebenden Kontextes Tom arbeitet bei Mercedes Benz intern/ extern

13 Beispiele für interne/externe Evidenz
Das Wort enthält Sonderzeichen (reg. Ex.) Das Wort ist ‘Hans’ Das Wort enthält das 3-gram ‘ans’ Extern: Vor dem Wort steht das Wort ‘Herr’ Das Wort steht am Satzanfang Das Wort vor dem Wort hat die Markierung PERSON

14 NER-Verfahren Regelbasierte Verfahren Verfahren des ML
kontextfreie Grammatiken endliche Automaten Verfahren des ML Transformationsbasiertes Regellernen SVM Graphenbasiert: HMM -> MEMM -> CRF

15 Support Vector Machines
Bilden bestseparierende Hyperebene Lösen somit binäres Klassifikations-problem Können viele und hochdimensionale Daten verarbeiten Sind robust gegenüber overfitting Für NER ist aufgrund mehrerer NEs ein Verbund aus SVMs nötig

16 Hidden Markov Models Hidden Markov Model (HMM)
Generatives (gerichtetes) Modell Y1 Y2 Y3 Labelsequenz Y X1 X2 X3 Beobachtungs-sequenz X

17 Maximum Entropy Markov Models
Maximum Entropy Markov Model (MEMM) Bedingtes (gerichtetes) Modell Label hängt vom Vorgänger und Beobachtung ab Y1 Y2 Y3 Y0 X1 X2 X3 Labelsequenz Y Beobachtungs-sequenz X

18 Conditional Random Fields
Conditional Random Fields (CRF) Bedingtes ungerichtetes Modell Labelsequenz hängt von Beobachtungs-sequenz ab Beste Labelsequenz erfüllt die meisten features für Beobachtungssequenz Labelsequenz Y Beobachtungs-sequenz X Y1 Y2 Y3 X

19 Anwendung von NER-Verfahren
YALE als grundlegende Lernumgebung Fast alle Lernverfahren vorhanden u.a. auch SVM Problem: NER-Umgebung noch in der Entwicklung begriffen! Ausgereift: statistische Textanalyse Statistische Textanalyse beachtet nicht den sequentiellen Charakter des Textes CRF-Plugin liefert erste Grundlagen für NER

20 Statistische Textanalyse vs. NER
Statistische Verfahren analysieren Wortvorkommen sowie ihre Anzahl Text wird in ‘bag of words’ zerlegt or; is; has; …; politician; …; nuclear; … Dient zur Klassifikation von Texten NER benötigt Texte in ursprünglicher Form mit zusätzlichen Informationen Preprocessing liefert diese Informationen

21 Aktuell in YALE vorhanden
CRF-Plugin bietet Preprocessing mit unterschiedlichen Merkmalen Präfix, Suffix, NGramme, Reguläre Ausdrücke, … Außerdem: CRF-Model-Learner CRF-Model-Applier Ziel: modulare, allgemeinnutzbare Preprocessing-Operatoren Möglichkeit zur Einbindung vieler Lernverfahren Einsatz von evolutionären Algorithmen zum Lernen des besten Experiment-Setups für versch. NER-tasks

22 Rahmenterminplan 1. Semester
1. Seminarphase 08. – Lernverfahren SVM MEMM HMM CRF Methoden der Personalisierung von Suchmaschinen Basistechniken des WWW Indexierung XML (RSS) Werkzeuge der PG Yale Google API CVS Crawling

23 Rahmenterminplan 1. Semester
Aufgaben des ersten Semesters Wahl eines Anwendungsszenarios, Festlegen der Fragen und der NE Erstellung eines Anfrageplans Erstellen der Trainingsdatensätze Experimente mit vorhandenen NER-Verfahren Ansätze zur Verbesserung der NER 2. Seminarphase 04. – Zusammentragen der Ergebnisse

24 Rahmenterminplan 2. Semester
3. Seminarphase Anfang April 2008 automatische Thesaurus-Erstellung automatische Fragebeantwortung Text-Clustering Webseiten-Ranking First-Story Detection Topic Tracking u. U. noch andere Themen möglich!

25 Rahmenterminplan 2. Semester
Aufgaben des zweiten Semesters Sammeln der Daten (Anfrageplan beachten) Konkrete Ausnutzung der NER aus erstem Semester Verbesserung der NER (?) Ende des zweiten Semesters: PG Abschlussbericht und -präsentation


Herunterladen ppt "PG 520 Intelligence Service"

Ähnliche Präsentationen


Google-Anzeigen