Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis.

Ähnliche Präsentationen


Präsentation zum Thema: "PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis."—  Präsentation transkript:

1

2 PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis

3 Informationen im Internet Suchmaschinen: –Es werden nur Dokumente geliefert, die den Suchbegriff enthalten. –Die Seiten sind von sehr unterschiedlicher Qualität. –Vorwissen über zuverlässige Seiten und ihre Struktur wird nicht ausgenutzt.

4 Intelligence Service Zusammenhänge zwischen Dokumenten: –Firmen wollen ihre Konkurrenz beobachten. –Anleger wollen eine Entwicklung verfolgen. –Bürger wollen wissen, wie es zu einer Entscheidung in der Politik kam. Direkte Fragebeantwortung: –Innerhalb des Dokuments muss die betreffende Textstelle gefunden werden! Forschungsthema Named Entity Recognition!

5

6

7 16.Wahlperiode, Drucksache, Antrag Typ Drs-Nr. Fraktion

8 16.Wahlperiode, Drucksache, Antrag Typ Person Drs-Nr.

9 16.Wahlperiode, 57. Sitzung, , TOP 5 16/267 16/2790

10 Direkte Fragebeantwortung Der Antrag der FDP zur Entsorgung radioaktiven Abfalls wurde abgelehnt. Der Antrag der Grünen zur ergebnisoffenen Standortwahl für Endlagerung radioaktiven Mülls wurde an Ausschüsse verwiesen. Für diese Antworten braucht man manuell 7 Stunden

11 PG-Arbeit Gezielte Recherche gemäß der Struktur bestimmter Webserver (Suchanfragen) Indexierung gemäß bestimmter Entitäten: Themen, Personen, Orte, Firmen... Named Entity Recognition: –Einige Dokumente nach Entitäten annotieren, –maschinell Annotationsregeln lernen –Annotationsregeln anwenden Informationen zu den Entitäten zusammenstellen

12 Named Entity Recognition Ursprung Message Understanding Contest –Fragebeantwortung –Dann: Markierung der Entitäten Traditionelle NE: Personen, Orte, Firmen Intelligence Service: Personen, Orte, Firmen, Datum, DrucksachenNr., Fraktionen, etc. TomarbeitetbeiMercedesBenz PEROOORG

13 Probleme Alle möglichen NEs in Listen zu sammeln ist keine perfekte Lösung bzw. nicht immer möglich Beide Arten der Evidenz beachten: –interne – Merkmale des Wortes an sich –externe – Merkmale des das Wort umgebenden Kontextes Tom arbeitet bei Mercedes Benz intern/ extern

14 Intern: –Das Wort enthält Sonderzeichen (reg. Ex.) –Das Wort ist Hans –Das Wort enthält das 3-gram ans Extern: –Vor dem Wort steht das Wort Herr –Das Wort steht am Satzanfang –Das Wort vor dem Wort hat die Markierung PERSON Beispiele für interne/externe Evidenz

15 NER-Verfahren Regelbasierte Verfahren –kontextfreie Grammatiken –endliche Automaten Verfahren des ML –Transformationsbasiertes Regellernen –SVM –Graphenbasiert: HMM -> MEMM -> CRF

16 Bilden bestseparierende Hyperebene Lösen somit binäres Klassifikations- problem Können viele und hochdimensionale Daten verarbeiten Sind robust gegenüber overfitting Für NER ist aufgrund mehrerer NEs ein Verbund aus SVMs nötig Support Vector Machines

17 Hidden Markov Model (HMM) –Generatives (gerichtetes) Modell Hidden Markov Models Y1Y1 Y2Y2 Y3Y3 Labelsequenz Y X1X1 X2X2 X3X3 Beobachtungs- sequenz X

18 Maximum Entropy Markov Model (MEMM) –Bedingtes (gerichtetes) Modell –Label hängt vom Vorgänger und Beobachtung ab Maximum Entropy Markov Models Y1Y1 Y2Y2 Y3Y3 Y0Y0 X1X1 X2X2 X3X3 Labelsequenz Y Beobachtungs- sequenz X

19 Conditional Random Fields (CRF) –Bedingtes ungerichtetes Modell –Labelsequenz hängt von Beobachtungs- sequenz ab –Beste Labelsequenz erfüllt die meisten features für Beobachtungssequenz Conditional Random Fields Labelsequenz Y Beobachtungs- sequenz X Y1Y1 Y2Y2 Y3Y3 X

20 YALE als grundlegende Lernumgebung Fast alle Lernverfahren vorhanden –u.a. auch SVM Problem: NER-Umgebung noch in der Entwicklung begriffen! –Ausgereift: statistische Textanalyse –Statistische Textanalyse beachtet nicht den sequentiellen Charakter des Textes –CRF-Plugin liefert erste Grundlagen für NER Anwendung von NER-Verfahren

21 Statistische Verfahren analysieren Wortvorkommen sowie ihre Anzahl Text wird in bag of words zerlegt –or; is; has; …; politician; …; nuclear; … –Dient zur Klassifikation von Texten NER benötigt Texte in ursprünglicher Form –mit zusätzlichen Informationen –Preprocessing liefert diese Informationen Statistische Textanalyse vs. NER

22 CRF-Plugin bietet Preprocessing mit unterschiedlichen Merkmalen –Präfix, Suffix, NGramme, Reguläre Ausdrücke, … Außerdem: –CRF-Model-Learner –CRF-Model-Applier Ziel: –modulare, allgemeinnutzbare Preprocessing- Operatoren –Möglichkeit zur Einbindung vieler Lernverfahren –Einsatz von evolutionären Algorithmen zum Lernen des besten Experiment-Setups für versch. NER-tasks Aktuell in YALE vorhanden

23 Rahmenterminplan 1. Semester 1. Seminarphase 08. – Lernverfahren –SVM –MEMM –HMM –CRF Methoden der Personalisierung von Suchmaschinen Basistechniken des WWW –Indexierung –XML (RSS) Werkzeuge der PG –Yale –Google API –CVS –Crawling

24 Rahmenterminplan 1. Semester Aufgaben des ersten Semesters –Wahl eines Anwendungsszenarios, Festlegen der Fragen und der NE –Erstellung eines Anfrageplans –Erstellen der Trainingsdatensätze –Experimente mit vorhandenen NER-Verfahren –Ansätze zur Verbesserung der NER 2. Seminarphase 04. – –Zusammentragen der Ergebnisse

25 Rahmenterminplan 2. Semester 3. Seminarphase Anfang April 2008 automatische Thesaurus-Erstellung automatische Fragebeantwortung Text-Clustering Webseiten-Ranking First-Story Detection Topic Tracking u. U. noch andere Themen möglich!

26 Rahmenterminplan 2. Semester Aufgaben des zweiten Semesters –Sammeln der Daten (Anfrageplan beachten) –Konkrete Ausnutzung der NER aus erstem Semester –Verbesserung der NER (?) Ende des zweiten Semesters: –PG Abschlussbericht und -präsentation


Herunterladen ppt "PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis."

Ähnliche Präsentationen


Google-Anzeigen