PG 520 Intelligence Service

Slides:



Advertisements
Ähnliche Präsentationen
Präsentiert von Torben Pastuch
Advertisements

Projekt: Planung und Erstellung einer Webseite
Freie Universität Berlin Institut für Informatik
PG Intelligence Service
Intelligente Anwendungen im Internet
NER Named Entity Recognition
Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung
PG 487 Methoden der Computational Intelligence in der Bioinformatik
V-Modell XT - Ein Überblick
Übersicht zu Verfahren des Soft Computing
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Christian A. Kopf Institut für Informatik FU Berlin Episode Recognizer Framework - Rahmenwerk zur Episodenerkennung.
Daffodil Such-/ Agentensystem zur Literaturrecherche in Digitalen Bibliotheken Prototypen PIANO, 2000 zielt auf strategische Unterstützung während Informationssuchprozesses.
Franziska Schmidt Sarah Ahlheit
Suche in CINAHL Lernprogramm support.ebsco.com.
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Sortierverfahren Richard Göbel.
FH-Hof Grammatiken Richard Göbel. FH-Hof Begriffe Eine Grammatik definiert die Struktur (Syntax) einer Zeichenkette Eine Grammatik definiert nicht die.
Sortierverfahren Richard Göbel.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR neofonie neofonie Forschung und Entwicklung: Innovative Suchmethoden Präsentiert von Ronald.
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
PG 487 Methoden der Computational Intelligence in der Bioinformatik
Modelchecker – RED Tool: Region-Encoding Diagram Stefan Neumann.
Indexierung - Verschlagwortung
Die Nutzung und Erstellung von WebQuests im Englischunterricht.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Machine Learning Was wir alles nicht behandelt haben.
Maschinelles Lernen und automatische Textklassifikation
Entitäten Extraktion Einführung
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Nützlichkeit statistischer Phrasen in der Textklassifikation
Betrügern auf der Spur WIN-Treffen 2010 Falko Meyer 04 BW.
Projekt: Planung und Erstellung einer Webseite Ziel ist die Erstellung einer Webseite, die den Anforderungen einer Organisation (z.B. Unternehmen) entspricht.
Wie Google Webseiten bewertet
Die „Erweiterte Suche“
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Zur Arbeit mit Suchmaschinen
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
W w w. s a f e r i n t e r n e t. a t Die Welt zu Hause Informationen suchen und finden.
Wie funktioniert eine Abstimmungshochrechnung?
Logo Externer Zugang und Verknüpfungen zu easyLEARN Wissensobjekten.
Google Text, Tabellen, Präsentation, Zeichnungen Computeria Wallisellen Joachim Vetter.
Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.
9. Nützliche Techniken 9.1 Textelemente suchen
Problemstellung und Hypothesenbildung
Dr. Nicole Gallina Einführung in die Politikwissenschaft Sitzung vom 21.9.
Deutschunterricht mit dem Lehrmittel «Die Sprachstarken»
Statistiken eine Präsentation von Anja, Tatjana und Laura.
Context-awareness Andreas Bossard, Matthias Hert.
1 © Institut für Wissenschaftliches Rechnen, ETH Zürich NET'02: Neue Medien im Hochschulunterricht Der Anwendungsführer Eine computergestützte Trainingsumgebung.
Guten Morgen! Heute ist Mittwoch, der 28. November 2007.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Suchmaschinen.
Lernen durch Vergleiche
Klassifikation und Regression mittels neuronaler Netze
Information Retrieval, Vektorraummodell
Informationsrecherche & Analyse im Netz
- Für die meisten bedeutet Internetrecherche das Eintippen eines Suchbegriffs in eine Suchmaschine. - Wenn das Gesuchte aber schwieriger ist, muss man.
Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik
MS Word 2010 Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen Text bearbeiten Word Texte eingeben und bearbeiten automatische und.
Geoinformationssysteme
Recherche-Workshop der Stadtbücherei Metzingen Schritte zur erfolgreichen Recherche.
Institut für Kommunikationswissenschaft Online-Journalismus: Texten im Internet Online-journalistisches Handwerk A Usability B Multimedia C Faustregeln.
TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.
Oracle Text bei sehr großen Datenmengen Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr.
Information Retrieval mit Oracle Text Erfahrungsbericht.
Suchen und Finden Wie verwende ich Suchmaschinen richtig?
 Präsentation transkript:

PG 520 Intelligence Service Gezielte Suche im Internet Forschung Praxis Lehrstuhl für künstliche Intelligenz

Informationen im Internet Suchmaschinen: Es werden nur Dokumente geliefert, die den Suchbegriff enthalten. Die Seiten sind von sehr unterschiedlicher Qualität. Vorwissen über zuverlässige Seiten und ihre Struktur wird nicht ausgenutzt.

Intelligence Service Zusammenhänge zwischen Dokumenten: Firmen wollen ihre Konkurrenz beobachten. Anleger wollen eine Entwicklung verfolgen. Bürger wollen wissen, wie es zu einer Entscheidung in der Politik kam. Direkte Fragebeantwortung: Innerhalb des Dokuments muss die betreffende Textstelle gefunden werden! Forschungsthema Named Entity Recognition!

Wie steht es jetzt eigentlich um den Intelligence Service Wie steht es jetzt eigentlich um den Atommüll?

Recherche

16.Wahlperiode, Drucksache, Antrag Named Entities erkennen 16.Wahlperiode, Drucksache, Antrag Drs-Nr. Typ Fraktion

16.Wahlperiode, Drucksache, Antrag Named Entities erkennen 16.Wahlperiode, Drucksache, Antrag Drs-Nr. Typ Person

16.Wahlperiode, 57. Sitzung, 19.10.2006, TOP 5 16/2790 Überweisung beschlossen 16/267 Antrag abgelehnt

Direkte Fragebeantwortung Der Antrag der FDP zur Entsorgung radioaktiven Abfalls wurde abgelehnt. Der Antrag der Grünen zur ergebnisoffenen Standortwahl für Endlagerung radioaktiven Mülls wurde an Ausschüsse verwiesen. Für diese Antworten braucht man manuell 7 Stunden – geht es automatisch schneller?

PG-Arbeit Named Entity Recognition: Gezielte Recherche gemäß der Struktur bestimmter Webserver (Suchanfragen) Indexierung gemäß bestimmter Entitäten: Themen, Personen, Orte, Firmen... Named Entity Recognition: Einige Dokumente nach Entitäten annotieren, maschinell Annotationsregeln lernen Annotationsregeln anwenden Informationen zu den Entitäten zusammenstellen

Named Entity Recognition Ursprung Message Understanding Contest Fragebeantwortung Dann: Markierung der Entitäten Traditionelle NE: Personen, Orte, Firmen Intelligence Service: Personen, Orte, Firmen, Datum, DrucksachenNr., Fraktionen, etc. Tom arbeitet bei Mercedes Benz PER O ORG

Probleme Alle möglichen NEs in Listen zu sammeln ist keine perfekte Lösung bzw. nicht immer möglich Beide Arten der Evidenz beachten: interne – Merkmale des Wortes an sich externe – Merkmale des das Wort umgebenden Kontextes Tom arbeitet bei Mercedes Benz intern/ extern

Beispiele für interne/externe Evidenz Das Wort enthält Sonderzeichen (reg. Ex.) Das Wort ist ‘Hans’ Das Wort enthält das 3-gram ‘ans’ Extern: Vor dem Wort steht das Wort ‘Herr’ Das Wort steht am Satzanfang Das Wort vor dem Wort hat die Markierung PERSON

NER-Verfahren Regelbasierte Verfahren Verfahren des ML kontextfreie Grammatiken endliche Automaten Verfahren des ML Transformationsbasiertes Regellernen SVM Graphenbasiert: HMM -> MEMM -> CRF

Support Vector Machines Bilden bestseparierende Hyperebene Lösen somit binäres Klassifikations-problem Können viele und hochdimensionale Daten verarbeiten Sind robust gegenüber overfitting Für NER ist aufgrund mehrerer NEs ein Verbund aus SVMs nötig

Hidden Markov Models Hidden Markov Model (HMM) Generatives (gerichtetes) Modell Y1 Y2 Y3 Labelsequenz Y X1 X2 X3 Beobachtungs-sequenz X

Maximum Entropy Markov Models Maximum Entropy Markov Model (MEMM) Bedingtes (gerichtetes) Modell Label hängt vom Vorgänger und Beobachtung ab Y1 Y2 Y3 Y0 X1 X2 X3 Labelsequenz Y Beobachtungs-sequenz X

Conditional Random Fields Conditional Random Fields (CRF) Bedingtes ungerichtetes Modell Labelsequenz hängt von Beobachtungs-sequenz ab Beste Labelsequenz erfüllt die meisten features für Beobachtungssequenz Labelsequenz Y Beobachtungs-sequenz X Y1 Y2 Y3 X

Anwendung von NER-Verfahren YALE als grundlegende Lernumgebung Fast alle Lernverfahren vorhanden u.a. auch SVM Problem: NER-Umgebung noch in der Entwicklung begriffen! Ausgereift: statistische Textanalyse Statistische Textanalyse beachtet nicht den sequentiellen Charakter des Textes CRF-Plugin liefert erste Grundlagen für NER

Statistische Textanalyse vs. NER Statistische Verfahren analysieren Wortvorkommen sowie ihre Anzahl Text wird in ‘bag of words’ zerlegt or; is; has; …; politician; …; nuclear; … Dient zur Klassifikation von Texten NER benötigt Texte in ursprünglicher Form mit zusätzlichen Informationen Preprocessing liefert diese Informationen

Aktuell in YALE vorhanden CRF-Plugin bietet Preprocessing mit unterschiedlichen Merkmalen Präfix, Suffix, NGramme, Reguläre Ausdrücke, … Außerdem: CRF-Model-Learner CRF-Model-Applier Ziel: modulare, allgemeinnutzbare Preprocessing-Operatoren Möglichkeit zur Einbindung vieler Lernverfahren Einsatz von evolutionären Algorithmen zum Lernen des besten Experiment-Setups für versch. NER-tasks

Rahmenterminplan 1. Semester 1. Seminarphase 08. – 12.10.2007 Lernverfahren SVM MEMM HMM CRF Methoden der Personalisierung von Suchmaschinen Basistechniken des WWW Indexierung XML (RSS) Werkzeuge der PG Yale Google API CVS Crawling

Rahmenterminplan 1. Semester Aufgaben des ersten Semesters Wahl eines Anwendungsszenarios, Festlegen der Fragen und der NE Erstellung eines Anfrageplans Erstellen der Trainingsdatensätze Experimente mit vorhandenen NER-Verfahren Ansätze zur Verbesserung der NER 2. Seminarphase 04. – 08.02.2008 Zusammentragen der Ergebnisse

Rahmenterminplan 2. Semester 3. Seminarphase Anfang April 2008 automatische Thesaurus-Erstellung automatische Fragebeantwortung Text-Clustering Webseiten-Ranking First-Story Detection Topic Tracking u. U. noch andere Themen möglich!

Rahmenterminplan 2. Semester Aufgaben des zweiten Semesters Sammeln der Daten (Anfrageplan beachten) Konkrete Ausnutzung der NER aus erstem Semester Verbesserung der NER (?) Ende des zweiten Semesters: PG Abschlussbericht und -präsentation