Seminar Textmining WS 06/07

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Business Engineering Philipp Osl, Alexander Schmidt
Nachdenken über die Welt
Claudio Moraga; Gisbert Dittrich
Zur Struktur einer PP-Präsentation für die mündliche DSD-Prüfung
Kapitel 6: Klassifizierung von Sortiertechniken
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07 Themen I Übung in erster Linie um zugrundeliegende Methoden zu verstehen. D.h. es gibt immer einen/mehrere Themenschwerpunkte,
Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Seminar Textmining WS 06/07 Aufgaben I 1.Metadaten 2.Einfache Inverse Liste 3.Modifizierte Inverse Liste für komplexere Anfragen 4.Boolsches Retrieval.
Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.
Seminar Textmining WS 06/07
Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Kapitel 4 Datenstrukturen
Parser generieren Yet Another Compiler – Compiler YACC.
Klicke Dich mit der linken Maustaste durch das Übungsprogramm! Der Umfang von Dreiecken Ein Übungsprogramm der IGS - Hamm/Sieg © IGS-Hamm/Sieg 2007 Dietmar.
Hier ist die automatische Flugauskunft des Flughafens München. Wie kann ich Ihnen helfen?Eine Auskunft bitte. Ist der Flug LH 225 pünktlich?Ist der Flug.
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Tobias Lauer.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 4 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Präsentation des Seminararbeitsthemas
Allgemein Batchdatei/en erstellen Was ist das?? Wie geht das??
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Vorlesung 2 SWS WS 99/00 Gisbert Dittrich FBI Unido
PKJ 2005/1 Stefan Dissmann Klassenhierarchie Person Kunde Goldkunde Lieferant Object.
Wir suchen ‘ mit m = m    ‘ c  ‘ mod 26
Was ist und wie funktioniert eigentlich...
Excel Kurs Teil VI Logische Funktionen( WENN, UND, ODER ) Datumsfunktionen ( DATUM, MONAT ) Bedingte Formatierung F. Bäumer.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Chemie auf der Party (Lehrerinformation, Stand )
Tutorium
Entitäten Extraktion Einführung
Einstellungen im Web für Outlook
Ideen der Informatik Suchen und Sortieren [Ordnung muss sein…]
1 Semiautomatische Medienresonanz- und Diffusions-Analyse Waltraud Wiedermann, GF APA-DeFacto und APA-MediaWatch Michael Granitzer, Know-Center.
Computational Thinking Suchen und Sortieren [Ordnung muss sein…]
Excel 97 Einführung - Start -.
Effiziente Algorithmen
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
§3 Allgemeine lineare Gleichungssysteme
K-SAT: Ein heuristischer Algorithmen- Vergleich Kann man den Brute Force Search Algorithmus schlagen?
Die Struktur von Untersuchungen
Unser Sonnensystem Teil 4
Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsrechnung
Management, Führung & Kommunikation
Wie funktioniert die SV am KGH?
Übung 4.1 Strukturierte Datentypen
MARS Der Rote Planet.
Zur Struktur einer PP-Präsentation für die mündliche DSD-Prüfung
SFZ FN Sj. 13/14 Python 3 Rekursion Inf K1/2 Sj 13/14
Thema Name des Vortragenden Ort, Datum
CSS Cascading Style Sheets
Nachricht im Film (NiF)
Die letzten zwei Stunden Unterricht von mir! Mittwoch, den 2. April 2014.
Dreamteam: Web 2.0 und der Katalog Anne Christensen und Thomas Hapke GBV-Verbundkonferenz
Algorithmen und Datenstrukturen Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Stefan Werner (Übungen) sowie viele Tutoren.
Joshua Antlfinger und Frauke Schrader. Was ist THE Port? Hackathon 2014 Teams Themen und Lösungen Unsere Tätigkeiten Hackathon 2015.
Bewerbungsunterlagen Basel, Juni 2016 Unterlagen einsenden an
 Präsentation transkript:

Seminar Textmining WS 06/07 Aufgaben VI Topic Detection and Tracking Gegeben sei abstrakte Aufgabenstellung ein TDT System aufzusetzen. Wie würden Sie vorgehen? Schätzen Sie die Effektivität Ihres Systems ein, diskutieren Sie Vor- und Nachteile gegenüber anderen Systemen. Diskutieren Sie existierende Systeme, die TDT Funktionalität aufweise, wie z.B. google-news. Question Answering (altes Experiment aus Praktikum mit Freimaurern) Seminar Textmining WS 06/07

Topic Detection and Tracking Gegeben sei ein Datenstrom, welcher aus Texten besteht. Je einmal pro Stunde werden neue Texte heruntergeladen und in Dateien abgelegt Ein Text besteht aus Quelle (es gibt mehrere), Titel, optionaler Zusammenfassung, optionalen key words und dem eigentlichen Text (plain text) Das aufzusetzende System: Soll Vorschläge für neue Topics generieren Soll von einer Liste von Topics bei jedem Text erkennen, welche Topics angesprochen werden Soll Topics als solche behandeln können (also alle Texte anzeigen, relationen zu anderen Topics, Textbasiert, usw. ) Soll folgende Probleme lösen: Segmentieren der Meldungen Identifizierung von Themen Bestimmen nachfolgender Meldungen zu einem Thema Bestimmen der ersten Meldung zum Thema Seminar Textmining WS 06/07

Seminar Textmining WS 06/07 Team 1 K-means clustering Substantive Verben? Hierarchie? Woher? Seminar Textmining WS 06/07

Seminar Textmining WS 06/07 Algorithmen Inhaltlich Wie ist ein Topic definiert? Wie werden Topics visualisiert? Formatierte Zusammenfassung? Wie? Reformulierung? Zusätzliches IR für weitere Informationen zum Topic? Was sind Kriterien, dass ein Text ein neues Topic definiert, wann ein existierendes fortführt (siehe k-means clustering)? Kann ein Text mehrere Topics repräsentieren? Technisch Welche Berechnungen müssen durchgeführt werden? Können Berechnungen kontinuierlich erweitert werden, oder muss jedes Mal neu gerechnet werden? Indexe? Worauf? Muster? Woher? Wofür? Format für Speicherung? Was soll wie gespeichert werden und warum? Seminar Textmining WS 06/07

Seminar Textmining WS 06/07 Weitere Algorithmen Wie funktioniert Identifizierung und Vereinheitlichung der Entitäten (sei es Datums, Personennamen, Firmennamen, …) Gibt es sichere Regeln, können die durch Heuristiken ergänzt werden, wenn ja dann welche? Was sind Kriterien für Zeitliche Einordnung der Texte? Was ist zeitliche Auflösung? Welche fortführenden Analysen sind denkbar? Seminar Textmining WS 06/07

Seminar Textmining WS 06/07

Seminar Textmining WS 06/07 Typen von Eigennamen Beispiele für relevante Entitäten in dem TIMEX Format: < TIMEX TYPE=’DATE’ > all of 1987 < /TIMEX > < TIMEX TYPE=’TIME’ > 8:24 a.m. Chicago time < /TIMEX > < NUMEX TYPE=’MONEY’ > several million New Pesos < /NUMEX > more than < NUMEX TYPE=’PERCENT’ > 95%< /NUMEX > in < ENAMEX TYPE=’LOCATION’ > North and South America < /ENAMEX > the < ENAMEX TYPE=’ORGANIZATION’ > U.S. Fish and Wildlife Service < /ENAMEX > the < ENAMEX TYPE=’PERSON’ > Clinton < /ENAMEX > government < ENAMEX TYPE=’ORGANISATION’ > Microsoft < /ENAMEX > chairman < ENAMEX TYPE=’PERSON’ > Bill Gates < /ENAMEX > said yesterday Seminar Textmining WS 06/07

Seminar Textmining WS 06/07 Question Answering Beantworten Sie die folgende Frage schriftlich Abstand von Erde und Mond? Was ist die schönste Stadt? Vergleichen Sie Ihre Antworten Gegeben sei ein Textstück mit der Antwort auf diese Frage Heute kann man die Entfernung des Mondes entweder mit Radar- oder Laserlichtlaufzeit extrem präzise bestimmen. Dazu sendet man ein Radarsignal oder einen Laserstrahl auf den Mond und wartet, wie lange es dauert, bis die Reflektion zurückkommt. Es sind etwas mehr als 2 Sekunden. Der Wert der mittleren Entfernung Erde-Mond ist 384401 km. Deutlich abgeschlagen sind dagegen Metropolen wie Paris (Rang 33), London (39) und New York (47). Auf den ersten drei Plätzen liegen wie im Vorjahr Zürich, Genf und Vancouver. Auch sonst gab es nur marginale Verschiebungen gegenüber der letzten Studie. Formulieren Sie einen allgemeinen Algorithmus, der die Antwort aus diesem und anderen Texten möglichst eindeutig extrahiert Seminar Textmining WS 06/07

Seminar Textmining WS 06/07 Was man im Web findet www.ask.com: 8. Treffer: Der Abstand Erde - Sonne beträgt 1.5 10^11 m, der Abstand Erde - Mond 3.8 10^8 m. www.ask.com: 2. Treffer: Sydney- die schönste Stadt der Welt - by move! multimedia und move! images Viele fantastische Bilder und ... Hilfreich? Offenbar gibt es verschiedene Sorten von Fragen und nur einige sind sinnvoll (automatisch) beantwortbar Seminar Textmining WS 06/07

Typen von Fragen und Antworten (CLEF) Faktoid: Fragen nach Person, Zeit, Ort, Organisation, Mass, Anzahl, Objekt (Woraus besteht Magma?) oder anderes. Definition: Fragen der Sorte „Was/Wer ist X?“ als auch nach Personen, Organisationen,Objekten und anderem. „Liste von Elementen“ Frage: Fragen, die eine Antwort mit einer Liste mit begrenzter Anzahl von Elementen erwarten (Nenne alle Flughäfen in London) Alle Fragen können temporal eingegrenzt sein. Seminar Textmining WS 06/07

Automatisches FAQ Sammelsystem Formulieren Sie einen Algorithmus, der FAQs getrennt nach Fragen und Antworten aus dem Web sammelt, unter der Annahme, dass ein guter crawler gegeben ist. Welche Probleme könnten auftreten? Seminar Textmining WS 06/07

Seminar Textmining WS 06/07