Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seminar Textmining WS 06/07

Ähnliche Präsentationen


Präsentation zum Thema: "Seminar Textmining WS 06/07"—  Präsentation transkript:

1 Seminar Textmining WS 06/07
Aufgaben VI Topic Detection and Tracking Gegeben sei abstrakte Aufgabenstellung ein TDT System aufzusetzen. Wie würden Sie vorgehen? Schätzen Sie die Effektivität Ihres Systems ein, diskutieren Sie Vor- und Nachteile gegenüber anderen Systemen. Diskutieren Sie existierende Systeme, die TDT Funktionalität aufweise, wie z.B. google-news. Question Answering (altes Experiment aus Praktikum mit Freimaurern) Seminar Textmining WS 06/07

2 Topic Detection and Tracking
Gegeben sei ein Datenstrom, welcher aus Texten besteht. Je einmal pro Stunde werden neue Texte heruntergeladen und in Dateien abgelegt Ein Text besteht aus Quelle (es gibt mehrere), Titel, optionaler Zusammenfassung, optionalen key words und dem eigentlichen Text (plain text) Das aufzusetzende System: Soll Vorschläge für neue Topics generieren Soll von einer Liste von Topics bei jedem Text erkennen, welche Topics angesprochen werden Soll Topics als solche behandeln können (also alle Texte anzeigen, relationen zu anderen Topics, Textbasiert, usw. ) Soll folgende Probleme lösen: Segmentieren der Meldungen Identifizierung von Themen Bestimmen nachfolgender Meldungen zu einem Thema Bestimmen der ersten Meldung zum Thema Seminar Textmining WS 06/07

3 Seminar Textmining WS 06/07
Team 1 K-means clustering Substantive Verben? Hierarchie? Woher? Seminar Textmining WS 06/07

4 Seminar Textmining WS 06/07
Algorithmen Inhaltlich Wie ist ein Topic definiert? Wie werden Topics visualisiert? Formatierte Zusammenfassung? Wie? Reformulierung? Zusätzliches IR für weitere Informationen zum Topic? Was sind Kriterien, dass ein Text ein neues Topic definiert, wann ein existierendes fortführt (siehe k-means clustering)? Kann ein Text mehrere Topics repräsentieren? Technisch Welche Berechnungen müssen durchgeführt werden? Können Berechnungen kontinuierlich erweitert werden, oder muss jedes Mal neu gerechnet werden? Indexe? Worauf? Muster? Woher? Wofür? Format für Speicherung? Was soll wie gespeichert werden und warum? Seminar Textmining WS 06/07

5 Seminar Textmining WS 06/07
Weitere Algorithmen Wie funktioniert Identifizierung und Vereinheitlichung der Entitäten (sei es Datums, Personennamen, Firmennamen, …) Gibt es sichere Regeln, können die durch Heuristiken ergänzt werden, wenn ja dann welche? Was sind Kriterien für Zeitliche Einordnung der Texte? Was ist zeitliche Auflösung? Welche fortführenden Analysen sind denkbar? Seminar Textmining WS 06/07

6 Seminar Textmining WS 06/07

7 Seminar Textmining WS 06/07
Typen von Eigennamen Beispiele für relevante Entitäten in dem TIMEX Format: < TIMEX TYPE=’DATE’ > all of 1987 < /TIMEX > < TIMEX TYPE=’TIME’ > 8:24 a.m. Chicago time < /TIMEX > < NUMEX TYPE=’MONEY’ > several million New Pesos < /NUMEX > more than < NUMEX TYPE=’PERCENT’ > 95%< /NUMEX > in < ENAMEX TYPE=’LOCATION’ > North and South America < /ENAMEX > the < ENAMEX TYPE=’ORGANIZATION’ > U.S. Fish and Wildlife Service < /ENAMEX > the < ENAMEX TYPE=’PERSON’ > Clinton < /ENAMEX > government < ENAMEX TYPE=’ORGANISATION’ > Microsoft < /ENAMEX > chairman < ENAMEX TYPE=’PERSON’ > Bill Gates < /ENAMEX > said yesterday Seminar Textmining WS 06/07

8 Seminar Textmining WS 06/07
Question Answering Beantworten Sie die folgende Frage schriftlich Abstand von Erde und Mond? Was ist die schönste Stadt? Vergleichen Sie Ihre Antworten Gegeben sei ein Textstück mit der Antwort auf diese Frage Heute kann man die Entfernung des Mondes entweder mit Radar- oder Laserlichtlaufzeit extrem präzise bestimmen. Dazu sendet man ein Radarsignal oder einen Laserstrahl auf den Mond und wartet, wie lange es dauert, bis die Reflektion zurückkommt. Es sind etwas mehr als 2 Sekunden. Der Wert der mittleren Entfernung Erde-Mond ist km. Deutlich abgeschlagen sind dagegen Metropolen wie Paris (Rang 33), London (39) und New York (47). Auf den ersten drei Plätzen liegen wie im Vorjahr Zürich, Genf und Vancouver. Auch sonst gab es nur marginale Verschiebungen gegenüber der letzten Studie. Formulieren Sie einen allgemeinen Algorithmus, der die Antwort aus diesem und anderen Texten möglichst eindeutig extrahiert Seminar Textmining WS 06/07

9 Seminar Textmining WS 06/07
Was man im Web findet 8. Treffer: Der Abstand Erde - Sonne beträgt ^11 m, der Abstand Erde - Mond ^8 m. 2. Treffer: Sydney- die schönste Stadt der Welt - by move! multimedia und move! images Viele fantastische Bilder und ... Hilfreich? Offenbar gibt es verschiedene Sorten von Fragen und nur einige sind sinnvoll (automatisch) beantwortbar Seminar Textmining WS 06/07

10 Typen von Fragen und Antworten (CLEF)
Faktoid: Fragen nach Person, Zeit, Ort, Organisation, Mass, Anzahl, Objekt (Woraus besteht Magma?) oder anderes. Definition: Fragen der Sorte „Was/Wer ist X?“ als auch nach Personen, Organisationen,Objekten und anderem. „Liste von Elementen“ Frage: Fragen, die eine Antwort mit einer Liste mit begrenzter Anzahl von Elementen erwarten (Nenne alle Flughäfen in London) Alle Fragen können temporal eingegrenzt sein. Seminar Textmining WS 06/07

11 Automatisches FAQ Sammelsystem
Formulieren Sie einen Algorithmus, der FAQs getrennt nach Fragen und Antworten aus dem Web sammelt, unter der Annahme, dass ein guter crawler gegeben ist. Welche Probleme könnten auftreten? Seminar Textmining WS 06/07

12 Seminar Textmining WS 06/07


Herunterladen ppt "Seminar Textmining WS 06/07"

Ähnliche Präsentationen


Google-Anzeigen