Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.

Ähnliche Präsentationen


Präsentation zum Thema: "Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming."—  Präsentation transkript:

1 Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming

2 Seminar Textmining WS 06/07 1. Erkennung von Eigennamen Beispiele für relevante Entitäten in dem TIMEX Format: all of 1987 8:24 a.m. Chicago time several million New Pesos more than 95% in North and South America the U.S. Fish and Wildlife Service the Clinton government Microsoft chairman Bill Gates said yesterday

3 Seminar Textmining WS 06/07 2. Question Answering Beantworten Sie die folgende Frage schriftlich –Abstand von Erde und Mond? –Was ist die schönste Stadt? Vergleichen Sie Ihre Antworten Gegeben sei ein Textstück mit der Antwort auf diese Frage Heute kann man die Entfernung des Mondes entweder mit Radar- oder Laserlichtlaufzeit extrem präzise bestimmen. Dazu sendet man ein Radarsignal oder einen Laserstrahl auf den Mond und wartet, wie lange es dauert, bis die Reflektion zurückkommt. Es sind etwas mehr als 2 Sekunden. Der Wert der mittleren Entfernung Erde-Mond ist 384401 km. Deutlich abgeschlagen sind dagegen Metropolen wie Paris (Rang 33), London (39) und New York (47). Auf den ersten drei Plätzen liegen wie im Vorjahr Zürich, Genf und Vancouver. Auch sonst gab es nur marginale Verschiebungen gegenüber der letzten Studie. Formulieren Sie einen allgemeinen Algorithmus, der die Antwort aus diesem und anderen Texten möglichst eindeutig extrahiert

4 Seminar Textmining WS 06/07 2.1. Was im Web vorkommt www.ask.com: 8. Treffer: Der Abstand Erde - Sonne beträgt 1.5 10^11 m, der Abstand Erde - Mond 3.8 10^8 m. www.ask.com: 2. Treffer: Sydney- die schönste Stadt der Welt - by move! multimedia und move! images Viele fantastische Bilder und... Hilfreich? Offenbar gibt es verschiedene Sorten von Fragen und nur einige sind sinnvoll (automatisch) beantwortbar

5 Seminar Textmining WS 06/07 2.2. Typen von Fragen und Antworten (CLEF) Faktoid: –Fragen nach Person, Zeit, Ort, Organisation, Mass, Anzahl, Objekt (Woraus besteht Magma?) oder anderes. Definition: –Fragen der Sorte Was/Wer ist X? als auch nach Personen, Organisationen,Objekten und anderem. Liste von Elementen Frage: –Fragen, die eine Antwort mit einer Liste mit begrenzter Anzahl von Elementen erwarten –(Nenne alle Flughäfen in London) Alle Fragen können temporal eingegrenzt sein.

6 Seminar Textmining WS 06/07 2.3. Automatisches FAQ Sammelsystem Formulieren Sie einen Algorithmus, der FAQs getrennt nach Fragen und Antworten aus dem Web sammelt, unter der Annahme, dass ein guter crawler gegeben ist. Welche Probleme könnten auftreten?

7 Seminar Textmining WS 06/07 3. Stemming Was ist Stemming? Wofür ist es nützlich? Welche Sorten von Stemming gibt es? Für welche Sprachen funktioniert welche Sorte wie gut?

8 Seminar Textmining WS 06/07 3.1. Arten von Stemming Erklären und an Beispiel vorfüren und Sprachen nennen, wo das gut, oder schlecht funktioniert: –N-gram stemming –Affixabtrennung –Porter Algorithmus –Trie-basiertes Stemming Was ist under- und overstemming? Beispiele?

9 Seminar Textmining WS 06/07

10

11


Herunterladen ppt "Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming."

Ähnliche Präsentationen


Google-Anzeigen