Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.

Ähnliche Präsentationen


Präsentation zum Thema: "Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank."—  Präsentation transkript:

1 Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank

2 Seminar Textmining WS 06/07 Einschub: Unterschied zwischen supervised und unsupervised Methoden Komplettes supervised cross-language retrieval system: –Manuell gebaut Regeln für Wort- und Satzsegmentierung in Quell- und Zielsprache –Manuell erstellte Parses für Sätze und darauf trainierter Parser –Übersetzung der Suchterme in Zielsprache –Erweiterung durch Thesaurus –Abfrage des automatisch erstellten Indexes nach Suchtermen, evtl. in gegebener syntaktischer Konstruktion Dagegen unsupervised: –Wort- und Satzsegmentierung einmal für Quellsprache erstellt, evtl. Fehlerhaft bei Abkürzungen in Zielsprache –Automatisch induzierter Parser – keine Labels für syntakt. Beziehungen –Übersetzen der Suchterme in Zielsprache anhand automatisch induziertem Wörterbuch –Erweiterung durch semantisch ähnliche Wörter berechnet aus Korpus in Zielsprache –Abfrage des Indexes nach Suchtermen

3 Seminar Textmining WS 06/07 Supervised-unsupervised Suprevised Systeme haben in ihren Ausgangsdaten deutlich weniger Fehler, aber schlechtere Abdeckung –Abdeckung sowohl was Vokabular angeht, als auch Verwendung Supervised Parser basieren auf künstlicher Vorstellung über in Sprache existierender Grammatik und können sich nicht an neue Daten anpassen, da diese erst manuell geparst werden müssten Unsupervised Systeme inhärent Domänenabhängig –Was ist eigentlich Domäne? Unsupervised Systeme lernen nur die Grammatik, die sie sehen, dafür lernen sie prinzipiell von jedem Satz, auch von den, die sie gerade frisch neu gesehen haben.

4 Seminar Textmining WS 06/07 Symbolfolgen und Kunstsprachen Wozu überhaupt Kunstsprachen?

5 Seminar Textmining WS 06/07 Symbolfolgen und Kunstsprachen Wozu überhaupt Kunstsprachen? –Wenn ein Modell komplex genug ist, alle Phänome aufzuweisen, hat man gesamtes System verstanden (modelliert) –Dienen als Grundlage für Messungen statistisch signifikanter Abweichungen: Unabhängigkeitsannahme nimmt zufällige Verteilung von z.B. Wörtern und erlaubt Messungen von signifikanten Abweichungen davon –Bewusstes auslassen konkreter Faktoren ermöglicht es, diese wie mit einem Filter einzeln zu untersuchen

6 Seminar Textmining WS 06/07 Modellierungen Perfekte Abhängigkeit von aufeinanderfolgenden Symbolen lässt sich komplett mit Markov-Folgen modellieren. –Aufgabe: Lässt sich das einfache EinMalEins per Markov-Folgen modellieren? –lässt sich natürliche Sprache mit unendlichen Markov-Folgen modellieren? Modellierung dieser Abhängigkeiten durch Wahrscheinlichkeiten Dagegen: Bernoulli-Folgen –Würfel mit n Seiten, jeder Wurf ist vom vorhergehenden unabhängig. –Perfekt beschrieben durch Markov-Modell mit n Zuständen (jeder Zustand ist je eine Seite), wo von jedem Zustand exakt gleiche Wahrscheinlichkeit zu jedem anderen führt –Experiment würde zu keiner sign. Abweichung führen

7 Seminar Textmining WS 06/07 Einfache Markov-Folge Gegeben sei einfache Folge von n verschiedenen Zahlen, wo auf eine gerade stets eine ungerade Zahl führt und umgekehrt. Die nächsthöhere gerade/ungerade Zahl ist dabei doppelt so wahrscheinlich wie die nächstniedrigere. Stellen Sie für n=6 die Übergangswahrscheinlichkeitsmatrix auf. Wie gross ist der notwendige Kontext, um diese Sprache perfekt durch Markov-Modell zu beschreiben? Weitere Begriffe: Topologische Markov-Folgen? Wichtige Unterscheidung: –Wahrscheinlichkeit für Symbole –Wahrscheinlichkeit für Übergänge zwischen Symbolen (n-gramme ggfs. als Approximation dafür) –Wahrscheinlichkeit für Übergänge zwischen Zuständen eines generierenden Automaten (Hidden-Markov-Models)

8 Seminar Textmining WS 06/07 Affen schreiben auf Schreibmaschine Modellierung von Sprache Idee: Wenn man Zufallsgenerator Wörter oder Sätze generieren lässt, irgendwann kommt doch ein richtiger neuer Satz oder richtiges Wort heraus! Jeder Buchstabe zu jedem Zeitpunkt gleichwahrscheinlich –Ergibt das Zipfverteilung von Wörtern? Wenn nein, welche Verteilung entsteht? Bessere Modellierung (Christian Biemanns Word and Sentence Generator)Bessere Modellierung

9 Seminar Textmining WS 06/07 PageRank Ursprüngliche Idee (Brin & Page 98 The anatomy of a large- scale hypertextual Web search engine ) ist, dass eine Seite umso wichtiger ist, je mehr Links darauf zeigen Verfeinerung: Je wichtiger eine Seite ist, umso wichtiger der Link. –D.h. ein einziger Link einer wichtigen Seite kann mehr wert sein, als 1000 Links von unwichtigen Seiten Das heisst aber auch, dass die Berechnung rekursiv ist! Wie könnte man das also nicht-rekursiv berechnen?

10 Seminar Textmining WS 06/07 Berechnung von PageRank Einfaches Nachverfolgen der immer wichtigsten Link führt zu folgendem Problem: –In einem Graphen mit 5 Knoten und einem Kreis mit 3 Knoten würde sich evtl. nur der Kreis die ganze Zeit selbst aktualisieren –und immer wichtiger machen… Lösung: Zufälliges Springen auf irgend eine andere Seite während dem Aktualisierungsprozess Berechnen Sie den PageRank für alle Webseiten des folgenden Graphen: A B C E D F

11 Seminar Textmining WS 06/07


Herunterladen ppt "Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank."

Ähnliche Präsentationen


Google-Anzeigen