Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.

Slides:



Advertisements
Ähnliche Präsentationen
Christian Scheideler SS 2009
Advertisements

Stochastik und Markovketten
Steigung m berechnen Man kann die Steigung auch berechnen,
Statistische Aspekte der PSG
Simulation komplexer technischer Anlagen
Webseitenranking für Suchanfragen anhand von Linkgraphen
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Rechnergestützte Musikanalyse Einführung Projektseminar Musikwissenschaftliches Institut Hamburg WS 2005/06 Leitung: Klaus Frieler.
Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.
Seminar Textmining WS 06/07 Themen I Übung in erster Linie um zugrundeliegende Methoden zu verstehen. D.h. es gibt immer einen/mehrere Themenschwerpunkte,
Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
8. Formale Sprachen und Grammatiken
Finale Semantik und beobachtbares Verhalten
Die Beschreibung von Bewegungen
Christian Schindelhauer
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Mixed Models Jonathan Harrington library(ez) library(lme4)
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Internetstruktur Das Internet besteht aus vielen Computern, die weltweit untereinander vernetzt sind.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.
Kapitel 1 Das Schubfachprinzip
Kapitel 1 Die natürlichen und die ganze Zahlen. Kapitel 1: Die natürlichen und die ganzen Zahlen © Beutelspacher/Zschiegner April 2005 Seite 2 Inhalt.
FS_Geschwindigkeitsmessung
handlungsorientierte Zugänge zur Algebra
Christian Schindelhauer
Theoretische Informatik 2
Folie 1 Kapitel II. Vom Raumbegriff zu algebraischen Strukturen Neubeginn: Herleitung des Begriffs Vektorraum aus intuitiven Vorstellungen über den Raumbegriff.
Tutorium
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Wie Google Webseiten bewertet
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Effiziente Algorithmen
Passwörter.
Ausgleichungsrechnung II
Die t-Verteilung und die Prüfstatistik
Entwicklung des sprachgesteuerten Schachcomputers Speech2Chess
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
© Wortstellung im Deutschen Norbert Fries.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Institut für Theoretische Informatik
Wahrscheinlichkeitsrechnung
Formale Sprachen Grammatiken und die Chomsky-Hierarchie
Wahrscheinlichkeitsrechnung
Elman-Netzwerke Wintersemester 2004/05 Seminar Kindlicher Spracherwerb C. Friedrich & R. Assadollahi vorgestellt von Christian Scharinger & Guido Heinecke.
Arne Vater Wintersemester 2006/ Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Grundlagen von PowerPoint
Gewaltfreie Kommunikation (GfK)
Mensch – Maschine - Kommunikation
Grammatikalische Begriffe im Unterricht
7. Formale Sprachen und Grammatiken
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Dr.-Ing. R. Marklein - GET I - WS 06/07 - V Grundlagen der Elektrotechnik I (GET I) Vorlesung am Fr. 08:30-10:00 Uhr; R (Hörsaal)
Theory of Programming Prof. Dr. W. Reisig Was heißt „Korrektheit“? W. Reisig Workshop Modellierung Hamburg, März 2015.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Emanuel Mistretta Lukas Schönbächler
Signifikanz – was ist das überhaupt?
 Präsentation transkript:

Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank

Seminar Textmining WS 06/07 Einschub: Unterschied zwischen supervised und unsupervised Methoden Komplettes supervised cross-language retrieval system: –Manuell gebaut Regeln für Wort- und Satzsegmentierung in Quell- und Zielsprache –Manuell erstellte Parses für Sätze und darauf trainierter Parser –Übersetzung der Suchterme in Zielsprache –Erweiterung durch Thesaurus –Abfrage des automatisch erstellten Indexes nach Suchtermen, evtl. in gegebener syntaktischer Konstruktion Dagegen unsupervised: –Wort- und Satzsegmentierung einmal für Quellsprache erstellt, evtl. Fehlerhaft bei Abkürzungen in Zielsprache –Automatisch induzierter Parser – keine Labels für syntakt. Beziehungen –Übersetzen der Suchterme in Zielsprache anhand automatisch induziertem Wörterbuch –Erweiterung durch semantisch ähnliche Wörter berechnet aus Korpus in Zielsprache –Abfrage des Indexes nach Suchtermen

Seminar Textmining WS 06/07 Supervised-unsupervised Suprevised Systeme haben in ihren Ausgangsdaten deutlich weniger Fehler, aber schlechtere Abdeckung –Abdeckung sowohl was Vokabular angeht, als auch Verwendung Supervised Parser basieren auf künstlicher Vorstellung über in Sprache existierender Grammatik und können sich nicht an neue Daten anpassen, da diese erst manuell geparst werden müssten Unsupervised Systeme inhärent Domänenabhängig –Was ist eigentlich Domäne? Unsupervised Systeme lernen nur die Grammatik, die sie sehen, dafür lernen sie prinzipiell von jedem Satz, auch von den, die sie gerade frisch neu gesehen haben.

Seminar Textmining WS 06/07 Symbolfolgen und Kunstsprachen Wozu überhaupt Kunstsprachen?

Seminar Textmining WS 06/07 Symbolfolgen und Kunstsprachen Wozu überhaupt Kunstsprachen? –Wenn ein Modell komplex genug ist, alle Phänome aufzuweisen, hat man gesamtes System verstanden (modelliert) –Dienen als Grundlage für Messungen statistisch signifikanter Abweichungen: Unabhängigkeitsannahme nimmt zufällige Verteilung von z.B. Wörtern und erlaubt Messungen von signifikanten Abweichungen davon –Bewusstes auslassen konkreter Faktoren ermöglicht es, diese wie mit einem Filter einzeln zu untersuchen

Seminar Textmining WS 06/07 Modellierungen Perfekte Abhängigkeit von aufeinanderfolgenden Symbolen lässt sich komplett mit Markov-Folgen modellieren. –Aufgabe: Lässt sich das einfache EinMalEins per Markov-Folgen modellieren? –lässt sich natürliche Sprache mit unendlichen Markov-Folgen modellieren? Modellierung dieser Abhängigkeiten durch Wahrscheinlichkeiten Dagegen: Bernoulli-Folgen –Würfel mit n Seiten, jeder Wurf ist vom vorhergehenden unabhängig. –Perfekt beschrieben durch Markov-Modell mit n Zuständen (jeder Zustand ist je eine Seite), wo von jedem Zustand exakt gleiche Wahrscheinlichkeit zu jedem anderen führt –Experiment würde zu keiner sign. Abweichung führen

Seminar Textmining WS 06/07 Einfache Markov-Folge Gegeben sei einfache Folge von n verschiedenen Zahlen, wo auf eine gerade stets eine ungerade Zahl führt und umgekehrt. Die nächsthöhere gerade/ungerade Zahl ist dabei doppelt so wahrscheinlich wie die nächstniedrigere. Stellen Sie für n=6 die Übergangswahrscheinlichkeitsmatrix auf. Wie gross ist der notwendige Kontext, um diese Sprache perfekt durch Markov-Modell zu beschreiben? Weitere Begriffe: Topologische Markov-Folgen? Wichtige Unterscheidung: –Wahrscheinlichkeit für Symbole –Wahrscheinlichkeit für Übergänge zwischen Symbolen (n-gramme ggfs. als Approximation dafür) –Wahrscheinlichkeit für Übergänge zwischen Zuständen eines generierenden Automaten (Hidden-Markov-Models)

Seminar Textmining WS 06/07 Affen schreiben auf Schreibmaschine Modellierung von Sprache Idee: Wenn man Zufallsgenerator Wörter oder Sätze generieren lässt, irgendwann kommt doch ein richtiger neuer Satz oder richtiges Wort heraus! Jeder Buchstabe zu jedem Zeitpunkt gleichwahrscheinlich –Ergibt das Zipfverteilung von Wörtern? Wenn nein, welche Verteilung entsteht? Bessere Modellierung (Christian Biemanns Word and Sentence Generator)Bessere Modellierung

Seminar Textmining WS 06/07 PageRank Ursprüngliche Idee (Brin & Page 98 The anatomy of a large- scale hypertextual Web search engine ) ist, dass eine Seite umso wichtiger ist, je mehr Links darauf zeigen Verfeinerung: Je wichtiger eine Seite ist, umso wichtiger der Link. –D.h. ein einziger Link einer wichtigen Seite kann mehr wert sein, als 1000 Links von unwichtigen Seiten Das heisst aber auch, dass die Berechnung rekursiv ist! Wie könnte man das also nicht-rekursiv berechnen?

Seminar Textmining WS 06/07 Berechnung von PageRank Einfaches Nachverfolgen der immer wichtigsten Link führt zu folgendem Problem: –In einem Graphen mit 5 Knoten und einem Kreis mit 3 Knoten würde sich evtl. nur der Kreis die ganze Zeit selbst aktualisieren –und immer wichtiger machen… Lösung: Zufälliges Springen auf irgend eine andere Seite während dem Aktualisierungsprozess Berechnen Sie den PageRank für alle Webseiten des folgenden Graphen: A B C E D F

Seminar Textmining WS 06/07