Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.

Slides:

Advertisements

Ähnliche Präsentationen

Christian Scheideler SS 2009

Advertisements

Stochastik und Markovketten

Steigung m berechnen Man kann die Steigung auch berechnen,

Statistische Aspekte der PSG

Simulation komplexer technischer Anlagen

Webseitenranking für Suchanfragen anhand von Linkgraphen

TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking

Rechnergestützte Musikanalyse Einführung Projektseminar Musikwissenschaftliches Institut Hamburg WS 2005/06 Leitung: Klaus Frieler.

Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.

Seminar Textmining WS 06/07 Themen I Übung in erster Linie um zugrundeliegende Methoden zu verstehen. D.h. es gibt immer einen/mehrere Themenschwerpunkte,

Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.

Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.

Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.

Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!

WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.

8. Formale Sprachen und Grammatiken

Finale Semantik und beobachtbares Verhalten

Die Beschreibung von Bewegungen

Christian Schindelhauer

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)

Mixed Models Jonathan Harrington library(ez) library(lme4)

Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.

Internetstruktur Das Internet besteht aus vielen Computern, die weltweit untereinander vernetzt sind.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.

Kapitel 1 Das Schubfachprinzip

Kapitel 1 Die natürlichen und die ganze Zahlen. Kapitel 1: Die natürlichen und die ganzen Zahlen © Beutelspacher/Zschiegner April 2005 Seite 2 Inhalt.

FS_Geschwindigkeitsmessung

handlungsorientierte Zugänge zur Algebra

Christian Schindelhauer

Theoretische Informatik 2

Folie 1 Kapitel II. Vom Raumbegriff zu algebraischen Strukturen Neubeginn: Herleitung des Begriffs Vektorraum aus intuitiven Vorstellungen über den Raumbegriff.

Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.

Wie Google Webseiten bewertet

Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014

Effiziente Algorithmen

Ausgleichungsrechnung II

Die t-Verteilung und die Prüfstatistik

Entwicklung des sprachgesteuerten Schachcomputers Speech2Chess

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

© Wortstellung im Deutschen Norbert Fries.

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Hartmut Klauck Universität Frankfurt SS

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Institut für Theoretische Informatik

Wahrscheinlichkeitsrechnung

Formale Sprachen Grammatiken und die Chomsky-Hierarchie

Wahrscheinlichkeitsrechnung

Elman-Netzwerke Wintersemester 2004/05 Seminar Kindlicher Spracherwerb C. Friedrich & R. Assadollahi vorgestellt von Christian Scharinger & Guido Heinecke.

Arne Vater Wintersemester 2006/ Vorlesung

1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.

Grundlagen von PowerPoint

Gewaltfreie Kommunikation (GfK)

Mensch – Maschine - Kommunikation

Grammatikalische Begriffe im Unterricht

7. Formale Sprachen und Grammatiken

Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen

Dr.-Ing. R. Marklein - GET I - WS 06/07 - V Grundlagen der Elektrotechnik I (GET I) Vorlesung am Fr. 08:30-10:00 Uhr; R (Hörsaal)

Theory of Programming Prof. Dr. W. Reisig Was heißt „Korrektheit“? W. Reisig Workshop Modellierung Hamburg, März 2015.

Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

Emanuel Mistretta Lukas Schönbächler

Signifikanz – was ist das überhaupt?

Präsentation transkript:

Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank

Seminar Textmining WS 06/07 Einschub: Unterschied zwischen supervised und unsupervised Methoden Komplettes supervised cross-language retrieval system: –Manuell gebaut Regeln für Wort- und Satzsegmentierung in Quell- und Zielsprache –Manuell erstellte Parses für Sätze und darauf trainierter Parser –Übersetzung der Suchterme in Zielsprache –Erweiterung durch Thesaurus –Abfrage des automatisch erstellten Indexes nach Suchtermen, evtl. in gegebener syntaktischer Konstruktion Dagegen unsupervised: –Wort- und Satzsegmentierung einmal für Quellsprache erstellt, evtl. Fehlerhaft bei Abkürzungen in Zielsprache –Automatisch induzierter Parser – keine Labels für syntakt. Beziehungen –Übersetzen der Suchterme in Zielsprache anhand automatisch induziertem Wörterbuch –Erweiterung durch semantisch ähnliche Wörter berechnet aus Korpus in Zielsprache –Abfrage des Indexes nach Suchtermen

Seminar Textmining WS 06/07 Supervised-unsupervised Suprevised Systeme haben in ihren Ausgangsdaten deutlich weniger Fehler, aber schlechtere Abdeckung –Abdeckung sowohl was Vokabular angeht, als auch Verwendung Supervised Parser basieren auf künstlicher Vorstellung über in Sprache existierender Grammatik und können sich nicht an neue Daten anpassen, da diese erst manuell geparst werden müssten Unsupervised Systeme inhärent Domänenabhängig –Was ist eigentlich Domäne? Unsupervised Systeme lernen nur die Grammatik, die sie sehen, dafür lernen sie prinzipiell von jedem Satz, auch von den, die sie gerade frisch neu gesehen haben.

Seminar Textmining WS 06/07 Symbolfolgen und Kunstsprachen Wozu überhaupt Kunstsprachen?

Seminar Textmining WS 06/07 Symbolfolgen und Kunstsprachen Wozu überhaupt Kunstsprachen? –Wenn ein Modell komplex genug ist, alle Phänome aufzuweisen, hat man gesamtes System verstanden (modelliert) –Dienen als Grundlage für Messungen statistisch signifikanter Abweichungen: Unabhängigkeitsannahme nimmt zufällige Verteilung von z.B. Wörtern und erlaubt Messungen von signifikanten Abweichungen davon –Bewusstes auslassen konkreter Faktoren ermöglicht es, diese wie mit einem Filter einzeln zu untersuchen

Seminar Textmining WS 06/07 Modellierungen Perfekte Abhängigkeit von aufeinanderfolgenden Symbolen lässt sich komplett mit Markov-Folgen modellieren. –Aufgabe: Lässt sich das einfache EinMalEins per Markov-Folgen modellieren? –lässt sich natürliche Sprache mit unendlichen Markov-Folgen modellieren? Modellierung dieser Abhängigkeiten durch Wahrscheinlichkeiten Dagegen: Bernoulli-Folgen –Würfel mit n Seiten, jeder Wurf ist vom vorhergehenden unabhängig. –Perfekt beschrieben durch Markov-Modell mit n Zuständen (jeder Zustand ist je eine Seite), wo von jedem Zustand exakt gleiche Wahrscheinlichkeit zu jedem anderen führt –Experiment würde zu keiner sign. Abweichung führen

Seminar Textmining WS 06/07 Einfache Markov-Folge Gegeben sei einfache Folge von n verschiedenen Zahlen, wo auf eine gerade stets eine ungerade Zahl führt und umgekehrt. Die nächsthöhere gerade/ungerade Zahl ist dabei doppelt so wahrscheinlich wie die nächstniedrigere. Stellen Sie für n=6 die Übergangswahrscheinlichkeitsmatrix auf. Wie gross ist der notwendige Kontext, um diese Sprache perfekt durch Markov-Modell zu beschreiben? Weitere Begriffe: Topologische Markov-Folgen? Wichtige Unterscheidung: –Wahrscheinlichkeit für Symbole –Wahrscheinlichkeit für Übergänge zwischen Symbolen (n-gramme ggfs. als Approximation dafür) –Wahrscheinlichkeit für Übergänge zwischen Zuständen eines generierenden Automaten (Hidden-Markov-Models)

Seminar Textmining WS 06/07 Affen schreiben auf Schreibmaschine Modellierung von Sprache Idee: Wenn man Zufallsgenerator Wörter oder Sätze generieren lässt, irgendwann kommt doch ein richtiger neuer Satz oder richtiges Wort heraus! Jeder Buchstabe zu jedem Zeitpunkt gleichwahrscheinlich –Ergibt das Zipfverteilung von Wörtern? Wenn nein, welche Verteilung entsteht? Bessere Modellierung (Christian Biemanns Word and Sentence Generator)Bessere Modellierung

Seminar Textmining WS 06/07 PageRank Ursprüngliche Idee (Brin & Page 98 The anatomy of a large- scale hypertextual Web search engine ) ist, dass eine Seite umso wichtiger ist, je mehr Links darauf zeigen Verfeinerung: Je wichtiger eine Seite ist, umso wichtiger der Link. –D.h. ein einziger Link einer wichtigen Seite kann mehr wert sein, als 1000 Links von unwichtigen Seiten Das heisst aber auch, dass die Berechnung rekursiv ist! Wie könnte man das also nicht-rekursiv berechnen?

Seminar Textmining WS 06/07 Berechnung von PageRank Einfaches Nachverfolgen der immer wichtigsten Link führt zu folgendem Problem: –In einem Graphen mit 5 Knoten und einem Kreis mit 3 Knoten würde sich evtl. nur der Kreis die ganze Zeit selbst aktualisieren –und immer wichtiger machen… Lösung: Zufälliges Springen auf irgend eine andere Seite während dem Aktualisierungsprozess Berechnen Sie den PageRank für alle Webseiten des folgenden Graphen: A B C E D F

Seminar Textmining WS 06/07