Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University.

Ähnliche Präsentationen


Präsentation zum Thema: "From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University."—  Präsentation transkript:

1 From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University (Founder, CEO & Chief Scientist, RecomMind Inc., Berkeley & Rheinbach (!)) In Kollaboration mit: David Cohen, CMU & Burning Glass Jan Puzicha, UC Berkeley & RecomMind David Gondek & Ioannis Tsochantaridis, Brown University

2 University of Bonn, 17. Juli Vortragsüberblick 1.Einleitung 2.Vektorraum-Modell für Textdokumente 3.Informationstheoretisches Retrieval Modell 4.Probabilistic Latent Semantic Analysis 5.Informationssuche und Textkategorisierung 6.Hypermedia- & Web-Retrieval 7.Kollaboratives Filtern 8.Ausblick

3 1.Information Retrieval: Probleme & Herausforderungen 3

4 University of Bonn, 17. Juli Robustes Information Retrieval Jenseits der keyword-basierten Suche labour immigrants Germany query match German job market for immigrants query ? foreign workers in Germany query ? green card Germany query ? Akustisches Signal Automatische Spracherkennung labour immigrants Germany query match German job market for immigrants query ? foreign workers in Germany query ? green card Germany query ? Fehlerbehaftete Transkription outrage sink Anchorage there warfare

5 University of Bonn, 17. Juli Linkanalyse mittels Markov- ketten Modell (Random Walk auf Web Graph) mittlere Aufenthaltswahr- scheinlichkeit entspricht PageRank Hypermedia Retrieval Linkanalyse und die Qualität von Informationsquellen

6 University of Bonn, 17. Juli Dokument-Klassifikation & Text Mining Visualisierung von Taxonomien © Inxight Generierung & Wartung von Taxonomien Automatische Klassifikation und Annotation von Dokumenten M13 = MONEY MARKETS M132 = FOREX MARKETS MCAT = MARKETS

7 University of Bonn, 17. Juli Kollaboratives Filtern Jenseits der solipsistischen Suche NN Benutzerprofil ? Empfehlung ?

8 University of Bonn, 17. Juli Multimedia Dokumente User Community Datenbank mit Benutzerprofilen UserIDItemIDRating ……… Rating Kollaboratives Filtern Jenseits der solipsistischen Suche

9 2. Vektorraum-Modell für Textdokumente 9

10 University of Bonn, 17. Juli Dokument-Term Matrix intelligence Texas Instruments said it has developed the first 32-bit computer chip designed specifically for artificial intelligence applications [...] D = DokumentensammlungW = Lexikon/Vokabular Dokument-Term Matrix... artificial 1 intelligence interest 0 artifact t =

11 University of Bonn, 17. Juli Dokument-Term Matrix (b) Typisch: Zahl der Dokumente Vokabular Spärlichkeit < 0.1 % Dargestellt 1e-8

12 University of Bonn, 17. Juli Ähnlichkeit zwischen Dokument und Query Vektorraum-Modell Retrieval Modell Dokumente werde gemäß ihrer Ähnlichkeit zur Query sortiert Verwendung im SMART System und vielen kommerziellen Systemen (z.B. Verity) Kosinus des Winkels zwischen Query und Dokument(en) G. Salton, The SMART Retrieval System – Experiments in Automatic Document Processing, 1971.

13 University of Bonn, 17. Juli Vektorraum-Modell: Diskussion Vorteile Partielles Matching von Anfragen und Dokumenten Ranking gemäß des Ähnlichkeitsmaßes Nachteile: Dimensionalität (curse of dimensionality) Spärlichkeit (inneres Produkt ist rauschanfällig) Semantik: Auftreten von exakt identischen Termen gefordert, semantische Beziehungen zwischen Wörtern werden nicht modelliert Syntaktische/semantische Regularitäten bleiben unberücksichtigt

14 3. Informationstheoretisches Retrieval-Modell 14

15 University of Bonn, 17. Juli Lexikale Semantik – Synonymien und Polysemien Semantische Ähnlichkeit (Synonymie) Verschiedene Wörter/Terme haben oft die identische oder sehr ähnliche Bedeutung (schwächer: Wörter aus dem gleichen Themengebiet). Mehrdeutigkeit von Wörtern (Polysemie) Wörter haben oftmals eine Vielzahl von Bedeutungen und verschiedenartige Gebrauchsformen (insbesondere für heterogene Datenbestände). Mars Planet röm. Gottheit Schokoriegel Galaxie Milchstraße Universum Kosmos

16 University of Bonn, 17. Juli Dokumente als Informationsquellen Wirkliches Dokument: empirische relative Wort- Häufigkeiten Stichprobe (sample) andere Dokumente Ideales Dokument: (gedächtnislose) Informations- quelle D = Dokumentensammlung W = Lexikon/Vokabular

17 University of Bonn, 17. Juli Das Sprachmodell-Spiel intellectual property negotiations Zielsetzung: Vorhersage der zugedeckten Wörter basierend auf dem Kontext US trade economic development Beijing human rights free imports China US trade economic intellectual property development Beijing human rights free negotiations imports ? Gegeben ist ein Dokument (bag- of-words Repräsentation) in dem einige Wörter zugedeckt sind. Semantic model Grundidee: Gute Vorhersage- genauigkeit erfordert ein Modell das Wortsemantik berücksichtigt

18 University of Bonn, 17. Juli Informationsquellen-Modell des Information Retrievals Bayessche Regel: Wahrscheinlichkeit der Relevanz eines Dokuments bzgl. einer Anfrage A priori Relevanz- Wahrscheinlichkeit Generatives Query Modell Wahrscheinlichkeit daß q von d erzeugt wurde Sprach- modell J. Ponte & W.B. Croft, A Language Model Approach to Information Retrieval, SIGIR 1998.

19 4. Probabilistic Latent Semantic Analysis 19

20 University of Bonn, 17. Juli Probabilistic Latent Semantic Analysis Problemstellung: Wie können dokument-spezfische Sprachmodelle gelernt werden? Datenmangel! Ansatz: pLSA Dimensionsreduktionstechnik für Kontingenztabellen Faktoranalyse für Zählvariablen (und kategorialen Variablen) Faktoren Konzepten / Themengebieten (Topic) Faktor- quellen Dokumentspezifische Mischproportionen Dokument- quellen Latente Variable z (small #states) T. Hofmann, Probabilistic Latent Semantic Analysis, UAI Z. Gilula, M.J. Evans, I. Guttman, "Latent Class Analysis of Two- Way Contingency Tables by Bayesian Methods" Biometrika, 1989.

21 University of Bonn, 17. Juli document collection single document in collection word occurrences in a document pLSA: Graphisches Modell z w c(d) collection N w c(d) P(z|d) z N w c(d) P(z|d) z P(w|z) N w c(d) P(z|d) z shared by all words in a document shared by all documents in collection P(w|z) Graphische Darstellung mittels Plates

22 University of Bonn, 17. Juli pLSA: Bottleneck Parametrisierung Dokumente Terme

23 University of Bonn, 17. Juli pLSA: Bottleneck Parametrisierung Dokumente Terme Latente Konzepte

24 University of Bonn, 17. Juli pLSA: Positive Matrix-Zerlegung Mischverteilung in Matrixnotation Randbedingungen (constraints) Nicht-negativität aller Matrizen Normalisierung gemäß der L 1 -Norm (keine Orthogonalität gefordert!) T. Hofmannn, Probabilistic Lantent Semantic Analysis, Uncertainty in Artificial Intelligence D.D. Lee & H.S. Seung, Learning the parts of objects by non- negative matrix factorization, Nature, 1999.

25 University of Bonn, 17. Juli Singulärwert-Zerlegung, Definition : orthonormale Spalten : Diagonal mit Singulärwerten (geordnet) Eigenschaften: Existenz & Eindeutigkeit Schwellwertbildung über Singulärwerte resultiert in einer niederdimensionalen Approximation (im Sinne der Frobenius Norm) Vergleich: SVD = XX n X mn X n n X m = XX n X kk X k k X m S. Deerwester, S. Dumais, G. Furnas, T. Landauer & R. Harshman. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990

26 University of Bonn, 17. Juli Expectation-Maximization-Algorithmus Maximierung der (temperierten) Log-Likelihood mittels Expectation-Maximization Iterationen E-Schritt: Posterior-Wahrscheinlichkeiten der latenten Variablen) M-Schritt: Schätzung der Parameter basierend auf vervollständigten Statistiken Wahrsch. daß ein Term w in Dokument d durch Konzept z erklärt wird

27 University of Bonn, 17. Juli Beispiel: TDT1 News Stories TDT1 = Dokumentensammlung mit >16,000 Kurznachrichten (Reuters, CNN, aus den Jahren 1994/95) Resultate basierend auf einer Zerlegung mit 128 Konzepten 2 dominante Faktoren für flight und love (wahrscheinlichsten Wörter) love home family like just kids mother life happy friends cnn film movie music new best hollywood love actor entertainment star flight plane airport crash flight safety aircraft air passenger board airline space shuttle mission astronauts launch station crew nasa satellite earth P(w|z)

28 University of Bonn, 17. Juli Beispiel: Science Magazine Artikel Datensatz mit ca.12K Artikeln aus dem Science Magazine Ausgewählte Konzepte eines Modells mit K=200 P(w|z)

29 5. Informationssuche & Textkategorisierung 29

30 University of Bonn, 17. Juli Experiments: Precison-Recall 4 test collections (each with approx docs)

31 University of Bonn, 17. Juli Experimentelle Auswertung Average Precision Relative Gain in Average Prec. Zusammenfassung der quantitativen Auswertung Konsistente Verbesserung der Retrieval Genauigkeit Relative Verbesserung von 15-45%

32 University of Bonn, 17. Juli Textkategorisierung Support-Vektor-Maschinen mit semantischen Kernfunktionen Standard-Textsammlung: Reuters21578 (5 Hauptkategorien), 5% Trainingsdaten mit Labels, 95% Hintergrunddaten T. Hofmann, An information-geometric approach to learning the similarity between documents, Neural Information Processing Systems, Substantielle Ver- besserungen (ca.25%), falls zusätzliche ungelabelte Daten zur Verfügung stehen

33 University of Bonn, 17. Juli Robustes Retrieval in der Praxis

34 University of Bonn, 17. Juli

35 University of Bonn, 17. Juli MedlinePlus: Gesundheits-Informationen für Jedermann

36 University of Bonn, 17. Juli Amazon: Verbesserte Büchersuche build your own search engine

37 University of Bonn, 17. Juli Amazon: Verbesserte Büchersuche

38 6. Hypermedia Retrieval 38

39 University of Bonn, 17. Juli Hyperlinks in Information Retrieval Hyperlinks stellen zusätzliche Autor-Annotationen zur Verfügung Hyperlinks repräsentieren (typischerweise) eine implizite positive Bewertung der referenzierten Quelle Web-Graph spiegelt soziale Strukturen wider (cyber/virtual/Web communities) Link-Struktur erlaubt eine Einschätzung der Qualität der Dokumente (page authorithy) Überwindung von reinem inhaltsbasiertem Retrieval Erlaubt (potentiell) die Unterscheidung zwischen qualitativ hoch- und niederwertigen Web-Sites/Seiten

40 University of Bonn, 17. Juli Random Walk auf Web Graphen Fiktiver Surfer hüpft von Webseite zu Webseite Zufällige Wahl eines Outlinks in jedem Schritt Mit Wahrscheinlichkeit q Teleportation zu einer zufälligen Seite PageRank: numerischer Score für jede Seite Aufenthaltswahrscheinlichkeit des Surfers Intuition Es ist gut viele Inlinks zu haben. Es ist nicht gut in einer abgekapselten Komponente zu sein. Modellierung Homogene Markov-Kette PageRank: stationäre Verteilung; Random Walk nutzt Ergodizität, alternativ über Spektralzerlegung (dominanter Eigenvektor)

41 University of Bonn, 17. Juli HITS (Hyperlink Induced Topic Search) HITS (Jon Kleinberg und die Smart Gruppe in IBM) Schritt 1: Query-basiertes Retrieval von Resultaten Schritt 2: Generierung eines Kontextgraphen (Links und Backlinks) Schritt 3: Rescoring Methode mit Hub- und Authority-Gewichten unter Verwendung der Adjazenzmatrix des Kontextgraphen (Lösung: Linke/rechte Eigenvektoren (SVD)) J. Kleinberg, Authoritative Sources in a Hyperlinked Environment, Authority- Gewichte Hub Gewichte pq … … qp … …

42 University of Bonn, 17. Juli Semantisches Modell des WWW Verstehen des Inhalts Probabilistic latent semantic analysis Automatische Identifikation von Konzepten und Themengebieten. Verstehen der Linkstruktur Probabilistisches Graphenmodell = prädiktives Modell für zusätzliche Links basierend auf vorhandenem Graph Schätzung der Entropie des Web Graphen (im Sinne eines stochastischen Prozesses) Basierend auf Web communities Probabilistische Version von HITS

43 University of Bonn, 17. Juli Latente Web Communities Probabilistisches Modell Source Knoten Target Knoten evtl. identisch Web Community: dichter bipartiter Teilgraph D. Cohen & T. Hofmann, The Missing Link – A Probabilistic Models of Document Content and Hypertext Connecivity, NIPS*2001.

44 University of Bonn, 17. Juli Dekomposition des Web-Graphen Web Teilgraph Links gehören zu genau einer Web Community (im probab. Sinne) Web Seiten können zu mehreren Communities gehören Community 1 Community 2 Community 3

45 University of Bonn, 17. Juli Linking Hyperlinks and Content Kombination von pLSA und pHITS (probab. HITS) in einem gemeinsamen Modell w z P(z|s) P(w|z) Konzept/Topic P(t|z) t Web Community

46 University of Bonn, 17. Juli Ulysses Webs: Space, War, and Genius (Helden unerwünscht!) ulysses space page home nasa science solar esa mission ulysses.jpl.nasa.gov/ helio.estec.esa.nl/ulysses grant s ulysses online war school poetry president civil /presidents/ug18.html saints.css.edu/gppg.html page ulysses new web site joyce net teachers information /Joyce/Ulysses.htm /Fiction/joyce/ulysses Basismenge generiert via Altavista mit Query Ulysses T. Hofmann, SIGIR 2000.

47 6. Kollaboratives Filteren 47

48 University of Bonn, 17. Juli Vorhersage von Benutzerpräferenzen und -aktionen Benutzerprofil Dr. Strangelove Three Colors: Blue Fargo Pretty Woman Rating? Movie?.

49 University of Bonn, 17. Juli Kollaboratives Filtern Kollaboratives / Soziales Filtern Was tun, wenn Merkmalsextraktion problematisch ist? (Multimedia-Retrieval, e-Commerce, etc.) Rückgriff auf Gemeinsamkeiten und Ähnlichkeiten von Interessen zur Verbesserung von Vorhersagen Verwendung von Benutzerprofildaten (Web logs von Downloads, Transaktionen, Click-Streams, Ratings) Recommender Systeme – e-commerce Problemformalisierung Datenrepräsentation: dünn-besetzte Matrix mit impliziten und/oder expliziten Bewertungen

50 University of Bonn, 17. Juli Kollaboratives Filtern via pLSA Diskrete Bewertungsskala, z.B. Votes: u y z v Bewertung v ist unabhängig von der Person u, gegeben den Zustand der latenten Variable z Jede Person ist durch eine spezifische W-Verteilung charakterisiert Analogie zum IR [Person=Dokument], [Item=Wort] (Zahl der Sterne)

51 University of Bonn, 17. Juli pLSA vs. Memory-basierte Techniken Standard-Technik: Memory-basiert Gegeben einen aktiven Benutzer, berechne Korrelation mit allen Benutzerprofilen in der Datenbank (e.g., Pearson Koeffizienten) Transformation der Korrelation in relative Gewichte Gewichtete (additive) Vorhersage über alle Nachbarn pLSA Explizite Dekomposition der Benutzerpräferenzen: Interessen sind inhärent multidimensional keine globale Ähnlichkeitsfunktion zwischen Personen (es kommt auf die Hinsicht an!) Probabilistisches Modell erlaubt explizite Optimierung der gewünschten Kostenfunktion Data Mining: Exploration von Benutzer-Daten, Auffinden von Interessensgruppen

52 University of Bonn, 17. Juli EachMovie Datensatz EachMovie: >40K Benutzer, >1.6K Filme, >2M Ratings Experimentelle Auswertung: Vergleich mit Memory- basierten Methoden, leave-one-out Protokoll Vorhersagegenauigkeit

53 University of Bonn, 17. Juli EachMovie Data Set (II) Mittlere Absolute Abweichung Bewertung der Rangordnung: Gewichte fallen exponentiell mit dem Rang in einer Empfehlungsliste

54 University of Bonn, 17. Juli Interessengruppen, Each Movie

55 University of Bonn, 17. Juli Des-Interessengruppen, Each Movie

56 7. Ausblick 56

57 University of Bonn, 17. Juli Zusammenfassung Techniken des maschinellen Lernens, insbesondere Verfahren der Matrix Dekomposition, als Grundlagentechnologie des Information Retrieval Zusammenhang zwischen Modellen mit latenten Variablen und semantischen Datenrepräsentationen Vielzahl von Anwendungsszenarien von der Informationssuche und der Kategorisierung bis hin zur Analyse von Benutzerprofilen Potentielle real-world Anwendungen Robustere und genauere Retrieval- und Suchmaschinen Automatische Kategorisierung von Dokumenten Recommender Systeme für e-commerce und für Information Portals

58 University of Bonn, 17. Juli Laufende Forschungsprojekte Intelligente Informationsagenten, fokusiertes Web- Crawling [DARPA-TASK Projekt ] Question-Answering Information Retrieval [NSF - Information Technology Research ] Kategorisierung von Multimedia Dokumenten [NSF - Information Technology Research ] Probabilistische Web-Graph Modelle [Internet Archiv] Generative Modelle zur Kombination von Text und Bildern [NSF – pending] Intelligente Mensch-Maschinen Schnittstellen zur effizienten Informations-Suche, Navigation und Visualisierung [in Vorbereitung] Lernen von Konzept-Hierarchien und Integration von existierenden Taxonomien [RecomMind] Personalisiertes Retrieval Interface: Kombination von Suche und kollaborativem Filtern [RecomMind] CS. BROWN. EDU RECOM MIND. COM

59 The End. 59


Herunterladen ppt "From Bits to Information Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University."

Ähnliche Präsentationen


Google-Anzeigen