From Bits to Information — Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University (Founder, CEO & Chief Scientist, RecomMind Inc., Berkeley & Rheinbach (!)) In Kollaboration mit: David Cohen, CMU & Burning Glass Jan Puzicha, UC Berkeley & RecomMind David Gondek & Ioannis Tsochantaridis, Brown University
Vortragsüberblick Einleitung Vektorraum-Modell für Textdokumente Informationstheoretisches Retrieval Modell Probabilistic Latent Semantic Analysis Informationssuche und Textkategorisierung Hypermedia- & Web-Retrieval Kollaboratives Filtern Ausblick
Information Retrieval: Probleme & Herausforderungen 3
Robustes Information Retrieval — Jenseits der keyword-basierten Suche “labour immigrants Germany” query match “German job market for immigrants” ? “foreign workers in Germany” “green card Germany” “labour immigrants Germany” query match “German job market for immigrants” query ? Fehlerbehaftete Transkription outrage sink Anchorage there warfare “green card Germany” query ? “foreign workers in Germany” query ? Akustisches Signal Automatische Spracherkennung
Hypermedia Retrieval — Linkanalyse und die Qualität von Informationsquellen Linkanalyse mittels Markov-ketten Modell (Random Walk auf Web Graph) mittlere Aufenthaltswahr-scheinlichkeit entspricht PageRank
Dokument-Klassifikation & Text Mining Generierung & Wartung von Taxonomien Automatische Klassifikation und Annotation von Dokumenten M13 = MONEY MARKETS M132 = FOREX MARKETS MCAT = MARKETS Visualisierung von Taxonomien © Inxight
Kollaboratives Filtern — Jenseits der solipsistischen Suche NN Benutzerprofil ? Empfehlung ? Benutzerprofil
Kollaboratives Filtern — Jenseits der solipsistischen Suche Multimedia Dokumente User Community Datenbank mit Benutzerprofilen UserID ItemID Rating 10002 451 3 10221 647 4 10245 2 12344 801 5 … Rating
2. Vektorraum-Modell für Textdokumente 9
Dokument-Term Matrix = D = Dokumentensammlung W = Lexikon/Vokabular intelligence Texas Instruments said it has developed the first 32-bit computer chip designed specifically for artificial intelligence applications [...] Dokument-Term Matrix ... artificial 1 intelligence interest artifact 2 t =
Dokument-Term Matrix (b) Typisch: Zahl der Dokumente 1.000.000 Vokabular 100.000 Spärlichkeit < 0.1 % Dargestellt 1e-8 1 2
Vektorraum-Modell Retrieval Modell Ähnlichkeit zwischen Dokument und Query Kosinus des Winkels zwischen Query und Dokument(en) Retrieval Modell Dokumente werde gemäß ihrer Ähnlichkeit zur Query sortiert Verwendung im SMART System und vielen kommerziellen Systemen (z.B. Verity) This may seem like a somewhat unserious example, the problem behind this, however, is very serious … There are more precisely two problems: Polysems […] and Homonyms […] 1’00’’ G. Salton, “The SMART Retrieval System – Experiments in Automatic Document Processing”, 1971.
Vektorraum-Modell: Diskussion Vorteile Partielles Matching von Anfragen und Dokumenten Ranking gemäß des Ähnlichkeitsmaßes Nachteile: Dimensionalität („curse of dimensionality”) Spärlichkeit (inneres Produkt ist rauschanfällig) Semantik: Auftreten von exakt identischen Termen gefordert, semantische Beziehungen zwischen Wörtern werden nicht modelliert Syntaktische/semantische Regularitäten bleiben unberücksichtigt
3. Informationstheoretisches Retrieval-Modell 14
Lexikale Semantik – Synonymien und Polysemien Mehrdeutigkeit von Wörtern (Polysemie) Wörter haben oftmals eine Vielzahl von Bedeutungen und verschiedenartige Gebrauchsformen (insbesondere für heterogene Datenbestände). Mars Planet röm. Gottheit Schokoriegel Semantische Ähnlichkeit (Synonymie) Verschiedene Wörter/Terme haben oft die identische oder sehr ähnliche Bedeutung (schwächer: Wörter aus dem gleichen Themengebiet). Galaxie Milchstraße Universum Kosmos
Dokumente als Informationsquellen “Ideales” Dokument: (gedächtnislose) Informations-quelle D = Dokumentensammlung W = Lexikon/Vokabular andere Dokumente “Wirkliches” Dokument: empirische relative Wort-Häufigkeiten Stichprobe (sample) Again, we begin with representational issues. Suppose, we have given a collection of documents D and a vocabulary W. Ignoring word order (of course a very strong assumption, but very common in IR) the data can be represented by a table (term/document matrix). A document is then represented by a “vector” of word counts. (You may suspect that I would like to put the term “vector” in quotes, because it is actually an empirical distribution over words. 1’30’’
Das Sprachmodell-“Spiel” US trade economic intellectual property development Beijing human rights free negotiations imports ? Gegeben ist ein Dokument („bag-of-words“ Repräsentation) in dem einige Wörter zugedeckt sind. intellectual property negotiations Zielsetzung: Vorhersage der zugedeckten Wörter basierend auf dem Kontext US trade economic development Beijing human rights free imports China Semantic model Grundidee: Gute Vorhersage-genauigkeit erfordert ein Modell das Wortsemantik berücksichtigt
Informationsquellen-Modell des Information Retrievals Bayessche Regel: Wahrscheinlichkeit der Relevanz eines Dokuments bzgl. einer Anfrage A priori Relevanz- Wahrscheinlichkeit Generatives Query Modell Wahrscheinlichkeit daß q von d „erzeugt wurde” Sprach- modell J. Ponte & W.B. Croft, ”A Language Model Approach to Information Retrieval”, SIGIR 1998.
4. Probabilistic Latent Semantic Analysis 19
Probabilistic Latent Semantic Analysis Problemstellung: Wie können dokument-spezfische “Sprachmodelle” gelernt werden? Datenmangel! Ansatz: pLSA Dimensionsreduktionstechnik für Kontingenztabellen Faktoranalyse für Zählvariablen (und kategorialen Variablen) Faktoren Konzepten / Themengebieten Dokument- “quellen” (Topic) Faktor- “quellen” Dokumentspezifische Mischproportionen Latente Variable z (“small” #states) T. Hofmann, “Probabilistic Latent Semantic Analysis”, UAI 1999. Z. Gilula, M.J. Evans, I. Guttman, "Latent Class Analysis of Two-Way Contingency Tables by Bayesian Methods" Biometrika, 1989.
pLSA: Graphisches Modell N w c(d) P(z|d) z shared by all words in a document shared by all documents in collection P(w|z) N w c(d) P(z|d) z P(w|z) collection N w c(d) P(z|d) z document collection single document in collection word occurrences in a z w c(d) Graphische Darstellung mittels „Plates”
pLSA: „Bottleneck“ Parametrisierung Dokumente Terme
pLSA: „Bottleneck“ Parametrisierung Latente Konzepte Dokumente Terme
pLSA: Positive Matrix-Zerlegung Mischverteilung in Matrixnotation Randbedingungen (constraints) Nicht-negativität aller Matrizen Normalisierung gemäß der L1-Norm (keine Orthogonalität gefordert!) T. Hofmannn, „Probabilistic Lantent Semantic Analysis“, Uncertainty in Artificial Intelligence 1999. D.D. Lee & H.S. Seung, „Learning the parts of objects by non-negative matrix factorization”, Nature, 1999.
Vergleich: SVD Eigenschaften: Singulärwert-Zerlegung, Definition : orthonormale Spalten : Diagonal mit Singulärwerten (geordnet) Eigenschaften: Existenz & Eindeutigkeit Schwellwertbildung über Singulärwerte resultiert in einer niederdimensionalen Approximation (im Sinne der Frobenius Norm) = X n X m n X k k X k k X m = X n X m n X n S. Deerwester, S. Dumais, G. Furnas, T. Landauer & R. Harshman. „Indexing by latent semantic analysis.“ Journal of the American Society for Information Science, 1990
Expectation-Maximization-Algorithmus Maximierung der (temperierten) Log-Likelihood mittels Expectation-Maximization Iterationen E-Schritt: Posterior-Wahrscheinlichkeiten der latenten Variablen) M-Schritt: Schätzung der Parameter basierend auf „vervollständigten Statistiken” Wahrsch. daß ein Term w in Dokument d durch Konzept z „erklärt“ wird
Beispiel: TDT1 News Stories TDT1 = Dokumentensammlung mit >16,000 Kurznachrichten (Reuters, CNN, aus den Jahren 1994/95) Resultate basierend auf einer Zerlegung mit 128 Konzepten 2 dominante Faktoren für “flight“ und “love“ (wahrscheinlichsten Wörter) “flight” “love” plane airport crash flight safety aircraft air passenger board airline space shuttle mission astronauts launch station crew nasa satellite earth home family like just kids mother life happy friends cnn film movie music new best hollywood love actor entertainment star P(w|z)
Beispiel: Science Magazine Artikel Datensatz mit ca.12K Artikeln aus dem Science Magazine Ausgewählte Konzepte eines Modells mit K=200 P(w|z) P(w|z)
5. Informationssuche & Textkategorisierung 29
Experiments: Precison-Recall 4 test collections (each with approx.1000- 3500 docs)
Experimentelle Auswertung Zusammenfassung der quantitativen Auswertung Konsistente Verbesserung der Retrieval Genauigkeit Relative Verbesserung von 15-45% Average Precision Relative Gain in Average Prec.
Textkategorisierung Support-Vektor-Maschinen mit semantischen Kernfunktionen Standard-Textsammlung: Reuters21578 (5 Hauptkategorien), 5% Trainingsdaten mit Labels, 95% Hintergrunddaten Substantielle Ver-besserungen (ca.25%), falls zusätzliche ungelabelte Daten zur Verfügung stehen T. Hofmann, „An information-geometric approach to learning the similarity between documents”, Neural Information Processing Systems, 2000.
Robustes Retrieval in der Praxis
MedlinePlus: Gesundheits-Informationen für Jedermann
Amazon: Verbesserte Büchersuche build your own search engine
Amazon: Verbesserte Büchersuche
6. Hypermedia Retrieval 38
Hyperlinks in Information Retrieval Hyperlinks stellen zusätzliche Autor-Annotationen zur Verfügung Hyperlinks repräsentieren (typischerweise) eine implizite positive Bewertung der referenzierten Quelle Web-Graph spiegelt soziale Strukturen wider (cyber/virtual/Web communities) Link-Struktur erlaubt eine Einschätzung der Qualität der Dokumente (page authorithy) Überwindung von reinem inhaltsbasiertem Retrieval Erlaubt (potentiell) die Unterscheidung zwischen qualitativ hoch- und niederwertigen Web-Sites/Seiten
Random Walk auf Web Graphen Fiktiver Surfer hüpft von Webseite zu Webseite Zufällige Wahl eines Outlinks in jedem Schritt Mit Wahrscheinlichkeit q Teleportation zu einer zufälligen Seite PageRank: numerischer Score für jede Seite Aufenthaltswahrscheinlichkeit des Surfers Intuition „Es ist gut viele Inlinks zu haben.“ „Es ist nicht gut in einer abgekapselten Komponente zu sein.“ Modellierung Homogene Markov-Kette PageRank: stationäre Verteilung; Random Walk nutzt Ergodizität, alternativ über Spektralzerlegung (dominanter Eigenvektor)
HITS (Hyperlink Induced Topic Search) HITS (Jon Kleinberg und die Smart Gruppe in IBM) Schritt 1: Query-basiertes Retrieval von Resultaten Schritt 2: Generierung eines Kontextgraphen (Links und Backlinks) Schritt 3: Rescoring Methode mit Hub- und Authority-Gewichten unter Verwendung der Adjazenzmatrix des Kontextgraphen (Lösung: Linke/rechte Eigenvektoren (SVD)) Authority- Gewichte p q … Hub Gewichte q p … J. Kleinberg, “Authoritative Sources in a Hyperlinked Environment”, 1998.
Semantisches Modell des WWW Verstehen des Inhalts Probabilistic latent semantic analysis Automatische Identifikation von Konzepten und Themengebieten. Verstehen der Linkstruktur Probabilistisches Graphenmodell = prädiktives Modell für zusätzliche Links basierend auf vorhandenem Graph Schätzung der Entropie des Web Graphen (im Sinne eines stochastischen Prozesses) Basierend auf „Web communities” Probabilistische Version von HITS
Latente Web Communities Web Community: dichter bipartiter Teilgraph Source Knoten Target Knoten Probabilistisches Modell evtl. identisch D. Cohen & T. Hofmann, „The Missing Link – A Probabilistic Models of Document Content and Hypertext Connecivity“, NIPS*2001.
Dekomposition des Web-Graphen Web Teilgraph Community 1 Links gehören zu genau einer Web Community (im probab. Sinne) Web Seiten können zu mehreren Communities gehören Community 2 Community 3
Linking Hyperlinks and Content Kombination von pLSA und pHITS (probab. HITS) in einem gemeinsamen Modell w z P(z|s) P(w|z) Konzept/Topic P(t|z) t Web Community
“Ulysses” Webs: Space, War, and Genius (Helden unerwünscht!) Basismenge generiert via Altavista mit Query “Ulysses” ulysses 0.022082 space 0.015334 page 0.013885 home 0.011904 nasa 0.008915 science 0.007417 solar 0.007143 esa 0.006757 mission 0.006090 ulysses.jpl.nasa.gov/ helio.estec.esa.nl/ulysses www.sp.ph.ic.ak.uk/ grant 0.019197 s 0.017092 ulysses 0.013781 online 0.006809 war 0.006619 school 0.005966 poetry 0.005762 president 0.005259 civil 0.005065 www.lib.siu.edu/projects/usgrant/ www.whitehouse.gov/WH/glimpse /presidents/ug18.html saints.css.edu/gppg.html page 0.020032 ulysses 0.013361 new 0.010455 web 0.009060 site 0.009009 joyce 0.008430 net 0.007799 teachers 0.007236 information 0.007170 http://www.purchase.edu /Joyce/Ulysses.htm http://www.bibliomania.com /Fiction/joyce/ulysses http://teachers.net/chatroom T. Hofmann, SIGIR 2000.
6. Kollaboratives Filteren 47
Vorhersage von Benutzerpräferenzen und -aktionen Benutzerprofil Dr. Strangelove Three Colors: Blue Fargo Pretty Woman Rating? Movie? .
Kollaboratives Filtern Kollaboratives / Soziales Filtern Was tun, wenn Merkmalsextraktion problematisch ist? (Multimedia-Retrieval, e-Commerce, etc.) Rückgriff auf Gemeinsamkeiten und Ähnlichkeiten von Interessen zur Verbesserung von Vorhersagen Verwendung von Benutzerprofildaten (Web logs von Downloads, Transaktionen, Click-Streams, Ratings) Recommender Systeme – e-commerce Problemformalisierung Datenrepräsentation: dünn-besetzte Matrix mit impliziten und/oder expliziten Bewertungen
Kollaboratives Filtern via pLSA Diskrete Bewertungsskala, z.B. Votes: (Zahl der Sterne) z v Bewertung v ist unabhängig von der Person u, gegeben den Zustand der latenten Variable z u y Jede Person ist durch eine spezifische W-Verteilung charakterisiert Analogie zum IR [Person=Dokument], [Item=Wort]
pLSA vs. Memory-basierte Techniken Standard-Technik: Memory-basiert Gegeben einen „aktiven Benutzer“, berechne Korrelation mit allen Benutzerprofilen in der Datenbank (e.g., Pearson Koeffizienten) Transformation der Korrelation in relative Gewichte Gewichtete (additive) Vorhersage über alle Nachbarn pLSA Explizite Dekomposition der Benutzerpräferenzen: Interessen sind inhärent multidimensional keine globale Ähnlichkeitsfunktion zwischen Personen (es kommt auf die Hinsicht an!) Probabilistisches Modell erlaubt explizite Optimierung der gewünschten Kostenfunktion Data Mining: Exploration von Benutzer-Daten, Auffinden von Interessensgruppen
EachMovie Datensatz EachMovie: >40K Benutzer, >1.6K Filme, >2M Ratings Experimentelle Auswertung: Vergleich mit Memory-basierten Methoden, leave-one-out Protokoll Vorhersagegenauigkeit
EachMovie Data Set (II) Mittlere Absolute Abweichung Bewertung der Rangordnung: Gewichte fallen exponentiell mit dem Rang in einer Empfehlungsliste
Interessengruppen, Each Movie
Des-Interessengruppen, Each Movie
7. Ausblick 56
Zusammenfassung Techniken des maschinellen Lernens, insbesondere Verfahren der Matrix Dekomposition, als Grundlagentechnologie des Information Retrieval Zusammenhang zwischen Modellen mit latenten Variablen und semantischen Datenrepräsentationen Vielzahl von Anwendungsszenarien von der Informationssuche und der Kategorisierung bis hin zur Analyse von Benutzerprofilen Potentielle real-world Anwendungen Robustere und genauere Retrieval- und Suchmaschinen Automatische Kategorisierung von Dokumenten Recommender Systeme für e-commerce und für Information Portals
Laufende Forschungsprojekte Intelligente Informationsagenten, fokusiertes Web-Crawling [DARPA-TASK Projekt 2000-2002] Question-Answering Information Retrieval [NSF -Information Technology Research 2001-2003] Kategorisierung von Multimedia Dokumenten [NSF - Information Technology Research 2000-2002] Probabilistische Web-Graph Modelle [Internet Archiv] Generative Modelle zur Kombination von Text und Bildern [NSF – pending] Intelligente Mensch-Maschinen Schnittstellen zur effizienten Informations-Suche, Navigation und Visualisierung [in Vorbereitung] Lernen von Konzept-Hierarchien und Integration von existierenden Taxonomien [RecomMind] Personalisiertes Retrieval Interface: Kombination von Suche und kollaborativem Filtern [RecomMind] TH@ CS. BROWN. EDU RECOM MIND. COM
The End. 59