Thomas Hofmann Department of Computer Science Brown University

Slides:

Advertisements

Ähnliche Präsentationen

Cadastre for the 21st Century – The German Way

Advertisements

Developing your Business to Success We are looking for business partners. Enterprise Content Management with OS|ECM Version 6.

Anzahl der ausgefüllten und eingesandten Fragebögen: 211

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.

Webseitenranking für Suchanfragen anhand von Linkgraphen

Die ZBW ist Mitglied der Leibniz-Gemeinschaft Copyright © ZBW 2010 Seite 1 Potenziale semantischer Technologien für die Bibliothek der Zukunft Klaus Tochtermann.

Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.

Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.

Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.

Workshop zur Medienarbeit der katholischen Kirche Aspekte des Religionsmonitors Berlin, 02. April 2008.

1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.

Personalisierte Benutzeroberflächen BFD WS 12/13 Übung 6 Producing an end-user experience that is uniquely appropriate for each individual. [Sears]

= = = = 47 = 47 = 48 = =

Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.

PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.

Differentielles Paar UIN rds gm UIN

Prof. Dr. Bernhard Wasmayr

Studienverlauf im Ausländerstudium

Schieferdeckarten Dach.ppt

LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)

Prof. Dr. Bernhard Wasmayr VWL 2. Semester

PageRank 1.What does the graph represent? 2.Describe PageRank. 3.What does PageRank measure in a graph? 4.Which role does PageRank play in IR?

AWA 2007 Natur und Umwelt Natürlich Leben

Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.

Distanzbasierte Sprachkommunikation für Peer-to-Peer-Spiele

2 Distanzbasierte Sprachkommunikation für Peer-to-Peer-Spiele.

1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.

5 Jahre Semantic Network Service (SNS) Aktueller Stand und Ausblick Maria Rüther, Thomas Bandholtz,

Die Geschichte von Rudi

„Küsse deine Freunde“ – FlexKom-App teilen

Zusatzfolien zu B-Bäumen

Eine Einführung in die CD-ROM

Dokumentation der Umfrage

für Weihnachten oder als Tischdekoration für das ganze Jahr

1 Ein kurzer Sprung in die tiefe Vergangenheit der Erde.

The free XML Editor for Windows COOKTOP Semistrukturierte Daten 1 Vortrag Semistrukturierte Daten 1 COOKTOP The free XML-Editor for Windows

Semantic Annotations in Web Engineering Tobias Zanke.

NEU! 1 2. Wo kommt diese Art von Rezeptor im Körper vor?

Template v5 October 12, Copyright © Infor. All Rights Reserved.

Template v5 October 12, Copyright © Infor. All Rights Reserved.

Staatsballett Berlin Ein Verbesserungskonzept für den Social- Media Auftritt Your picture here.

PROCAM Score Alter (Jahre)

KIT – University of the State of Baden-Württemberg and National Large-scale Research Center of the Helmholtz Association Institute of Applied Informatics.

Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.

Geometrische Aufgaben

Symmetrische Blockchiffren DES – der Data Encryption Standard

Digital Dashboard Toolkit 2001 SharePoint Portal Server released targeting portal market SharePoint Team Services (STS) released as free add-

© All rights reserved. Zend Technologies, Inc. Jenseits von var_dump(): Debugging in ZF Jan Burkl System Engineer.

1 von 10 ViS:AT Abteilung IT/3, IT – Systeme für Unterrichtszwecke ViS:AT Österreichische Bildung auf Europaniveau BM:UKK Apple.

Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.

MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO

1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.

Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.

Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.

Einführung in die Astronomie und Astrophysik I Kapitel III: Das Planetensystem 1 Kapitel III: Das Planetensystem.

Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)

1 Mathematical Programming Nichtlineare Programmierung.

Technische Universität München 1 CADUI' June FUNDP Namur G B I The FUSE-System: an Integrated User Interface Design Environment Frank Lonczewski.

Imperfekt Wie sagt man das mit Imperfekt

Folie Einzelauswertung der Gemeindedaten

Numbers Greetings and Good-byes All about Me Verbs and Pronouns

J-Team: Gymnasium Ulricianum Aurich und MTV Aurich Ein Projekt im Rahmen von UlricianumBewegt.de Euro haben wir schon…  8000 mal habt ihr bereits.

Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.

Sehen, Hören, Schmecken: wenn uns unsere Sinne täuschen

1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.

Monatsbericht Ausgleichsenergiemarkt Gas – Oktober

Präsentation transkript:

From Bits to Information — Maschinelle Lernverfahren in Information Retrieval und Web Mining Thomas Hofmann Department of Computer Science Brown University (Founder, CEO & Chief Scientist, RecomMind Inc., Berkeley & Rheinbach (!)) In Kollaboration mit: David Cohen, CMU & Burning Glass Jan Puzicha, UC Berkeley & RecomMind David Gondek & Ioannis Tsochantaridis, Brown University

Vortragsüberblick Einleitung Vektorraum-Modell für Textdokumente Informationstheoretisches Retrieval Modell Probabilistic Latent Semantic Analysis Informationssuche und Textkategorisierung Hypermedia- & Web-Retrieval Kollaboratives Filtern Ausblick

Information Retrieval: Probleme & Herausforderungen 3

Robustes Information Retrieval — Jenseits der keyword-basierten Suche “labour immigrants Germany” query match “German job market for immigrants” ? “foreign workers in Germany” “green card Germany” “labour immigrants Germany” query match “German job market for immigrants” query ? Fehlerbehaftete Transkription outrage sink Anchorage there warfare “green card Germany” query ? “foreign workers in Germany” query ? Akustisches Signal Automatische Spracherkennung

Hypermedia Retrieval — Linkanalyse und die Qualität von Informationsquellen Linkanalyse mittels Markov-ketten Modell (Random Walk auf Web Graph) mittlere Aufenthaltswahr-scheinlichkeit entspricht PageRank

Dokument-Klassifikation & Text Mining Generierung & Wartung von Taxonomien Automatische Klassifikation und Annotation von Dokumenten M13 = MONEY MARKETS M132 = FOREX MARKETS MCAT = MARKETS Visualisierung von Taxonomien © Inxight

Kollaboratives Filtern — Jenseits der solipsistischen Suche NN Benutzerprofil ? Empfehlung ? Benutzerprofil

Kollaboratives Filtern — Jenseits der solipsistischen Suche Multimedia Dokumente User Community Datenbank mit Benutzerprofilen UserID ItemID Rating 10002 451 3 10221 647 4 10245 2 12344 801 5 … Rating

2. Vektorraum-Modell für Textdokumente 9

Dokument-Term Matrix = D = Dokumentensammlung W = Lexikon/Vokabular intelligence Texas Instruments said it has developed the first 32-bit computer chip designed specifically for artificial intelligence applications [...] Dokument-Term Matrix ... artificial 1 intelligence interest artifact 2 t =

Dokument-Term Matrix (b) Typisch: Zahl der Dokumente  1.000.000 Vokabular  100.000 Spärlichkeit < 0.1 % Dargestellt  1e-8 1 2

Vektorraum-Modell Retrieval Modell Ähnlichkeit zwischen Dokument und Query Kosinus des Winkels zwischen Query und Dokument(en) Retrieval Modell Dokumente werde gemäß ihrer Ähnlichkeit zur Query sortiert Verwendung im SMART System und vielen kommerziellen Systemen (z.B. Verity) This may seem like a somewhat unserious example, the problem behind this, however, is very serious … There are more precisely two problems: Polysems […] and Homonyms […] 1’00’’ G. Salton, “The SMART Retrieval System – Experiments in Automatic Document Processing”, 1971.

Vektorraum-Modell: Diskussion Vorteile Partielles Matching von Anfragen und Dokumenten Ranking gemäß des Ähnlichkeitsmaßes Nachteile: Dimensionalität („curse of dimensionality”) Spärlichkeit (inneres Produkt ist rauschanfällig) Semantik: Auftreten von exakt identischen Termen gefordert, semantische Beziehungen zwischen Wörtern werden nicht modelliert Syntaktische/semantische Regularitäten bleiben unberücksichtigt

3. Informationstheoretisches Retrieval-Modell 14

Lexikale Semantik – Synonymien und Polysemien Mehrdeutigkeit von Wörtern (Polysemie) Wörter haben oftmals eine Vielzahl von Bedeutungen und verschiedenartige Gebrauchsformen (insbesondere für heterogene Datenbestände). Mars Planet röm. Gottheit Schokoriegel Semantische Ähnlichkeit (Synonymie) Verschiedene Wörter/Terme haben oft die identische oder sehr ähnliche Bedeutung (schwächer: Wörter aus dem gleichen Themengebiet). Galaxie Milchstraße Universum Kosmos

Dokumente als Informationsquellen “Ideales” Dokument: (gedächtnislose) Informations-quelle D = Dokumentensammlung W = Lexikon/Vokabular andere Dokumente “Wirkliches” Dokument: empirische relative Wort-Häufigkeiten Stichprobe (sample) Again, we begin with representational issues. Suppose, we have given a collection of documents D and a vocabulary W. Ignoring word order (of course a very strong assumption, but very common in IR) the data can be represented by a table (term/document matrix). A document is then represented by a “vector” of word counts. (You may suspect that I would like to put the term “vector” in quotes, because it is actually an empirical distribution over words. 1’30’’

Das Sprachmodell-“Spiel” US trade economic intellectual property development Beijing human rights free negotiations imports ? Gegeben ist ein Dokument („bag-of-words“ Repräsentation) in dem einige Wörter zugedeckt sind. intellectual property negotiations Zielsetzung: Vorhersage der zugedeckten Wörter basierend auf dem Kontext US trade economic development Beijing human rights free imports China Semantic model Grundidee: Gute Vorhersage-genauigkeit erfordert ein Modell das Wortsemantik berücksichtigt

Informationsquellen-Modell des Information Retrievals Bayessche Regel: Wahrscheinlichkeit der Relevanz eines Dokuments bzgl. einer Anfrage A priori Relevanz- Wahrscheinlichkeit Generatives Query Modell Wahrscheinlichkeit daß q von d „erzeugt wurde” Sprach- modell J. Ponte & W.B. Croft, ”A Language Model Approach to Information Retrieval”, SIGIR 1998.

4. Probabilistic Latent Semantic Analysis 19

Probabilistic Latent Semantic Analysis Problemstellung: Wie können dokument-spezfische “Sprachmodelle” gelernt werden? Datenmangel! Ansatz: pLSA Dimensionsreduktionstechnik für Kontingenztabellen Faktoranalyse für Zählvariablen (und kategorialen Variablen) Faktoren  Konzepten / Themengebieten Dokument- “quellen” (Topic) Faktor- “quellen” Dokumentspezifische Mischproportionen Latente Variable z (“small” #states) T. Hofmann, “Probabilistic Latent Semantic Analysis”, UAI 1999. Z. Gilula, M.J. Evans, I. Guttman, "Latent Class Analysis of Two-Way Contingency Tables by Bayesian Methods" Biometrika, 1989.

pLSA: Graphisches Modell N w c(d) P(z|d) z shared by all words in a document shared by all documents in collection P(w|z) N w c(d) P(z|d) z P(w|z) collection N w c(d) P(z|d) z document collection single document in collection word occurrences in a z w c(d) Graphische Darstellung mittels „Plates”

pLSA: „Bottleneck“ Parametrisierung Dokumente Terme

pLSA: „Bottleneck“ Parametrisierung Latente Konzepte Dokumente Terme

pLSA: Positive Matrix-Zerlegung Mischverteilung in Matrixnotation Randbedingungen (constraints) Nicht-negativität aller Matrizen Normalisierung gemäß der L1-Norm (keine Orthogonalität gefordert!) T. Hofmannn, „Probabilistic Lantent Semantic Analysis“, Uncertainty in Artificial Intelligence 1999. D.D. Lee & H.S. Seung, „Learning the parts of objects by non-negative matrix factorization”, Nature, 1999.

Vergleich: SVD Eigenschaften: Singulärwert-Zerlegung, Definition : orthonormale Spalten : Diagonal mit Singulärwerten (geordnet) Eigenschaften: Existenz & Eindeutigkeit Schwellwertbildung über Singulärwerte resultiert in einer niederdimensionalen Approximation (im Sinne der Frobenius Norm) = X n X m n X k k X k k X m = X n X m n X n S. Deerwester, S. Dumais, G. Furnas, T. Landauer & R. Harshman. „Indexing by latent semantic analysis.“ Journal of the American Society for Information Science, 1990

Expectation-Maximization-Algorithmus Maximierung der (temperierten) Log-Likelihood mittels Expectation-Maximization Iterationen E-Schritt: Posterior-Wahrscheinlichkeiten der latenten Variablen) M-Schritt: Schätzung der Parameter basierend auf „vervollständigten Statistiken” Wahrsch. daß ein Term w in Dokument d durch Konzept z „erklärt“ wird

Beispiel: TDT1 News Stories TDT1 = Dokumentensammlung mit >16,000 Kurznachrichten (Reuters, CNN, aus den Jahren 1994/95) Resultate basierend auf einer Zerlegung mit 128 Konzepten 2 dominante Faktoren für “flight“ und “love“ (wahrscheinlichsten Wörter) “flight” “love” plane airport crash flight safety aircraft air passenger board airline space shuttle mission astronauts launch station crew nasa satellite earth home family like just kids mother life happy friends cnn film movie music new best hollywood love actor entertainment star P(w|z)

Beispiel: Science Magazine Artikel Datensatz mit ca.12K Artikeln aus dem Science Magazine Ausgewählte Konzepte eines Modells mit K=200 P(w|z) P(w|z)

5. Informationssuche & Textkategorisierung 29

Experiments: Precison-Recall 4 test collections (each with approx.1000- 3500 docs)

Experimentelle Auswertung Zusammenfassung der quantitativen Auswertung Konsistente Verbesserung der Retrieval Genauigkeit Relative Verbesserung von 15-45% Average Precision Relative Gain in Average Prec.

Textkategorisierung Support-Vektor-Maschinen mit semantischen Kernfunktionen Standard-Textsammlung: Reuters21578 (5 Hauptkategorien), 5% Trainingsdaten mit Labels, 95% Hintergrunddaten Substantielle Ver-besserungen (ca.25%), falls zusätzliche ungelabelte Daten zur Verfügung stehen T. Hofmann, „An information-geometric approach to learning the similarity between documents”, Neural Information Processing Systems, 2000.

Robustes Retrieval in der Praxis

MedlinePlus: Gesundheits-Informationen für Jedermann

Amazon: Verbesserte Büchersuche build your own search engine

Amazon: Verbesserte Büchersuche

6. Hypermedia Retrieval 38

Hyperlinks in Information Retrieval Hyperlinks stellen zusätzliche Autor-Annotationen zur Verfügung Hyperlinks repräsentieren (typischerweise) eine implizite positive Bewertung der referenzierten Quelle Web-Graph spiegelt soziale Strukturen wider (cyber/virtual/Web communities) Link-Struktur erlaubt eine Einschätzung der Qualität der Dokumente (page authorithy) Überwindung von reinem inhaltsbasiertem Retrieval Erlaubt (potentiell) die Unterscheidung zwischen qualitativ hoch- und niederwertigen Web-Sites/Seiten

Random Walk auf Web Graphen Fiktiver Surfer hüpft von Webseite zu Webseite Zufällige Wahl eines Outlinks in jedem Schritt Mit Wahrscheinlichkeit q Teleportation zu einer zufälligen Seite PageRank: numerischer Score für jede Seite Aufenthaltswahrscheinlichkeit des Surfers Intuition „Es ist gut viele Inlinks zu haben.“ „Es ist nicht gut in einer abgekapselten Komponente zu sein.“ Modellierung Homogene Markov-Kette PageRank: stationäre Verteilung; Random Walk nutzt Ergodizität, alternativ über Spektralzerlegung (dominanter Eigenvektor)

HITS (Hyperlink Induced Topic Search) HITS (Jon Kleinberg und die Smart Gruppe in IBM) Schritt 1: Query-basiertes Retrieval von Resultaten Schritt 2: Generierung eines Kontextgraphen (Links und Backlinks) Schritt 3: Rescoring Methode mit Hub- und Authority-Gewichten unter Verwendung der Adjazenzmatrix des Kontextgraphen (Lösung: Linke/rechte Eigenvektoren (SVD)) Authority- Gewichte p q … Hub Gewichte q p … J. Kleinberg, “Authoritative Sources in a Hyperlinked Environment”, 1998.

Semantisches Modell des WWW Verstehen des Inhalts Probabilistic latent semantic analysis Automatische Identifikation von Konzepten und Themengebieten. Verstehen der Linkstruktur Probabilistisches Graphenmodell = prädiktives Modell für zusätzliche Links basierend auf vorhandenem Graph Schätzung der Entropie des Web Graphen (im Sinne eines stochastischen Prozesses) Basierend auf „Web communities” Probabilistische Version von HITS

Latente Web Communities Web Community: dichter bipartiter Teilgraph Source Knoten Target Knoten Probabilistisches Modell evtl. identisch D. Cohen & T. Hofmann, „The Missing Link – A Probabilistic Models of Document Content and Hypertext Connecivity“, NIPS*2001.

Dekomposition des Web-Graphen Web Teilgraph Community 1 Links gehören zu genau einer Web Community (im probab. Sinne) Web Seiten können zu mehreren Communities gehören Community 2 Community 3

Linking Hyperlinks and Content Kombination von pLSA und pHITS (probab. HITS) in einem gemeinsamen Modell w z P(z|s) P(w|z) Konzept/Topic P(t|z) t Web Community

“Ulysses” Webs: Space, War, and Genius (Helden unerwünscht!) Basismenge generiert via Altavista mit Query “Ulysses” ulysses 0.022082 space 0.015334 page 0.013885 home 0.011904 nasa 0.008915 science 0.007417 solar 0.007143 esa 0.006757 mission 0.006090 ulysses.jpl.nasa.gov/ helio.estec.esa.nl/ulysses www.sp.ph.ic.ak.uk/ grant 0.019197 s 0.017092 ulysses 0.013781 online 0.006809 war 0.006619 school 0.005966 poetry 0.005762 president 0.005259 civil 0.005065 www.lib.siu.edu/projects/usgrant/ www.whitehouse.gov/WH/glimpse /presidents/ug18.html saints.css.edu/gppg.html page 0.020032 ulysses 0.013361 new 0.010455 web 0.009060 site 0.009009 joyce 0.008430 net 0.007799 teachers 0.007236 information 0.007170 http://www.purchase.edu /Joyce/Ulysses.htm http://www.bibliomania.com /Fiction/joyce/ulysses http://teachers.net/chatroom T. Hofmann, SIGIR 2000.

6. Kollaboratives Filteren 47

Vorhersage von Benutzerpräferenzen und -aktionen Benutzerprofil Dr. Strangelove Three Colors: Blue Fargo Pretty Woman Rating? Movie? .

Kollaboratives Filtern Kollaboratives / Soziales Filtern Was tun, wenn Merkmalsextraktion problematisch ist? (Multimedia-Retrieval, e-Commerce, etc.) Rückgriff auf Gemeinsamkeiten und Ähnlichkeiten von Interessen zur Verbesserung von Vorhersagen Verwendung von Benutzerprofildaten (Web logs von Downloads, Transaktionen, Click-Streams, Ratings) Recommender Systeme – e-commerce Problemformalisierung Datenrepräsentation: dünn-besetzte Matrix mit impliziten und/oder expliziten Bewertungen

Kollaboratives Filtern via pLSA Diskrete Bewertungsskala, z.B. Votes: (Zahl der Sterne) z v Bewertung v ist unabhängig von der Person u, gegeben den Zustand der latenten Variable z u y Jede Person ist durch eine spezifische W-Verteilung charakterisiert Analogie zum IR [Person=Dokument], [Item=Wort]

pLSA vs. Memory-basierte Techniken Standard-Technik: Memory-basiert Gegeben einen „aktiven Benutzer“, berechne Korrelation mit allen Benutzerprofilen in der Datenbank (e.g., Pearson Koeffizienten) Transformation der Korrelation in relative Gewichte Gewichtete (additive) Vorhersage über alle Nachbarn pLSA Explizite Dekomposition der Benutzerpräferenzen: Interessen sind inhärent multidimensional  keine globale Ähnlichkeitsfunktion zwischen Personen (es kommt auf die Hinsicht an!) Probabilistisches Modell erlaubt explizite Optimierung der gewünschten Kostenfunktion Data Mining: Exploration von Benutzer-Daten, Auffinden von Interessensgruppen

EachMovie Datensatz EachMovie: >40K Benutzer, >1.6K Filme, >2M Ratings Experimentelle Auswertung: Vergleich mit Memory-basierten Methoden, leave-one-out Protokoll Vorhersagegenauigkeit

EachMovie Data Set (II) Mittlere Absolute Abweichung Bewertung der Rangordnung: Gewichte fallen exponentiell mit dem Rang in einer Empfehlungsliste

Interessengruppen, Each Movie

Des-Interessengruppen, Each Movie

7. Ausblick 56

Zusammenfassung Techniken des maschinellen Lernens, insbesondere Verfahren der Matrix Dekomposition, als Grundlagentechnologie des Information Retrieval Zusammenhang zwischen Modellen mit latenten Variablen und semantischen Datenrepräsentationen Vielzahl von Anwendungsszenarien von der Informationssuche und der Kategorisierung bis hin zur Analyse von Benutzerprofilen Potentielle real-world Anwendungen Robustere und genauere Retrieval- und Suchmaschinen Automatische Kategorisierung von Dokumenten Recommender Systeme für e-commerce und für Information Portals

Laufende Forschungsprojekte Intelligente Informationsagenten, fokusiertes Web-Crawling [DARPA-TASK Projekt 2000-2002] Question-Answering Information Retrieval [NSF -Information Technology Research 2001-2003] Kategorisierung von Multimedia Dokumenten [NSF - Information Technology Research 2000-2002] Probabilistische Web-Graph Modelle [Internet Archiv] Generative Modelle zur Kombination von Text und Bildern [NSF – pending] Intelligente Mensch-Maschinen Schnittstellen zur effizienten Informations-Suche, Navigation und Visualisierung [in Vorbereitung] Lernen von Konzept-Hierarchien und Integration von existierenden Taxonomien [RecomMind] Personalisiertes Retrieval Interface: Kombination von Suche und kollaborativem Filtern [RecomMind] TH@ CS. BROWN. EDU RECOM MIND. COM

The End. 59