PG 402 Phillip Look Christian Hüppe

Slides:

Advertisements

Ähnliche Präsentationen

Grundlagen des A*-Algorithmus und Anwendung in der Routenplanung

Advertisements

Kohonennetze für Information Retrieval mit User Feedback

Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz

Intelligente Anwendungen im Internet

Claudio Moraga; Gisbert Dittrich

Webseitenranking für Suchanfragen anhand von Linkgraphen

Webseiten, die gefunden werden Dr. Eduard Heindl, Heindl Internet AG Tübingen.

Kapitel 6: Klassifizierung von Sortiertechniken

Seminar Textmining WS 06/07

Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.

Kapitel 6. Suchverfahren

Auswertung der Interviews

HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 1 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Vorlesung.

Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.

HTML - Einführung Richard Göbel.

Sortierverfahren Richard Göbel.

Java: Dynamische Datentypen

Sortierverfahren Richard Göbel.

Der R-Baum Richard Göbel.

Suchmaschine vs. Katalog Such-Robots i.d.R. werden alle Seiten erfasst täglich werden mehrere Mio. Seiten besucht Redaktion relativ wenig Seiten erfasst.

WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.

Algorithmen und Datenstrukturen

WS Algorithmentheorie 01 – Divide and Conquer (Segmentschnitt) Prof. Dr. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (10 - Suchverfahren) T. Lauer.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 4 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.

1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.

Geometrisches Divide and Conquer

Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 16: Grundlagen des Data Mining.

Information Retrieval Modelle: Vektor-Modell

Bau effizienter und effektiver Metasuchmaschinen

Suchmaschinenlabor an der Uni Hannover Derek Daniel.

Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.

EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Vorlesung 2 SWS WS 99/00 Gisbert Dittrich FBI Unido

Anwendungen. © Prof. T. Kudraß, HTWK Leipzig Historie des WWW Grundlage Internet – Entwickelt Ende der 60er Jahre vom US-Militär (ARPA-Net) – Technische.

PG 478 – Open Graph Drawing Framework Thema: Compounds & Force-Directed Francois Bertault & Mirka Miller – An Algorithm for Drawing Compound Graphs [1999]

Carsten Greiveldinger

Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.

Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen

Seite Common Gateway Interface. Konzepte. Übersicht 1Einleitung 2Was ist CGI? 3Wozu wird CGI verwendet? 4Geschichtlicher Überblick 5Grundvoraussetzungen.

RDF-S3 und eRQL: RDF-Technologien für Informationsportale Karsten Tolle und Fabian Wleklinski.

Manfred Thaller, Universität zu Köln Köln 26. November 2007

FH-Hof HTML - Einführung Richard Göbel. FH-Hof Komponenten des World Wide Webs WWW Browser HyperText Transfer Protocol (HTTP) via Internet WWW Server.

Maschinelles Lernen und automatische Textklassifikation

Wie Google Webseiten bewertet

W w w. s a f e r i n t e r n e t. a t Die Welt zu Hause Informationen suchen und finden.

Im Internet geht alles schneller, aber es dauert länger

Einführung in die Programmierung

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

A Social Tagging Environment for Web Information Extraction

Einführung in die Programmierung Wintersemester 2009/10 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.

Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt

Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.

Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.

Information Retrieval, Vektorraummodell

Google (Web-Suchmaschine) Google Books Google Scholar

26. Oktober 2005Autor: Walter Leuenberger Computeria Urdorf Treff vom 26. Oktober 2005 Suchmaschinen im Internet Google & Co.

The PicSOM Retrieval System 1 Christian Steinberg.

© Fraunhofer-Institut für Angewandte Informationstechnik FIT Social Search.

HEINZ NIXDORF INSTITUT Universität Paderborn EIM ‒ Institut für Informatik 1 Algorithm. Grundlagen des Internets 7. Juli 2003 Christian Schindelhauer Vorlesung.

CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.

Integrating Knowledge Discovery into Knowledge Management

Präsentation transkript:

PG 402 Phillip Look Christian Hüppe Suchstrategien PG 402 Phillip Look Christian Hüppe

Phillip Look, Christian Hüppe Überblick Einführung Untersuchung von 2 Suchmaschinen Verbesserung der Rankingfunktion mit Hilfe von Clickthrough-Daten Clustering von Query Logs Strukturorientierte Ansätze Phillip Look, Christian Hüppe

Arbeitsweise von Suchmaschinen Webseite mit Ergebnissen Internet Dokumente anfordern Suchanfrage Dokumente Ergebnisse Robot Suchmodul URLs, Dokumente Indexterme Index Indexer interne Abfrage Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Ranking manuell Handgepflegte Listen (Katalogsysteme) Häufigkeit der Schlagworte Formatierung der Schlagworte (Überschrift, fett, unterstrichen usw.) Link-Popularität Link-Qualität auto- matisch Handgepflegte Listen  Yahoo! Phillip Look, Christian Hüppe

Kriterien einer guten Suchmaschine Geschwindigkeit der Antwort Anzahl u. Aktualität des Indexes Qualität des gelieferten Rankings Absolute Qualität  Precision / Recall Relative Qualität  Benutzerverhalten Wie kann man das Ranking verbessern? Precision = relevante gefundene Texte / (relevante gefundene Texte + irrelevante Texte) Recall = relevante gefundene Texte / (relevante gefundene Texte + relevante aber nicht gefundene Texte) Relative Qualität ergibt sich aus dem Benutzerverhalten: Benutzerstudien Anzahl der Clicks Rang der Clicks Phillip Look, Christian Hüppe

Verbesserung des Rankings Benutzerfeedback einbeziehen: Problem: schwer zugänglich, gering vorhanden1 Lösung: System beobacht, welche Links benutzt werden Clickthrough-Daten analysieren 1 Web Watcher [Jochaims et al., 1997], a browsing assistant for the WWW: Mehr als 90% aller Benutzer haben kein Feedback gegeben. 1 WebWatcher: A Tour Guide for the World Wide Web, T. Joachims, D. Freitag, T. Mitchell, Proceedings of IJCAI97, August 1997 Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Clickthrough Daten Speicherung von Name der anfragenden Maschine IP-Adresse der anfragenden Maschine Browser-Typ Bildschirmauflösung Benutzeranfragen gewählte URLs usw. für uns interessant Phillip Look, Christian Hüppe

Beispiel für Clickthrough Daten Phillip Look, Christian Hüppe

Vorteile von Clickthrough-Daten man kommt sehr einfach an Daten die Datenmenge ist quasi unendlich unbeeinflusstes Benutzerverhalten wird aufgezeichnet man kann sinngemäße Queries / URLs finden Benutzer wählen gleiche URLs bei unterschiedlichen Queries Benutzer wählen unterschiedliche URLs bei gleicher Query Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Experiment 1 Vergleichen von 2 Suchmaschinen A und B: Einheitliche Benutzeroberfläche Keine Einschränkung der Produktivität des Benutzers Benutzerbeurteilung soll klar demonstriert werden Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Experiment 1 Query wird an Suchmaschine A und B gesandt Ranking A = (a1, a2, ...) und B = (b1, b2, ...) können in ein gemeinsames Ranking C = (c1, c2, ...) gemischt werden, so dass für jeden Rang n von C gilt mit nb  na  nb + 1. {c1, ..., cn} = {a1, ..., ana}  {b1, ..., bnb} Beispiel: A = (a, b, c) B = (x, a, z) C = (a, x, b, c, z) oder C = (x, a, b, z, c) Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Ranking generieren public void combine( Vector a, Vector b, int na, int nb, Vector c ) { if ( na == nb ) { if ( !c.contains( a.get( na + 1 ) ) ) { c.add( a.get ( na + 1 ) ); } this.combine( a, b, na+1, nb, c ); else { if ( !c.contains( b.get( nb + 1 ) ) ) { c.add( b.get( nb + 1 ) ); this.combine( a, b, na, nb +1, c ); Aufruf mit combine(Vector A, Vector B, 0, 0, leerer Vector C) Phillip Look, Christian Hüppe

Vorteile dieses Aufbaus Annahme: Alle Links werden ohne Ausnahme betrachtet Benutzer nimmt von Top-Ranking A und Top-Ranking B gleich viele Links wahr Benutzer wählt relevante Links Kurzzusammenfassung bietet genug Informationen  Wahl nicht zufällig  Klicks enthalten Informationen über die Qualität der Top na und nb Links beider Suchmaschinen  Benutzer nimmt von Top-Ranking A und Top-Ranking B gleich viele Links wahr  Keine Verzerrung oder Benachteiligung bei der Darstellung der Suchmaschinen A und B 2) Benutzer wählt meist relevante Links aus und die Kurzzusammenfassung bietet genug Informationen zur Beurteilung der Relevanz, so dass die Wahl nicht zufällig geschieht  Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Google vs. MSNSearch Ranging A Ranging B A besser B besser A = B Total Google MSNSearch 34 20 69 123 Standard 18 1 15 16 2 5 23 Phillip Look, Christian Hüppe

Benutzerfeedback aus Clickthrough-Daten Extrahieren Gegebenes Ranking: (link1, link2, link3,...) C ist Ranking der angeklickten Links linki <r* linkj für alle Paare 1  j  i, mit i  C und j  C. Beispiel: Wir haben ein Ranking von 1 bis n Der Benutzer klickt auf Link 3, überspringt also Link 1 und 2 3 ist also in C und 1 und 2 nicht. Ordne Link 3 vor Link 1 und 2 an 1<=1<3 1<=2<3 Phillip Look, Christian Hüppe

Lernen einer Rankingfunktion mit der SVM Vereinfache das Problem in ein binäres Klassifikations-Problem relevanter Link unrelevanter Link Trainingmenge mit queries q und (optimales) Zielranking r* (q1,r*1), (q2,r*2), ..., (qn,r*n). Nachteile hierbei: Wenn man in relevant und unrelevant aufteilt ist nicht zu erkennen, auf welchem Rang ein relevanter bzw. ein unrelevanter Link steht. Phillip Look, Christian Hüppe

Attribute eines Links zum Lernen Link-Rang bei anderen Suchmaschinen Domain-Name in Query enthalten Länge der URL Länderkennung der URL Domain der URL Tilde in der URL Cosinusmaß zwischen URL-Worten und Query Cosinusmaß zwischen Titel und Query Cosinusßmaß: Dieses Maß bezieht sich auf den Cosinus des Winkels zwischen zwei Dokumentvektoren bzw. zwischen Anfrage- und Dokumentvektor in einem mehrdimensionalen Raum. Wenn Vektoren ähnlich ausgerichtet sind, dann ist der Winkel entsprechend klein, sind zwei Vektoren genau gleich, ist der Winkel zwischen ihnen 0 usw.. Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Vektorraummodell (1) Terme der Datenbasis spannen einen orthogonalen Vektorraum auf Dokumente und Queries sind Punkte in diesem Vektorraum Gesucht werden Dokumente, deren Vektoren ähnlich zum Queryvektor sind Skalarprodukt Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Vektorraummodell (2) Ähnlichkeit wird über Cosinusmaß bestimmt Cosinusmaß: Cosinus des Winkels zwischen zwei Dokumentvektoren bzw. zwischen Query- und Dokumentvektor Wenn Vektoren ähnlich ausgerichtet sind  Winkel entsprechend klein Skalarprodukt Phillip Look, Christian Hüppe

Vektorraummodell - Beispiel q1 q2 d2 d1 d3 d4 d5 Phillip Look, Christian Hüppe

Clustering von Query Logs Phillip Look, Christian Hüppe

Clustering von Query Logs Daten  Clickthroughdaten {Query, ausgewählte URLs} Betrachtung der Daten als Graph Konten  Queries und URLs Kanten  Zusammenhang: Query und URL Besonderheit Inhalt der URLs wird ignoriert Phillip Look, Christian Hüppe

Clustering Algorithmus hierarchical agglomerative clustering (HAC) Inhalt wird entgegen normalen HAC-Algorithmen ignoriert Vorteil: Clustering erfordert keine Speicherung von großen Datenmenge Kann auch bei textfreien Seiten angewandt werden (z. B. Bilder) Implementierung ist sehr viel einfacherer (Kein aufwendiges Preprocessing um Inhalte aufzuarbeiten) hierarchical agglomerative clustering (HAC)  hierarchisches Clustern (allgemein) Findet iterierend die 2 ähnlichsten Dokumente und fasst sie zusammen Phillip Look, Christian Hüppe

Clustering Algorithmus Clustering von queries Beispiel: Benutzer stellt Anfrage q q  Cluster C System schlägt andere queries aus C vor Gute Unterstützung, bei unbefriedigendem Ergebnis Phillip Look, Christian Hüppe

Graph-Based Iterative Clustering Disjunkte Mengen von Anfragen Disjunkte Mengen von URLs Anfrage Ergebnis url Q q7 q10 q8 q13 q4 q3 q6 q16 q2 q12 q1 url E url A url C url G url P url N url J url M url X url Y Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Algorithmus 1 Input: Clickthrough-Daten C Output: Graph G Sammle alle Anfragen aus C in der Menge Q Sammle alle URLs aus C in der Menge U Für jedes Element in Q erzeuge einen „weißen“ Knoten in G Für jede URL in U erzeuge einen „schwarzen“ Knoten in G Wenn Anfrage q mit einer URL u auftritt, dann lege eine Kante in G zwischen den schwarzen und den weißen Knoten Phillip Look, Christian Hüppe

Beispiel zum Algorithmus 1 http://www-ai.cs. uni-dortmund.de/ Künstliche Intelligenz http://www.joachims.org/ http://ki.cs.tu-berlin.de/ support.html Phillip Look, Christian Hüppe

Ähnlichkeit zwischen Knoten N(x) = Menge benachbarter Knoten von x in einem Graphen Knoten y ähnelt x, wenn N(x) und N(y) eine große Überschneidung haben Formal: def Ähnlichkeit liegt zwischen [0...1]  0 keine Übereinstimmung  1 exakte Übereinstimmung Mit Phillip Look, Christian Hüppe

Beispiel zur Ähnlichkeit x y Überschneidung Ähnlichkeit: Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Algorithmus 2 Input: Graph G Output: Neuer Graph G´: Bewerte alle weißen Knotenpaare in G Füge die Knoten wx, wy zusammen, für die (wx, wy) am größten ist Schritt 1 und 2 für schwarze Knoten durchführen Bis zur Abbruchbedingung gehe zu 1 Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Iterativeransatz? Manche Ähnlichkeiten können nicht im Originalgraphen erkannt werden a c b 1 2 a c b 1´ Warum nicht einfach erst die weißen und dann die schwarzen Knoten clustern? 1 und 2 haben b gemeinsam Algo läuft so lange, bis der Graph (a, c)=0 (1, 2)=1/3 (a, c)=1 Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Originalgraph Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Query Clustering Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe URL Clustering Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Fertige Cluster Phillip Look, Christian Hüppe

Strukturorientierte Ansätze Überblick: Fish-Search Enhanced Categorization Focused Crawling Related Pages Fourier Domain Scoring Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Fish-Search zum Verfahren: Eingabe: URL (einzelner Fisch) folge den Links * (Fischschwarm) bewerte die Seite (Stärke des Fisches) gehe zu (*) P.M.E. De Bra, R.G.J. Post 1994 Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Fish-Search Vor- und Nachteile: gefundenen Seiten existieren keine Datenbank erforderlich hohe Netzlast nicht gelinkte Seiten werden nicht gefunden Sackgassen werden nicht verlassen Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Fish-Search für uns: ausgehende Links verfolgen URL als Ausgangspunkt Phillip Look, Christian Hüppe

Enhanced Categorization zum Verfahren: gegeben ist eine Unterteilung in Kategorien (Freizeit / Sport / Tennis / Turniere / ...) für jede Kategorie sind gute Beispiele vorhanden ermittle Diskriminanten und Rauschen Soumen Chakrabarti, Byron Dom, Piotr Indyk 1998 Phillip Look, Christian Hüppe

Enhanced Categorization erweitere Inhalt der Seite um: a) Text der benachbarten Seiten b) Pfad der benachbarten Seiten (besser) Ordne die Seite in eine Kategorie ein. Phillip Look, Christian Hüppe

Enhanced Categorization Vor- und Nachteile: Nachbarschaft der Seite wird mit untersucht große Beispielmengen erforderlich (20.000 Seiten von Yahoo) Einteilung in Kategorien erforderlich benötigte Kategorien zu speziell Phillip Look, Christian Hüppe

Enhanced Categorization für uns: Diskriminanten finden aus- und eingehende Links untersuchen Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Focused Crawling Verfahren: vereint die ersten beiden Verfahren Ausgangspunkt ist eine URL Nachkommen werden auch kategorisiert Vor- und Nachteile: Search-On-Demand spart Speicherplatz Interaktion Soumen Chakrabarti, Byron Dom, Martin van den Berg 1999 Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Related Pages zum Verfahren: Eingabe: URL Ausgabe: ähnliche Seiten basiert nur auf der Linkstruktur zwei verschiedene Ansätze Jeffrey Dean, Monika Henzinger 1998 basiert auf HITS Algo. von Kleinberg 1998 Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Related Pages zum Verfahren: (cocitation) 1. suche Eltern und Kinder der Start-URL 2. suche Geschwister 3. wähle die besten Geschwister Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Related Pages zum Verfahren: (companion) 1. baue vincinity-Graph 2. entferne Duplikate (Mirror Seiten) 3. bewerte Kanten 4. wähle die bestbewerteten Seiten Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Related Pages Vor- und Nachteile: einfache zu implementieren es werden nicht alle Dokumente gefunden hohe Performance nur mit Cache für uns: mehrere Generationen von Links verarbeiten Phillip Look, Christian Hüppe

Fourier Domain Scoring zum Verfahren: Idee: betrachte Wörter als Wellen Eingabe: Schlüsselwörter 1. teile Text in Abschnitte 2. berechne die Wellen 3. Fourier-Transformation -> Amplitude, Phase 4. vergleiche Dokument mit der Eingabe Laurence Park, M. Palaniswami, R. Kotagiri, 2001 Phillip Look, Christian Hüppe

Fourier Domain Scoring Vor- und Nachteile: Häufigkeit und Position werden beachtet für uns: als Post-Processing-Schritt möglich Unbekannte: Fourier-Transformation Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Auswertung Qualität der Links: gleicher guter gute gesamt Host Inhalt Links absolut (ein.): 15 12 3 5 relativ (ein.): 1,6 80% 20% 33% absolut (aus.): 138 138 19 14 relativ (aus.): 15,5 100% 14% 10% Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Auswertung Links verfolgen: es gibt kaum Links zu guten Treffern Sackgassen werden nicht verlassen Verfolgung der Links lohnt sich nicht Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Auswertung Diskriminanten finden: Schlüsselwörter: Alterspyramide, Deutschland Diskriminante: Bevölkerungsentwicklung Suchergebnis: viele gute Treffer Ansatz ist vielversprechend Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Literatur [Fish-Search] P.M.E. De Bra, R.G.J. Post, 1994, „Information Retrieval in the World-Wide-Web: Making Client-based search feasible“ [Enhanced Categorization] Soumen Chakrabarti, Byron Dom, Piotr Indyk, 1998, „Enhanced Hypertext Categorization using hyperlinks“ [Focused Crawling] Soumen Chakrabarti, Byron Dom, Martin van den Berg, 1999, „Focused Crawling: a new approach to topic-specific Web resource discovery“ [Related Pages] Jeffrey Dean, Monika Henzinger, 1998, „Finding Related Pages in the World Wide Web“ [Fourier Domain Scoring] Laurence Park, M. Palaniswami, R. Kotagiri, 2001, „Internet Document Filtering using Fourier Domain Scoring“ [Untersuchung von 2 Suchmaschinen] Joachims Thorsten, 2002, „Evaluating Search Engines using Clickthrough Data“ [Verbesserung der Rankingfunktion mit Hilfe von Clickthrough-Daten ] Joachims Thorsten, 2002, „Optimizing Search Engines using Clickthrough Data“ [Clustering von Query Logs] Beeferman Doug, Berger Adam, 200?, „Agglomerative clustering of a search engine query log“ [Einführung] Babiak Ulrich, 1997, „Effektive Suche im Internet“ Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Ende Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Google entwickelt von Lawrence Page u. Sergey Brin Prototyp 1997, Stanford-Universität Abdeckung: 1.2 Milliarden (ges. 2 Milliarden )* Strategie, Analyse: Wie sind die Seiten vernetzt? Beispiel: Zitate in wissenschaftlichen Artikel Welche Seite verweißt auf eine andere? Ranghöhe von Seite A bestimmt Ranghöhe von Seite B * Stand: Feb. 2001 Phillip Look, Christian Hüppe

Phillip Look, Christian Hüppe Menge von Dokumenten D = {d1, ..., dm} optimales Ranking r* Phillip Look, Christian Hüppe