Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen Proseminar WS 2001/2002 Intelligentes Suchen in Informationssystemen Ralf Forster Saarbrücken, 11.12.2001
Motivation Problem: Lösung? Suchmaschinen Orientierung im Internet Suche geordneter,themenbezogener oder Schlüsselwörtern entsprechende Dokumentensammlungen (z.B. Seite mit Thema „SPORT“) riesige Datenmenge schwer zu verwalten (1 Mrd. öffentliche Dokumente, jeden Tag 1 Mio. neue) Lösung? Suchmaschinen Fokussiertes Crawling Intelligentes Crawling
Vorteil: selektives Suchen Motivation Vorteil: selektives Suchen Nachteile: -Abhängigkeit von Hypertext Klassifikatoren -Abhängigkeit vom Startpunkt der Suche
Vorteile: -unabhängig vom Startpunkt der Suche Motivation Vorteile: -unabhängig vom Startpunkt der Suche -unabhängig von der Art der Suchanfrage -Wiederverwendung gesammelter Daten
Modell/Konzept Reihenfolge der Abarbeitung bestimmt durch Rangliste der Kandidaten Ordnung der Kandidatenliste berechnet mit Hilfe einer Kombination der Interessen ratios von: textueller Inhalt der Elternseiten (Ic(C) ) Ausdrücke in der URL des Kandidaten (Iu(C) ) Linkstrukturen (Il(C) ) Eigenschaften der Geschwisterseiten (Is(C) )
Seiten interessant, wenn Interessen ratio Modell/Konzept Berechnung der Interessen ratios durch gesammelte statistische Daten Seiten interessant, wenn Interessen ratio der überprüften Eigenschaft > 1 Interessen ratio einer ganze Seite (Wichtigkeitswert): WW = wc* Ic(C) + wu* Iu(C) + wl* Il(C) + ws* Is(C)
Modell/Konzept Beispiele: Eigenschaften der Geschwisterseiten: Is(C) = s/e (s tatsächliche Anzahl von Geschwisterseiten des Themas „SPORT“ (erfüllen C), e vermutete Anzahl solcher Geschwisterseiten) Beispiel: Eine Seite hat 15 Geschwisterseiten, 9 davon erfüllen C. Es soll gelten: P(C) = 0,1; geschätzte Anzahl der Treffer:1,5 (15*0,1) => Is(C) = 9/1,5 = 6 Textueller Inhalt der Elternseiten: Es gilt: C siehe oben, Qi ist z.B. das Auftreten des Wortes „Fußball“ I(C, Qi) = P(CQi) / (P(Qi) * P(C)) Ic(C) = i:iM , S(C,Qi)>t I(C, Qi) Signifikanz eines Wortes soll beachtet werden (S(C,Qi)>t )
Implementierung Baum-Suchalgorithmus mit folgenden gesammeltem Daten: Kandidatenliste (verlinkte Liste mit Prioritäten) alle bisher besuchten Seiten inklusive Eigenschaften in hash-Tabelle als Zähler gespeichert: -Anzahl der besuchten Seiten, -Anzahl der besuchten Seiten, die C entsprechen -Anzahl aller besuchten Links (Start-und Zielseite besucht) -Npp,Nnp,Npn,Nnn : Anzahl der Links Nij (i,j{n,p}) mit i=Start,j=Ziel und p= erfüllt C, n= erfüllt nicht C als arrays gespeichert: -Anzahl aller besuchten Seiten, in denen das Wort i auftritt -Anzahl aller besuchten Seiten, in denen i auftritt und die C genügen -Anzahl aller besuchten URL, in denen das Wort i vorkommt -Anzahl aller besuchten URL, in denen i vorkommt und die C genügen
Implementierung Subroutine KürzeListe(priority-list, max-size); {entferne die letzten Elemente aus der priority-list, sodass nur noch max-size Kandidaten übrig bleiben}; Subroutine NeuberechnungPriorität(priority-list,κ); {Berechne die Priorität für jeden Kandidaten mit Hilfe von κ; ordne die Rangfolge neu, benutze dazu die neu berechneten Prioritäten, sodass der Kandidat mit der höchsten Priorität an erster Stelle steht}; Algorithmus Intelligenter-Crawler (); begin priority-list = {Startpunkte}; while not(terminated) do NeuberechnungPriorität(priority-list, κ); KürzeListe(priority-list, max-size); let w= das erste Element der priority-list; lade die Webseite w; lösche w aus der priority list; parse w und füge alle Links aus w in die priority-list ein; Falls w den Suchanforderungen des Users entspricht, speichere w; date κ mit Hilfe der aus w gewonnenen Informationen up; end
Experimente Überprüfen auf Abhängigkeit von: Suchbegriffen Startpunkten Auswahl der Eigenschaften Ergebnisse dargestellt durch Trefferquote P(C) =>Häufigkeit, dass durchsuchte Seite C entspricht Wiederverwendung von Daten ?
Vergleich mit zufälligem Crawler: Experimente Vergleich mit zufälligem Crawler:
Experimente
Fazit Konzept mit viel Potential: Paper hat einige „Löcher“ Unabhängigkeit der Ergebnisse von Startseite & Suchbegriff Intuitive Suchanfragen möglich Wiederverwendung gesammelter Daten Paper hat einige „Löcher“ Wie wird Gewichtung der einzelnen Faktoren bestimmt? Bei Versuchen meist als Vergleich nur zufälliger Crawler Warum keine Kontext beim textuellen Inhalt? Versuchshergang ungenügend erläutert Relativ wenig praktische Beispiele Blick in die Zukunft?