Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen

Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Proseminar WS 2001/2002 Intelligentes Suchen in Informationssystemen Ralf Forster Saarbrücken,

Motivation Problem: Lösung? Suchmaschinen Orientierung im Internet
Suche geordneter,themenbezogener oder Schlüsselwörtern entsprechende Dokumentensammlungen (z.B. Seite mit Thema „SPORT“) riesige Datenmenge schwer zu verwalten (1 Mrd. öffentliche Dokumente, jeden Tag 1 Mio. neue) Lösung? Suchmaschinen Fokussiertes Crawling Intelligentes Crawling

Vorteil: selektives Suchen
Motivation Vorteil: selektives Suchen Nachteile: -Abhängigkeit von Hypertext Klassifikatoren -Abhängigkeit vom Startpunkt der Suche

Vorteile: -unabhängig vom Startpunkt der Suche
Motivation Vorteile: -unabhängig vom Startpunkt der Suche -unabhängig von der Art der Suchanfrage -Wiederverwendung gesammelter Daten

Modell/Konzept Reihenfolge der Abarbeitung bestimmt durch Rangliste der Kandidaten Ordnung der Kandidatenliste berechnet mit Hilfe einer Kombination der Interessen ratios von: textueller Inhalt der Elternseiten (Ic(C) ) Ausdrücke in der URL des Kandidaten (Iu(C) ) Linkstrukturen (Il(C) ) Eigenschaften der Geschwisterseiten (Is(C) )

Seiten interessant, wenn Interessen ratio
Modell/Konzept Berechnung der Interessen ratios durch gesammelte statistische Daten Seiten interessant, wenn Interessen ratio der überprüften Eigenschaft > 1 Interessen ratio einer ganze Seite (Wichtigkeitswert): WW = wc* Ic(C) + wu* Iu(C) + wl* Il(C) + ws* Is(C)

Modell/Konzept Beispiele: Eigenschaften der Geschwisterseiten:
Is(C) = s/e (s tatsächliche Anzahl von Geschwisterseiten des Themas „SPORT“ (erfüllen C), e vermutete Anzahl solcher Geschwisterseiten) Beispiel: Eine Seite hat 15 Geschwisterseiten, 9 davon erfüllen C. Es soll gelten: P(C) = 0,1; geschätzte Anzahl der Treffer:1,5 (15*0,1) => Is(C) = 9/1,5 = 6 Textueller Inhalt der Elternseiten: Es gilt: C siehe oben, Qi ist z.B. das Auftreten des Wortes „Fußball“ I(C, Qi) = P(CQi) / (P(Qi) * P(C)) Ic(C) = i:iM , S(C,Qi)>t I(C, Qi) Signifikanz eines Wortes soll beachtet werden (S(C,Qi)>t )

Implementierung Baum-Suchalgorithmus mit folgenden gesammeltem Daten:
Kandidatenliste (verlinkte Liste mit Prioritäten) alle bisher besuchten Seiten inklusive Eigenschaften in hash-Tabelle als Zähler gespeichert: -Anzahl der besuchten Seiten, -Anzahl der besuchten Seiten, die C entsprechen -Anzahl aller besuchten Links (Start-und Zielseite besucht) -Npp,Nnp,Npn,Nnn : Anzahl der Links Nij (i,j{n,p}) mit i=Start,j=Ziel und p= erfüllt C, n= erfüllt nicht C als arrays gespeichert: -Anzahl aller besuchten Seiten, in denen das Wort i auftritt -Anzahl aller besuchten Seiten, in denen i auftritt und die C genügen -Anzahl aller besuchten URL, in denen das Wort i vorkommt -Anzahl aller besuchten URL, in denen i vorkommt und die C genügen

Implementierung Subroutine KürzeListe(priority-list, max-size);
{entferne die letzten Elemente aus der priority-list, sodass nur noch max-size Kandidaten übrig bleiben}; Subroutine NeuberechnungPriorität(priority-list,κ); {Berechne die Priorität für jeden Kandidaten mit Hilfe von κ; ordne die Rangfolge neu, benutze dazu die neu berechneten Prioritäten, sodass der Kandidat mit der höchsten Priorität an erster Stelle steht}; Algorithmus Intelligenter-Crawler (); begin priority-list = {Startpunkte}; while not(terminated) do NeuberechnungPriorität(priority-list, κ); KürzeListe(priority-list, max-size); let w= das erste Element der priority-list; lade die Webseite w; lösche w aus der priority list; parse w und füge alle Links aus w in die priority-list ein; Falls w den Suchanforderungen des Users entspricht, speichere w; date κ mit Hilfe der aus w gewonnenen Informationen up; end

Experimente Überprüfen auf Abhängigkeit von:
Suchbegriffen Startpunkten Auswahl der Eigenschaften Ergebnisse dargestellt durch Trefferquote P(C) =>Häufigkeit, dass durchsuchte Seite C entspricht Wiederverwendung von Daten ?

Vergleich mit zufälligem Crawler:
Experimente Vergleich mit zufälligem Crawler:

Experimente

Fazit Konzept mit viel Potential: Paper hat einige „Löcher“
Unabhängigkeit der Ergebnisse von Startseite & Suchbegriff Intuitive Suchanfragen möglich Wiederverwendung gesammelter Daten Paper hat einige „Löcher“ Wie wird Gewichtung der einzelnen Faktoren bestimmt? Bei Versuchen meist als Vergleich nur zufälliger Crawler Warum keine Kontext beim textuellen Inhalt? Versuchshergang ungenügend erläutert Relativ wenig praktische Beispiele Blick in die Zukunft?

Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen

Ähnliche Präsentationen

Präsentation zum Thema: "Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen

Ähnliche Präsentationen

Präsentation zum Thema: "Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback