Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen Proseminar WS 2001/2002 Intelligentes Suchen in Informationssystemen Ralf Forster Saarbrücken,11.12.2001.

Ähnliche Präsentationen


Präsentation zum Thema: "Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen Proseminar WS 2001/2002 Intelligentes Suchen in Informationssystemen Ralf Forster Saarbrücken,11.12.2001."—  Präsentation transkript:

1 Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen Proseminar WS 2001/2002 Intelligentes Suchen in Informationssystemen Ralf Forster Saarbrücken,

2 Motivation Problem : –Orientierung im Internet –Suche geordneter,themenbezogener oder Schlüsselwörtern entsprechende Dokumentensammlungen (z.B. Seite mit Thema SPORT) –riesige Datenmenge schwer zu verwalten (1 Mrd. öffentliche Dokumente, jeden Tag 1 Mio. neue) Lösung? –Suchmaschinen –Fokussiertes Crawling –Intelligentes Crawling

3 Vorteil: selektives Suchen Nachteile: -Abhängigkeit von Hypertext Klassifikatoren -Abhängigkeit vom Startpunkt der Suche Motivation

4 Vorteile : -unabhängig vom Startpunkt der Suche -unabhängig von der Art der Suchanfrage -Wiederverwendung gesammelter Daten Motivation

5 Modell/Konzept –textueller Inhalt der Elternseiten (I c (C) ) –Ausdrücke in der URL des Kandidaten (I u (C) ) –Linkstrukturen (I l (C) ) –Eigenschaften der Geschwisterseiten (I s (C) ) Reihenfolge der Abarbeitung bestimmt durch Rangliste der Kandidaten Ordnung der Kandidatenliste berechnet mit Hilfe einer Kombination der Interessen ratios von:

6 Berechnung der Interessen ratios durch gesammelte statistische Daten Seiten interessant, wenn Interessen ratio der überprüften Eigenschaft > 1 Interessen ratio einer ganze Seite (Wichtigkeitswert): WW = w c * I c (C) + w u * I u (C) + w l * I l (C) + w s * I s (C) Modell/Konzept

7 Beispiele: Eigenschaften der Geschwisterseiten: -I s (C) = s/e (s tatsächliche Anzahl von Geschwisterseiten des Themas SPORT (erfüllen C), e vermutete Anzahl solcher Geschwisterseiten) Beispiel: Eine Seite hat 15 Geschwisterseiten, 9 davon erfüllen C. Es soll gelten: P(C) = 0,1; geschätzte Anzahl der Treffer:1,5 (15*0,1) => I s (C) = 9/1,5 = 6 Textueller Inhalt der Elternseiten: -Es gilt: C siehe oben, Q i ist z.B. das Auftreten des Wortes Fußball -I(C, Q i ) = P(C Q i ) / (P(Q i ) * P(C)) -I c (C) = i:i M, S(C,Qi)>t I(C, Q i ) -Signifikanz eines Wortes soll beachtet werden (S(C,Qi)>t ) Modell/Konzept

8 Implementierung Baum-Suchalgorithmus mit folgenden gesammeltem Daten: –Kandidatenliste (verlinkte Liste mit Prioritäten) –alle bisher besuchten Seiten inklusive Eigenschaften in hash-Tabelle –als Zähler gespeichert: -Anzahl der besuchten Seiten, -Anzahl der besuchten Seiten, die C entsprechen -Anzahl aller besuchten Links (Start-und Zielseite besucht) -N pp,N np, N pn,N nn : Anzahl der Links N ij (i,j {n,p}) mit i=Start,j=Ziel und p= erfüllt C, n= erfüllt nicht C –als arrays gespeichert: -Anzahl aller besuchten Seiten, in denen das Wort i auftritt -Anzahl aller besuchten Seiten, in denen i auftritt und die C genügen -Anzahl aller besuchten URL, in denen das Wort i vorkommt -Anzahl aller besuchten URL, in denen i vorkommt und die C genügen

9 Subroutine KürzeListe(priority-list, max-size); {entferne die letzten Elemente aus der priority-list, sodass nur noch max-size Kandidaten übrig bleiben}; Subroutine NeuberechnungPriorität(priority-list, κ ); {Berechne die Priorität für jeden Kandidaten mit Hilfe von κ; ordne die Rangfolge neu, benutze dazu die neu berechneten Prioritäten, sodass der Kandidat mit der höchsten Priorität an erster Stelle steht}; Algorithmus Intelligenter-Crawler (); begin priority-list = {Startpunkte}; while not(terminated) do NeuberechnungPriorität(priority-list, κ); KürzeListe(priority-list, max-size); let w= das erste Element der priority-list; lade die Webseite w; lösche w aus der priority list; parse w und füge alle Links aus w in die priority-list ein; Falls w den Suchanforderungen des Users entspricht, speichere w; date κ mit Hilfe der aus w gewonnenen Informationen up; end Implementierung

10 Experimente Überprüfen auf Abhängigkeit von: –Suchbegriffen –Startpunkten –Auswahl der Eigenschaften Ergebnisse dargestellt durch Trefferquote P(C) =>Häufigkeit, dass durchsuchte Seite C entspricht Wiederverwendung von Daten ?

11 Vergleich mit zufälligem Crawler: Experimente

12

13 Fazit Konzept mit viel Potential: –Unabhängigkeit der Ergebnisse von Startseite & Suchbegriff –Intuitive Suchanfragen möglich –Wiederverwendung gesammelter Daten Paper hat einige Löcher –Wie wird Gewichtung der einzelnen Faktoren bestimmt? –Bei Versuchen meist als Vergleich nur zufälliger Crawler –Warum keine Kontext beim textuellen Inhalt? –Versuchshergang ungenügend erläutert –Relativ wenig praktische Beispiele –Blick in die Zukunft?


Herunterladen ppt "Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen Proseminar WS 2001/2002 Intelligentes Suchen in Informationssystemen Ralf Forster Saarbrücken,11.12.2001."

Ähnliche Präsentationen


Google-Anzeigen