Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen

Slides:



Advertisements
Ähnliche Präsentationen
Punkt-in-Polygon-Verfahren III (R/R+-Baum)
Advertisements

Chancen im Netz sinnvoll nutzen!!!!
Kohonennetze für Information Retrieval mit User Feedback
Eine dynamische Menge, die diese Operationen unterstützt,
Christian Schindelhauer
Claudio Moraga; Gisbert Dittrich
Synonyme: Stapel, Keller, LIFO-Liste usw.
Übung 6.6Schranken 1.Angenommen, Ihr Algorithmus habe einen Aufwand von g(n) = 5n 3 + n für alle n a)Geben sie eine obere Schranke O(g(n)) an. b)Beweisen.
Verwendung der Funktion Suchverlauf
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Suchen und Finden von WWW-Dokumenten Internet-Tutorium WS 99/00 Plenum am :
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
Der R-Baum Richard Göbel.
Effizienz: Indexstrukturen
Suchmaschine vs. Katalog Such-Robots i.d.R. werden alle Seiten erfasst täglich werden mehrere Mio. Seiten besucht Redaktion relativ wenig Seiten erfasst.
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.
Algorithmen und Datenstrukturen
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Vorlesung 2 SWS WS 99/00 Gisbert Dittrich FBI Unido
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Kapitel 11 Claudio Moraga, Gisbert Dittrich FBI Unido
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Vorlesung 2 SWS WS 99/00 Gisbert Dittrich FBI Unido
Sebastian Grahn Sebastian Kühn
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
Wie funktionieren Suchmaschinen?
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
MeiNetz-Suche Wie kann man in meiNetz etwas suchen? 1.durch Gruppen browsen 2.Suchfunktion.
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Informationen finden und beurteilen
Machine Learning Decision Trees (2).
Seniorkom.at vernetzt Jung & Alt Das Internet ist reif
Automatische Übersetzungen mit Google
Zur Arbeit mit Suchmaschinen
W w w. s a f e r i n t e r n e t. a t Die Welt zu Hause Informationen suchen und finden.
Suchmaschinen am Theo Groß und Bernhard Meyer.
6 Mit dem Internet Explorer im WWW arbeiten
EXCEL PROFESSIONAL KURS
Suchen im Internet Eine Einführung. Suchen im Internet Wer bietet Informationen an? è Privatpersonen è Kommerzielle Organisationen, Firmen è Universitäten,
Computational Thinking Suchen und Sortieren [Ordnung muss sein…]
Splay Trees Von Projdakov Benjamin.
Sortieralgorithmen Sortieren von Arrays.
Diskrete Mathematik II
Effiziente Algorithmen
Effiziente Algorithmen
Hartmut Klauck Universität Frankfurt SS
K-SAT: Ein heuristischer Algorithmen- Vergleich Kann man den Brute Force Search Algorithmus schlagen?
Postgres Tsearch2 und Indexe. Basics Dokumente = alle Textattribute, Kombinationen von Textattributen über mehrere Tabellen Native Textsearch Operatoren:
Task Based Testing der Internet Suchmaschine Kartoo Startseite bei JEDER Frage:
Suchmaschinen.
Information Retrieval, Vektorraummodell
Stoppen der Eingabeaufforderung einer Abfrage j drücken Sie dann F5, oder klicken Sie auf Bildschirmpräsentation > Von Beginn an, um den Kurs zu starten.
Erheben, berechnen und darstellen von Daten
Das Interenet als Recherchemedium nutzen!
26. Oktober 2005Autor: Walter Leuenberger Computeria Urdorf Treff vom 26. Oktober 2005 Suchmaschinen im Internet Google & Co.
1 6.4 Verwaltung semistrukturierter Daten - was ist das? Datenverwaltung für XML-Dokumente - Daten in XML-Gewand - eigentlich XML-Dokumente - Abbildung.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung Datenstrukturen für den Algorithmus von.
Arten von Suchwerkzeugen
Algorithmen und Datenstrukturen Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Stefan Werner (Übungen) sowie viele Tutoren.
Binärbäume.
Algorithmen und Datenstrukturen Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Stefan Werner (Übungen) sowie viele Tutoren.
Programmiersprachen II Fortsetzung Datenstrukturen Hashing Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Googelnde Wikipedianer
Anpassen Ihrer Microsoft SharePoint Onlinewebsite
Einführung: Statistische Verfahren der automatischen Indexierung
 Präsentation transkript:

Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen Proseminar WS 2001/2002 Intelligentes Suchen in Informationssystemen Ralf Forster Saarbrücken, 11.12.2001

Motivation Problem: Lösung? Suchmaschinen Orientierung im Internet Suche geordneter,themenbezogener oder Schlüsselwörtern entsprechende Dokumentensammlungen (z.B. Seite mit Thema „SPORT“) riesige Datenmenge schwer zu verwalten (1 Mrd. öffentliche Dokumente, jeden Tag 1 Mio. neue) Lösung? Suchmaschinen Fokussiertes Crawling Intelligentes Crawling

Vorteil: selektives Suchen Motivation Vorteil: selektives Suchen Nachteile: -Abhängigkeit von Hypertext Klassifikatoren -Abhängigkeit vom Startpunkt der Suche

Vorteile: -unabhängig vom Startpunkt der Suche Motivation Vorteile: -unabhängig vom Startpunkt der Suche -unabhängig von der Art der Suchanfrage -Wiederverwendung gesammelter Daten

Modell/Konzept Reihenfolge der Abarbeitung bestimmt durch Rangliste der Kandidaten Ordnung der Kandidatenliste berechnet mit Hilfe einer Kombination der Interessen ratios von: textueller Inhalt der Elternseiten (Ic(C) ) Ausdrücke in der URL des Kandidaten (Iu(C) ) Linkstrukturen (Il(C) ) Eigenschaften der Geschwisterseiten (Is(C) )

Seiten interessant, wenn Interessen ratio Modell/Konzept Berechnung der Interessen ratios durch gesammelte statistische Daten Seiten interessant, wenn Interessen ratio der überprüften Eigenschaft > 1 Interessen ratio einer ganze Seite (Wichtigkeitswert): WW = wc* Ic(C) + wu* Iu(C) + wl* Il(C) + ws* Is(C)

Modell/Konzept Beispiele: Eigenschaften der Geschwisterseiten: Is(C) = s/e (s tatsächliche Anzahl von Geschwisterseiten des Themas „SPORT“ (erfüllen C), e vermutete Anzahl solcher Geschwisterseiten) Beispiel: Eine Seite hat 15 Geschwisterseiten, 9 davon erfüllen C. Es soll gelten: P(C) = 0,1; geschätzte Anzahl der Treffer:1,5 (15*0,1) => Is(C) = 9/1,5 = 6 Textueller Inhalt der Elternseiten: Es gilt: C siehe oben, Qi ist z.B. das Auftreten des Wortes „Fußball“ I(C, Qi) = P(CQi) / (P(Qi) * P(C)) Ic(C) = i:iM , S(C,Qi)>t I(C, Qi) Signifikanz eines Wortes soll beachtet werden (S(C,Qi)>t )

Implementierung Baum-Suchalgorithmus mit folgenden gesammeltem Daten: Kandidatenliste (verlinkte Liste mit Prioritäten) alle bisher besuchten Seiten inklusive Eigenschaften in hash-Tabelle als Zähler gespeichert: -Anzahl der besuchten Seiten, -Anzahl der besuchten Seiten, die C entsprechen -Anzahl aller besuchten Links (Start-und Zielseite besucht) -Npp,Nnp,Npn,Nnn : Anzahl der Links Nij (i,j{n,p}) mit i=Start,j=Ziel und p= erfüllt C, n= erfüllt nicht C als arrays gespeichert: -Anzahl aller besuchten Seiten, in denen das Wort i auftritt -Anzahl aller besuchten Seiten, in denen i auftritt und die C genügen -Anzahl aller besuchten URL, in denen das Wort i vorkommt -Anzahl aller besuchten URL, in denen i vorkommt und die C genügen

Implementierung Subroutine KürzeListe(priority-list, max-size); {entferne die letzten Elemente aus der priority-list, sodass nur noch max-size Kandidaten übrig bleiben}; Subroutine NeuberechnungPriorität(priority-list,κ); {Berechne die Priorität für jeden Kandidaten mit Hilfe von κ; ordne die Rangfolge neu, benutze dazu die neu berechneten Prioritäten, sodass der Kandidat mit der höchsten Priorität an erster Stelle steht}; Algorithmus Intelligenter-Crawler (); begin priority-list = {Startpunkte}; while not(terminated) do NeuberechnungPriorität(priority-list, κ); KürzeListe(priority-list, max-size); let w= das erste Element der priority-list; lade die Webseite w; lösche w aus der priority list; parse w und füge alle Links aus w in die priority-list ein; Falls w den Suchanforderungen des Users entspricht, speichere w; date κ mit Hilfe der aus w gewonnenen Informationen up; end

Experimente Überprüfen auf Abhängigkeit von: Suchbegriffen Startpunkten Auswahl der Eigenschaften Ergebnisse dargestellt durch Trefferquote P(C) =>Häufigkeit, dass durchsuchte Seite C entspricht Wiederverwendung von Daten ?

Vergleich mit zufälligem Crawler: Experimente Vergleich mit zufälligem Crawler:

Experimente

Fazit Konzept mit viel Potential: Paper hat einige „Löcher“ Unabhängigkeit der Ergebnisse von Startseite & Suchbegriff Intuitive Suchanfragen möglich Wiederverwendung gesammelter Daten Paper hat einige „Löcher“ Wie wird Gewichtung der einzelnen Faktoren bestimmt? Bei Versuchen meist als Vergleich nur zufälliger Crawler Warum keine Kontext beim textuellen Inhalt? Versuchshergang ungenügend erläutert Relativ wenig praktische Beispiele Blick in die Zukunft?