Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Internet Suchmaschinen basiert auf: Arasu Arvind et. al., Searching the Web, 2000 S. Brin, L. Page, The.

Ähnliche Präsentationen


Präsentation zum Thema: "Internet Suchmaschinen basiert auf: Arasu Arvind et. al., Searching the Web, 2000 S. Brin, L. Page, The."—  Präsentation transkript:

1 Internet Suchmaschinen basiert auf: Arasu Arvind et. al., Searching the Web, 2000 http://www-db.stanford.edu/~backrub/google.html S. Brin, L. Page, The Anatomy of Large-Scale Hypertextual Web Search Engine, 1998 http://www-db.stanford.edu/~rsram/pubs.html Ref. Paula Barros Linguistische Methoden bei Internet-Suchmaschinen

2 1 W W W über eine Billion Seiten sind verfügbar; der Inhalt des Webs hat sich innerhalb von 2 Jahren verdoppelt [Giles, 1999]; ältere Seiten werden regelmäßig erneut: 23% von eine halbe Million wird täglich geändert; 40% von.com Seiten werden täglich erneut; Halbwertszeit von Seite beträgt 10 Tage; Schleife Effekt [Broder et. al., 2000]: 28% der Seiten bilden einen starken verbundenen Kern; 22% der Seiten representieren eine Windung (kann vom Kern erreicht werden, aber nicht umgekert); 22% der Seiten representieren die andere Windung (erreicht den Kern).

3 General Search Engine Architecture 1 1 Aus: Arvind Arasu et. al., Searching the Web

4 2 Crawler Module Programm, das das Web nach einer Menge vorher gegebenen URLs sucht da es nicht möglich ist, alle Seiten des Webs herunterzuladen, sollte es: Seiten selektieren: die besten Seiten zuerst auswählen; Seiten wieder besuchen: welche Seiten werden am ehesten nochmals besucht; Seiten Duplikation vermeiden: das crawling Prozess optimizieren in dem die verschiedenen Crawlers nicht die gleiche Seite besuchen; In dieser Arbeit werden die erste zwei Punkte analysiert.

5 2 Crawler Modelle Crawl & Stop Dieses Modell sollte einen bestimmten Anzahl K von Seiten besuchen (die, die es herunterladen kann); Es soll die sog. hot Pages besuchen, die später nach einem Seiten Rang (R 1,...R k ) bewertet werden; (R 1 : höchste Rang; R k niedrigste Rang); Crawl & Stop with Treshold Wieder besucht der Crawler ein Anzahl K von seiten. Diesmal aber gibt es einen Wichtigkeitswert G, der informiert ab wann eine Seite eine hot Page ist. In diesem Fall sind 'hot Pages' diejenigen, deren Wichtigkeitswert gleich oder höher als G ist.

6 2 Seiten selektieren Interesse: IS(P) (wichtige Seiten, sind diejenigen die die Interessen des Benutzers wiedergeben) vorausgesetzt, dass die Abfrage diese Interessen wiedergibt: wird die Similarität zwischen Abfrage und Dokument festgestellt: wie oft das Wort im Dokument vorkommt; wie 'selten' das Wort im Web vorkommt: idf (inverse document index) wenn noch nicht alle Seiten vorhanden sind, wird diesen Wert aus den vorhandenen Seiten geschätz: IS'(P). Importance Metrics (Es gibt drei 'Wichtigkeitsparameter' um Seiten aus dem Web zu selektieren. Diese Parameter können auch kombiniert werden, um bessere Resultate zu erreichen. )

7 2 Seiten selektieren (Forts.) Lokal: IL(P) (wichtige Seiten, sind diejenigen die sich auf einen bestimmten Lokal finden) z. B. Seiten.com oder diejenigen die home als String haben, können nützlicher sein als andere; Diese Formel zeigt eine Kombination von Wichtigkeitsparametern: IC(P)= K 1 *IS(P)+K 2 *IB(P)+K 3 *IL(P) Popularität:IB(P) (wichtige Seiten, sind diejenigen die in vielen anderen Seiten zitiert werden) z. B. indem man die Links aus dem ganzen Web zählt, die zu einer gegebenen Seite führen;

8 2 Seiten wieder besuchen Wie werden Seiten renoviert? Uniform refresh policy: alle Seiten werden gleichermassen wieder besucht (egal wie oft sie verändert werden). Proportional refresh policy: die Seiten, die häufiger aktualisiert werden, sind diejenigen die am häufigsten besucht werden. ' Frische ' Am neusten sind die heruntergeladenen Seiten einer Sammlung, wenn sie in einem bestimmten Zeitpunkt gleich sind zu ihrem Original im Netz. ' Alter ' Älter werden die Seiten einer Sammlung gesehen, die noch nicht aktualisiert worden sind.

9 3 Speichern - Page Repository Skalierbarkeit (es muss möglich sein das Speichern in mehrere Computer und Festplatten zu verteilen) ; dualer Zugriff: Random Access (eine Seite schnell holen; damit die Abfrage Maschine die vorhandenen Kopien für den Benutzer holt) ; Streaming Access (damit der Indexer ein Teil oder das ganze Menge der Seiten holen kann) ; Umfangreiche Updates (der Raum muss neu organisiert, und komprimiert werden um neueren Versionen von Seiten aus dem Netz zu speichern) ; tote Seiten (sollte einen Mechanismus haben um diese Seiten zu entfernen).

10 3 Page Repository Die Verteilung der Seiten in Knoten kann durch verschiedene Methoden gemacht werden, z. B.: Uniform Distribution Policy (die Knoten bekommen irgendeine Seite zugeteilt) ; Hash Distribution (Die Allokation von Seiten zu Knoten hängt von dem Seiten ID ab) ; interne Organization: Hash (eine Festplatte (oder mehrere) werden in 'hash buckets' nach den Seiten IDs geteilt) ; Log (die Festplatte wird als ein einziges Archiv gesehen, wo die neue Seiten hingefügt werden) ; Log-Hash (die Speicherung erfolgt auf grosse Flächen. Die Seiten werden nach ihren ID darin geordnet, und jede Fläche ist in Form eines Logs (Archiv) organisiert) ;

11 3 Page Repository Aktualizationsstrategien: Inplace-update (die neue Versionen werden sofort integriert, wobei die alte Seiten möglicherweise durch die neuere Versionen ersetzt werden) ; shadowing (die neuere Versionen werden getrennt von der Sammlung gespeichert. Die Aktualizierung der Seite erfolgt später) ;

12 Link Indexierung åwird wie einen Graph modelliert; åmuss erweitbar sein; åbesteht aus 'Nachbarschaft' Information: die Menge der Seiten, die Seite P zeigt (outward links); die Menge der Seiten, die auf Seite P hinweist (incomming links). 4 Indexierung

13 Text Indexierung åist notwendig um Textsuche zu unterstützen; åVerschiedene Typen, z. B.: die sog. 'inverted lists' (sortierten Listen mit dem Lokal 1, wo die Wörter sich in der Sammlung befinden; åLexikon: Liste mit allen Wörtern, und einige statistische Informationen (z. B.: Anzahl der Seiten, wo das Wort vorkommt); 1 Lokal beinhaltet mindestens ein SeitenID und die Position des Wortes

14 4 Indexierung Aus: Arvind Arasu et. al., Searching the Web

15 5 Ranking und Link Analyse Links können: eine Art von 'Empfehlung'von einer bestimmeten Seite entsprechen; auch für eine 'Keyword' Suche/Abfrage verwendet werden; dazu helfen eine Hierarchie zu bilden, wie sie in 'Yahoo' vorkommt. zwei Strategien die sich auf Link Analyse basieren: PageRank HITS

16 PageRank Ist ein Vorstellung der Wichtigkeit einer Seite (die Anzahl von Seiten die auf eine bestimmnte Seite hinaufweisen) Es enspricht: IB(P) die Qualität der Zitierungen es ist Rekursiv, denn die Wichtigkeit einer Seite hängt ab von anderen Seiten und beeiflusst sie. 'a model of user behaviour' [Brin, Page, 1998]: es 'springt' von Link zu Link ohne zurückzukommen; auf einen gegeben Punkt, gibt es diese Suche einfach auf und beginnt eine neue willkürliche Suche (oder auch nicht!)

17 HITS (Hipertext Induced Topic Search) Das ist eine Rangstrategie, die von der Abfrage abhängt. Sie produziert zwei Rangmethoden: 'authority score': sind die wichtigsten Seiten 'hub score': sind die Seiten die auf mehrere wichtige Seiten hinweisen

18 6 Search 1 Parse the query. 2 Convert words into wordIDs. 3 Seek to the start of the doclist in the short barrel for every word. 4 Scan through the doclists until there is a document that matches all the search terms. 5 Compute the rank of that document for the query. 6 If we are in the short barrels and at the end of any doclist, seek to the start of the doclist in the full barrel for every word and go to step 4. 7 If we are not at the end of any doclist go to step 4. 8 Sort the documents that have matched by rank and return the top k. Figure 4. Google Query Evaluation Aus: S. Brin, L. Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine

19 Einige Suchmachinen www.google.com (hat auch Startseiten auf andere Sprachen, u. a. Deutsch) www.altavista.com (hat auch Startseiten auf andere Sprachen, u. a. Deutsch) www.alltheweb.com (hat auch Startseiten auf andere Sprachen, u. a. Deutsch) www.northernlight.com www.yahoo.com (hier kann man die Startseite personalisieren) www.excite.com www.lycos.com


Herunterladen ppt "Internet Suchmaschinen basiert auf: Arasu Arvind et. al., Searching the Web, 2000 S. Brin, L. Page, The."

Ähnliche Präsentationen


Google-Anzeigen