Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Fallstudie. 2 Statistik April 1996 500 000 Dokumente Jan. 1997 2 Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.

Ähnliche Präsentationen


Präsentation zum Thema: "Fallstudie. 2 Statistik April 1996 500 000 Dokumente Jan. 1997 2 Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines."—  Präsentation transkript:

1 Fallstudie

2 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines used by web surfers.

3 3 Historie 1994 von Studenten an der University of Washington entwickelt Brian Pinkerton erste Volltext-Suchmaschine im Internet 1995 an America Online Inc. verkauft 1996 von Excite, Inc. aquiriert 1997 Channels, neue Features, Facelift

4 4 Design UI / Query-Server Datenbank Suchmaschine Agenten / Library

5 5 UserInterface

6 6 Query-Server verarbeitet Queries –Vektor Space Query Model Queries –Boolesche Operatoren: ANDOR- AND- und NOT-Verknüpfung –Näherungsoperatoren: Phrase-Suche mit relevanter oder mit beliebiger Reihenfolge der eingegebenen Begriffe Suche mit angegebener Anzahl Zwischenwörtern zwischen den Begriffen –Klammersetzung möglich

7 7 Suchmaschine Real-time search mode –Tiefensuche –Query über Index (Datenbank) initiale Liste relevanter Dokumente, gerankt –Folgen unbekannter Links dieser Dokumente neue Dokumente in Liste –Re-Run, bis Zeitlimit oder genug Ergebnisse Liefert Pointer-Liste auf Dokumente, die Wort enthalten

8 8 Suchmaschine Indexing Mode –Breitensuche –neu gefundenes Dokument Eintragen des Servers auf Liste –ein Dokument jedes neues Servers wird untersucht und indexiert –dann sequentielle Suche nach neuen Servern –Idee: Aufbau eines möglichst großen Indexes von möglichst vielen verschiedenen Server

9 9 Datenbank Voll-Text-Index –Vector-Space-Model –Unterteilt in Stream von Wörtern (Titel/Body) –Stoppwörter entfernt Repräsentation des Webs als Graph –Informationen über Dokumente, Server und Links –separat gespeichert in btrees –Link im Dok. ist Pointer auf anderes Dok.

10 10 Agent Suchmaschine: –Findet freien Agenten –"retrieve this URL." Agent benutzt CERN WWW library Antwort: –Objekt mit Dokument-Inhalt –Oder: Erkärung, warum nicht untersucht < 15 Agenten in unabhängigen Prozessen


Herunterladen ppt "Fallstudie. 2 Statistik April 1996 500 000 Dokumente Jan. 1997 2 Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines."

Ähnliche Präsentationen


Google-Anzeigen