Klaus Kopperschmidt 22. Januar 2001 Meta-Suchmaschinen Klaus Kopperschmidt 22. Januar 2001
Vorstellen, Einleitung und Motivation Klassifikation von Suchdiensten Inhalt des Vortrags Vorstellen, Einleitung und Motivation Klassifikation von Suchdiensten Suchmaschinen Überlegungen zur Konzeptionierung Beispiele von Meta-Suchmaschinen Fazit und Ausblick 22. Januar 2001 Meta-Suchmaschinen
Anforderungen an eine Recherche im WWW Die Recherche sollte so vollständig, wie möglich sein. Das Ergebnis sollte eine hohe Qualität haben. Das Ergebnis sollte schnell verfügbar sein. 22. Januar 2001 Meta-Suchmaschinen
Internet Suchdienste Klassifizierung und Beispiele Katalog, Directory Yahoo, Lycos usw. Suchmaschine, Crawler, Spider, Robot Hotbot, Yahoo, Lycos, Google, Altavista, Webcrawler usw. All-in-one-form Meta-Suchmaschine Metacrawler, Highway 61, DogPile 22. Januar 2001 Meta-Suchmaschinen
ca. 27% Abdeckung bei Altavista, May 1999 WWW und Suchmaschinen ca. 27% Abdeckung bei Altavista, May 1999 Quelle: www.searchenginewatch.com Google 600.000.000 Webseiten indiziert und 1.200.000.000 bekannt, Nov. 2000 93.047.785 Domain-Namen im Juli 2000 Quelle: Internet Software Consortium http://www.isc.org/ds/WWW-200007/index.html mehr als 550.000.000.000 Seiten im „Deep Web“ Quelle: Test 8/2000 22. Januar 2001 Meta-Suchmaschinen
Suchmaschinen - Wachstum seit 1995 und aktuelle Größe Quelle: www.searchenginewatch.com Stand: 08. November 2000 22. Januar 2001 Meta-Suchmaschinen
Probleme bei Suchmaschinen Vollständige Netzabdeckung Erreichbarkeit 404-Webseite und Aktualität Bedienung (Syntax) Ungenaue Anfragen Search-Engine-Spamming 22. Januar 2001 Meta-Suchmaschinen
Klassisches Konzept einer Meta-Suchmaschine Die Benutzer stellen Anfragen. Die Benutzer bekommen das Ergebnis präsentiert Die Meta-Suchmaschine formuliert die Anfragen für die verschiedenen Suchmaschinen Excite Google ... Yahoo Die Meta-Suchmaschine verarbeitet die Ergebnisse 22. Januar 2001 Meta-Suchmaschinen
Überlegungen zur Ergebnisbehandlung Direkte Übernahme des Ergebnisses komplett ausschnittsweise Bearbeiten der Ergebnisse entfernen von „dead links“ verschmelzen der Ergebnisse (Ranking-Problem) filtern von identischen Webseiten (Eine Seite wird durch genau einen Link repräsentiert.) 22. Januar 2001 Meta-Suchmaschinen
Identische Webseiten erkennen Bsp.: http://www.cs.washington.edu/homes/speed/home.html http://www.cs.washington.edu/homes/selberg Identische Domain, unterschiedlicher Pfad Überprüfung, ob es sich um ein Standard-Alias handelt. Überprüfung, ob der Titel der Web-Seiten gleich ist. Kompletter Text-Vergleich 22. Januar 2001 Meta-Suchmaschinen
Skalen, Bsp.: Metacrawler 0-100%, Lycos 0-1, OpenText 0- Ranking - Problem Skalen, Bsp.: Metacrawler 0-100%, Lycos 0-1, OpenText 0- Unterschiedl. Bots -> unterschiedl. Indizierung bzw. Gewichtungsalgorith. -> unterschiedl. Ranking Rankings abhängig von Anzahl des vorkommenden Suchbegriffs, Wortabstand, Anzahl der Referenzen Search-Engine-Spamming Quelle: Inquirus 22. Januar 2001 Meta-Suchmaschinen
Weitergehende Überlegungen zur Architektur client-based oder server-based online vs. last-mile-Problem Anfrage-Syntax und update-Problem 22. Januar 2001 Meta-Suchmaschinen
Personal Search Assistants MetaSeek Meta-Suchmaschinen MetaCrawler, MetaGer PrologCrawler Inquirus Personal Search Assistants MetaSeek 22. Januar 2001 Meta-Suchmaschinen
University of Washington in Seattle (Diplomarbeit) MetaCrawler (I) Http://www.metacrawler.com University of Washington in Seattle (Diplomarbeit) Betrieben von Go2net, Inc. (jetzt InfoSpace) C++, Linux und Apache Webserver 10x 2*400 Mhz PentiumII mit 512MB RAM 22. Januar 2001 Meta-Suchmaschinen
MetaCrawler (II) Quelle: „The MetaCrawler Architecture Resource Aggregation on the Web“ by Selberg und Etzioni 22. Januar 2001 Meta-Suchmaschinen
Pentium 200 mit Red Hat Linux 5.0 und Apache Webserver PrologCrawler (I) Pentium 200 mit Red Hat Linux 5.0 und Apache Webserver Sicstus Prolog 3.7.1 + PiLLoW-Library weniger als 500 LOC run(simple(Query,Nres,Ord), ResultsPage) :- s_search(Query,Nres,Results), s_process(Nres,Results,FilteredResults), sort(FilteredResults,Ord,SortedResults), build_html(SortedResults,ResultsPage). 22. Januar 2001 Meta-Suchmaschinen
PrologCrawler (II) Quelle: „A Prolog Meta-Search Engine for the World Wide Web“ von E. Bolognesi und A. Brogi 22. Januar 2001 Meta-Suchmaschinen
Http://www.inquirus.com nur für akademische Testzwecke Perl Inquirus (I) Http://www.inquirus.com nur für akademische Testzwecke Perl Pentium Pro 200 Holt Links von Suchmaschinen und untersucht eigenständig die zurückgelieferten Webseiten auf Relevanz und bewertet sie. 22. Januar 2001 Meta-Suchmaschinen
Inquirus (II) Quelle: „Inquirus, the NECI meta search engine“ von S. Lawrence und C.L. Giles 22. Januar 2001 Meta-Suchmaschinen
Personal Search Assistant (I) Gibt es jede Menge z.Bsp.: PSA, WebFerret, WebShades, Unified Financial Assistant usw. Benutzer-Profile Lokal im Hintergrund Meist Browserunabhängig 22. Januar 2001 Meta-Suchmaschinen
Personal Search Assistant (II) Quelle: „Personal Search Assistant: A Configurable Personal Meta Search Engine“ von P.R. Kaushik und K.N. Murthy 22. Januar 2001 Meta-Suchmaschinen
Abschliessender Vergleich 22. Januar 2001 Meta-Suchmaschinen
Neue Jobs: Information-Broker usw. Fazit 550.000.000.000 Webseiten Weiteres exponentielles Wachstum bei geringerem Wachstum der Suchmaschinen-Indices Meta-Suchmaschinen sind kein Allheilmittel, da sie auf Suchmaschinen bauen. Neue Jobs: Information-Broker usw. 22. Januar 2001 Meta-Suchmaschinen