Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Dedrich Xanders Geändert vor über 10 Jahren
1
Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft
2
Informationswissenschaft Uni Düsseldorf Eine der führenden Ausbildungsstätten im Bereich Informationswissenschaft. Einzigartiger Studiengang Informationswissenschaft und Sprachtechnologie (B.A./M.A.) –Elemente aus Informationswissenschaft, Sprachwissenschaft, Informatik –Praktika im Verlauf des Studiums Forschung der Abteilung Informationswissenschaft u.a.: –Web Information Retrieval –Suchmaschinen-Marketing
3
Ziel des Vortrags Darstellung der Qualität von Suchmaschinen aus neutraler Sicht. Kurzer Überblick über aktuelle Forschungsergebnisse.
4
Inhalt 1.Qualität der Treffer 2.Qualität der Datenbestände 3.Qualität der Suchfunktionen 4.Fazit
5
1 Qualität der Treffer
6
Retrievaltests Qualität von Suchmaschinen wird anhand von Testanfragen gemessen. Errechnet wird die erreichte Präzision = Anteil der relevanten Treffer bis zu einem bestimmten Cut-Off-Wert. Beispiel: –50 zufällig ausgewählte Suchanfragen –berücksichtigt werden die ersten 20 Treffer –Jeder Treffer wird bewertet: für die Suchanfrage passend oder nicht?
7
Quelle: Griesbaum 2004
9
Retrievaltests: Ergebnisse Alle Suchmaschinen schneiden schlecht ab: Präzision <0,6. D.h. nur max. 6 von 10 Treffern sind relevant. Andersherum: Mindestens 4 von 10 Treffern sind irrelevant. Die Suchmaschinen liegen nahe beieinander; Bestätigung durch Kurztests und eigene Erfahrungen. Testberichte in Publikumszeitschriften genügen i.d.R. nicht den Ansprüchen an Retrievaltests.
10
2 Qualität der Datenbestände
11
Abdeckung des deutschen Web Größe des deutschen Web ca. 4 Mio. Domains mit ca. 320 Mio. Seiten. Abdeckung durch Suchmaschinen zwischen <50 Prozent und etwa 60 Prozent. Bessere Abdeckung als in vergleichbaren älteren Studien; Tendenz aber ähnlich. Quelle: Pothe 2004
12
Country Bias Seiten aus unterschiedlichen Ländern werden unterschiedlich häufig und unterschiedlich tief indexiert. US-Sites werden zu >80 Prozent indexiert; andere teils nur zwischen 40-60 Prozent. Tiefe der Indexierung: US-Sites ca. 90 Prozent; andere teils <50 Prozent. Vergleichende Untersuchungen für deutschsprachige Sites liegt noch nicht vor. Quelle: Vaughan u. Thelwall 2004
13
Index-Aktualität Aktualität schwankt erheblich. Keine Komplettaktualisierung alle 30 Tage! Aktuellster Index: Google, MSN, Yahoo. Oft keine klaren Intervalle erkennbar. Quelle: Informationswissenschaft Uni Düsseldorf, laufende Untersuchung
14
3 Qualität der Suchfunktionen
15
Suchfunktionen Umfang der Suchmöglichkeiten variiert erheblich. Alle großen Suchmaschinen bieten gewisse Kernfunktionen, z.B.: –Beschränkung auf Titel –Sprachauswahl –Datumsbeschränkung –Dateiformate Es hat sich bisher keine einheitliche Abfragesprache herausgebildet. Quelle: Lewandowski 2004a
16
Recherchefunktion: Datumsbeschränkung Suchmaschinen können nur schwer erkennen, wie aktuell eine Seite ist. Die Funktion Datumsbeschränkung ordnet nur 4-6 von zehn Dokumente richtig zu. Am besten schneidet hier Google ab, danach Yahoo. Datumsbeschränkung bei Teoma / Ask Jeeves lohnt sich nicht. Quelle: Lewandowski 2004b
17
Quelle: Lewandowski 2004
18
Fazit
19
Suchmaschinen sind (noch) nicht perfekt. Suchmaschinen erfassen oft nur einen Teil von Websites. Textanzeigen haben weiterhin Bedeutung, auch wenn die Homepage gut gerankt ist. Für kurzfristige Kampagnen sollte man sich nicht auf die Indexierung durch Suchmaschinen verlassen.
20
Vielen Dank. www.durchdenken.de/lewandowski dirk.lewandowski@uni-duesseldorf.de
21
Quellen Griesbaum, J. (2004): Evaluation of three German search engines: Altavista.de, Google.de and Lycos.de. Information Research 9(4) paper 189. http://informationr.net/ir/9-4/paper189.html Lewandowski, D. (2004a): Abfragesprachen und erweiterte Funktionen von WWW-Suchmaschinen. IWP - Information: Wissenschaft und Praxis 55(2), 97- 102 (2004). http://www.durchdenken.de/lewandowski/doc/suchmaschinen- funktionen.phphttp://www.durchdenken.de/lewandowski/doc/suchmaschinen- funktionen.php Lewandowski, D. (2004b): Date-restricted queries in web search engines. Online Information Review 28(2004)6, 420-427. http://www.durchdenken.de/lewandowski/doc/oir2004.php Vaughan, L.; Thelwall, M. (2004): Search Engine Coverage Bias: Evidence and Possible Causes. In: Information Processing & Management, 40(4), 693-707 Pothe, A. (2004): Nachgezählt: Wie groß ist das WWW? ct 26/2004, 164-165
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.