Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Von Martin Wisotzky Henry Kadow

Ähnliche Präsentationen


Präsentation zum Thema: "Von Martin Wisotzky Henry Kadow"—  Präsentation transkript:

1 Von Martin Wisotzky Henry Kadow
Metasuchmaschinen Von Martin Wisotzky Henry Kadow

2 Inhalt Webverzeichnisse & Suchmaschinen Würmer, Spinnen und Kriecher
Warum Metasuchmaschinen ? Architekturen Vor und Nachteile Kriterien Ranking Alternativen & Weiterentwicklungen

3 Webverzeichnisse & Suchmaschinen I
Datenerfassung Vorschlag in jeweiliger Kategorie über Formular, Gesamteindruck ist entscheidend automatisch, per Spider, Robot, Crawler oder Anmeldung über Formular Datenmenge Nur Startseite Alle Seiten: Titel, Metatags, erste Zeilen Aufbau des Index Ordnungsystem mit Kategorien und Unterkategorien aus Nutzersicht unstrukturiert Eintrag Umfangreichere Angaben erforderlich URL und evtl. Adresse genügt Meta-Tags, techn. Seitengestaltung keine Bedeutung keywords und description, nur bedingt. Wichtig: Titel-Tag

4 Webverzeichnisse & Suchmaschinen II
Ranking Unabhängig vom Nutzer Vorgabe durch Suchmaschine. Mit der Seitengestaltung teilweise beeinflussbar Suche allg. Begriffe gut zu finden, überschaubare Ergebnismenge schwierig einzugrenzen, große Treffermenge Suche spez. Begriffe nicht zu finden, da in der Regel nicht erfasst gut zu finden, evtl. Treffer weiter einschränken Aktualisierung selten, Überprüfung in größeren Abständen durch Redakteur regelmäßig, automatisch Abstände variieren nach Suchmaschine In der Praxis hat sich schon seit längerer Zeit eine sinnvolle Zusammenarbeit von Webverzeichnis und Suchmaschine durchgesetzt.

5 Würmer, Spinnen und Kriecher - Meta-Tags -
Anmeldung von Html-Seiten Schnittstelle zur Datenbank Url wird nach Filtern (Spam, gesperrt etc.) aufgenommen 4.-7. Robots machen Anfrage an Hyperlinks angemeldeter Seiten und sammeln Daten (Schutz durch robots.txt) Indizierung wertet Daten aus (Volltext, Verschlagwortung (Meta-Tags), Wort-Statistiken, Bild & Video) Verwaltung und Aufbereitung Einfache Abfrage (und, oder), Profisuche (Boolsche Operatoren) Rankingskriterien Ausgabe

6 Würmer, Spinnen und Kriecher - Meta-Tags - II
Anweisungen über Meta-Tags: Description (250 Zeichen) und Keywords (1000 Zeichen) Enthalten zusätzlich: Autor, Erstellungsdatum, Thema... Erweiterte Tags: Dublin Core Schema (kaum umgesetzt) 20 % nutzen Meta-Tags (einige zu betrügerischen Zwecken) Problem: nur etwa 10% enthalten "irgendwie brauchbare" Metadaten. Für praktische Nutzung durch Internet-Suchmaschinen derzeit keine Basis.

7 Warum Metasuchmaschinen ?
NEC Forschungsinstitut: Suchdienste greifen auf die 800 Millionen Webseiten nur unzureichend zu. (Princeton-Studie 1998) Bildet man die Vereinigung aller 11 Suchmaschinen kommt man auf 42%. Verzerrung bei normalen Suchmaschinen (US) Meta-Suchmaschinen (Suchmaschinen, welche die Suchmaschinen absuchen) Bsp. MetaGer Suchmaschine % Web Northern Light 16,0 AltaVista 15,5 Snap HotBot 11,3 Microsoft 8,5 InfoSeek 8,0 Google 7,8 Yahoo* 7,4 Excite 5,6 Lycos 2,5 Euroseek 2,2

8 Architekturen Ideal MetaGer

9 Vor- und Nachteile Vorteile:
Breiteres Spektrum: Befragung von Suchmaschinen, Webverzeichnissen und dynamischen Webangeboten (Enzyklopädien, Wörterbücher, Newsgroups)

10 Vor- und Nachteile Nachteile:
Ungenau: meist nur Titel und Beschreibung (Zeitgründe) Oft „getürkte“ Ergebnisse, da viele Suchmaschinen für gute Rankings bezahlen lassen

11 Kriterien Parallele Suche (keine all-in-one Forms) Ergebnis-Merging
Zeitgleiche Abfrage und Verarbeitung Ergebnis-Merging Ergebnisse in einheitlichem Design Doubletten-Erkennung Eliminierung mehrfacher Suchergebnisse Übernahme Kurzbeschreibung Mehr Informationen aus angeschlossenen Suchmaschinen mindestens AND und OR Operatoren Beide logischen Operationen möglich (weitere: near, not) Searchengine hiding Filterung spezifischer Merkmale Möglichkeit vollständige Suche

12 Kriterien II Metasearch-engine parallel merge Nodouble AndOr desc hide
complete Metasearch.com No - Digiway.com/digisearch Yes Search.Onramp.net Profusion.com Search.cyber411.com Search.metafind.com Partly Infind.com Dogpile.com Mamma.com Savvysearch.com Metacrawler.com mesa.rrzn.uni-hannover.de meta.rrzn.uni-hannover.de Highway61.com

13 Ranking ideal: KOMBINATION Meta-Algorithmen mit Metadaten
real: derzeit keine verwertbare Basis für Metadaten Weg derzeit: Wortanalysen aus Dokument-Teilen (MetaGer) Wortanzahl im Titel, URL und Kurzbeschreibung Ranking-Kennzahl des Suchdienstes aus vollständigem Dokument (Level3) G 1 = Anz.vork.Terme / Ges.zahlTerme G 2 = 1 - Summe ( Summe ( minTermDistanzen ))/C "je näher die Terme beieinander, desto besser" G 3 = f ( einzelTermVerteilung ) "je gleichverteilter jeder Einzelterm, desto besser" G 4 = Anz.versch.Worte / Ges.zahlWorte "Spam-Erkennung" RANK = Summe ( g i * G i) = mit Summe ( g i ) = 1

14 Alternativen & Weiterentwicklungen
Level3 Verfahren zur autom. Generierung themenorientierter Suchmaschinen. Clustering (Turbo10) Fasst Begriffe nach Bedeutung zusammen (z.B. Salsa -> Tanz, Rezept) Clustering Engine (Vivisimo) Durchsucht Suchmaschinen Gruppiert die Dokumente nach Titel, URLs und Kurzbeschreibung ordnet diese Zeigt diese hierarchisch an (Explorer-ähnlich) QuickCheck Unausgereifte Volltextsuchenweiterentwicklung von MetaGer MetaGer-Web-Assoziator Strategie um Unkenntnis der Sucher zu kompensieren

15 Alternative Cluster – Search – Engine:


Herunterladen ppt "Von Martin Wisotzky Henry Kadow"

Ähnliche Präsentationen


Google-Anzeigen