Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Metasuchmaschinen Von Martin Wisotzky Henry Kadow.

Ähnliche Präsentationen


Präsentation zum Thema: "Metasuchmaschinen Von Martin Wisotzky Henry Kadow."—  Präsentation transkript:

1 Metasuchmaschinen Von Martin Wisotzky Henry Kadow

2 Inhalt 1. Webverzeichnisse & Suchmaschinen 2. Würmer, Spinnen und Kriecher 3. Warum Metasuchmaschinen ? 4. Architekturen 5. Vor und Nachteile 6. Kriterien 7. Ranking 8. Alternativen & Weiterentwicklungen

3 Webverzeichnisse & Suchmaschinen I Webverzeichnis Suchmaschine Suchmaschine Datenerfassung Vorschlag in jeweiliger Kategorie über Formular, Gesamteindruck ist entscheidend automatisch, per Spider, Robot, Crawler oder Anmeldung über Formular Datenmenge Nur Startseite Alle Seiten: Titel, Metatags, erste Zeilen Aufbau des Index Ordnungsystem mit Kategorien und Unterkategorien aus Nutzersicht unstrukturiert Eintrag Umfangreichere Angaben erforderlich URL und evtl. Adresse genügt Meta-Tags, techn. Seitengestaltung keine Bedeutung keywords und description, nur bedingt. Wichtig: Titel-Tag keywords und description, nur bedingt. Wichtig: Titel-Tag

4 Webverzeichnisse & Suchmaschinen II Webverzeichnis Suchmaschine Suchmaschine Ranking Unabhängig vom Nutzer Vorgabe durch Suchmaschine. Mit der Seitengestaltung teilweise beeinflussbar Suche allg. Begriffe gut zu finden, überschaubare Ergebnismenge schwierig einzugrenzen, große Treffermenge Suche spez. Begriffe nicht zu finden, da in der Regel nicht erfasst gut zu finden, evtl. Treffer weiter einschränken Aktualisierung selten, Überprüfung in größeren Abständen durch Redakteur regelmäßig, automatisch Abstände variieren nach Suchmaschine In der Praxis hat sich schon seit längerer Zeit eine sinnvolle Zusammenarbeit von Webverzeichnis und Suchmaschine durchgesetzt.

5 Würmer, Spinnen und Kriecher - Meta-Tags - 1. Anmeldung von Html-Seiten 2. Schnittstelle zur Datenbank 3. Url wird nach Filtern (Spam, gesperrt etc.) aufgenommen Robots machen Anfrage an Hyperlinks angemeldeter Seiten und sammeln Daten ( Schutz durch robots.txt) 8. Indizierung wertet Daten aus (Volltext, Verschlagwortung (Meta- Tags), Wort-Statistiken, Bild & Video) 9. Verwaltung und Aufbereitung 10. Einfache Abfrage (und, oder), Profisuche (Boolsche Operatoren) 11. Rankingskriterien 12. Ausgabe

6 Würmer, Spinnen und Kriecher - Meta-Tags - II Anweisungen über Meta-Tags: Anweisungen über Meta-Tags: Description (250 Zeichen) und Keywords (1000 Zeichen) Description (250 Zeichen) und Keywords (1000 Zeichen) Enthalten zusätzlich: Autor, Erstellungsdatum, Thema... Enthalten zusätzlich: Autor, Erstellungsdatum, Thema... Erweiterte Tags: Dublin Core Schema (kaum umgesetzt) Erweiterte Tags: Dublin Core Schema (kaum umgesetzt) 20 % nutzen Meta-Tags (einige zu betrügerischen Zwecken) 20 % nutzen Meta-Tags (einige zu betrügerischen Zwecken) Problem: nur etwa 10% enthalten "irgendwie brauchbare" Metadaten. Problem: nur etwa 10% enthalten "irgendwie brauchbare" Metadaten. Für praktische Nutzung durch Internet-Suchmaschinen derzeit keine Basis. Für praktische Nutzung durch Internet-Suchmaschinen derzeit keine Basis.

7 Warum Metasuchmaschinen ? NEC Forschungsinstitut: Suchdienste greifen auf die 800 Millionen Webseiten nur unzureichend zu. (Princeton- Studie 1998) NEC Forschungsinstitut: Suchdienste greifen auf die 800 Millionen Webseiten nur unzureichend zu. (Princeton- Studie 1998) Bildet man die Vereinigung aller 11 Suchmaschinen kommt man auf 42%. Bildet man die Vereinigung aller 11 Suchmaschinen kommt man auf 42%. Verzerrung bei normalen Suchmaschinen (US) Verzerrung bei normalen Suchmaschinen (US) Meta-Suchmaschinen (Suchmaschinen, welche die Suchmaschinen absuchen) Meta-Suchmaschinen (Suchmaschinen, welche die Suchmaschinen absuchen) Bsp. MetaGer Bsp. MetaGer Suchmaschine % Web Northern Light 16,0 AltaVista15,5 Snap15,5 HotBot11,3 Microsoft8,5 InfoSeek8,0 Google7,8 Yahoo*7,4 Excite5,6 Lycos2,5 Euroseek2,2

8 ArchitekturenIdealMetaGer

9 Vor- und Nachteile Vorteile: Vorteile: Breiteres Spektrum: Befragung von Suchmaschinen, Webverzeichnissen und dynamischen Webangeboten (Enzyklopädien, Wörterbücher, Newsgroups) Breiteres Spektrum: Befragung von Suchmaschinen, Webverzeichnissen und dynamischen Webangeboten (Enzyklopädien, Wörterbücher, Newsgroups)

10 Vor- und Nachteile Nachteile: Nachteile: Ungenau: meist nur Titel und Beschreibung (Zeitgründe) Ungenau: meist nur Titel und Beschreibung (Zeitgründe) Oft getürkte Ergebnisse, da viele Suchmaschinen für gute Rankings bezahlen lassen Oft getürkte Ergebnisse, da viele Suchmaschinen für gute Rankings bezahlen lassen

11 Kriterien Parallele Suche (keine all-in-one Forms) Parallele Suche (keine all-in-one Forms) Zeitgleiche Abfrage und Verarbeitung Zeitgleiche Abfrage und Verarbeitung Ergebnis-Merging Ergebnis-Merging Ergebnisse in einheitlichem Design Ergebnisse in einheitlichem Design Doubletten-Erkennung Doubletten-Erkennung Eliminierung mehrfacher Suchergebnisse Eliminierung mehrfacher Suchergebnisse Übernahme Kurzbeschreibung Übernahme Kurzbeschreibung Mehr Informationen aus angeschlossenen Suchmaschinen Mehr Informationen aus angeschlossenen Suchmaschinen mindestens AND und OR Operatoren mindestens AND und OR Operatoren Beide logischen Operationen möglich (weitere: near, not) Beide logischen Operationen möglich (weitere: near, not) Searchengine hiding Searchengine hiding Filterung spezifischer Merkmale Filterung spezifischer Merkmale Möglichkeit vollständige Suche Möglichkeit vollständige Suche

12 Kriterien II Metasearch-engineparallel merg e NodoubleAndOrdeschidecomplete Metasearch.comNo Digiway.com/digisearchYesNoNoYesYesNoNo Search.Onramp.netYesYesYesNoNoYesNo Profusion.comYesYesYesYesYesNoNo Search.cyber411.comYesNoNoNoNoYesNo Search.metafind.comYesYesYesYesNoPartlyNo Infind.comYesPartlyYesYesNoNoNo Dogpile.comYesNoNoYesNoYesNo Mamma.comYesYesNoYesYesYesNo Savvysearch.comYesNoNoYesYesYesNo Metacrawler.comYesYesYesYesYesYesNo mesa.rrzn.uni-hannover.deYesYesYesYesNoYesNo meta.rrzn.uni-hannover.deYesYesYesYesYesYesYes Highway61.comYesYesYesPartlyYesYesYes

13 Ranking ideal: KOMBINATION Meta-Algorithmen mit Metadaten ideal: KOMBINATION Meta-Algorithmen mit Metadaten real: derzeit keine verwertbare Basis für Metadaten real: derzeit keine verwertbare Basis für Metadaten Weg derzeit: Wortanalysen Weg derzeit: Wortanalysen aus Dokument-Teilen (MetaGer) aus Dokument-Teilen (MetaGer) Wortanzahl im Titel, URL und Kurzbeschreibung Wortanzahl im Titel, URL und Kurzbeschreibung Ranking-Kennzahl des Suchdienstes Ranking-Kennzahl des Suchdienstes aus vollständigem Dokument (Level3) aus vollständigem Dokument (Level3) G 1 = Anz.vork.Terme / Ges.zahlTerme G 1 = Anz.vork.Terme / Ges.zahlTerme G 2 = 1 - Summe ( Summe ( minTermDistanzen ))/C "je näher die Terme beieinander, desto besser" G 2 = 1 - Summe ( Summe ( minTermDistanzen ))/C "je näher die Terme beieinander, desto besser" G 3 = f ( einzelTermVerteilung ) "je gleichverteilter jeder Einzelterm, desto besser" G 3 = f ( einzelTermVerteilung ) "je gleichverteilter jeder Einzelterm, desto besser" G 4 = Anz.versch.Worte / Ges.zahlWorte"Spam-Erkennung" G 4 = Anz.versch.Worte / Ges.zahlWorte"Spam-Erkennung" RANK = Summe ( g i * G i) = mit Summe ( g i ) = 1 RANK = Summe ( g i * G i) = mit Summe ( g i ) = 1

14 Alternativen & Weiterentwicklungen Level3 Level3 Verfahren zur autom. Generierung themenorientierter Suchmaschinen. Verfahren zur autom. Generierung themenorientierter Suchmaschinen. Clustering (Turbo10) Clustering (Turbo10) Fasst Begriffe nach Bedeutung zusammen (z.B. Salsa -> Tanz, Rezept) Fasst Begriffe nach Bedeutung zusammen (z.B. Salsa -> Tanz, Rezept) Clustering Engine (Vivisimo) Clustering Engine (Vivisimo) Durchsucht Suchmaschinen Durchsucht Suchmaschinen Gruppiert die Dokumente nach Titel, URLs und Kurzbeschreibung ordnet diese Gruppiert die Dokumente nach Titel, URLs und Kurzbeschreibung ordnet diese Zeigt diese hierarchisch an (Explorer-ähnlich) Zeigt diese hierarchisch an (Explorer-ähnlich) QuickCheck QuickCheck Unausgereifte Volltextsuchenweiterentwicklung von MetaGer Unausgereifte Volltextsuchenweiterentwicklung von MetaGer MetaGer-Web-Assoziator MetaGer-Web-Assoziator Strategie um Unkenntnis der Sucher zu kompensieren Strategie um Unkenntnis der Sucher zu kompensieren

15 Alternative Cluster – Search – Engine:


Herunterladen ppt "Metasuchmaschinen Von Martin Wisotzky Henry Kadow."

Ähnliche Präsentationen


Google-Anzeigen