Von Martin Wisotzky Henry Kadow

Slides:



Advertisements
Ähnliche Präsentationen
Hinweise zur Lizenz Diese PowerPoint-Präsentation steht unter der Creative-Commons CC-BY-NC-SA-Lizenz Sie dürfen: das Werk vervielfältigen, verbreiten.
Advertisements

Kohonennetze für Information Retrieval mit User Feedback
Tipps und Tricks bei der Internetsuche
Herzlich willkommen zur Veranstaltung „Internet-Recherche“
Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.
GESIS Bernd Hermes, Heiko Hellweg, Dr. Maximilian Stempfhuber Informationszentrum Sozialwissenschaften, Bonn Unterstützung kooperativer Verfahren beim.
Webseiten, die gefunden werden Dr. Eduard Heindl, Heindl Internet AG Tübingen.
Hispanistentag in Bremen am Christiane Jungblut1 Digitale Volltexte In der Sammlung digitaler Volltexte wird sogenannte 'Graue Literatur' nachgewiesen.
Klaus Kopperschmidt 22. Januar 2001
Ich suche ein bestimmtes Buch, eine bestimmte Zeitschrift etc. Ich suche Informationen zu einem bestimmten Thema. Ich weiß nicht weiter. Wege zur Information.
Auswertung der Interviews
Mein EBSCOhost-Lernprogramm
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Referat von Thomas Frenz auf der kostenlosen Veranstaltung zur Realschullehrerfortbildung an der Universität Passau 2003 © Th. Frenz Passau 2003.
Suchen und Finden von WWW-Dokumenten Internet-Tutorium WS 99/00 Plenum am :
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Suchmaschine vs. Katalog Such-Robots i.d.R. werden alle Seiten erfasst täglich werden mehrere Mio. Seiten besucht Redaktion relativ wenig Seiten erfasst.
Bau effizienter und effektiver Metasuchmaschinen
Suchmaschinenlabor an der Uni Hannover Derek Daniel.
DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR neofonie neofonie Forschung und Entwicklung: Innovative Suchmethoden Präsentiert von Ronald.
Suchen im Internet Universitätsbibliothek Bielefeld Suchen im Internet
Praxis der Metadatenerfassung Markus Enders Goettingen State and University Library
Access 2000 Datenbanken.
Wie funktionieren Suchmaschinen?
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
RDF-S3 und eRQL: RDF-Technologien für Informationsportale Karsten Tolle und Fabian Wleklinski.
Informationen finden und beurteilen
Wie Google Webseiten bewertet
Die „Erweiterte Suche“
Seniorkom.at vernetzt Jung & Alt Das Internet ist reif
Citavi im Prozess der wissenschaftlichen Arbeit
Suchmaschinen Das "Surfen" im Internet ist eine gewisse Zeit lang interes-sant, aber auf Dauer ist dies ineffektiv und teuer, wenn man bestimmte Informationen.
Zur Arbeit mit Suchmaschinen
W w w. s a f e r i n t e r n e t. a t Die Welt zu Hause Informationen suchen und finden.
Suchmaschinen am Theo Groß und Bernhard Meyer.
Gezieltes und erfolgreiches Suchen
Suchen im Internet Eine Einführung. Suchen im Internet Wer bietet Informationen an? è Privatpersonen è Kommerzielle Organisationen, Firmen è Universitäten,
Im Internet geht alles schneller, aber es dauert länger
Theologische Hochschule Friedensau BS5P1-3: Literaturstudium und Recherche Baustein 7 Recherche im Internet 1 Dozent: Dietmar Päschel, Dipl.-Theol. Wintersemester.
Wo finde ich Meta-Tags…? Was sind Metatags…? Welche Meta-Tags sind am beliebtesten…? Sprachen von Meta-Tags…? Was ist eine Profildatei…? VTAB-09 Fenster.
CGI (Common Gateway Interface)
Informationskompetenz für den Fachbereich Soziale Arbeit
Datenbanken als Kern bibliothekarischer Informationsvermittlung Vortrag auf der 3. Gemeinsamen Jahrestagung der Arbeitsgemeinschaft katholisch-theologischer.
Abteilung für automatische Sprachverarbeitung
Wegweiser im Datenjungel
Kompass für wissenschaftliches Arbeiten
Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.
Suchmaschinen.
Content Management System
EDV-Anwendungen im Archivwesen II KU 2WS WS07.
Die Ganze Welt im Computer? Informationsbeschaffung im Internet
Eike Schallehn, Martin Endig
Web-Suche.
Google (Web-Suchmaschine) Google Books Google Scholar
Das Interenet als Recherchemedium nutzen!
Informationsrecherche & Analyse im Netz
26. Oktober 2005Autor: Walter Leuenberger Computeria Urdorf Treff vom 26. Oktober 2005 Suchmaschinen im Internet Google & Co.
Semantic Web.
Entwicklung einer Suchmaschine für Verbraucher im Bundesamt für Verbraucherschutz und Lebensmittelsicherheit Dr. Thomas Firley Dr. Soumaya Lhafi Bundesamt.
Internetrecherche Sebastian Wolf, Universitätsbibliothek Bielefeld Februar 2014.
Arten von Suchwerkzeugen
Jede Suchmaschine verfügt über einen Datenbestand, auf den zur Beantwortung von Suchanfragen zugegriffen wird. Das System zur Erfassung von.
OAISter wichtigste Verbundkatalog für digitale Ressourcen Open Access wissenschaftliche Literatur und Materialien im Internet frei zugänglich zu machen.
Internetseiten prima selbstgemacht. Überblick Meta-Tags –Warum Meta-Tags? Funktionsweise, Anwendung –Katalogisierung nach Dublin Core –Zeichensätze.
1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.
Das Suchportal der Universität Bonn Dr. Annette Specht, Anke Reinhard Bonn,
E-Government E-Government ist moderne Kommunikation zwischen Bürger und Behörden durch neue Medien der Behörden, Dienstleistung in breite Öffentlichkeit.
Suchen mit AltaVista im WebSpace
Eine Produktion von der Firma Presentations GmbH
„Online Recherche – Google & Co. richtig nutzen“
 Präsentation transkript:

Von Martin Wisotzky Henry Kadow Metasuchmaschinen Von Martin Wisotzky Henry Kadow

Inhalt Webverzeichnisse & Suchmaschinen Würmer, Spinnen und Kriecher Warum Metasuchmaschinen ? Architekturen Vor und Nachteile Kriterien Ranking Alternativen & Weiterentwicklungen

Webverzeichnisse & Suchmaschinen I Datenerfassung Vorschlag in jeweiliger Kategorie über Formular, Gesamteindruck ist entscheidend automatisch, per Spider, Robot, Crawler oder Anmeldung über Formular Datenmenge Nur Startseite Alle Seiten: Titel, Metatags, erste Zeilen Aufbau des Index Ordnungsystem mit Kategorien und Unterkategorien aus Nutzersicht unstrukturiert Eintrag Umfangreichere Angaben erforderlich URL und evtl. E-Mail Adresse genügt Meta-Tags, techn. Seitengestaltung keine Bedeutung keywords und description, nur bedingt. Wichtig: Titel-Tag

Webverzeichnisse & Suchmaschinen II Ranking Unabhängig vom Nutzer Vorgabe durch Suchmaschine. Mit der Seitengestaltung teilweise beeinflussbar Suche allg. Begriffe gut zu finden, überschaubare Ergebnismenge schwierig einzugrenzen, große Treffermenge Suche spez. Begriffe nicht zu finden, da in der Regel nicht erfasst gut zu finden, evtl. Treffer weiter einschränken Aktualisierung selten, Überprüfung in größeren Abständen durch Redakteur regelmäßig, automatisch Abstände variieren nach Suchmaschine In der Praxis hat sich schon seit längerer Zeit eine sinnvolle Zusammenarbeit von Webverzeichnis und Suchmaschine durchgesetzt.

Würmer, Spinnen und Kriecher - Meta-Tags - Anmeldung von Html-Seiten Schnittstelle zur Datenbank Url wird nach Filtern (Spam, gesperrt etc.) aufgenommen 4.-7. Robots machen Anfrage an Hyperlinks angemeldeter Seiten und sammeln Daten (Schutz durch robots.txt) Indizierung wertet Daten aus (Volltext, Verschlagwortung (Meta-Tags), Wort-Statistiken, Bild & Video) Verwaltung und Aufbereitung Einfache Abfrage (und, oder), Profisuche (Boolsche Operatoren) Rankingskriterien Ausgabe

Würmer, Spinnen und Kriecher - Meta-Tags - II Anweisungen über Meta-Tags: Description (250 Zeichen) und Keywords (1000 Zeichen) Enthalten zusätzlich: Autor, Erstellungsdatum, Thema... Erweiterte Tags: Dublin Core Schema (kaum umgesetzt) 20 % nutzen Meta-Tags (einige zu betrügerischen Zwecken) Problem: nur etwa 10% enthalten "irgendwie brauchbare" Metadaten. Für praktische Nutzung durch Internet-Suchmaschinen derzeit keine Basis.

Warum Metasuchmaschinen ? NEC Forschungsinstitut: Suchdienste greifen auf die 800 Millionen Webseiten nur unzureichend zu. (Princeton-Studie 1998) Bildet man die Vereinigung aller 11 Suchmaschinen kommt man auf 42%. Verzerrung bei normalen Suchmaschinen (US) Meta-Suchmaschinen (Suchmaschinen, welche die Suchmaschinen absuchen) Bsp. MetaGer Suchmaschine % Web Northern Light 16,0 AltaVista 15,5 Snap HotBot 11,3 Microsoft 8,5 InfoSeek 8,0 Google 7,8 Yahoo* 7,4 Excite 5,6 Lycos 2,5 Euroseek 2,2

Architekturen Ideal MetaGer

Vor- und Nachteile Vorteile: Breiteres Spektrum: Befragung von Suchmaschinen, Webverzeichnissen und dynamischen Webangeboten (Enzyklopädien, Wörterbücher, Newsgroups)

Vor- und Nachteile Nachteile: Ungenau: meist nur Titel und Beschreibung (Zeitgründe) Oft „getürkte“ Ergebnisse, da viele Suchmaschinen für gute Rankings bezahlen lassen

Kriterien Parallele Suche (keine all-in-one Forms) Ergebnis-Merging Zeitgleiche Abfrage und Verarbeitung Ergebnis-Merging Ergebnisse in einheitlichem Design Doubletten-Erkennung Eliminierung mehrfacher Suchergebnisse Übernahme Kurzbeschreibung Mehr Informationen aus angeschlossenen Suchmaschinen mindestens AND und OR Operatoren Beide logischen Operationen möglich (weitere: near, not) Searchengine hiding Filterung spezifischer Merkmale Möglichkeit vollständige Suche

Kriterien II Metasearch-engine parallel merge Nodouble AndOr desc hide complete Metasearch.com No - Digiway.com/digisearch Yes Search.Onramp.net Profusion.com Search.cyber411.com Search.metafind.com Partly Infind.com Dogpile.com Mamma.com Savvysearch.com Metacrawler.com mesa.rrzn.uni-hannover.de meta.rrzn.uni-hannover.de Highway61.com

Ranking ideal: KOMBINATION Meta-Algorithmen mit Metadaten real: derzeit keine verwertbare Basis für Metadaten Weg derzeit: Wortanalysen aus Dokument-Teilen (MetaGer) Wortanzahl im Titel, URL und Kurzbeschreibung Ranking-Kennzahl des Suchdienstes aus vollständigem Dokument (Level3) G 1 = Anz.vork.Terme / Ges.zahlTerme G 2 = 1 - Summe ( Summe ( minTermDistanzen ))/C "je näher die Terme beieinander, desto besser" G 3 = f ( einzelTermVerteilung ) "je gleichverteilter jeder Einzelterm, desto besser" G 4 = Anz.versch.Worte / Ges.zahlWorte "Spam-Erkennung" RANK = Summe ( g i * G i) = 0 .. 1 mit Summe ( g i ) = 1

Alternativen & Weiterentwicklungen Level3 Verfahren zur autom. Generierung themenorientierter Suchmaschinen. Clustering (Turbo10) Fasst Begriffe nach Bedeutung zusammen (z.B. Salsa -> Tanz, Rezept) Clustering Engine (Vivisimo) Durchsucht Suchmaschinen Gruppiert die Dokumente nach Titel, URLs und Kurzbeschreibung ordnet diese Zeigt diese hierarchisch an (Explorer-ähnlich) QuickCheck Unausgereifte Volltextsuchenweiterentwicklung von MetaGer MetaGer-Web-Assoziator Strategie um Unkenntnis der Sucher zu kompensieren

Alternative Cluster – Search – Engine: