Volltextsuchmaschinen, © Till Hänisch 2001 Altavista, Google & Co Volltextsuche im Großen, aber wie ?

Slides:

Advertisements

Ähnliche Präsentationen

Tipps und Tricks bei der Internetsuche

Advertisements

Herzlich willkommen zur Veranstaltung „Internet-Recherche“

Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.

Webseiten, die gefunden werden Dr. Eduard Heindl, Heindl Internet AG Tübingen.

Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.

Seminar Textmining WS 06/07 Aufgaben I 1.Metadaten 2.Einfache Inverse Liste 3.Modifizierte Inverse Liste für komplexere Anfragen 4.Boolsches Retrieval.

Klaus Kopperschmidt 22. Januar 2001

Manfred Thaller, Universität zu Köln Köln 10. Dezember 2010

Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.

Suchmaschinenlabor an der Uni Hannover Derek Daniel.

Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.

Wie funktionieren Suchmaschinen?

Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.

Relevanz Ranking Bisher:

Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen

Manfred Thaller, Universität zu Köln Köln 26. November 2007

Internet Suchmaschinen basiert auf: Arasu Arvind et. al., Searching the Web, S. Brin, L. Page, The.

Suchmaschinen Das "Surfen" im Internet ist eine gewisse Zeit lang interes-sant, aber auf Dauer ist dies ineffektiv und teuer, wenn man bestimmte Informationen.

Zur Arbeit mit Suchmaschinen

W w w. s a f e r i n t e r n e t. a t Die Welt zu Hause Informationen suchen und finden.

Suchmaschinen am Theo Groß und Bernhard Meyer.

Don`t make me think! A Common Sense Approach to Web Usability

Postgres Tsearch2 und Indexe. Basics Dokumente = alle Textattribute, Kombinationen von Textattributen über mehrere Tabellen Native Textsearch Operatoren:

Clean Code Software-Entwicklung als Handwerkskunst Thomas Nagel, November 2011.

You need to use your mouse to see this presentation © Heidi Behrens.

Information Retrieval, Vektorraummodell

Der formelle Imperativ – the Imperative

26. Oktober 2005Autor: Walter Leuenberger Computeria Urdorf Treff vom 26. Oktober 2005 Suchmaschinen im Internet Google & Co.

Was kommt nach Google? — Trends bei Suchmaschinen Winfried Neun Zuse-Institut-Berlin ÖMG-DMV Congress Graz.

Greenstone. Theoretischer Teil Entstehung: Entwickelt vom New Zealand Digital Library Project an der Universität von Waikato Kooperation mit der UNESCO.

Tutorial Holdings Management Erstellen, Bearbeiten und Zuweisen von Links für Full Text Finder support.ebsco.com.

DNS Grundlagen Wer soll sich das merken !!! Wer soll sich das merken !!!

Word order: 1.In a main clause the VERB is the second idea: Helgakommteben aus der Bäckerei This may not be the second word Meiner Meinung nachsind Hobbys.

Übungsart: Seite: Bearbeitet von: Siegbert Rudolph Lesemotivationstraining Titel: Quelle: Nächste Seite 1 Bedienungshinweise: Mit einem Klick geht es immer.

IIS The microsoft way. © Windows NT Option pack optionale Server Komponenten IIS (Internet Information Server) Webserver von Microsoft.

Konjunktiv II Konjunktiv II: Wären, hätten und würden.

1 Maik Hetmank Google, Yahoo und Co Wer suchet, der findet - Über die Kunst des Suchens -

Was ist eigentlich… Big Data?

Gewusst wie - Literatur suchen und finden in der Unibibliothek

Interrogatives and Verbs

Suchen und Sortieren.

oder: wie Computer die Welt sehen

oder: wie Computer die Welt sehen

Du bist am dicksten und am dümmsten.

you: ihr ( familiar plural ) you: du ( familiar singular)

Wie verwende ich Suchmaschinen richtig?

Logisches Datenmodell

AURIS-MM Spezifikation

Telling Time in German Deutsch 1 Part 1.

Europäisches Patentamt

“wish” “as if” “if only it were so”

“<Titel>” Prozessbeschreibung

Routing … … die Suche nach dem Weg..

Titel: Quelle: Übungsart: Titel: Quelle: Uhr Die Uhr lesen lernen

Inhalte Die BTL Online enthält die Inhalte aller im Druck erschienenen Ausgaben der Bibliotheca Teubneriana Latina in elektronischer Form: Die Bibliotheca.

Lean Thinking – Die Lean Denkweise

Programmierung eines Computers (Funktionsweise)

Erwartungswerte berechnen

3. Die Datenstruktur Graph 3.3 Durchlaufen von Graphen

Wie sucht man im Internet und welche Web-Browser kennt man

Von Wietlisbach, Lenzin und Winter

Nutzung und Modellierung von Datenbanken

School supplies.

- moodle – a internet based learning platform

DB2 – SS 2019 von Baum allgemein bis B*-Baum

Cloudlösungen für die Landesgeschäftsstelle

DB2 – SS 2019 von Baum allgemein bis B*-Baum

Einführung: Statistische Verfahren der automatischen Indexierung

Präsentation transkript:

Volltextsuchmaschinen, © Till Hänisch 2001 Altavista, Google & Co Volltextsuche im Großen, aber wie ?

Volltextsuchmaschinen, © Till Hänisch 2001 So ? Wo wird gesucht ? lokal Wie wird gesucht ? sequentiell Suche wird Datei für Datei durchgeführt, jeweils Wort für Wort durchsucht Sinnvoll wenn: - schneller Zugriff (Festplatte) - Wenige Daten (Megabyte)

Volltextsuchmaschinen, © Till Hänisch 2001 Funktioniert nicht, weil.... Netzverbindung viel zu langsam Lokale Kopie aller Seiten Speicherplatz Datenbestand viel zu groß Viele GB bis TB Sequentielle Suche selbst auf extrem schnellem Rechner viel zu langsam (viele Anfragen,...) Index (analog Buch) Sortierung der Treffer (Ranking) Suche nach z.B. Jennifer Lopez liefert mehrere hunderttausend Treffer, welche sollen als erste dargestellt werden ?

Volltextsuchmaschinen, © Till Hänisch 2001 Architektur Internet Spider/ Crawler/ Gatherer IndexProzessor Browser Lädt Seiten von (allen) Webservern in regelmäßigen Abständen, z.B. monatlich Wie ? Analog Buch, Suchzeit steigt nicht linear, sondern logarith- misch mit der Größe des Daten- bestands Anfragebearbeitung, Ranking, Caching,...

Volltextsuchmaschinen, © Till Hänisch 2001 Crawler Auch Gatherer, Spider, Robot Wie kommen die Seiten zur Suchmaschine ? Manuell: Anmeldung von Seiten Automatisch: Crawler „durchsucht“ das Web Woher kennt die Suchmaschine die Webserver ? Links DNS Ausgehend von Startpunkt(en) folgt der Crawler allen Links (netio + HTML-Parser + DB mit bisher besuchten Links) Einfach ? For example, our system tried to crawl an online game,... Simple to solve... But this problem had not come up until we had downloaded tens of millions of pages

Volltextsuchmaschinen, © Till Hänisch 2001 Metadaten Was wird indiziert ? Zunächst nur erste paar hundert Byte (Titel,...) Volltext Enthält alle Informationen Aber auch viel „Rauschen“ Große Datenmenge Metadaten (Titel, Autor, Stichworte,...) Sind meist relevanter Weniger Daten Wie erkennt der Crawler die Metadaten in den HTML- Seiten ? Dublin Core Meta-Tags

Volltextsuchmaschinen, © Till Hänisch 2001 Index Text1.txt Der Mond ist aufgegangen Text2.txt Festgemauert in der Erden Text Index aufgegangenText1 derText1, Text2 ErdenText2 festgemauertText2 inText2 MondText1 Der Index enthält (in geeigneter Weise sortiert) alle vorkommenden Wörter sowie Verweise, in welchen Dokumenten diese vorkommen (ggf. auch, an welcher Stelle) Real: Index ist nicht sortierte Liste (schlechte Performance beim Einfügen/Löschen von Einträgen) sondern i.A. Baum, Hash,... (siehe Datenstrukturen)

Volltextsuchmaschinen, © Till Hänisch 2001 Index contd. Schreibweise I.a. normalisierte Schreibweise (nur Kleinbuchstaben, Umlaute auf ASCII abgebildet,...) Ggf. zweiter Index mit exakter Scheibweise Organisation in Baumstruktur Sortierte Liste  Binäre Suche: effizient, aber hoher Speicherbedarf, wenn nicht im RAM  langsam Baum bleibt effizient, auch wenn nur Teil (obere Ebenen) im RAM Vereinfacht Implementierung von Transaktionen (da – meistens - nur jeweils ein Knoten geändert wird) Platzbedarf Index belegt – je nach Implementierung – etwa 5-200% des Volumens des Originals Kompression (z.B. Frontcoding,...)

Volltextsuchmaschinen, © Till Hänisch 2001 Indexarchitektur in real life Lexikon enthält Begriffe und Verweis auf Liste der zugehörigen URLs Diese (Barrels) sind (Ranking) vorsortiert

Volltextsuchmaschinen, © Till Hänisch 2001 Wildcards Index aufgegangenText1 derText1, Text2 ErdenText2 festgemauertText2 inText2 MondText1 Suche nach auf* mit sortiertem Index kein Problem Suche nach *gegangen ? Mehrere Lösungen (zusätzliche Indices): N-Gram, rotierter Index Digram: Wort wird in zwei-Buchstaben-Paare zerlegt, z.B. Erden Er,rd,de,en (zus. evtl noch $E,n$ für Wortbeginn und Ende), diese werden indiziert. Suchbegriff wird ebenfalls zerlegt, bei Suche nach Erd* wird nach „$e AND er AND rd“ gesucht (Achtung: Falsche Treffer (z.B. „Elenderdepp“ müssen aussortiert werden) Rotierter Index: Es wird nicht nur $Erden$, sondern auch rden$$E, den$$Er, en$$Erd, n$$Erde indiziert. Suche nach *rden, oder auch Er*en möglich (Erlaubt aber nur ein Wildcard – manche Suchmaschinen unterstützen deshalb nicht Queries mit mehreren Wildcards)

Volltextsuchmaschinen, © Till Hänisch 2001 Bool‘sche Suchen AND OR Implementierung: Für jeden Term wird eine Query ausgeführt, die Ergebnislisten werden verknüpft z.B. Text AND Suche AND Index Liefert Ergebnisse (Dokumentnummern) Text(2,47,568,1324,34567) Suche(3,32,568,2456,21347,34567) Index(124,178,3124,11111,34567,67892) In allen dreien kommt nur Dokument vor Performance: Je Term eine Query, Verknüpfung bei vielen Treffern, „Text AND Retrieval AND Index“ würde evtl. mehr Dokumente liefern, die auch passen, besser Text AND (Suche OR Retrieval) AND Index,...

Volltextsuchmaschinen, © Till Hänisch 2001 Recall/Precision Recall: Sind alle relevanten Dokumente in der Ergebnismenge ? Precision: Sind alle Dokumente der Ergebnismenge relevant ? Widerspruch, hoher Recall  niedrige Precision u.U. 100 % Recall Precision z.B. boolean queries: Text AND Suche AND Index: Hohe Precision, niedriger recall...(Suche OR Retrieval OR Treffer)...: recall höher, precision niedriger Bei bool‘schen Queries binäre Logik (Treffer oder nicht)  relevante Ergebnisse nicht im Ergebnis (z.B. ein Term fehlt)  recall immer < 100 % (Precision optimiert)

Volltextsuchmaschinen, © Till Hänisch 2001 Ranking Ergebnis enthält immer alle Dokumente  Recall == 100 % Die meisten sind irrelevant  Precision  0 %  Gut oder schlecht ? Gut, wenn Ergebnisse nach Relevanz sortiert (Benutzer kann Precision einstellen – die ersten Ergebnisse haben hohe Precision, liest er alle, hat er hohen recall) Aber wie ?  Maß für Relevanz nötig z.B. Coordinate matching: Anzahl der im Dokument enthaltenen Terme dient als Maß (enthält ein Dokument alle gesuchten Terme, erscheint es „oben“, enthält es nur einen, dann „unten“ in Liste (analog etwa: oben AND, unten OR) Formal: Inneres Produkt zwischen Query- und Dokument-Vektor

Volltextsuchmaschinen, © Till Hänisch 2001 Vektorraummodelle DocaufgegangenDerErdenfestgemauertinMond Q R 1 =2, R 2 =1 Probleme: „Der“ (kommt in praktisch jedem Dokument vor) ist genauso wichtig wie „Mond“ (ziemlich selten) Terme, die in einem Dokument mehrfach vorkommen, werden nur einmal gezählt Lange Dokumente, die viele Terme enthalten (Bibel, Wörterbuch,...) werden immer ziemlich hoch gewichtet Lösung: Gewichtung mit z.B. Anzahl im Dokument f d,t, Gesamt- häufigkeit des Terms 1/f t (in allen Dokumenten oder in einem)

Volltextsuchmaschinen, © Till Hänisch 2001 Vektorraummodelle contd. z.B. Viele komplexe Verfahren (in der Literatur), gemeinsam: 1.Term, der in wenigen Dokumenten auftaucht, ist wichtiger als einer, der in vielen auftaucht 2.Dokument, das Term mehrfach enthält, ist wichtiger, als eines, das den Term nur einmal enthält Dokument(e) und Query sind Vektoren, allg. Maß für Ähnlichkeit ? Richtung !! Aber wie ?

Volltextsuchmaschinen, © Till Hänisch 2001 Implementierungen Details werden i.A. nicht publiziert !! Indextechnologie oft ähnlich (Lexikon+Dokumentliste), Unterschiede bei Erstellung, Ranking,... Altavista Erste "große" Suchmaschine Optimiert auf Geschwindigkeit klass. Volltextretrieval von Digital finanziert (Eigenwerbung für Hardware) Details nicht publiziert heute auch "intelligenteres" ranking lucene Doug Cutting (Xerox, Excite) Open source Volltextretrieval, Bool'sche Queries

Volltextsuchmaschinen, © Till Hänisch 2001 Google Vor google und seit google Precision optimiertes Ranking Suche im Volltext, Ranking nach Links Wieviele Links verweisen auf eine Seite Was steht im Anchor Text drin ? PageRank We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows: PR(A) = (1-d) + d (PR(T1)/C(T1) PR(Tn)/C(Tn)) Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages' PageRanks will be one.

Volltextsuchmaschinen, © Till Hänisch 2001

Tricks of the trade Caching Großer Teil der Anfragen betrifft nur wenige Queries („leer“ (!), Tagesgeschehen, „Sex“,..) Query wird einmal durchgeführt und immer wieder ausgegeben Werbung Wer finanziert die Suchmaschinen ? Werbekunden Hersteller von Hard- und Software (z.B. AltaVista) Sollen „gute“ Kunden immer unten in Trefferlisten auftauchen ? Wie funktioniert Ranking ? Häufigkeiten, Gewichtung (Metadaten,...) Was tut Webmaster, der weit oben plaziert werden möchte ? Tricks und Gegentricks

Volltextsuchmaschinen, © Till Hänisch 2001 Zusammenfassung Information retrieval (60'er Jahre) Volltext, Bool'sche Queries typ. (hundert) tausende Dokumente, Gigabytes Web-Suchmaschinen (ca. 1995) Volltext, Bool'sche Queries (viele) Millionen Dokumente Ranking nach klass. Verfahren (Coordinate matching, Vektorraummodelle,...) "Intelligente" Suchmaschinen (1997) Volltext, Web-spezifische Ranking Verfahren (Page rank) Zukunft ?

Volltextsuchmaschinen, © Till Hänisch 2001 And beyond Literatur Witten, Moffat, Bell, „Managing Gigabytes“, Morgan Kaufmann, 1999 Sergey Brin, Lawrence Page, „The Anatomy of a search engine“, Textmining Bayes Netze bedingte Wahrscheinlichkeiten Autonomy, Office-Assistent, Smart Tags,.net Agenten