Präsentation herunterladen
1
Information Retrieval
IR-Grundlagen von Suchmaschinen im Überblick Björn Gustavs Information Retrieval
2
Information Retrieval - Seminar Web Suchmaschinen
Was ist IR? „Information Storage and Retrieval” Das systematische Vorgehen, um Daten zu sammeln und derart zu katalogisieren, dass sie auf Anfrage wieder aufgefunden und angezeigt werden können. Für Suchmaschinen „alle“ Dokumente im Internet aufspüren, analysieren und auf Abfrage optimal wiedergeben Information Retrieval - Seminar Web Suchmaschinen
3
Information Retrieval - Seminar Web Suchmaschinen
Inhalt / Ausblick Motivation Einblick: Web Traversierung IR-Probleme Methoden der Index-Erstellung Methoden des IR auf dem Index Zusammenfassung Information Retrieval - Seminar Web Suchmaschinen
4
Information Retrieval - Seminar Web Suchmaschinen
Motivation Informationsgehalt im Internet: Mai Anzahl der Seiten > 6 Milliarden verdoppelt sich alle 4-8 Monate rund 40% des Internets verändert sich monatlich um dieses Potential zu nutzen gewünschte Inhalte effizient & gezielt finden Textinformation rechnergestützt auswerten Cyveillance 4. schnell & rechnerschonend) finden vs. gewünschte Inhalte Textinformationen sind für Menschen aufbereitet, Rechner verstehen diesen nicht-> Information Retrieval - Seminar Web Suchmaschinen
5
Dokumentensuche im Web
1. Suchroboter (aka: Web robot, wanderer, worm, walker, spider, knownbot) traversieren das Web pro Anfrage Nutzer gibt Suchbegriff an Roboter durchsucht systematisch das Web nach Dokumenten Relevanzberechnung Rückgabe einer rang-sortieren Liste Größe des Netzes & Wachstum machen diesen Ansatz praktisch unmöglich Bei kleinen Netzen denkbar Internet in Anfangszeiten Heute Intranet!? Information Retrieval - Seminar Web Suchmaschinen
6
Dokumentensuche im Web
2. vorbereiteter Index wird durchsucht Index ist ein durchsuchbares Archiv mit Referenzen zu Dokumenten im Web Suche wird auf dem Index ausgeführt Information Retrieval - Seminar Web Suchmaschinen
7
Information Retrieval - Seminar Web Suchmaschinen
Der Index (1) Index ist eine Dokumentenrepräsentation Dokumente durch Inhaltsbeschreibung und enthaltenen Termen repräsentiert Terme dienen zu Ermittlung der Relevanz bei Suchanfragen Terme können automatisch oder von Spezialisten erzeugt werden Was muss dieser Index uns nun ermöglichen? Information Retrieval - Seminar Web Suchmaschinen
8
Information Retrieval - Seminar Web Suchmaschinen
Index-Erzeugung (1) Seiten sammelnAnalysieren,AufbereitenIndex Programme (Robots, Crawler) suchen „alle“ Webseiten Ausgehend von einer Anfangsadresse werden alle URLs in Tiefen- oder Breitensuche verfolgt. von Menge von Anfangsadressen aus- abhängig von der Popularität der jeweiligen Seite Partitionierung des WWW- ausgehend von Internetnamen oder Landesgrenzen - wird das WWW rekursiv durchsucht. Auslesen von Metaangaben (manuell erstellte Beschreibungen) Textanalyse Ermitteln von inhaltsrelevanten Termen zum Dokument, Häufigkeit Information Retrieval - Seminar Web Suchmaschinen
9
Index-Erzeugung (3)-Qualität
Effektivität eines Indexing Systems wird bestimmt über: Indexing exhaustivity: Erfassungsgrad der Dokumententhemen in den Index - exhaustive: alle Aspekte der Themen erfassen - nonexhaustive: weniger, aber die Kernthemen Term specificity: Grad, zu welchem die Menge aller vorhandenen nützlichen Dokumente erfasst werden allgemeine/umfassende Terme viele nützliche & viele unnütze Resultate genaue Terme weniger Resultate, evtl. auch verpasste gute Ergebnisse Indexing Exhaustivity beschreibt, zu welchem Grad der Informationsgehalt eines Dokumentes durch das Indizierungssystem erfasst wird. Ist das System erschöpfend (exhaustiv), erhält man eine grosse Anzahl Terms, die alle inhaltlichen Aspekte im Dokument wiedergeben. Term Specity beschreibt zu welchem Grad die Menge aller vorhandenen, nützlichen Dokumente erfasst werden. Breite Terme erfassen viele relevante aber auch sehr viele irrelevante Dokumente. Information Retrieval - Seminar Web Suchmaschinen
10
Information Retrieval - Seminar Web Suchmaschinen
IR Qualität (1) Genannte Parameter haben Auswirkung auf das Indexierungssystem: Resultierende Retrieval Effiziens über 2 Parameter beschrieben: Recall (Vollständigkeit) Precision (Trefferquote) Effiziens der Suchabfrage Information Retrieval - Seminar Web Suchmaschinen
11
Information Retrieval - Seminar Web Suchmaschinen
IR Qualität (2) - Recall Recall (Vollständigkeit) Wieviele der relevanten Dokumente werden erfasst? Verhältnis der - Anzahl erfasster, relevanter Dokumente zur - Anzahl relevanter Dokumente Information Retrieval - Seminar Web Suchmaschinen
12
IR Qualität (3) - Precision
Precision: wieviele relevante Dokumente werden erfasst Verhältnis der - Anzahl erfasster, relevanter Dokumente zur - Anzahl erfasster Dokumente wie viele relevante Dokumente sich in allen gefundenen Dokumenten befinden. Information Retrieval - Seminar Web Suchmaschinen
13
Information Retrieval - Seminar Web Suchmaschinen
IR Qualität (2) Optimal: hohe Recall & Precision Aber gehen jeweils auf Kosten des anderen Effektivität wird gemessen anhand verschiedenen Precision, bei festen Recall-Werten Kompromiss: Recall Speed Precision Bsp: Allgemeine Terme liefern hohen Recall auf Kosten des Precision. Soezifische Terme die Präzision erhöhen, aber einige Dokumente durchfallen (niedrigere Recall) Information Retrieval - Seminar Web Suchmaschinen
14
Information Retrieval - Seminar Web Suchmaschinen
Der Index (4) Suchmaschinen nutzen „inverted index“ besteht aus durchsuchbares Wörterbuch, mit allen Wörtern im Index, enthält # Vorkommen Verweis auf „ inverted list“ des Wortes „ inverted list“ für jedes Wort im Index, enthält Verweise auf Dokumente Häufigkeit des Wortes im Dokument weitere Optimierungen, z.B. Position/Offset des Wortes im Dokument Information Retrieval - Seminar Web Suchmaschinen
15
„Inverted Index“, Beispiel
Lexikon inverted index list Information Retrieval - Seminar Web Suchmaschinen
16
Information Retrieval - Seminar Web Suchmaschinen
„Index Builder“ „Index Builder“ Sortierung, 1. nach Term, dann nach DocID,… Information Retrieval - Seminar Web Suchmaschinen
17
Indexierungsmethoden
Automatische Indexierungsmethoden: Single Term Indexierung Statistische Methoden Informationstheoretische Methoden Probabilistische Methoden Mutli-Term / Phrasen – Indexierung Linguistische Methoden Wie aus einem Text zu den beschreibenden Termen kommen? Suche später soll über einzelne Terme Dokumenteninhalt & -relevanz erkennen. Information Retrieval - Seminar Web Suchmaschinen
18
Single Term Indexing (1)
Welche Wörter eines Dokumentes in den Index? alle Worte herauslösen unwichtige Worte herausfiltern („Stoppwörter“, Füllworte,…) evtl. Rückführung auf Wortstamm Häufigkeit im Dokument ermitteln Ab 3. ists optional für Suchmaschinen Google mach kein 3. Thesaurus, um Wörter gleicher Bedeutung auf ein Wort abzubilden Information Retrieval - Seminar Web Suchmaschinen
19
Single Term Indexing (2)
pro Dokument wird analysiert Menge der auftretenden Wörter deren Häufigkeiten Ziel: hohes Recall Vorgehensweisen, Wörter zu gewichten: Statistisch informations-theoretisch probabilistische Recall= viele relevante Dokumente Information Retrieval - Seminar Web Suchmaschinen
20
Single Term Indexing(3)-statistisch
Statistische Methode z.B. basiert rein auf Termhäufigkeit wij = tfij * log(N / dfj) tfij – Term Frequency, des Terms j im Dokument i dfj – Document Frequency, Häufigkeit des Terms in allen Dokumenten Inverse der Dokumentenhäufigkeit, zur Relativierung über den Dokumentenbestand. Information Retrieval - Seminar Web Suchmaschinen
21
Single Term Indexing (4)-inf.th.
Informationstheoretische Methode basiert auf Aussage: „Term, dessen Vorkommen am unwahrscheinlichsten ist, birgt meiste Information“ Methode bevorzugt in einzelnen Dokumenten konzentrierte Terme Allgemeiner Begriff gibt viele Resultate -Angabe eines speziellen Begriffes, der zum gesuchten Thema passt, reduziert die Resultate eher aufs gewünschte Kreuzworträtsel an, xz… Information Retrieval - Seminar Web Suchmaschinen
22
Single Term Indexing(5)-probal.
Probabilistische Methode basiert auf Relevanz-Wahrscheinlichkeit erfordert „Training“ für Berechnungsgrundlage Benutzer bewerten Relevanz von Suchresultaten aus Trainingsergebnissen wird Termgewichtung basierend auf bedingter Wahrscheinlichkeit des Auftretens eines Terms berechnet Information Retrieval - Seminar Web Suchmaschinen
23
Multi-Term/Phrase Indexing (1)
„Phrasen“ verhindern Doppeldeutigkeit einzelner Wörter ohne Zusammenhang Term trägt spezifischere Bedeutung soll Precision erhöhen Methoden zur Erzeugung von Phrasen für Index: statistisch probabilistisch sprachtheoretisch Information Retrieval - Seminar Web Suchmaschinen
24
Multi Term Indexing (2) -statistisch
Statistische Methode „Phrase“ besteht aus Kopf und Zusätzen Hier muss der Kopf in weiteren Dokumenten auftreten und weiteren Komponenten im gleichen Satz wenn Kombinationen in vielen Dokumenten auftreten, werden diese gruppiert (dies erzwingt keine semantische Beziehung zwischen den Worten), fehleranfällig Phrase = Satzteil (Wortkombination) Weitere Komponenten Information Retrieval - Seminar Web Suchmaschinen
25
Multi Term Indexing (3) –lingust.
Linguistische Methode Einsatz von sprachlicher Analyse für Term- Zusammenhängen (Adjektive, Substantive, Verben) verbessert statistischen Methoden, Reduktion falscher Wortzusammenhänge Einbringen semantischer Faktoren in die Gruppierung Information Retrieval - Seminar Web Suchmaschinen
26
Multi Term Indexing (4) -probabil.
Probabilistische Methode erzeugt komplexe Indexstrukturen, basierend auf Abhängigkeiten der Terme man müsste exponentielle Anzahl von Term-Kombinationen betrachten daher kaum Anwendung Information Retrieval - Seminar Web Suchmaschinen
27
Information Retrieval
Rückblick auf Indexerzeugung Auffinden von Dokumenten im Netz Analyse des Inhaltes Metainformationen Textinformationen (Inhalt) auswerten Kurzbeschreibung erstellen (Terme) Single- vs. Multi-term Indexing jetzt: Retrieval Suchmechanismen auf dem Index Information Retrieval - Seminar Web Suchmaschinen
28
Information Retrieval - Seminar Web Suchmaschinen
Information Retrieval Modelle Ein IR-Modell wird beschrieben durch: Repräsentation für Dokumente & Abfragen Strategien zur Bewertung der Relevanz von Dokumenten bzgl. der Abfrage eines Benutzer Ranking-Methoden, gewichtete Ordnung der Resultate Methoden zum Erhalt von nutzerrelevantem-Feedback 4 Verfahren: Boolesche Verfahren Statistische Verfahren Vektorraum Verfahren Probabilistisches Verfahren Hybrid Verfahren Information Retrieval - Seminar Web Suchmaschinen
29
Information Retrieval - Seminar Web Suchmaschinen
Boolesches Modell (1) basiert auf Mengenlehre und boolescher Algebra bekannteste Verfahren, oft von IR Systemen genutzt Abfragen werden gebildet durch Terme, verbunden durch logische Operatoren Term aus Query im Dokument enthalten? Dokument ist Treffer, wenn boolesche Auswertung der Query wahr ist Information Retrieval - Seminar Web Suchmaschinen
30
Boolesches Modell (2)-Beispiel
DocID Term „A“ Term „B“ Term „C“ Term „D“ 1 ٧ 2 3 4 Anfrage Ergebnis A AND (C OR D) Doc1, Doc3 B OR C Doc1, Doc2, Doc4 Information Retrieval - Seminar Web Suchmaschinen
31
Boolesches Verfahren (3)
Vorteile: leicht implementierbar effizient in Anwendung (Computer & DB) Nachteile: nicht triviale Queries schwierig zu formulieren „Ganz oder gar nicht“ keine Gewichtung keine Reihenfolge Information Retrieval - Seminar Web Suchmaschinen
32
Boolesches Verfahren,erweitert (3)
„Smart Boolean“ Anwender gibt sprachliche Frage ein, wird dann automatisch in ein boolesches Konstrukt umgewandelt Techniken, um Abfragen einzuschränken & zu erweitern Information Retrieval - Seminar Web Suchmaschinen
33
Boolesches Verfahren,erweitert (4)
Fuzzy-Mengen Modell Ziel: Boolesche Strenge aufweichen & Ranking Fuzzytheorie auch Dokumente als Resultat, die wenn Query nur teilweise WAHR ist Ergebnisstufen zwischen 0 und 1 Aufweichung des GoG Stufe beschreibt, wie stark Term dem Query entspricht Information Retrieval - Seminar Web Suchmaschinen
34
Vektorraumverfahren (1)
Wurde in den 60ern in Havard im Laufe des „Smart“-Projektes entwickelt und in den 80ern überarbeitet Dokumente & Abfragen als Vektoren in einem mehrdimensionalen Vektorraum aufgefasst Dimensionen sind die Terme des Dokumentenindexes Vektoren enthalten Gewichte aller Terme Terme in Query können gewichtet werden Information Retrieval - Seminar Web Suchmaschinen
35
Vektorraumverfahren (2)
Jedes Dokument wird anhand des Auftretens & Gewichtung der Suchterme im Dokument, durch einen Vektor repräsentiert. Nähe zum Query-Vektor bestimmt Suchresultat & -Reihenfolge. Term1 Dokument 1 Query Dokument 2 Term2 Dokument 3 Term3 Information Retrieval - Seminar Web Suchmaschinen
36
Vektorraumverfahren (3)
im „Smart“-Projekt wurden heuristische Formeln zur Berechnung von Gewichten für die Indexierung entwickelt verbesserte Suchergebnisse Trefferberechnung: Vergleich von Dokumenten- & Query-Vektoren Vergleich z.B. cosinus-basiert Heuristik – nunja, und wenn komplett andere Dokumente untersucht werden sollen? Information Retrieval - Seminar Web Suchmaschinen
37
Vektorraumverfahren (4)
Vorteile: Relevanzabstufungen möglich (durch Termgewichtungen) Sortierung nach Ähnlichkeitsgrad möglich Rang Nachteile: es wird vorausgesetzt, dass Therme wechselseitig unabhängig sind Information Retrieval - Seminar Web Suchmaschinen
38
Hybrid-Modell (extended boolean)
Verbindung des Booleschen Modells mit dem Vektormodell, für freie Gewichtung Idee: Nutzer kann boolesche Anfrage stellen zusätzlicher Parameter steuert die Interpretation; wie strikt AND,OR ausgewertet werden von 2 bis unendlich 2 keine Unterscheidung zwischen AND,OR unendlich binäres „Ranking“ (Treffer, nicht Treffer) beste Werte, empirische Untersuchungen: 2 <= p <= 5 Information Retrieval - Seminar Web Suchmaschinen
39
Information Retrieval - Seminar Web Suchmaschinen
Probabilistisches Verfahren (1) Berechnung der Wahrscheinlichkeit, dass Dokument relevant ist Training erforderlich Berechnung stützt sich auf Parameter: Wahrscheinlichkeit der Relevanz UND Irrelevanz eines Dokumentes auf die Query Kostenparameter. Verlust bei Auffinden eines irrelevanten Dokumentes Nichtauffinden eines relevanten Dokumentes Information Retrieval - Seminar Web Suchmaschinen
40
Probabilistisches Verfahren (2)
Vorteile: Gefundene Dokumente werden nach Wahrscheinlichkeit ihrer Relevanz sortiert Nachteil: ist so gut, wie die Wahrscheinlichkeitsberechnung eingepegelt ist (Training) Häufigkeit eines Terms im Dokument ist irrelevant Information Retrieval - Seminar Web Suchmaschinen
41
IR-Modelle-Zusammenfassung
Boolesches Modell im Vergleich schlechte Ergebnisse, aber verbreitet. Information Retrieval - Seminar Web Suchmaschinen
42
Relevanz der Ergebnisse
alle relevanten Dokumente gefunden? Ranking hilfreich? Relevanz-Feedback vom Anwender gewünscht Anwender bewertet Dokument des Suchergebnisses 2-Level: brauchbar – nicht brauchbar Multi-Level: Zwischenstufen & im Bezug zu anderen Dokumenten (weniger relevant als…) Information Retrieval - Seminar Web Suchmaschinen
43
Relevanz-Feedback-Nutzung
1. Query anpassen Gewichtungen der Query verändern (Termgewichte des Queryvektors) Query Erweiterung (Hinzufügen von Termen) Query Splitting Information Retrieval - Seminar Web Suchmaschinen
44
Relevanz-Feedback-Nutzung (2)
2. Index verändern Index manipulieren (Gewichtungen im Index) Information Retrieval - Seminar Web Suchmaschinen
45
Information Retrieval - Seminar Web Suchmaschinen
Relevanz-Feedback (4) kein Suchdienst bietet heute Relevanz-Feedback Techniken! Gefahren? Information Retrieval - Seminar Web Suchmaschinen
46
Information Retrieval - Seminar Web Suchmaschinen
Zusammenfassung Rückblick: versch. Methoden zur Bestimmung der Relevanz von Query zu indexierten Dokumenten damit verbunden, Ranking-Verfahren Hilfe vom Benutzer wünschenswert Information Retrieval - Seminar Web Suchmaschinen
47
Information Retrieval - Seminar Web Suchmaschinen
IR und das WWW IR viele Einsatzfelder Besonderheiten im Web: riesige Datenmengen, dunkle Bereiche im Web (~500x sichtbares Web) , wachsend) oft nicht-statische Seiten (generierte Seiten, DB) Dynamik (verdoppelt sich alle 4-8 Monate) tote Links Sprachenvielfalt Duplikate hohe Verlinkung (~8Links/Seite) Indexierungsaufwand Benutzerverhalten kennen (Geschwindigkeit, Ergebnisseiten) Datenmenge, größter Prozentsatz ist Text Daneben auch Audio und Video Information Retrieval - Seminar Web Suchmaschinen
48
Information Retrieval - Seminar Web Suchmaschinen
Noch Fragen ? Information Retrieval - Seminar Web Suchmaschinen
49
Information Retrieval - Seminar Web Suchmaschinen
Literaturangaben Venkat N. Gudivada, Vijay V. Raghavan, William I. Grosky, Rajesh Kasanagottu.: Information Retrieval on the World Wide Web. IEEE Internet Computing. September-October 1997 (Vol. 1, No. 5). pp Mei Kobayashi, Koichi Takeda. Information Retrieval on the Web. ACM Computing Surveys, Vol. 32, No. 2, June pp IR und das Web, Interuniversitäres Seminar 2001, Martin Waldburger, PDF „Building Fast Search Engines“, Hugh E. Williams, Datamining im WWW,Knowledge Discovery im Internet, Johann Zehentner, Ausarbeitung 2000 Information Retrieval - Seminar Web Suchmaschinen
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.