Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

S2D2 IPD, Universität Karlsruhe 10. Januar 2006 Spezifikations- und Selektionsmethoden für Daten und Dienste Verfahren des Information Retrieval Maxim.

Ähnliche Präsentationen


Präsentation zum Thema: "S2D2 IPD, Universität Karlsruhe 10. Januar 2006 Spezifikations- und Selektionsmethoden für Daten und Dienste Verfahren des Information Retrieval Maxim."—  Präsentation transkript:

1 S2D2 IPD, Universität Karlsruhe 10. Januar 2006 Spezifikations- und Selektionsmethoden für Daten und Dienste Verfahren des Information Retrieval Maxim Jochim

2 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 2 Information Retrieval Inhaltliche Suche in den Texten – Textretrieval oder Dokumentenretrieval – aber nicht nur Klassische Anwendung: – Literaturdatenbanken (Digitale Bibliotheken) Populär durch Internet Suchmaschinen – google – yahoo – zunehmend auch Bildersuche

3 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 3 Unterschiede zum klassischen Datenbanksystem Schwierigere Formulierung einer Anfrage zum aktuellen Informationsbedürfnis Sehr viele Antworte, aber nur wenig interessante. – Gesamtzahl der Treffer bei Internet-Suchmaschinen Rangordnung der Antworten. – 90% der Nutzer betrachten nur die 10 ersten Antworte Repräsentation des Inhalts. – Systeminterne Repräsentation des Inhalts steht teilweise nicht im Zusammenhang mit dem Inhalt des Dokuments. (zumindest unsicherheitsbehaftet)

4 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 4 Beispiel einer Datenbankrecherche Beispieldatenbank AUTOS Besteht aus Dokumenten die Artikel beschreiben durch: – bibliografische Angaben – kurze Zusammenfassung – Einordnung in hierarchisches Indexsystem – Stichwörter Retrievalsystem liefert nur Dokumente mit angegebenen Wortkombinationen – ! Es müssen Stichwörter überlegt werden, die den Informationsbedarf möglichst genau widerspiegeln.

5 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 5 Beispiel einer Datenbankrecherche Suche nach: – Literatur zum Stand der Forschung im Bereich der alternativen Energien für den Einsatz in den Personenkraftwagen. Dabei interessiert uns insbesondere, was man bei BMW erreicht hat und Mercedes interessiert uns überhaupt nicht.

6 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 6 Beispiel einer Datenbankrecherche Suche nach: – Literatur zum Stand der Forschung im Bereich der alternativen Energien für den Einsatz in den Personenkraftwagen, Dabei interessiert uns insbesondere, was man bei BMW erreicht hat und Mercedes interessiert uns überhaupt nicht.

7 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 7 Beispiel einer Datenbankrecherche Stichwörter: – Alternative Energie – Personnenkraftwagen – BMW – Mercedes Anfrage: – ALTERNATIVE ENERGIE and PERSONENKRAFTWAGEN and BMW and not MERCEDES Interpretation des Systems: – Suche alle Dokumente in denen PERSONENKRAFTWAGEN und ALTERNATIVE ENERGIE und BMW nicht aberMERCEDES irgendwo im Text vorkommen. Nicht case sensitiv; mit white space (z.B. Zeilenumbruch)

8 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 8 Daten – Information - Wissen Daten – syntaktische Ebene – Datenbasis ist eine Ansammlung von Werten ohne einer realwertigen Semantik Information – semantische Ebene – verwendbare, interpretierbare Semantik – Datenbanksysteme und IR-Systeme enthalten Information Wissen – pragmatische Ebene – Wissen ist die Information, die von jemanden in einer konkreten Situation zur Lösung von Problem benötigt wird.

9 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 9 Wissen ist Information in Aktion Wissen oft nicht vorhanden und muss gesucht werden – Informationsflut – für gezieltes Wissen ist man bereit zu zahlen: Tageszeitung werbefreies Fernsehen IR-Systeme um Wissen zu extrahieren – Aufbereitung der Daten durch Retrieval-Verfahren – Bereitstellung des benötigten Wissens in der konkreten Situation

10 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 10 Verbreitete Verfahren des Information Retrieval Werden hier besprochen: – Bool'shes Retrieval – Fuzzy-Retrieval – Vektorraummodell Existieren aber viel mehr – nicht in diesem Vortrag

11 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 11 Bool'sches Retrieval Historisch erstes Retrieval Modell Logische Klarheit, – doch ungeordnete Antwortmenge Erster Einsatzzweck: – Retrieval mit Schlitzlochkarten. Auch später aus Speichergründen das einzig anwendbare Modell. – sofortige Entscheidungen Implementierung mit invertierten Listen – zu jedem Term wird eingetragen, in welchen Dokumenten er vorkommt.

12 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 12 Grundidee Bis heute nicht grundlegend in Frage gestellt. Einfache Mengenopertation auf Dokumentenmenge, die durch Attributwerte der Dokumente charakterisiert sind – z. B. Auftreten der Terme im Dokument Anfrage: Verknüpfung der Attribut-Wert-Paare Attribut-Wert-Paar in der Anfrage: – Menge der Dokumente mit dem entsprechenden Attributwert

13 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 13 Definition D – Menge aller Dokumente T – Menge der Indexterme T: D T, t(d) = t i – ein Attribut D t,t i = t -1 (t i ) = { d D | t(d) = t i } – Menge der Dokumente die durch den Attributwert t i charakterisiert sind – Mehrere Attribut-Wert-Paare möglich (t, t i ) AND (s, s i ) liefert D t,t i D s,s i

14 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 14 Bool'sches Retrieval auf Textdokumente Die wichtigsten Attribute das auftreten von Termen in verschiedenen Feldern der Dokumente z. B. Attribut – Auftreten des Terms t 1 im Titelfeld Durch TI charakterisierte Dokumentenmenge:

15 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 15 Bool'sches Retrieval auf Textdokumente – Auftreten des Terms t 1 in der Stichwortliste des Dokuments – D TS t 1, true t 1 := ALTERNATIVE ENERGIE – D TS t 2, true t 2 := PERSONNENKRAFTWAGEN – D TS t 3, true t 3 := BMW – D TS t 4, false t 4 := MERCEDES Antwortmenge: – Enthält alle Dokumente die t 1, t 2, t 3 enthalten nicht aber t 4

16 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 16 Bool'sches Retrieval Wurde für IR-ungeeignet befunden weil: – Größe der Antwortmenge ist schwer kontrollierbar – keine Ordnung der Ergebnisse nach Relevanz – Trennung in gefunden und nicht gefunden zu streng z.B q = t 1 AND t 2 AND t 3 = false für t 1,t 2 =true aber t 3 =false – umständliche Anfrageformulierung – schlechte Retrievalqaulität im vergleich zu anderen Modellen

17 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 17 Fuzzy Retrieval Fragebeschreibung und Retrievalfunktion wie bei Bool'schem Retrieval Gewichtete Indexierungen bei Dokumentbeshreibung – d t i [0, 1 ] : ein Attribut im Dokument hat einen Wert aus [0, 1] Rangordnung der Antwortdokumente durch Retrievalfunktion: – ρ(q k d, d t ) [0, 1]

18 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 18 Fuzzy Retrieval Beispiel: Antwort: {d 1, d 2 } aber…

19 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 19 Fuzzy Retrieval Retrievalfunktion ungünstig, da: – d 2 hat den höheren t 2 wert, doch wegen der Minimumfunktion bei der Konjunktion ist das höhere Gewicht des t 1 für das höhere Retrievalgewicht von d 1 ausschlaggebend

20 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 20 Beurteilung Nachteil des strickten Boolschen Retrievals entfällt. Vorteil: – Rangordnung der Dokumente durch gewichtete Indexierung Nachteile: – Retrievalqualität ist immer noch schlecht im Vergleich zu, VR- Modell – Umständliche Frageformulierung wie beim bool'schen Retrieval

21 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 21 Vektorraummodell Das bekannteste Modell Dokumente und Fragen sind Punkte im Vektorraum Suche nach Dokumenten, deren Vektoren ähnlich dem Fragevektor sind Der Vektorraum wird als orthonormal angenommen – alle Termvektoren sind linear unabhängig – alle Termvektoren sind normiert

22 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 22 Beschreibung des Modells Gewichtete Indexierung bei der Dokumentbeschreibung – ähnlich der des Fuzzy- Retrievals Gleiche Struktur der Frage: Retrieval Funktion: – verschiedene Vektor-Ähnlichkeitsmaße, z. B. Kosinus-, Overlap-, Jaccard-Maß, meistverwendete ist aber das Skalarprodukt:

23 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 23 "Alternative Energie für den Einsatz in den Personenkraftwagen von BMW, nicht von Mercedes" Beispiel Ausgabe der Dokumente entsprechend den Retrievalgewichten, also d 1, d 4, d 3, d 2. titi qkiqki d1id1i d2id2i d3id3i d4id4i Alternative Energie310,51 in den110,5 Personenkraftwagen111 Von0,51 BMW2111 Mercedes 11 Retrievalgewicht60,525

24 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 24 Beurteilung Vorteile: – benutzerfreundlich da, einfaches, anschauliches Modell, mit einfacher Frageformulierung – unmittelbar auf neue Kollektionen anwendbar im Gegensatz zu den probabilistischen Modellen, wo das Sammeln der Relevance-Feedback-Daten teilweise erforderlich ist – gute Retrievalqualität in Kombination mit Gewichtungsformeln. Nachteile: – heuristischer Ansatzes bei der Berechnung der Indizierungsgewichte erschwert die Erweiterung der Dokumentrepräsentation (Z. B. stärkere Gewichtung der Terme im Titelfeld) – kein Bezug auf die Retrievalqualität, theoretisch nicht zu begründen, warum die zu einer Frage ähnlichen Dokumente auch relevant sein sollen.

25 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 25 Gewichtung Bis jetzt: – Ähnlichkeitsfunktionen betrachtet ohne zu wissen woher die Gewichte kommen. Einfachste Methode: von Hand – Gewichtungen bei der Indexierung eingegeben lassen ziemlich – Gewichtung der Terme durch Anfragenden diese können durch Feedbackmethoden verfeinert werden – ! die Gewichtungen von dem jeweiligen Kontext abhängig bei der Indexierung von dem Dokument, das indexiert wird, bei der Anfrage von dem Informationsbedürfnis der Anfragenden.

26 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 26 Kontext unabhängige Gewichtung Feststellung: – Nicht fachgebietbezogene Terme sind schlechte Suchterme z. B. Ergebnis, Methode, Verfahren, Zusammenfassung – gute Terme, die nur in bestimmten Wissensgebieten vorkommen Betrachtung der Häufigkeit der Terme in Dokumenten – Terme, die in sehr vielen Dokumenten vorkommen, haben eine schlechte Aussagekraft – Termen, die nur in sehr wenigen Dokumenten vorkommen erzielen im allgemeinen keine umfassenden Suchergebnisse

27 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung 27 Häufigkeit der Terme – Häufige Terme können beim Retrieval durch eine Stoppwortliste ausgeschlossen oder durch eine schwache Gewichtung abgeschwächt werden. – Seltene Terme werden meistens nicht gesondert behandelt, d.h., die rechte Trennlinie wird in der Regel ignoriert.

28 IPD, Universität Karlsruhe S2D2 Maxim Jochim Grundlagen – Information Retrieval – Datenbank – Datum Wissen Verfahren – Bool'sches – Fuzzy – Vektorraummodell Gewichtung


Herunterladen ppt "S2D2 IPD, Universität Karlsruhe 10. Januar 2006 Spezifikations- und Selektionsmethoden für Daten und Dienste Verfahren des Information Retrieval Maxim."

Ähnliche Präsentationen


Google-Anzeigen