Spezifikations- und Selektionsmethoden für Daten und Dienste

Spezifikations- und Selektionsmethoden für Daten und Dienste
Verfahren des Information Retrieval Maxim Jochim

Information Retrieval
Inhaltliche Suche in den Texten Textretrieval oder Dokumentenretrieval aber nicht nur Klassische Anwendung: Literaturdatenbanken (Digitale Bibliotheken) Populär durch Internet Suchmaschinen google yahoo zunehmend auch Bildersuche

Unterschiede zum klassischen Datenbanksystem
Schwierigere Formulierung einer Anfrage zum aktuellen Informationsbedürfnis Sehr viele Antworte, aber nur wenig interessante. Gesamtzahl der Treffer bei Internet-Suchmaschinen Rangordnung der Antworten. 90% der Nutzer betrachten nur die 10 ersten Antworte Repräsentation des Inhalts. Systeminterne Repräsentation des Inhalts steht teilweise nicht im Zusammenhang mit dem Inhalt des Dokuments. (zumindest unsicherheitsbehaftet)

Beispiel einer Datenbankrecherche
Beispieldatenbank „AUTOS“ Besteht aus Dokumenten die Artikel beschreiben durch: bibliografische Angaben kurze Zusammenfassung Einordnung in hierarchisches Indexsystem Stichwörter Retrievalsystem liefert nur Dokumente mit angegebenen Wortkombinationen ! Es müssen Stichwörter überlegt werden, die den Informationsbedarf möglichst genau widerspiegeln.

Suche nach: Literatur zum Stand der Forschung im Bereich der alternativen Energien für den Einsatz in den Personenkraftwagen. Dabei interessiert uns insbesondere, was man bei BMW erreicht hat und Mercedes interessiert uns überhaupt nicht.

Suche nach: Literatur zum Stand der Forschung im Bereich der alternativen Energien für den Einsatz in den Personenkraftwagen, Dabei interessiert uns insbesondere, was man bei BMW erreicht hat und Mercedes interessiert uns überhaupt nicht.

Stichwörter: Alternative Energie Personnenkraftwagen BMW Mercedes Anfrage: ALTERNATIVE ENERGIE and PERSONENKRAFTWAGEN and BMW and not MERCEDES Interpretation des Systems: Suche alle Dokumente in denen „PERSONENKRAFTWAGEN“ und „ALTERNATIVE ENERGIE“ und „BMW“ nicht aber „MERCEDES“ irgendwo im Text vorkommen. Nicht „case sensitiv“; mit „white space“ (z.B. Zeilenumbruch)

Daten – Information - Wissen
Daten – syntaktische Ebene Datenbasis ist eine Ansammlung von Werten ohne einer realwertigen Semantik Information – semantische Ebene verwendbare, interpretierbare Semantik Datenbanksysteme und IR-Systeme enthalten Information Wissen – pragmatische Ebene Wissen ist die Information, die von jemanden in einer konkreten Situation zur Lösung von Problem benötigt wird.

Wissen ist Information in Aktion
Wissen oft nicht vorhanden und muss gesucht werden Informationsflut für gezieltes Wissen ist man bereit zu zahlen: Tageszeitung werbefreies Fernsehen IR-Systeme um Wissen zu extrahieren Aufbereitung der Daten durch Retrieval-Verfahren Bereitstellung des benötigten Wissens in der konkreten Situation

Verbreitete Verfahren des Information Retrieval
Werden hier besprochen: Bool'shes Retrieval Fuzzy-Retrieval Vektorraummodell Existieren aber viel mehr nicht in diesem Vortrag

Bool'sches Retrieval Historisch erstes Retrieval Modell
Logische Klarheit, doch ungeordnete Antwortmenge Erster Einsatzzweck: Retrieval mit Schlitzlochkarten. Auch später aus Speichergründen das einzig anwendbare Modell. sofortige Entscheidungen Implementierung mit invertierten Listen zu jedem Term wird eingetragen, in welchen Dokumenten er vorkommt.

Grundidee Bis heute nicht grundlegend in Frage gestellt.
Einfache Mengenopertation auf Dokumentenmenge, die durch Attributwerte der Dokumente charakterisiert sind z. B. Auftreten der Terme im Dokument Anfrage: Verknüpfung der Attribut-Wert-Paare Attribut-Wert-Paar in der Anfrage: Menge der Dokumente mit dem entsprechenden Attributwert

Definition D T T: D → T, t(d) = ti
Menge aller Dokumente T Menge der Indexterme T: D → T, t(d) = ti ein Attribut Dt,ti = t -1(ti) = { d  D | t(d) = ti } Menge der Dokumente die durch den Attributwert ti charakterisiert sind Mehrere Attribut-Wert-Paare möglich (t, ti) AND (s, si) liefert Dt,ti ∩ Ds,si

Bool'sches Retrieval auf Textdokumente
Die wichtigsten Attribute das auftreten von Termen in verschiedenen Feldern der Dokumente z. B. Attribut Auftreten des Terms t1 im Titelfeld Durch TI charakterisierte Dokumentenmenge:

Bool'sches Retrieval auf Textdokumente
Auftreten des Terms t1 in der Stichwortliste des Dokuments DTSt1, true t1 := ALTERNATIVE ENERGIE DTSt2, true t2 := PERSONNENKRAFTWAGEN DTSt3, true t3 := BMW DTSt4, false t4 := MERCEDES Antwortmenge: Enthält alle Dokumente die t1, t2, t3 enthalten nicht aber t4

Bool'sches Retrieval Wurde für IR-ungeeignet befunden weil:
Größe der Antwortmenge ist schwer kontrollierbar keine Ordnung der Ergebnisse nach Relevanz Trennung in „gefunden“ und „nicht gefunden“ zu streng z.B q = t1 AND t2 AND t3 = false für t1,t2=true aber t3=false umständliche Anfrageformulierung schlechte Retrievalqaulität im vergleich zu anderen Modellen

Fuzzy Retrieval Fragebeschreibung und Retrievalfunktion wie bei Bool'schem Retrieval Gewichtete Indexierungen bei Dokumentbeshreibung dti  [0, 1 ] : ein Attribut im Dokument hat einen Wert aus [0, 1] Rangordnung der Antwortdokumente durch Retrievalfunktion: ρ(qkd, dt)  [0, 1]

Fuzzy Retrieval Beispiel: Antwort: {d1, d2} aber…

Fuzzy Retrieval Retrievalfunktion ungünstig, da:
d2 hat den höheren t2 wert, doch wegen der Minimumfunktion bei der Konjunktion ist das höhere Gewicht des t1 für das höhere Retrievalgewicht von d1 ausschlaggebend

Beurteilung Nachteil des strickten Bool‘schen Retrievals entfällt.
Vorteil: Rangordnung der Dokumente durch gewichtete Indexierung Nachteile: Retrievalqualität ist immer noch schlecht im Vergleich zu, VR- Modell Umständliche Frageformulierung wie beim bool'schen Retrieval

Vektorraummodell Das bekannteste Modell
Dokumente und Fragen sind Punkte im Vektorraum Suche nach Dokumenten, deren Vektoren ähnlich dem Fragevektor sind Der Vektorraum wird als orthonormal angenommen alle Termvektoren sind linear unabhängig alle Termvektoren sind normiert

Beschreibung des Modells
Gewichtete Indexierung bei der Dokumentbeschreibung ähnlich der des Fuzzy- Retrievals Gleiche Struktur der Frage: Retrieval Funktion: verschiedene Vektor-Ähnlichkeitsmaße, z. B. Kosinus-, Overlap-, Jaccard-Maß, meistverwendete ist aber das Skalarprodukt:

"Alternative Energie für den Einsatz in den Personenkraftwagen von BMW, nicht von Mercedes"
Beispiel Ausgabe der Dokumente entsprechend den Retrievalgewichten, also d1, d4, d3, d2. ti qki d1i d2i d3i d4i Alternative Energie 3 1 0,5 in den Personenkraftwagen Von BMW 2 Mercedes -1 Retrievalgewicht 6 5

Beurteilung Vorteile: Nachteile:
benutzerfreundlich da, einfaches, anschauliches Modell, mit einfacher Frageformulierung unmittelbar auf neue Kollektionen anwendbar im Gegensatz zu den probabilistischen Modellen, wo das Sammeln der Relevance-Feedback-Daten teilweise erforderlich ist gute Retrievalqualität in Kombination mit Gewichtungsformeln. Nachteile: heuristischer Ansatzes bei der Berechnung der Indizierungsgewichte erschwert die Erweiterung der Dokumentrepräsentation (Z. B. stärkere Gewichtung der Terme im Titelfeld) kein Bezug auf die Retrievalqualität, theoretisch nicht zu begründen, warum die zu einer Frage ähnlichen Dokumente auch relevant sein sollen.

Gewichtung Bis jetzt: Einfachste Methode: von Hand
Ähnlichkeitsfunktionen betrachtet ohne zu wissen woher die Gewichte kommen. Einfachste Methode: von Hand Gewichtungen bei der Indexierung eingegeben lassen ziemlich Gewichtung der Terme durch Anfragenden diese können durch Feedbackmethoden verfeinert werden ! die Gewichtungen von dem jeweiligen Kontext abhängig bei der Indexierung von dem Dokument, das indexiert wird, bei der Anfrage von dem Informationsbedürfnis der Anfragenden.

Kontext unabhängige Gewichtung
Feststellung: Nicht fachgebietbezogene Terme sind schlechte Suchterme z. B. Ergebnis, Methode, Verfahren, Zusammenfassung gute Terme, die nur in bestimmten Wissensgebieten vorkommen Betrachtung der Häufigkeit der Terme in Dokumenten Terme, die in sehr vielen Dokumenten vorkommen, haben eine schlechte Aussagekraft Termen, die nur in sehr wenigen Dokumenten vorkommen erzielen im allgemeinen keine umfassenden Suchergebnisse

Häufigkeit der Terme Häufige Terme können beim Retrieval durch eine Stoppwortliste ausgeschlossen oder durch eine schwache Gewichtung abgeschwächt werden. Seltene Terme werden meistens nicht gesondert behandelt, d.h., die rechte Trennlinie wird in der Regel ignoriert.

Spezifikations- und Selektionsmethoden für Daten und Dienste

Ähnliche Präsentationen

Präsentation zum Thema: "Spezifikations- und Selektionsmethoden für Daten und Dienste"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Spezifikations- und Selektionsmethoden für Daten und Dienste

Ähnliche Präsentationen

Präsentation zum Thema: "Spezifikations- und Selektionsmethoden für Daten und Dienste"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback