Spezifikations- und Selektionsmethoden für Daten und Dienste

Slides:

Advertisements

Ähnliche Präsentationen

Algorithmen und Datenstrukturen

Advertisements

Partitionierungstechniken in Datenbanksystemen

Kohonennetze für Information Retrieval mit User Feedback

Eine dynamische Menge, die diese Operationen unterstützt,

Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems

EconBiz – Ergebnisse der Umfrage zu Informationskompetenz und EconBiz und der GENICUS-Studie Tamara Pianos, Thorsten Meyer Hamburg, 11. September.

BTW, 26. Februar 2003Übertragung von Rangordnungen1 Ein Ansatz zur Übertragung von Rangordnungen bei der Suche auf strukturierten Daten Andreas Henrich.

Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.

Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.

Seminar Textmining WS 06/07

Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.

WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.

Default Logiken Zhao Li

Finale Semantik und beobachtbares Verhalten

Inhaltlich orientierter Zugriff auf unstrukturierte Daten

INFORMATION RETRIEVAL (IR)

Genetische Algorithmen für die Variogrammanpassung

Seminar „Extrapolationsmethoden für zufällige Felder“

Auswertung der Interviews

Verifizieren versus Berechnen

Standortfaktoren INTERN - Ausdrucksstark präsentieren.

Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

Geometrisches Divide and Conquer

Der Umgang mit qualitativ erhobenen Daten: Strategien der Datenanalyse

Deklaratives Debugging (Seminar Software Engineering) Tim Sender Deklaratives Debugging Seminar Software Engineering.

Information Retrieval Modelle: Vektor-Modell

Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.

Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.

Access 2000 Datenbanken.

Normalformen Normalisieren Schlüssel

6 Normalformen Normalisieren Schlüssel

Was sind Histogramme? (1)

Wie funktionieren Suchmaschinen?

Qualitätskriterien zur Beurteilung von Dokumentationen

Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.

Relevanz Ranking Bisher:

3 Prinzipien des Information Retrieval

MeiNetz-Suche Wie kann man in meiNetz etwas suchen? 1.durch Gruppen browsen 2.Suchfunktion.

Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.

Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen

6. Zusammengesetzte Daten (Verbund)

Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.

Entitäten Extraktion Einführung

Kakuro Regeln und Strategien

W w w. s a f e r i n t e r n e t. a t Die Welt zu Hause Informationen suchen und finden.

Kollektionen in Java Aufzählungstypen, Generische Typen

LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)

§3 Allgemeine lineare Gleichungssysteme

Polynome und schnelle Fourier-Transformation

Einführung in die Programmierung Wintersemester 2013/14 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.

Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt

verstehen planen bearbeiten

Arne Vater Wintersemester 2006/ Vorlesung

Information Retrieval, Vektorraummodell

Eike Schallehn, Martin Endig

Analyse der Laufzeit von Algorithmen

The PicSOM Retrieval System 1 Christian Steinberg.

Unscharfe Anfragen in Multimedia- Datenbanksystemen Seminar Multimedia-Datenbanken WS 2001/2002 Silvana Runow.

Information Retrieval Methoden, die dazu dienen, unstrukturierte Daten zu beschreiben, zu speichern und später nach inhaltlichen Kriterien wieder aufzufinden.

Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)

Geoinformationssysteme

Recherche-Workshop der Stadtbücherei Metzingen Schritte zur erfolgreichen Recherche.

Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.

Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.

 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.

Einführung: Statistische Verfahren der automatischen Indexierung

Präsentation transkript:

Spezifikations- und Selektionsmethoden für Daten und Dienste Verfahren des Information Retrieval Maxim Jochim maxim.jochim@gmx.de

Information Retrieval Inhaltliche Suche in den Texten Textretrieval oder Dokumentenretrieval aber nicht nur Klassische Anwendung: Literaturdatenbanken (Digitale Bibliotheken) Populär durch Internet Suchmaschinen google yahoo zunehmend auch Bildersuche

Unterschiede zum klassischen Datenbanksystem Schwierigere Formulierung einer Anfrage zum aktuellen Informationsbedürfnis Sehr viele Antworte, aber nur wenig interessante. Gesamtzahl der Treffer bei Internet-Suchmaschinen Rangordnung der Antworten. 90% der Nutzer betrachten nur die 10 ersten Antworte Repräsentation des Inhalts. Systeminterne Repräsentation des Inhalts steht teilweise nicht im Zusammenhang mit dem Inhalt des Dokuments. (zumindest unsicherheitsbehaftet)

Beispiel einer Datenbankrecherche Beispieldatenbank „AUTOS“ Besteht aus Dokumenten die Artikel beschreiben durch: bibliografische Angaben kurze Zusammenfassung Einordnung in hierarchisches Indexsystem Stichwörter Retrievalsystem liefert nur Dokumente mit angegebenen Wortkombinationen ! Es müssen Stichwörter überlegt werden, die den Informationsbedarf möglichst genau widerspiegeln.

Beispiel einer Datenbankrecherche Suche nach: Literatur zum Stand der Forschung im Bereich der alternativen Energien für den Einsatz in den Personenkraftwagen. Dabei interessiert uns insbesondere, was man bei BMW erreicht hat und Mercedes interessiert uns überhaupt nicht.

Beispiel einer Datenbankrecherche Suche nach: Literatur zum Stand der Forschung im Bereich der alternativen Energien für den Einsatz in den Personenkraftwagen, Dabei interessiert uns insbesondere, was man bei BMW erreicht hat und Mercedes interessiert uns überhaupt nicht.

Beispiel einer Datenbankrecherche Stichwörter: Alternative Energie Personnenkraftwagen BMW Mercedes Anfrage: ALTERNATIVE ENERGIE and PERSONENKRAFTWAGEN and BMW and not MERCEDES Interpretation des Systems: Suche alle Dokumente in denen „PERSONENKRAFTWAGEN“ und „ALTERNATIVE ENERGIE“ und „BMW“ nicht aber „MERCEDES“ irgendwo im Text vorkommen. Nicht „case sensitiv“; mit „white space“ (z.B. Zeilenumbruch)

Daten – Information - Wissen Daten – syntaktische Ebene Datenbasis ist eine Ansammlung von Werten ohne einer realwertigen Semantik Information – semantische Ebene verwendbare, interpretierbare Semantik Datenbanksysteme und IR-Systeme enthalten Information Wissen – pragmatische Ebene Wissen ist die Information, die von jemanden in einer konkreten Situation zur Lösung von Problem benötigt wird.

Wissen ist Information in Aktion Wissen oft nicht vorhanden und muss gesucht werden Informationsflut für gezieltes Wissen ist man bereit zu zahlen: Tageszeitung werbefreies Fernsehen IR-Systeme um Wissen zu extrahieren Aufbereitung der Daten durch Retrieval-Verfahren Bereitstellung des benötigten Wissens in der konkreten Situation

Verbreitete Verfahren des Information Retrieval Werden hier besprochen: Bool'shes Retrieval Fuzzy-Retrieval Vektorraummodell Existieren aber viel mehr nicht in diesem Vortrag

Bool'sches Retrieval Historisch erstes Retrieval Modell Logische Klarheit, doch ungeordnete Antwortmenge Erster Einsatzzweck: Retrieval mit Schlitzlochkarten. Auch später aus Speichergründen das einzig anwendbare Modell. sofortige Entscheidungen Implementierung mit invertierten Listen zu jedem Term wird eingetragen, in welchen Dokumenten er vorkommt.

Grundidee Bis heute nicht grundlegend in Frage gestellt. Einfache Mengenopertation auf Dokumentenmenge, die durch Attributwerte der Dokumente charakterisiert sind z. B. Auftreten der Terme im Dokument Anfrage: Verknüpfung der Attribut-Wert-Paare Attribut-Wert-Paar in der Anfrage: Menge der Dokumente mit dem entsprechenden Attributwert

Definition D T T: D → T, t(d) = ti Menge aller Dokumente T Menge der Indexterme T: D → T, t(d) = ti ein Attribut Dt,ti = t -1(ti) = { d  D | t(d) = ti } Menge der Dokumente die durch den Attributwert ti charakterisiert sind Mehrere Attribut-Wert-Paare möglich (t, ti) AND (s, si) liefert Dt,ti ∩ Ds,si

Bool'sches Retrieval auf Textdokumente Die wichtigsten Attribute das auftreten von Termen in verschiedenen Feldern der Dokumente z. B. Attribut Auftreten des Terms t1 im Titelfeld Durch TI charakterisierte Dokumentenmenge:

Bool'sches Retrieval auf Textdokumente Auftreten des Terms t1 in der Stichwortliste des Dokuments DTSt1, true t1 := ALTERNATIVE ENERGIE DTSt2, true t2 := PERSONNENKRAFTWAGEN DTSt3, true t3 := BMW DTSt4, false t4 := MERCEDES Antwortmenge: Enthält alle Dokumente die t1, t2, t3 enthalten nicht aber t4

Bool'sches Retrieval Wurde für IR-ungeeignet befunden weil: Größe der Antwortmenge ist schwer kontrollierbar keine Ordnung der Ergebnisse nach Relevanz Trennung in „gefunden“ und „nicht gefunden“ zu streng z.B q = t1 AND t2 AND t3 = false für t1,t2=true aber t3=false umständliche Anfrageformulierung schlechte Retrievalqaulität im vergleich zu anderen Modellen

Fuzzy Retrieval Fragebeschreibung und Retrievalfunktion wie bei Bool'schem Retrieval Gewichtete Indexierungen bei Dokumentbeshreibung dti  [0, 1 ] : ein Attribut im Dokument hat einen Wert aus [0, 1] Rangordnung der Antwortdokumente durch Retrievalfunktion: ρ(qkd, dt)  [0, 1]

Fuzzy Retrieval Beispiel: Antwort: {d1, d2} aber…

Fuzzy Retrieval Retrievalfunktion ungünstig, da: d2 hat den höheren t2 wert, doch wegen der Minimumfunktion bei der Konjunktion ist das höhere Gewicht des t1 für das höhere Retrievalgewicht von d1 ausschlaggebend

Beurteilung Nachteil des strickten Bool‘schen Retrievals entfällt. Vorteil: Rangordnung der Dokumente durch gewichtete Indexierung Nachteile: Retrievalqualität ist immer noch schlecht im Vergleich zu, VR- Modell Umständliche Frageformulierung wie beim bool'schen Retrieval

Vektorraummodell Das bekannteste Modell Dokumente und Fragen sind Punkte im Vektorraum Suche nach Dokumenten, deren Vektoren ähnlich dem Fragevektor sind Der Vektorraum wird als orthonormal angenommen alle Termvektoren sind linear unabhängig alle Termvektoren sind normiert

Beschreibung des Modells Gewichtete Indexierung bei der Dokumentbeschreibung ähnlich der des Fuzzy- Retrievals Gleiche Struktur der Frage: Retrieval Funktion: verschiedene Vektor-Ähnlichkeitsmaße, z. B. Kosinus-, Overlap-, Jaccard-Maß, meistverwendete ist aber das Skalarprodukt:

"Alternative Energie für den Einsatz in den Personenkraftwagen von BMW, nicht von Mercedes" Beispiel Ausgabe der Dokumente entsprechend den Retrievalgewichten, also d1, d4, d3, d2. ti qki d1i d2i d3i d4i Alternative Energie 3 1 0,5 in den Personenkraftwagen Von BMW 2 Mercedes -1 Retrievalgewicht 6 5

Beurteilung Vorteile: Nachteile: benutzerfreundlich da, einfaches, anschauliches Modell, mit einfacher Frageformulierung unmittelbar auf neue Kollektionen anwendbar im Gegensatz zu den probabilistischen Modellen, wo das Sammeln der Relevance-Feedback-Daten teilweise erforderlich ist gute Retrievalqualität in Kombination mit Gewichtungsformeln. Nachteile: heuristischer Ansatzes bei der Berechnung der Indizierungsgewichte erschwert die Erweiterung der Dokumentrepräsentation (Z. B. stärkere Gewichtung der Terme im Titelfeld) kein Bezug auf die Retrievalqualität, theoretisch nicht zu begründen, warum die zu einer Frage ähnlichen Dokumente auch relevant sein sollen.

Gewichtung Bis jetzt: Einfachste Methode: von Hand Ähnlichkeitsfunktionen betrachtet ohne zu wissen woher die Gewichte kommen. Einfachste Methode: von Hand Gewichtungen bei der Indexierung eingegeben lassen ziemlich Gewichtung der Terme durch Anfragenden diese können durch Feedbackmethoden verfeinert werden ! die Gewichtungen von dem jeweiligen Kontext abhängig bei der Indexierung von dem Dokument, das indexiert wird, bei der Anfrage von dem Informationsbedürfnis der Anfragenden.

Kontext unabhängige Gewichtung Feststellung: Nicht fachgebietbezogene Terme sind schlechte Suchterme z. B. Ergebnis, Methode, Verfahren, Zusammenfassung gute Terme, die nur in bestimmten Wissensgebieten vorkommen Betrachtung der Häufigkeit der Terme in Dokumenten Terme, die in sehr vielen Dokumenten vorkommen, haben eine schlechte Aussagekraft Termen, die nur in sehr wenigen Dokumenten vorkommen erzielen im allgemeinen keine umfassenden Suchergebnisse

Häufigkeit der Terme Häufige Terme können beim Retrieval durch eine Stoppwortliste ausgeschlossen oder durch eine schwache Gewichtung abgeschwächt werden. Seltene Terme werden meistens nicht gesondert behandelt, d.h., die rechte Trennlinie wird in der Regel ignoriert.