3 Prinzipien des Information Retrieval

Slides:



Advertisements
Ähnliche Präsentationen
Kohonennetze für Information Retrieval mit User Feedback
Advertisements


Information Systems & Semantic Web University of Koblenz Landau, Germany 5. Feature - Transformationsverfahren 5.1 Diskrete Fourier-Transformation (DFT)
Schwerpunkt Mindestlohn
Schuljahr 2007/2008 Hannes Pfeiffer
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Komplexe Distanzfunktionen 7. Effiziente Algorithmen und Datenstrukturen.
OZ - Virtueller Übungsraum
Hard Science – Soft Science

Jahrestagung SGMI – SSIM - SSMI 5. & 6. Juni 2008 Sierre / Siders Suisse / Schweiz Wendelin Schramm GECKO Institut für Gesundheitsökonomie und Medizinische.
Seminar Textmining WS 06/07
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.3 Karhunen-Loeve-Transformation Minimalität und Orthogonalität innerhalb.
Andreas Kalender Institut für Informatik FU Berlin Seminar über Algorithmen Durchschnittsverzögerung.
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Information Retrieval Modelle: Vektor-Modell
MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.
Access 2000 Datenbanken.
Wie funktionieren Suchmaschinen?
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 4 Multimedia Information Retrieval 1.Einführung 2.Ablauf des Multimedia.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6 Distanzfunktionen 6.1 Eigenschaften und Klassifikation 6.2 Distanzfunktionen.
Information Systems & Semantic Web University of Koblenz Landau, Germany Vorlesung Multimedia-Datenbanken Objekt-relationale Datenbanksysteme (Folien nach.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 7 Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen.
Vorlesung Multimedia-Datenbanken
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Anwendung DFT zur Feature-Aufbereitung Ziel: Minimalität der Feature-Werte.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.
Einführung eines Remote Desktop Systems am RRZE
Ebay - Tipps und Tricks Sven Wölfel 19. Dezember 2003.
Linux-HA-Cluster – Heartbeat mit DRBD
Redundanter Fileserver mit Heartbeat2 und DRBD - Linux-HA-Cluster
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Abfragen – Tipps und Tricks Buch S102ff (Informatik I, Oldenbourg-Verlag) Nach einer Vorlage von Dieter Bergmann.
© data2type 2005, 1 Publishing mit XML Einsatz von XSL für das multimediale, automatisierte Publishing.
Möglichkeiten der Asphaltbauweise
Spezifikations- und Selektionsmethoden für Daten und Dienste
Risiken des Freiberuflers und deren Reduzierung in den Bereichen Umsatzsteuer und Wettbewerbsverbote Rechtsanwalt und Mediator (DAA) Dr. Benno Grunewald.
Projekt Vorlagenkatalog Projektbesprechung 4. August 2006.
Der Web-Baukasten der Friedrich-Alexander-Universität ( Projekt Vorlagenkatalog) 21. Januar 2008.
Sonderpädagogische Förderung in Tübingen
Dienstbesprechung Bitte nicht stören! Neurobiologie des Schlafs
Rekommunalisierung der Stromversorgung am Beispiel der Stadt Landsberg
Künstlergemeinschaft Ober-Ramstadt
Information Systems & Semantic Web University of Koblenz Landau, Germany Vorlesung Multimedia-Datenbanken Objekt-relationale Datenbanksysteme (Folien nach.
18. November 2006 Einführung in die Welt der fast 1000 Digital Möglichkeiten / Stefan Schmid / Herzlich willkommen Einführung.
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek R-Baum und Varianten R-Baum X-Baum M-Baum.
Vom Kontext zum Projekt V Carina Berning Sabrina Gursch Pierre Streicher Intelligente Dateisysteme.
Stimmzettel auszählen mit:
Die Zukunft des kommunalen öffentlichen Dienstes
SEO-Textenwww.journalistenakademie.de1/20 Traffic für den Blog! Was die Suchmaschinen- Optimierung leisten kann. Was Sie unbedingt tun müssen, um Leser.
Wie das Internet genutzt wird
Diplomverteidigung Ulrich Dinger Thema: Untersuchung und Entwicklung von Ansätzen und Techniken zur Realisierung einer (Web) Service Language.
Information Retrieval, Vektorraummodell
bluechip Modular Server
C++11 Defaulted & Deleted Functions / 48 C++11 Defaulted & Deleted Functions Detlef Wilkening
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
Regeltest Online auf Regeltest Online auf
C++ SFINAE inkl. std::enable_if
Copyright © Helmuth Pladek, bingo e.V. Webdesign, Website-Gestaltung - special Referent: Helmuth Pladek, Stv. Webmaster bingo e.V.
Fischer‘s Software Service Uwe Fisher Ihr Partner für professionelle Lösungen Consulting – Softwareentwicklung – Personal Training.
The PicSOM Retrieval System 1 Christian Steinberg.
- Studienarbeit - Entwurf und Umsetzung von kombinierten Anfragen für die Ähnlichkeitssuche auf digitalen Bilder auf der Basis von Regionen und Features.
5.1 5 Retrieval auf Bildern (.... in a nutshell)  Bedeutung.... ... im Zusammenhang mit Information Retrieval ... für Anwendungen Medizin: "Finde ähnliche.
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Präsentation transkript:

3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile Literaturempfehlungen

Information Retrieval Hinweise: Andreas Henrich Information Retrieval 1 Grundlagen, Modelle und Anwendungen Version: 1.0 (Rev: 5697, Stand: 12. Dezember 2007) Otto-Friedrich-Universität Bamberg Bachelor-Vorlesung „Information Retrieval“ Jetzt im Sommersemester von Dr. Dr. Sergej Sizov

Information Retrieval notwendig zur Suche von Multimedia-Objekten in Datenbanken z.B. Bild mit Flusslandschaft Besonderheit: Verwaltung von Daten anhand ihrer Interpretation Suche von relevanten Dokumenten Information Retrieval versus Daten Retrieval Informations-Retrieval-System (IRS)

3.1 Einführung Zugriff auf Daten – 2 Varianten: 1. Datenbankabfragen anhand exakt formulierter Bedingungen SELECT isbn FROM Buch WHERE Titel = „Multimedia-Datenbanken“. 2. unscharfe Formulierung in IRS Finde alle Text-Dokumente, die sich mit dem Thema „Multimedia-Datenbank“ beschäftigen.

Historische Entwicklung Information-Retrieval-Systemen Einsatz in Bibliotheken seit 70er Jahren Stärke bei Verwaltung schwachstrukturierter Daten, etwa Text-Dokumente aufgrund Datenflut: Problem des Findens geeigneter Informationen Internet-Suchmaschinen

Suche auf Medien-Objekten und Dokumenten Grundproblem: Inhalt von Dokumenten und Medien-Objekten oft nur schwer anhand Datenbankschema strukturier- und erschließbar Lösungsansatz: Ähnlichkeitssuche mittels IR-Techniken

Formulierung eines Suchbedarfs als Dokument (Ähnlichkeitssuche oder query by example) - Liefere alle Text-Dokumente, die ähnlich zum Text-Dokument #0815 sind - Liefere alle Text-Dokumente die ähnlich zum Dokument „Urlaub Sommer Mittelmeer“ sind

Formulierung eines Suchbedarfs (2) - als Anfrage (Eingrenzung durch Bedingung) Datenbank and (Bild or Video) Im Folgenden umfasst der Begriff Anfrage beide Varianten

Daten versus Information Retrieval Information Retrieval (außer Boole'sches Retrieval) Daten sind unstrukturiert Implizit formulierte Information (erfordert Interpretation)

Daten versus Information Retrieval (2) Suche nach Dokumenten, die ausreichend wahrscheinlich relevant bzgl. Anfrage sind Beispiel: Suche von Text-Dokumenten anhand Text → Toleranz bzgl. Fehler bei Anfrageformulierung

Daten versus Information Retrieval (3) auch irrelevante Ergebnisse möglich → Anfrage-Iteration oft hilfreich Ergebnisreihenfolge ist wesentlich Einschränkung der Ergebnisgröße durch Schwellwert oder Ergebnisanzahl

Daten versus Information Retrieval (4)

Schritte des IR-Prozesses NB: kein direkter Vergleich zwischen Anfrage und Dokumenten 1. Überführung Anfrage und Dokumente in interne Darstellung Extraktion von Daten, welche Semantik der Dokumente beschreiben relevante Informationen explizit und kompakt z.B.: Zusammenfassungen von Texten

Schritte des IR-Prozesses (2) 2. Vergleich der internen Darstellung durch Ähnlichkeitsfunktion numerischer Relevanzwert drückt Ähnlichkeit aus häufig Distanzfunktion (das ist eine Unähnlichkeitsfunktion)

Schritte des IR-Prozesses (3) 3.Ergebnis Dokumente mit höchsten Relevanzwerten absteigend sortiert Einschränkung der Ergebnisliste durch Schwellwert bzw. Ergebnisanzahl

Schritte des IR-Prozesses (4) 4. Relevanzbewertung und Feedback, wenn Ergebnis nicht zufriedenstellend Anfrage-Iteration Modifikation der Anfrage Modifikation der internen Darstellung

Schritte des IR-Prozesses (5)

Modifikation der Anfrage: Beispiel Finde alle Text-Dokumente, die sich mit dem Thema „Multimedia-Datenbanken“ beschäftigen.

Modifikation der Anfrage: Beispiel (2) Verfeinerung: Finde alle Text-Dokumente, die sich mit dem Thema „Bild-Datenbanken“ beschäftigen.

Modifikation der Anfrage: Beispiel (3) Verallgemeinerung: Finde alle Text-Dokumente, die sich mit dem Thema „Datenbanken“ beschäftigen

automatische Anfragemodifikation Relevanz-Feedback automatische Anfragemodifikation Nutzer bewertet Ergebnisdokumente bzgl. Relevanz zur Anfrage System nutzt Bewertungen zur automatischen Anfragemodifikation Anfrage-Iteration

Extraktionsverfahren Extraktionsverfahren erzeugen interne, kompakte Dokumentdarstellung Verfahren abhängig: vom Typ des Dokuments z.B. Text-Dokument versus Audio-Dokument von der Art beabsichtigter Anfragen in Bild-DB: Ähnlichkeitssuche über Farbverteilung versus über Textur

3.2 Information-Retrieval-Modelle IR-Modell definiert interne Dokumentdarstellung, Anfrageformulierung und interne Anfragedarstellung, Vergleichsfunktion zwischen jeweils zwei Dokumenten beziehungsweise zwischen Anfrage und jeweils einem Dokument.

Modelle ursprünglich fur Text-Retrieval Existenz einer vordefinierten Menge von Indextermen (Indexierungsvokabular) Darstellung eines Dokumentes uber auftretende Indexterme verschiedene Arten von Termgewichten Modelle lassen sich auch auf andere Medien-Typen anwenden

Traditionelle Information-Retrieval-Modelle Boole'sches Modell Fuzzy-Modell Vektorraummodell

Test auf Enthaltensein als Vergleichsfunktion Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen → Termgewichte sind binär: im Dokument enthalten oder nicht enthalten Test auf Enthaltensein als Vergleichsfunktion

Boole'sches Modell (2) Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren and (Mengendurchschnitt) or (Mengenvereinigung) not (Mengendifferenz)

Boole'sches Modell: Beispiel Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Dokument d1:{Sardinien, Strand, Ferienwohnung} Dokument d2:{Korsika, Strand, Ferienwohnung} Dokument d3:{Korsika, Gebirge}

Boole'sches Modell: Beispiel (2) Anfrage Korsika liefert {d2, d3} Ferienwohnung liefert {d1, d2} Ferienwohnung and Korsika liefert {d2} Ferienwohnung or Korsika liefert {d1, d2, d3} Ferienwohnung and not Korsika liefert {d1}

Boole'sches Modell: Beispiel (3)

Beispiel: Ferienwohnung but Korsika but-Junktor Anfrage: not Korsika liefert alle Dokumente, die „Korsika“ nicht enthalten, u.U. die ganze Dokumentkollektion statt dessen Verwendung but-Junktor (entspricht and not, also Komplement bzgl. Vorauswahl) Beispiel: Ferienwohnung but Korsika

2 of (Korsika, Stand, Ferienwohnung) of-Konstrukt Suche nach Dokumenten, die m von n (m<n) Termen enthalten 2 of (Korsika, Stand, Ferienwohnung) ersetzt komplexen Boole'schen Ausdruck (Korsika and Strand) or (Korsika and Ferienwohnung) or (Strand and Ferienwohnung)

Anfragenormalisierung in DNF bzw. KNF Ferienwohnung and ((Sardinien and Strand) or Korsika) in disjunktiver Normalform (DNF): (Ferienwohnung and Sardinien and Strand) or (Ferienwohnung and Korsika) in konjunktiver Normalform (KNF): Ferienwohnung and (Sardinien or Korsika) and (Strand or Korsika)

jeder Term liefert Menge von Dokumenten, die diesen Term enthalten Anfrageauswertung jeder Term liefert Menge von Dokumenten, die diesen Term enthalten komplexe Anfrage: Kombination der Dokumentenmengen durch entsprechende Mengenoperationen kleine Zwischenergebnisse durch DNF (zuerst Durchschnitt, dann Vereinigung)

Nachteile des Boole'schen Modells exaktes Modell aufgrund binärer Gewichte eher Daten-Retrieval keine Ähnlichkeitssuche durch zu scharfe Suche Größe des Ergebnisses alle Dokumente sind bzgl. Anfrage gleichrangig → Präsentation der gesamten Ergebnismenge Ergebnismenge in Abhängigkeit von Anfrage oft zu groß oder zu klein bzw. leer

Nachteile des Boole'schen Modells (2) Boole'sche Junktoren schwierige Anwendung Boole'scher Junktoren Verwechslung mit „und“, „oder“ und „nicht“  Impliziter weiterer Gegensatz: IR wird stärker von Laien benutzt als SQL

Milderung Problem “exaktes Modell” verschiedene Stufen der Relevanz durch Überführung Konjunktion in Disjunktion Präsentation der Ergebnisse sortiert nach Relevanzstufen Beispiel: Umwandlung von „Korsika and Strand“ → „Korsika or Strand“ Ergebnis: zuerst die and-({d2}), dann restliche or-Dokumente ({d1, d3})

Milderung Problem “Größe des Ergebnisses” faceted query zweistufiges Suchverfahren Formulierung und Verfeinerung der Anfrage anhand benannter Anfragen und Ergebnisanzahl Ergebnis zur finalen Anfrage anzeigen

Milderung Problem “Größe des Ergebnisses (2)” Beispiel: 1 Korsika liefert Q1: 1345 1 Q1 and Strand liefert Q2: 13 2 Anzeige Q2 liefert die 13 Ergebnisdokumente

Beispiel Problem Boole'sche Junktoren Anwender sucht Dokumente über Korsika und Dokumente über Sardinien “falsche” d.h. nicht intendierte Anfrage: Korsika and Sardinien liefert Dokumente, in denen beide Terme gemeinsam auftreten “richtige” bzw. intendierte Anfrage: Korsika or Sardinien

Milderung Problem Boole'sche Junktoren Verwendung besserer Junktorenbegriffe, etwa Ersetzen von „and“ durch „all“ „or“ durch „any“