Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Datenbankdesign mit ACCESS.
Kohonennetze für Information Retrieval mit User Feedback
Eine dynamische Menge, die diese Operationen unterstützt,
Claudio Moraga; Gisbert Dittrich
Datenbanken Einführung.
Datenmodellierung Externe Phase Informationsstruktur
Frame-Logik Eine Einführung Andreas Glausch.
Zeitliche Verwaltung XML-basierter Metadaten in digitalen Bibliotheken M. Kalb, G. SpechtUniversität Ulm, Abteilung DBIS.
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Finale Semantik und beobachtbares Verhalten
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
der Universität Oldenburg
Ein Modellansatz zur Beschreibung von Vagheiten
Numerik partieller Differentialgleichungen
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
Effizienz: Indexstrukturen
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
Genetische Algorithmen
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Information Retrieval Modelle: Vektor-Modell
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Vorlesung 2 SWS WS 99/00 Gisbert Dittrich FBI Unido
SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.
Query Reformulation Seminar Multimedia-Datenbanken Sommersemester 2002 Marcus Denecke.
MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.
Übung Datenbanksysteme SQL-Anfragen (2)
Grundlegende Analysen & Zwischendarstellungen
Access 2000 Datenbanken.
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
3 Prinzipien des Information Retrieval
Vorlesung Multimedia-Datenbanken
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung.
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Abfragen – Tipps und Tricks Buch S102ff (Informatik I, Oldenbourg-Verlag) Nach einer Vorlage von Dieter Bergmann.
§14 Basis und Dimension (14.1) Definition: V sei wieder ein K-Vektorraum. Eine Menge B von Vektoren aus V heißt Basis von V, wenn B ist Erzeugendensystem.
Tutorium
Spezifikations- und Selektionsmethoden für Daten und Dienste
Kontrollfragen zu Kapitel 1
... und alles was dazugehört
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Objektmodellierung Objekte und Klassen Ein Objekt ist ein Exemplar.
Einführung in die Programmierung
Hartmut Klauck Universität Frankfurt SS
§3 Allgemeine lineare Gleichungssysteme
Einführung in die Programmierung Wintersemester 2009/10 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Fuzzymengen – Was ist das?
Datenbanken Datenstrukturen.
Erfindervon Fuzzy Logic
Datenbanksysteme für hörer anderer Fachrichtungen
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Einführung in Datenbankmodellierung und SQL
Ihr Trainer: Gerold Hämmerle
Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.
Information Retrieval, Vektorraummodell
Stoppen der Eingabeaufforderung einer Abfrage j drücken Sie dann F5, oder klicken Sie auf Bildschirmpräsentation > Von Beginn an, um den Kurs zu starten.
Structured Query Language
Eike Schallehn, Martin Endig
Einführung Dateisystem <-> Datenbanksystem
Unscharfe Anfragen in Multimedia- Datenbanksystemen Seminar Multimedia-Datenbanken WS 2001/2002 Silvana Runow.
5.1 5 Retrieval auf Bildern (.... in a nutshell)  Bedeutung.... ... im Zusammenhang mit Information Retrieval ... für Anwendungen Medizin: "Finde ähnliche.
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Information - syntaktisch
Prof. Dr.-Ing. H. Wörn, Dr.-Ing. J. Seyfried Institut für Prozessrechentechnik, Automation und Robotik; Universität Karlsruhe (TH) Einführung in.
Lukas Kerecz - Edits1 Edits Lukas Kerecz. Lukas Kerecz - Edits2 Gliederung  Einführung  Edits – warum und wofür?  Edits – Definiton  einleitende Beispiele.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Präsentation transkript:

12. Information Retrieval und Multimedia-Datenbanken Diese Folien stellen eine Auswahl des Foliensatzes der Vorlesung Multimedia-Datenbanken dar, die Herr Dr, Ingo Schmitt an der Uni Magdeburg gehalten hat. Medium Medium vermittelt zwischen zwei oder mehreren Kommunikationspartnern Sender erzeugt Signale auf Medium Empfänger (Rezeptor) nimmt Signale auf zur Interpretation Wandlung Weiterleitung Medium ist Nachrichtenträger Physische Medien Schall in festen, flüssigen und gasförmigen Stoffen elektromagnetische Wellen

Medium Medium vermittelt zwischen zwei oder mehreren Kommunikationspartnern Sender erzeugt Signale auf Medium Empfanger (Rezeptor) nimmt Signale auf zur Interpretation Wandlung Weiterleitung Medium ist Nachrichtenträger Physikalische Medien Schall in festen, flüssigen und gasförmigen Stoffen elektromagnetische Wellen Empfänger Medium erzeugt interpretiert Sender

Abstrakte Medien Unter Verwendung von physikalischen Medien werden abstrakte Medien erzeugt. erzeugt interpretiert Sender Empfänger Multimedia Komposition verschiedener Medien Darstellungsmächtigkeit z.B. Geruch versus Bild Medienumsetzung oft möglich

Klassifizierung der Medien (1) nach Sinnesorganen visuell (optisch) sprachlich (symbolgebunden) Text Piktogramme nicht-sprachlich Grafiken Gotos akustisch Sprache Musik haptisch (tasten) gustorisch (schmecken) olfaktorisch (riechen)

Klassifizierung der Medien (1) nach Zeit relativ zeitinvariant (statisch): Text, Bild, Photos, ... relativ zeitgebunden (dynamisch): gesprochene Sprache, Video, engl.: continuous media

Medien auf Computern Text Grafik Rasterbild Tonaufnahmen (Audio) Bewegte Bilder (Video) Begriffe Dokument: logisch zusammenhängender, digital kodierter Text Multimedia-Dokument: besteht aus Text und anderer Medien-Typen Multimedia-Objekt computerverwaltete logische Informationseinheit in einem oder mehreren Medien (mindestens ein Medium ist nicht alphanumerisch) Medien-Daten bzw. Multimedia-Daten heterogene Menge von Medien-Objekten bzw. Multimedia-Objekten

Multimedia-Datenbank-Managementsystem = DBMS + Multimedia-Datenbankmodell Medien-Typen: Darstellung + Operationen Substitutions- und Synchronisationsbeziehungen + Information Retrieval (inhaltsbasierte, unscharfe Suche) + Multimediadatenunabhängigkeit Medienabstraktion Unabhängigkeit von Speicherformaten Unabhängigkeit von Speichergeräten Präsentationsunabhängigkeit + Speicher- und Ein-/Ausgabegeräte + Zeitaspekt (etwa Echtzeit für dynamische Medien) + Benutzerschnittstellen

Beispielanwendung Polizeiinformationsystem Relationale Daten Dokumente Bilddaten Überwachungsvideos Telfondaten Anfragen Image-Query: Suche alle Bilder, die die selbe Person zeigen wie auf diesem Bild! entweder über Beschreibungsinformationen oder Bildverarbeitung Audio-Query: Kann Person zu gesprochener Stimme identiziert werden? Hat die selbe Person andere Gespräche geführt? Unter Verwendung von Sprachvektoren Text-Query: Finde alle Dokumente, bei denen es um Drogenkartell-Finanztransaktionen mit Firma ABC geht! keine reine Stichwortsuche  Berücksichtigung von Semantik Video-Query: Finde alle Videosegmente, wo das Angriffsopfer erscheint!

Komplexe Anfragen heterogene Query Finde alle Personen, die des versuchten Mordes in Nordamerika überführt wurden und elektronische Geldüberweisung auf deren Konto von der ABC Corp. kommen! mehrere heterogene Datenbanken heterogene Multimedia-Query: Finde alle Personen, die mit Jose Smith photographiert wurden und als versuchte Mörder in Nordamerika überführt wurden und von ABC Corp. Geld bekommen haben! Unscharfe heterogene Multimedia-Query: Finde alle interessanten Personen, die Kontakt zu Jose Smith hatten

Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprole Literaturempfehlungen

Motivation Besonderheit: Verwaltung von Daten anhand ihrer Interpretation Suche von relevanten Dokumenten notwendig zur Suche von Multimedia-Objekten in Datenbanken z.B. Bild mit Flusslandschaft Information Retrieval versus Daten Retrieval Datenbankanfrage anhand exakt formulierter Bedingungen select ISBN from Buch where Titel = "Multimedia-Datenbanken". unscharfe Formulierung in IRS Finde alle Text-Dokumente, die sich mit dem Thema "Multimedia-Datenbanken" beschäftigen. Information-Retrieval-System (IRS)

Historie von IRS Einsatz in Bibliotheken seit 70er Jahren Stärke bei Verwaltung schwachstrukturierter Daten, etwa Text-Dokumente XML Aufgrund Datenflut: Problem des Findens geeigneter Informationen Thema hatte lange Zeit kaum Relevanz, aber erfährt derzeit wieder eine Art Wiedergeburt! Internet-Suchmaschinen

Grundproblem Inhalt von Dokumenten und Medien-Objekten oft nur schwer anhand Datenbankschema strukturierbar und erschließbar Lösungsansatz: Ähnlichkeitssuche mittels IR-Techniken Formulierung einer Anfrage als Dokument (Ähnlichkeitssuche oder query by example) Liefere alle Text-Dokumente, die zum Text-Dokument #0815 ähnlich sind. Liefere alle Text-Dokumente die ähnlich zum Multimedia-Dokument "Urlaub Sommer Mittelmeer" sind. als Anfrage (Eingrenzung durch Bedingungen) Datenbank and (Bild or Video)

Daten versus Information Retrieval Daten sind unstrukturiert implizit formulierte Information erfordert Interpretation Suche nach Dokumenten, die ausreichend wahrscheinlich relevant bzgl. Anfrage sind z.B. Suche von Text-Dokumenten anhand eines Texts Toleranz bzgl. Fehler bei Anfrageformulierung auch irrelevante Ergebnisse möglich Wiederholung der Anfrage unter Verwendung der bisher erzielten Ergebnisse Ergebnisreihenfolge ist wesentlich Einschränkung der Ergebnisgröße durch Schwellwert Ergebnisanzahl

Zusammenfassung der Unterschiede Merkmal Daten Retrieval Information Retrieval Information explizit implizit Ergebnisse exakt unscharf Anfrage einmalig iterativ verfeinernd Fehlertoleranz keine vorhanden Ergebnistyp Menge Liste

Schritte des IR Statt eines direkten Vergleichs zwischen Anfrage und Dokumenten: Überführung Anfrage und Dokumente in interne Darstellung Extraktion von Daten, welche Semantik der Dokumente beschreiben relevante Informationen explizit und kompakt z.B.: Zusammenfassungen von Texten Vergleich der internen Darstellungen durch Ähnlichkeitsfunktion numerischer Relevanzwert drückt Ähnlichkeit aus abhängig von Distanzfunktion Ergebnis Dokumente mit höchsten Relevanzwerten absteigend sortiert Einschränkung der Ergebnisliste durch Schwellwert bzw. Ergebnisanzahl Relevanzbewertung und Feedback, wenn Ergebnis nicht zufriedenstellend Anfrage-Iteration Modifikation der Anfrage Modifikation der internen Darstellung

Information-Retrieval-Modelle IR-Modell definiert interne Dokumentdarstellung, Anfrageformulierung und interne Anfragedarstellung, Vergleichsfunktion zwischen jeweils zwei Dokumenten beziehungsweise zwischen Anfrage und jeweils einem Dokument. Text-Retrieval Modelle wurden ursprünglich für Text-Retrieval entwicklt. Indexvokabular vordefinierte Menge von Indextermen Darstellung eines Dokumentes über auftretende Indexterme verschiedene Arten von Termgewichten Text-Model lässt sich auch auf andere Medien-Typen anwenden.

Traditionelle IR-Modelle Boole'sches Modell Fuzzy-Modell Vektorraummodell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binÄR: im Dokument enthalten oder nicht enthalten Test auf Enthaltensein als Vergleichsfunktion Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren and (Mengendurchschnitt), or (Mengenvereinigung), not (Mengendifferenz)

Beispiel Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Dokument d1 : {Sardinien, Strand, Ferienwohnung} Dokument d2 : {Korsika, Strand, Ferienwohnung} Dokument d3 : {Korsika, Gebirge} Anfrage Korsika liefert {d2, d3} Ferienwohnung liefert {d1, d2} Ferienwohnung and Korsika liefert {d2} Ferienwohnung or Korsika liefert {d1, d2, d3} Ferienwohnung and not Korsika liefert {d1}

Neue Anfragesyntax but-Junktor Anfrage: not Korsika liefert alle Dokumente, die "Korsika" nicht enthalten, u.U. qualifiziert sich die ganze Dokumentkollektion Statt dessen Verwendung but-Junktor (entspricht and not, also Komplement bzgl. einer Vorauswahl) Beispiel: Ferienwohnung but Korsika of-Konstrukt Suche nach Dokumenten, die m von n (m < n) Termen enthalten 2 of (Korsika, Strand, Ferienwohnung) Ersetzt den komplexen Boole'schen Ausdruck (Korsika and Strand) or (Korsika and Ferienwohnung) or (Strand and Ferienwohnung)

Naive Anfrageauswertung jeder Term liefert Menge von Dokumenten, die diesen Term enthalten komplexe Anfrage: Kombination der Dokumentmengen durch entsprechende Mengenoperationen Normalisierung der Anfrage durch Überführung in DNF kleine Zwischenergebnisse (zuerst Durchschnitt, dann Vereinigung)

Nachteile des Boole'schen Modells exaktes Modell aufgrund binärer Gewichte Entspricht eher Daten-Retrieval keine Ähnlichkeitssuche durch zu scharfe Suche Größe des Ergebnisses alle Dokumente sind bzgl. Anfrage gleichrangig  Präsentation der gesamten Ergebnismenge Ergebnismenge in Abhängigkeit von Anfrage oft zu groß oder zu klein bzw. leer Boole'sche Junktoren schwierige Anwendung Boole'scher Junktoren Verwechslung mit "und", "oder" und "nicht"

Milderung Problem "Größe des Ergebnisses" faceted query zweistufiges Suchverfahren Formulierung und Verfeinerung der Anfrage anhand benannter Anfragen und Ergebnisanzahl Ergebnis zur finalen Anfrage anzeigen Beispiel: Korsika liefert Q1: 1345 Q1 and Strand liefert Q2: 13 Anzeige Q2 liefert die 13 Ergebnisdokumente

Fuzzy-Modell Erweiterung des Boole'schen Modells um Unschärfe (fuzzy) Verallgemeinerung Boole'scher Junktoren Unschärfe durch graduelle Zugehörigkeit von Dokumenten zu Termen Definition: Eine Fuzzy-Menge A = {(u,mA(u)} über einem Universum U ist durch eine Zugehörigkeitsfunktion mA: U  [0; 1] charakterisiert, welche jedem Element u des Universums U einen Wert mA(u) aus dem Intervall [0; 1] zuordnet. Fuzzy-Mengen beim IR Universum ist Menge aller gespeicherten Dokumente Term definiert Fuzzy-Menge Zugehörigkeit (Fuzzy-Wert) des Dokuments d zu Term t durch Wert mt(d) 0 für keine Relevanz 1 für maximale Relevanz Zwischen 0 und 1: graduelle Relevanz

Beispiel Universum umfasst 3 Dokumente {d1, d2, d3} Dokument d1 : {Sardinien, Strand, Ferienwohnung} Dokument d2 : {Korsika, Strand, Ferienwohnung} Dokument d3 : {Korsika, Gebirge} Fuzzy-Mengen Korsika bzw. Strand drücken Zugehörigkeit zu Term "Korsika" bzw. "Strand" aus: Korsika = {(d1, 0,1), (d2, 0,6), (d3, 1)} Strand = {(d1, 0,3), (d2, 0,2), (d3, 0,8)}

Fuzzy-Junktoren Jedes Dokument ist in jeder Fuzzy-Menge vertreten übliche Mengenoperationen nicht anwendbar Junktoren ermitteln neue Zugehörigkeitswerte and durch Min-Funktion mA  B(u) = min(mA(u), mB(u)) or durch Max-Funktion mA  B(u) = max(mA(u), mB(u)) not durch Subtraktion von 1: mA(u) = 1 - mA(u) Beispiel Q1 = Korsika and Strand Q2 = Korsika or Strand Q3 = not Korsika Anfrage m d1 d2 d3 mKorsika 0,1 0,6 1 mStrand 0,3 0,2 0,8 Q1 mKorsika  Strand Q2 mKorsika  Strand Q3 m Korsika 0,9 0,4

Fuzzy-Anfrageverarbeitung Überführung der Anfrage in disjunktive Normalform Jeder Suchterm induziert eine Fuzzy-Menge Anwendung entsprechender Fuzzy-Operationen auf Fuzzy-Mengen Erstellung der Rangliste der Ergebnisse: Dokumente absteigend sortieren nach Zugehörigkeitsgrad Begrenzung Fuzzy-Ähnlichkeitsanfrage Ergebnis umfasst alle Dokumente des Universums Begrenzung der Anzahl durch Schwellwert für Zugehörigkeitswerte vorgegebene Anzahl von Ergebnisdokumenten Beispiel: Korsika and Strand Schwellwert 0,5 liefert d3 Anzahl 2 liefert d2; d3

Berechnung von Zugehörigkeitswerte viele Möglichkeiten Beispiel (Ansatz von Ogawa, Morita, Kobayashi): mittels Term-zu-Term-Korrelationsmatrix Zeile entspricht Term i und Spalte entspricht Term j Parameter ni,j = Anzahl der Dokumente, welche die Terme ti und tj enthalten ni = Anzahl Dokumente, welche Term ti enthalten Matrixelemente: ci,j = ni,j / (ni + nj - ni,j) Zugehörigkeitsgrad eines Terms ti zu einem Dokument dj mti(dj) = 1 -  (1-ci,k) k=1,2,..

Beispiel (Term-zu-Term Korrelationsmatrix) Dokumente d1 : {Sardinien, Strand, Ferienwohnung} d2 : {Korsika, Strand, Ferienwohnung} d3 : {Korsika, Gebirge} Korrelationsmatrix tSardinien tStrand tFerienwohnung tKorsika tGebirge 1 0,5 0,33

Vektorraummodell weit verbreitetes Retrieval-Modell Dokumente als Vektoren eines Vektorraums Überführung Retrieval-Problem in Gebiet der linearen Algebra Voraussetzung Abbildung des Medien-Objekt auf eine feste Anzahl von numerischen Merkmalswerten Beispiel (Bild-Retrieval): Vektorwerte etwa anhand Farbverteilung Beispiel Text-Retrieval: jeder Indexterm eine eigene Dimension Termgewicht (meist Häufigkeiten) als Vektorwert einer Dimension

Ähnlichkeit im Vektorrraum Darstellung der Anfrage selbst als Vektor Ähnlichkeit zwischen Anfrage q und Dokument d über deren Vektoren Kosinusmaß Kosinus des eingeschlossenen Winkels als Ähnlichkeitsmaß