ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Komplexe Distanzfunktionen 7. Effiziente Algorithmen und Datenstrukturen.

Slides:



Advertisements
Ähnliche Präsentationen
8. Termin Teil B: Wiederholung Begriffe Baum
Advertisements

Christian Scheideler SS 2009
Punkt-in-Polygon-Verfahren III (R/R+-Baum)
Perceptrons and the perceptron learning rule
Knapsack & Bin Packing Sebastian Stober

Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Information Systems & Semantic Web University of Koblenz Landau, Germany 5. Feature - Transformationsverfahren 5.1 Diskrete Fourier-Transformation (DFT)
Polynomial Root Isolation
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
OZ - Virtueller Übungsraum
13. Transformationen mit Matrizen
Suche in Texten (Stringsuche )
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
Genetische Algorithmen für die Variogrammanpassung
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.3 Karhunen-Loeve-Transformation Minimalität und Orthogonalität innerhalb.
Andreas Kalender Institut für Informatik FU Berlin Seminar über Algorithmen Durchschnittsverzögerung.
Anwendung und Visual Basic
Sortierverfahren Richard Göbel.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Effiziente Suche in Bilddatenbanken
Globaler Ansatz Hough-Transformation
Minimum Spanning Tree: MST
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 4 Multimedia Information Retrieval 1.Einführung 2.Ablauf des Multimedia.
3 Prinzipien des Information Retrieval
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6 Distanzfunktionen 6.1 Eigenschaften und Klassifikation 6.2 Distanzfunktionen.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 7 Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Anwendung DFT zur Feature-Aufbereitung Ziel: Minimalität der Feature-Werte.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.
Möglichkeiten der Asphaltbauweise
Risiken des Freiberuflers und deren Reduzierung in den Bereichen Umsatzsteuer und Wettbewerbsverbote Rechtsanwalt und Mediator (DAA) Dr. Benno Grunewald.
Machine Learning KNN und andere (Kap. 8).
Eigenschaften der OLS-Schätzer
Dienstbesprechung Bitte nicht stören! Neurobiologie des Schlafs
Künstlergemeinschaft Ober-Ramstadt
Effiziente Algorithmen
18. November 2006 Einführung in die Welt der fast 1000 Digital Möglichkeiten / Stefan Schmid / Herzlich willkommen Einführung.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation
Hartmut Klauck Universität Frankfurt WS 06/
§3 Allgemeine lineare Gleichungssysteme
Polynome und schnelle Fourier-Transformation
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek R-Baum und Varianten R-Baum X-Baum M-Baum.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Das Traveling Salesman Problem (TSP)
C++11 Defaulted & Deleted Functions / 48 C++11 Defaulted & Deleted Functions Detlef Wilkening
Statistik – Regression - Korrelation
Der A*-Algorithmus.
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Geoinformationssysteme
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
 Präsentation transkript:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Komplexe Distanzfunktionen 7. Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen Anfragearten Baumverfahren Komplexe Distanzfunktionen Fluch der hohen Dimensionen

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Substitution komplexer Distanzfunktionen bisherige Baumverfahren und Algorithmen basieren hauptsächlich auf euklidischer Distanz hier Diskussion der Verfahren für komplexe Distanzfunktionen: keine euklidische Distanzfunktion aufwändig zu berechnen (siehe etwa quadratische Distanzfunktionen) Grundidee: Substitution der komplexen Distanzfunktion (meist euklidische Distanzfunktion) Anwendung der einfachen Distanzfunktion als Filter Problem: unterschiedliche Distanzwerte erzeugen Verfälschungen nach Filtern ist Kontrolle mit richtiger Distanzfunktion erforderlich

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Algorithmus nach Korn Korn, Sidiropoulos, Faloutsos, Siegel, Protopapas 1996 so genanntes GEMINI-Verfahren (Generic Multimedia object Indexing) folgende Probleme bei Verwendung komplexer Distanzfunktionen werden behoben: 1.aufwändige Berechnung der Distanzen 2.keine effizienten Suchalgorithmen verfügbar 3.Feature-Objekte sind nicht immer Vektoren

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Substitution durch einfache Distanzfunktion gegeben: komplexe Distanzfunktion für beliebige Objektmenge Substitution mittels Funktion auf Objekten aus (etwa Dimensionsreduzierung) und einfache Distanzfunktion

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek folgende lower-bound-Bedingung muss erfüllt sein: (garantiert korrekten Ausschluss von Objekten) Substitution durch einfache Distanzfunktion (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Entwurf der Substitution Entwurfsziele: 1.effiziente Berechnung wird ermöglicht, etwa RKV-Algorithmus im Baumindex 2. Erfüllung lower-bound-Bedingung 3. minimale Verfälschung

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Substitutionsbeispiel Messung Unähnlichkeit von Zeitreihen anhand euklidscher Distanzfunktion aufwändig durch hohe Anzahl von Messwerten Dimensionsreduzierung durch DFT-Transformation (Kompaktheit) Substitution durch euklidische Distanz auf kompakten Fourier- Koeffizienten

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek aufgrund Parseval-Theorem und Wegfallen nichtnegativer Summanden ist lower-bound-Bedingung erfüllt Substitutionsbeispiel (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Algorithmus für Bereichsanfrage nach Korn einfache Distanzfunktion und komplexe Distanzfunktion Transformationsfunktion Anfragepunkt und Radius Wurzelknoten des Indexbaums

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Algorithmus für Bereichsanfrage graphisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Algorithmus für knn-Anfrage nach Korn

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Algorithmus für knn-Anfrage graphisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Verbesserung des knn-Algorithmus Seidl, Kriegel 1998 kritischer Parameter ist max-Wert erzeugt u.U. hohe Anzahl von Kandidaten Idee: max-Wert dynamisch ermitteln Verschränkung der Zeilen 3 bis 8 und Einsatz von getNext-Anfrage

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Verbesserung des knn-Algorithmus

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek FastMap-Verfahren Faloutsos, Lin 1995 approximative Abbildung einer Metrik (Objekte und Distanzen) auf k-Dimensionale Punkte und euklidische Distanzfunktionen Beispiel: Abbildung Menge von Wörtern und Editierdistanz auf mehrdimensionale Punkte

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Distanzwerte liegen explizit vor Parameter k kann frei vordefiniert werden je höher, desto genauer die Approximation je höher, desto mehr Werte pro Objekt FastMap-Verfahren (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Anwendung des FastMap-Verfahrens Anwendungen: Substitution komplexer Distanzfunktionen durch indizierbare Distanzfunktion und Punkte 2D- oder 3D-Visualisierung (k=2 oder k=3) einer Metrik Dimensionsreduzierung

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Ziele Entwurfsziele sind: effiziente Abbildung möglichst linearer Aufwand bzgl. Objektanzahl distanzapproximierend effiziente Abbildung neuer Objekte (unabhängig von Objektanzahl)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Idee Grundidee: Objekte liegen bereits (idealisiert) im euklidischen Vektorraum Koordinaten sind jedoch unbekannt Ziel: Finden orthogonaler Koordinatenachsen und Ermitteln der entsprechenden Werte durch Projektion auf Achsen

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Ermitteln der Koordinatenwerte Achse ist durch Objektpaar und (Pivotpunkte) festgelegt Anwendung Kosinussatz: (1)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Anpassung der Distanzen nach Finden der Koordinatenwerte einer Achse müssen Distanzen entsprechend reduziert werden also Entfernen des entsprechenden Terms aus der euklidschen Distanzfunktion: (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Distanzen werden also kleiner – Problem: negative Werte können auftreten nach Anpassung Ermitteln der Koordinatenwerte der nächsten Achse, Wiederholung bis k Achsen gefunden wurden Anpassung der Distanzen (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Finden der Pivotpunkte Ziel: Einfluss der Achsendimension soll mit jeder neu gefundenen Achse abnehmen daher: Finde die am weitesten auseinander liegenden Objekte Problem: quadratischer Aufwand Lösung: Einsatz eines heuristischen Algorithmus mit linearem Aufwand

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Heuristischer Ansatz zum Finden der Pivotpunkte oa, ob sind Ausgabeparameter! Bemerkung: Schritte 4 und 5 werden üblicherweise mehrfach durchlaufen

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek FastMap-Algorithmus

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel Editierdatensatz Wörter: Medium (W1), Datenbank (W2), Multimedia (W3), System (W4), Objekt (W5)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel Editierdistanz (2) Ergebnis des FastMap-Algorithmus:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Problem mit FastMap-Algorithmus Annahme: Punkte liegen im (unbekannten) Vektorraum Annahme nicht immer erfüllt, da nicht jede Distanzfunktion entsprechend einbettbar ist Problem bei der Distanzanpassung: Wurzel aus negativen Werten

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Fluch der hohen Dimensionen Experimente zeigen: Nächste-Nachbarsuche in Indexbäumen versagt ab etwa 20 Dimensionen Problem: Ausschluss von Teilbäumen von der Suche nicht möglich Gesamtbaumdurchlauf aufwändiger als sequentieller Durchlauf Phänomen wird Fluch der hohen Dimensionen genannt

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek tritt im Wesentlichen bei Verwendung der euklidschen Distanzfunktion auf Fluch ergibt sich aus der Distanzverteilung Frage: gilt der Fluch für alle Baumsuchverfahren? Fluch der hohen Dimensionen (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Quadrierte Distanzverteilung zweier gleichverteilter Werte Wahrscheinlichkeitsverteilung von Distanzen: Erwartungswert beträgt 1/6 und Varianz beträgt 7/180

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Quadrierte Distanzverteilung zweier gleichverteilter Punkte Wahrscheinlichkeitsverteilung der quadrierten eukl. Distanzen nach Anwendung des zentralen Grenzwertsatzes: Annäherung an Normalverteilung Erwartungswert Varianz

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Verteilung der eukl. Distanz zweier gleichverteilter Punkte Wurzelberechnung führt zu Erwartungswert strebt gegen Wert mit steigender Dimension Standardabweichung ist konstant (0,24)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Fazit: im Gegensatz zur Standardabweichung steigt Erwartungswert mit Dimensionszahl (gilt auch für viele Realdatenverteilungen) Verteilung der euklidischen Distanz zweier gleichverteilter Punkte (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Distanzverteilung im hochdimensionalen Raum graphisch 10 Dimensionen: 100 Dimensionen:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Annäherung der Distanzen im hochdimensionalen Raum steigender Erwartungswert und konstante Standardabweichung führen zu: Distanzen nähern sich also einander an Clusterung ergibt aufgrund fehlender Lokalität wenig Sinn

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Annäherung der Distanzen in hochdim. Raum graphisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Approximationsfehler bei der Cluster-Bildung Suchbäume clustern mehrere Feature-Objekte anhand einer geometrischen Figur (etwa MBR) minimale Distanz zu eingeschlossenem Feature-Objekt darf nicht kleiner als zum Cluster sein Approximationsfehler: durchschnittliche Differenz zwischen Distanz vom Anfragepunkt zum nächsten Feature-Objekt und zum dazugehörigen Cluster Ziel der Clusterung: Minimierung des Approximationsfehlers durch minimale geometrische Figur (etwa MBR)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Approximationsfehler steigt linear mit Erwartungswert der Distanzverteilung Nachweis am minimalen konvexen Cluster: konvexe Hülle zwischen zwei Punkten also Linie Extremfall: Anfragepunkt auf der Linie Extremfall: Anfragepunkt als Punkt auf Simplex Approximationsfehler bei der Cluster-Bildung (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Extremfälle graphisch Extremfall 1: Extremfall 2:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Ineffiziente Suche in hochdimensionalen Indexbäumen Ausschluss eines Teilbaums durch Vergleich von Clusterdistanz mit NN- Kandidatendistanz zum Anfragepunkt optimaler (aber nicht realisierbarer) Suchalgorithmus: Annahme: Distanz zum nächsten Nachbar sei schon bekannt alle Cluster, deren Minimaldistanz kleiner als NN-Distanz ist, werden durchsucht Optimaler Suchalgorithmus dient zur Abschätzung der minimal möglichen Suchkosten

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Optimaler Suchalgorithmus graphisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Optimaler Suchalgorithmus im hochdimensionalen Raum wenn Dimensionszahl steigt: steigender Approximationsfehler und konstanter Abstand zwischen größter und kleinster Distanz Folge: selbst bei optimalem Suchalgorithmus können keine Cluster von Suche ausgeschlossen werden

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Fazit: ab bestimmter Dimensionsanzahl ist NN-Suche anhand euklidscher Distanzen mit Baumindizes nicht effizient (mindestens sequentieller Aufwand erforderlich) Bemerkung: Problem gilt auch für Metrik-Bäume wie den M-Baum Optimaler Suchalgorithmus im hochdimensionalen Raum (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Fluch der hohen Dimensionen graphisch