ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6 Distanzfunktionen 6.1 Eigenschaften und Klassifikation 6.2 Distanzfunktionen.

Slides:



Advertisements
Ähnliche Präsentationen

Advertisements

Information Systems & Semantic Web University of Koblenz Landau, Germany 5. Feature - Transformationsverfahren 5.1 Diskrete Fourier-Transformation (DFT)
Polynomial Root Isolation
3. 3D-Betrachtungstransformationen
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Schnelle Matrizenoperationen von Christian Büttner
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Komplexe Distanzfunktionen 7. Effiziente Algorithmen und Datenstrukturen.
OZ - Virtueller Übungsraum
13. Transformationen mit Matrizen
Modellierung und Schätzung von Variogrammen
Seminar „Extrapolationsmethoden für zufällige Felder“
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.3 Karhunen-Loeve-Transformation Minimalität und Orthogonalität innerhalb.
Andreas Kalender Institut für Informatik FU Berlin Seminar über Algorithmen Durchschnittsverzögerung.
Grundlagen der Geometrie
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Kapitel 5 Stetigkeit.
Kapitel 1 Das Schubfachprinzip
Kapitel 4 Geometrische Abbildungen
Beispiele für Gleichungssysteme
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 4 Multimedia Information Retrieval 1.Einführung 2.Ablauf des Multimedia.
3 Prinzipien des Information Retrieval
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 7 Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Anwendung DFT zur Feature-Aufbereitung Ziel: Minimalität der Feature-Werte.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.
Konfidenzintervalle Intervallschätzung
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Möglichkeiten der Asphaltbauweise
Folie 1 § 30 Erste Anwendungen (30.2) Rangberechnung: Zur Rangberechnung wird man häufig die elementaren Umformungen verwenden. (30.1) Cramersche Regel:
§11 Skalarprodukt. Euklidische Räume
Tutorium
Risiken des Freiberuflers und deren Reduzierung in den Bereichen Umsatzsteuer und Wettbewerbsverbote Rechtsanwalt und Mediator (DAA) Dr. Benno Grunewald.
Der Web-Baukasten der Friedrich-Alexander-Universität ( Projekt Vorlagenkatalog) 21. Januar 2008.
Matrix-Algebra Grundlagen 1. Matrizen und Vektoren
Dienstbesprechung Bitte nicht stören! Neurobiologie des Schlafs
Künstlergemeinschaft Ober-Ramstadt
Computergraphik mit OpenGL Einführung. Bilder Objekt existiert im Raum unabhängig vom Betrachter Objekte sind beschrieben durch die Position verschiedener.
§24 Affine Koordinatensysteme
18. November 2006 Einführung in die Welt der fast 1000 Digital Möglichkeiten / Stefan Schmid / Herzlich willkommen Einführung.
Lineare Algebra Komplizierte technologische Abläufe können übersichtlich mit Matrizen dargestellt werden. Prof. Dr. E. Larek
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Folie 1 Kapitel IV. Matrizen Inhalt: Matrizen als eigenständige mathematische Objekte Zusammenhang zwischen Matrizen und linearen Abbildungen Produkt von.
§3 Allgemeine lineare Gleichungssysteme
Lineare Algebra, Teil 2 Abbildungen
STATISIK LV Nr.: 0028 SS Mai 2005.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek R-Baum und Varianten R-Baum X-Baum M-Baum.
Inhalt Vorbemerkung Vorstellung einer Unterrichtssequenz Kritik
Multivariate Statistische Verfahren
Multivariate Statistische Verfahren
bluechip Modular Server
Scaffold 29S: Komplexe Zahlen
C++11 Defaulted & Deleted Functions / 48 C++11 Defaulted & Deleted Functions Detlef Wilkening
Einführung zur Fehlerrechnung
Nichtlineare Optimierung
Theorie, Anwendungen, Verallgemeinerungen
Sebastian Loose DPF – A Perceptual Distance Function for Image Retrieval Proseminar SS 2005 Distanzen und Ähnlichkeitsmaße im Hochdimensionalem.
Grundlagen der Geometrie
Graphische Datenverarbeitung
Beugung an Streuzentren
Geoinformationssysteme
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
 Präsentation transkript:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6 Distanzfunktionen 6.1 Eigenschaften und Klassifikation 6.2 Distanzfunktionen auf Punkten - Minkowski-Distanzfunktion L m - Gewichtete Minkowski- Distanzfunktion L m w - Quadratische Distanzfunktion d q - Quadratische Pseudo-Distanzfunktion - Dynamical-Partial-Semi- Pseudo-Distanzfunktion - Chi-Quadrat-Semi-Pseudo- Distanzfunktion

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6.1 Eigenschaften und Klassifikationen Abbildung Feature-Werte zweier Medien-Objekte auf nichtnegative, reelle Zahl Distanzwert 0 bedeutet maximale Ähnlichkeit Invarianz einer Distanzfunktion also Unabhängigkeit bzgl. Operation Translation Skalierung Rotation

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Formale Eigenschaften einer Distanzfunktion binäre Funktion mit und Selbstidentität (Si): Positivität (Pos): Symmetrie (Sym): Dreiecksungleichung (Dreieck):

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Klassifikation anhand Erfüllung der Eigenschaften

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiele von Distanzfunktionen absoluter Betrag der Differenz zweier reeller Zahlen euklidsche Distanzfunktion auf Punkten der Menge

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel einer Pseudo-Distanzfunktion indiskrete Pseudo-Distanzfunktion, die jedem Elementepaar aus den Wert 0 zuweist: (Funktion ist praktisch sinnlos)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel einer Semi-Distanzfunktion Semi-Distanzfunktion auf der Menge {a, b, c}: Die Dreiecksungleichung ist nicht garantiert:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Weitere Eigenschaften von Distanzfunktionen folgende Eigenschaften werden an konkreten Funktionen getestet: Invarianz bzgl. Translation anhand Translationsobjekt T: Skalierung anhand Skalar S: Rotation anhand Rotationsobjekt R: d(S*o 1,S*o 2 ) Fehler im Buch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Darstellung des Einheitskreises: alle Punkte, für die gilt ( ist Zentrum) Weitere Eigenschaften von Distanzfunktionen (2) Nicht jeder Einheitskreis besitzt Kreisform!

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Distanzeigenschaften im Einheitskreis verschiedene Eigenschaften sind graphisch aus Einheitskreis erkennbar: Selbstidentität: Zentrum liegt auf Kreis mit Radius 0. Positivität: Alle Punkte ungleich Zentrum liegen außerhalb des Kreises mit dem Radius 0

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Distanzeigenschaften im Einheitskreis (2) Translationsinvarianz: Einheitskreis ändert Form nicht, wenn Zentrum verschoben wird Symmetrie: bei Translationsinvarianz und Symmetrie teilt Zentrum jede Diagonale zwischen zwei Randpunkten in genau zwei gleich lange Teile Rotationsinvarianz: Einheitskreis ist bzgl. Zentrum rotationssymmetrisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6.2 Distanzfunktion auf Punkten Datentyp: array [1..n] (real) Minkowski-Distanzfunktion L m Gewichtete Minkowski-Distanzfunktion L m w Quadratische Distanzfunktion d q Quadratische Pseudo-Distanzfunktion Dynamical-Partial-Semi-Pseudo-Distanzfunktion Chi-Quadrat-Semi-Pseudo-Distanzfunktion

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Minkowski-Distanzfunktion am häufigsten eingesetzte Distanzfunktion auf Punkten mit : Sonderfall bei :

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Translationsinvarianz T sein ein -dimensionaler Vektor, der durch die Differenzberechnung aus der Formel verschwindet: aber keine Skalierungs- oder Rotationsinvarianz

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreise

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Holdersche Ungleichung es gilt immer: also: Einheitskreis mit niedrigem -Wert liegt innerhalb Einheitskreises mit höherem -Wert

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Sonderfall euklidsche Distanzfunktion (m=2) entspricht Länge der Geraden durch beide Punkte Einheitskreis ist kreisförmig Rotationsinvarianz ist erfüllt, da Orthonormalmatrix Matrizenschreibweise:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Berechnung von Reihenfolgen anhand Minkowski-Dist.-fkt. Achtung: unterschiedliche -Werte erzeugen unterschiedliche Reihenfolgen! Beispiel: Abstände dieser Punkte vom Koordinaten-ursprung :

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Gewichtete Minkowski-Distanzfunktion achsenparallele Stauchung und Streckung durch Gewichte : Forderung:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis w 1 =0,5, w 2 =1 Translationsinvarianz keine Skalierungsinvarianz keine Rotationsinvarianz

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Quadratische Distanzfunktion Matrizenschreibweise: A im -dimensionalen Raum ist symmetrische, positiv definite Matrix

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Matrix A Einheitsmatrix : identisch mit Diagonalmatrix: entspricht (Gewichte korrespondieren zu Diagonalelementen) ansonsten: nichtuniforme Skalierung, Rotation, Spiegelung der Punkte

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Symmetrische positiv definierte Matrix A es gilt immer: (Eigenwertzerlegung): ist orthonormale Matrix (Rotation anhand Eigenvektoren) ist Diagonalmatrix (Skalierung anhand Eigenwerten)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Berechnung der Distanz mittels auf transformierten Punkten oft relativ schnell realisierbar Symmetrische positiv definierte Matrix A (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Invarianzen Translationsinvarianz keine Skalierungsinvarianz keine Rotationsinvarianz

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispielmatrix

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis des Beispiels

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Mahalanobis-Distanzfunktion Einsatz der quadratischen Distanzfunktion, wenn Distanzberechnung Kombination unterschiedlicher Dimensionen erfordert Grundlage kann Kovarianzmatrix auf Dimensionen sein Mahalanobis-Distanzfunktion

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Quadratische Pseudo-Distanzfunktion Aufgabe der Forderung nach Positiv-Definitheit für A Ziel: unsymmetrische Translationsinvarianz bzgl. Vektoren des Vektorraums : Konstruktion der Matrix A aus geeigneter Orthogonalbasis und Diagonalmatrix

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek den -Vektoren entsprechende Diagonalwerte von L auf Null setzen seien mit die durch auf Null gesetzten -Spaltenvektoren, dann gilt für Linearkombinationen hiervon: Quadratische Pseudo-Distanzfunktion (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Nachweis der Translationsinvarianz Der entscheidende Schritt: laut Def ist dieser Term 0

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel Quadratische Pseudo-Distanzfunktion Konstruktion Translationsinvarianz im Winkel von 40 Grad:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel Quadratische Pseudo-Distanzfunktion (2) Die Kombination dieser Matrizen ergibt die gewünschte Matrix A:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis des Beispiels

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Dynamical-Partial-Semi-Pseudo-Distanzfunktion folgende Beobachtungen Chang/Wu03 bzgl. Unähnlichkeit im hochdimensionalen Raum: ähnliche Objekte liegen meist nur in wenigen Dimensionen nebeneinander Ähnlichkeit kann häufig nicht an bestimmten Dimensionen festgemacht werden

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Dynamical-Partial-Semi-Pseudo-Distanzfunktion Problem mit Minkowski-Distanzfunktion: alle Dimensionen werden berücksichtigt Berücksichtigung einer dynamischen Untermenge der Dimensionen

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Dynamic-Partial-Semi-Pseudo-Distanzfunktion (2) und seien zwei Punkte im -dimensionalen Raum und der Abstand in Dimension nur die kleinsten Abstände werden berücksichtigt:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Eigenschaften Selbstidentität und Symmetrie sind erfüllt Verletzung der Positivität und Dreiecksungleichung

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis zweidimensionaler Raum und

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Chi-Quadrat-Semi-Pseudo-Distanzfunktion Abstand zwischen Histogrammen mit absoluten Häufigkeiten ursprünglich in Statistik entwickelt Untersuchung von Abhängigkeit zwischen Zufallsvariablen basiert auf Nullhypothese: Häufigkeitsverteilungen sind gleich also Differenz zwischen erwarteten und tatsächlichen Häufigkeiten beträgt 0

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Chi-Quadrat-Semi-Pseudo-Distanzfunktion (2) erwartete Häufigkeiten:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel Test, ob Grippedoppelimpfung Grippe verhindern kann Befragung verschiedener Personen über Auftreten von Grippe und Impfungen erwartete Werte sind in Klammern notiert

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Berechnung der erwarteten Häufigkeiten wenn kein Zusammenhang zwischen Impfung und Gruppe, dann Wert jeder Zelle abschätzbar

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Berechnung der erwarteten Häufigkeiten / Wahrscheinlichkeiten Beispiel Grippe(=j=1)/keine Impfung (=i=1); vgl. keine Impfung p 1 mit Doppelimpfung p 2 Häufigkeit für Grippe ist = 37 =p 1 [j]+p 2 [j] Wahrsch. für keine Impfung ist 313 = p i [1]+p i [2] = n a=1 p i [a] Multiplizierte Häufigkeit für Grippe/keine Impfung ist 37*313 ~ Zähler Nenner: = =878 erwartete Häufigkeit: 37*313 / 878 = 13,19 Erwartete Wahrscheinlichkeit: p i [j] = 13,19 / 878 ^ Bemerkung: die Rechnung im Buch berücksichtigt die drei (!) Zufallsvariablen: 1.Keine Impfung 2.Eine Impfung 3.Doppelimpfung

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Eigenschaften Selbstidentität und Symmetrie sind erfüllt Rotationsinvarianz keine Positivität keine Dreiecksungleichung

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis Abstand 0,1 um (1; 0,5)