Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6 Distanzfunktionen 6.1 Eigenschaften und Klassifikation 6.2 Distanzfunktionen.

Ähnliche Präsentationen


Präsentation zum Thema: "ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6 Distanzfunktionen 6.1 Eigenschaften und Klassifikation 6.2 Distanzfunktionen."—  Präsentation transkript:

1 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6 Distanzfunktionen 6.1 Eigenschaften und Klassifikation 6.2 Distanzfunktionen auf Punkten - Minkowski-Distanzfunktion L m - Gewichtete Minkowski- Distanzfunktion L m w - Quadratische Distanzfunktion d q - Quadratische Pseudo-Distanzfunktion - Dynamical-Partial-Semi- Pseudo-Distanzfunktion - Chi-Quadrat-Semi-Pseudo- Distanzfunktion

2 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6.1 Eigenschaften und Klassifikationen Abbildung Feature-Werte zweier Medien-Objekte auf nichtnegative, reelle Zahl Distanzwert 0 bedeutet maximale Ähnlichkeit Invarianz einer Distanzfunktion also Unabhängigkeit bzgl. Operation Translation Skalierung Rotation

3 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Formale Eigenschaften einer Distanzfunktion binäre Funktion mit und Selbstidentität (Si): Positivität (Pos): Symmetrie (Sym): Dreiecksungleichung (Dreieck):

4 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Klassifikation anhand Erfüllung der Eigenschaften

5 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiele von Distanzfunktionen absoluter Betrag der Differenz zweier reeller Zahlen euklidsche Distanzfunktion auf Punkten der Menge

6 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel einer Pseudo-Distanzfunktion indiskrete Pseudo-Distanzfunktion, die jedem Elementepaar aus den Wert 0 zuweist: (Funktion ist praktisch sinnlos)

7 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel einer Semi-Distanzfunktion Semi-Distanzfunktion auf der Menge {a, b, c}: Die Dreiecksungleichung ist nicht garantiert:

8 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Weitere Eigenschaften von Distanzfunktionen folgende Eigenschaften werden an konkreten Funktionen getestet: Invarianz bzgl. Translation anhand Translationsobjekt T: Skalierung anhand Skalar S: Rotation anhand Rotationsobjekt R: d(S*o 1,S*o 2 ) Fehler im Buch

9 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Darstellung des Einheitskreises: alle Punkte, für die gilt ( ist Zentrum) Weitere Eigenschaften von Distanzfunktionen (2) Nicht jeder Einheitskreis besitzt Kreisform!

10 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Distanzeigenschaften im Einheitskreis verschiedene Eigenschaften sind graphisch aus Einheitskreis erkennbar: Selbstidentität: Zentrum liegt auf Kreis mit Radius 0. Positivität: Alle Punkte ungleich Zentrum liegen außerhalb des Kreises mit dem Radius 0

11 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Distanzeigenschaften im Einheitskreis (2) Translationsinvarianz: Einheitskreis ändert Form nicht, wenn Zentrum verschoben wird Symmetrie: bei Translationsinvarianz und Symmetrie teilt Zentrum jede Diagonale zwischen zwei Randpunkten in genau zwei gleich lange Teile Rotationsinvarianz: Einheitskreis ist bzgl. Zentrum rotationssymmetrisch

12 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6.2 Distanzfunktion auf Punkten Datentyp: array [1..n] (real) Minkowski-Distanzfunktion L m Gewichtete Minkowski-Distanzfunktion L m w Quadratische Distanzfunktion d q Quadratische Pseudo-Distanzfunktion Dynamical-Partial-Semi-Pseudo-Distanzfunktion Chi-Quadrat-Semi-Pseudo-Distanzfunktion

13 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Minkowski-Distanzfunktion am häufigsten eingesetzte Distanzfunktion auf Punkten mit : Sonderfall bei :

14 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Translationsinvarianz T sein ein -dimensionaler Vektor, der durch die Differenzberechnung aus der Formel verschwindet: aber keine Skalierungs- oder Rotationsinvarianz

15 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreise

16 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Holdersche Ungleichung es gilt immer: also: Einheitskreis mit niedrigem -Wert liegt innerhalb Einheitskreises mit höherem -Wert

17 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Sonderfall euklidsche Distanzfunktion (m=2) entspricht Länge der Geraden durch beide Punkte Einheitskreis ist kreisförmig Rotationsinvarianz ist erfüllt, da Orthonormalmatrix Matrizenschreibweise:

18 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Berechnung von Reihenfolgen anhand Minkowski-Dist.-fkt. Achtung: unterschiedliche -Werte erzeugen unterschiedliche Reihenfolgen! Beispiel: Abstände dieser Punkte vom Koordinaten-ursprung :

19 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Gewichtete Minkowski-Distanzfunktion achsenparallele Stauchung und Streckung durch Gewichte : Forderung:

20 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis w 1 =0,5, w 2 =1 Translationsinvarianz keine Skalierungsinvarianz keine Rotationsinvarianz

21 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Quadratische Distanzfunktion Matrizenschreibweise: A im -dimensionalen Raum ist symmetrische, positiv definite Matrix

22 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Matrix A Einheitsmatrix : identisch mit Diagonalmatrix: entspricht (Gewichte korrespondieren zu Diagonalelementen) ansonsten: nichtuniforme Skalierung, Rotation, Spiegelung der Punkte

23 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Symmetrische positiv definierte Matrix A es gilt immer: (Eigenwertzerlegung): ist orthonormale Matrix (Rotation anhand Eigenvektoren) ist Diagonalmatrix (Skalierung anhand Eigenwerten)

24 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Berechnung der Distanz mittels auf transformierten Punkten oft relativ schnell realisierbar Symmetrische positiv definierte Matrix A (2)

25 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Invarianzen Translationsinvarianz keine Skalierungsinvarianz keine Rotationsinvarianz

26 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispielmatrix

27 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis des Beispiels

28 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Mahalanobis-Distanzfunktion Einsatz der quadratischen Distanzfunktion, wenn Distanzberechnung Kombination unterschiedlicher Dimensionen erfordert Grundlage kann Kovarianzmatrix auf Dimensionen sein Mahalanobis-Distanzfunktion

29 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Quadratische Pseudo-Distanzfunktion Aufgabe der Forderung nach Positiv-Definitheit für A Ziel: unsymmetrische Translationsinvarianz bzgl. Vektoren des Vektorraums : Konstruktion der Matrix A aus geeigneter Orthogonalbasis und Diagonalmatrix

30 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek den -Vektoren entsprechende Diagonalwerte von L auf Null setzen seien mit die durch auf Null gesetzten -Spaltenvektoren, dann gilt für Linearkombinationen hiervon: Quadratische Pseudo-Distanzfunktion (2)

31 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Nachweis der Translationsinvarianz Der entscheidende Schritt: laut Def ist dieser Term 0

32 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel Quadratische Pseudo-Distanzfunktion Konstruktion Translationsinvarianz im Winkel von 40 Grad:

33 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel Quadratische Pseudo-Distanzfunktion (2) Die Kombination dieser Matrizen ergibt die gewünschte Matrix A:

34 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis des Beispiels

35 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Dynamical-Partial-Semi-Pseudo-Distanzfunktion folgende Beobachtungen Chang/Wu03 bzgl. Unähnlichkeit im hochdimensionalen Raum: ähnliche Objekte liegen meist nur in wenigen Dimensionen nebeneinander Ähnlichkeit kann häufig nicht an bestimmten Dimensionen festgemacht werden

36 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Dynamical-Partial-Semi-Pseudo-Distanzfunktion Problem mit Minkowski-Distanzfunktion: alle Dimensionen werden berücksichtigt Berücksichtigung einer dynamischen Untermenge der Dimensionen

37 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Dynamic-Partial-Semi-Pseudo-Distanzfunktion (2) und seien zwei Punkte im -dimensionalen Raum und der Abstand in Dimension nur die kleinsten Abstände werden berücksichtigt:

38 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Eigenschaften Selbstidentität und Symmetrie sind erfüllt Verletzung der Positivität und Dreiecksungleichung

39 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis zweidimensionaler Raum und

40 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Chi-Quadrat-Semi-Pseudo-Distanzfunktion Abstand zwischen Histogrammen mit absoluten Häufigkeiten ursprünglich in Statistik entwickelt Untersuchung von Abhängigkeit zwischen Zufallsvariablen basiert auf Nullhypothese: Häufigkeitsverteilungen sind gleich also Differenz zwischen erwarteten und tatsächlichen Häufigkeiten beträgt 0

41 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Chi-Quadrat-Semi-Pseudo-Distanzfunktion (2) erwartete Häufigkeiten:

42 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel Test, ob Grippedoppelimpfung Grippe verhindern kann Befragung verschiedener Personen über Auftreten von Grippe und Impfungen erwartete Werte sind in Klammern notiert

43 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Berechnung der erwarteten Häufigkeiten wenn kein Zusammenhang zwischen Impfung und Gruppe, dann Wert jeder Zelle abschätzbar

44 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Berechnung der erwarteten Häufigkeiten / Wahrscheinlichkeiten Beispiel Grippe(=j=1)/keine Impfung (=i=1); vgl. keine Impfung p 1 mit Doppelimpfung p 2 Häufigkeit für Grippe ist = 37 =p 1 [j]+p 2 [j] Wahrsch. für keine Impfung ist 313 = p i [1]+p i [2] = n a=1 p i [a] Multiplizierte Häufigkeit für Grippe/keine Impfung ist 37*313 ~ Zähler Nenner: = =878 erwartete Häufigkeit: 37*313 / 878 = 13,19 Erwartete Wahrscheinlichkeit: p i [j] = 13,19 / 878 ^ Bemerkung: die Rechnung im Buch berücksichtigt die drei (!) Zufallsvariablen: 1.Keine Impfung 2.Eine Impfung 3.Doppelimpfung

45 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Eigenschaften Selbstidentität und Symmetrie sind erfüllt Rotationsinvarianz keine Positivität keine Dreiecksungleichung

46 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis Abstand 0,1 um (1; 0,5)


Herunterladen ppt "ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6 Distanzfunktionen 6.1 Eigenschaften und Klassifikation 6.2 Distanzfunktionen."

Ähnliche Präsentationen


Google-Anzeigen