ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6 Distanzfunktionen 6.1 Eigenschaften und Klassifikation 6.2 Distanzfunktionen auf Punkten - Minkowski-Distanzfunktion L m - Gewichtete Minkowski- Distanzfunktion L m w - Quadratische Distanzfunktion d q - Quadratische Pseudo-Distanzfunktion - Dynamical-Partial-Semi- Pseudo-Distanzfunktion - Chi-Quadrat-Semi-Pseudo- Distanzfunktion
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6.1 Eigenschaften und Klassifikationen Abbildung Feature-Werte zweier Medien-Objekte auf nichtnegative, reelle Zahl Distanzwert 0 bedeutet maximale Ähnlichkeit Invarianz einer Distanzfunktion also Unabhängigkeit bzgl. Operation Translation Skalierung Rotation
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Formale Eigenschaften einer Distanzfunktion binäre Funktion mit und Selbstidentität (Si): Positivität (Pos): Symmetrie (Sym): Dreiecksungleichung (Dreieck):
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Klassifikation anhand Erfüllung der Eigenschaften
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiele von Distanzfunktionen absoluter Betrag der Differenz zweier reeller Zahlen euklidsche Distanzfunktion auf Punkten der Menge
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel einer Pseudo-Distanzfunktion indiskrete Pseudo-Distanzfunktion, die jedem Elementepaar aus den Wert 0 zuweist: (Funktion ist praktisch sinnlos)
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel einer Semi-Distanzfunktion Semi-Distanzfunktion auf der Menge {a, b, c}: Die Dreiecksungleichung ist nicht garantiert:
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Weitere Eigenschaften von Distanzfunktionen folgende Eigenschaften werden an konkreten Funktionen getestet: Invarianz bzgl. Translation anhand Translationsobjekt T: Skalierung anhand Skalar S: Rotation anhand Rotationsobjekt R: d(S*o 1,S*o 2 ) Fehler im Buch
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Darstellung des Einheitskreises: alle Punkte, für die gilt ( ist Zentrum) Weitere Eigenschaften von Distanzfunktionen (2) Nicht jeder Einheitskreis besitzt Kreisform!
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Distanzeigenschaften im Einheitskreis verschiedene Eigenschaften sind graphisch aus Einheitskreis erkennbar: Selbstidentität: Zentrum liegt auf Kreis mit Radius 0. Positivität: Alle Punkte ungleich Zentrum liegen außerhalb des Kreises mit dem Radius 0
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Distanzeigenschaften im Einheitskreis (2) Translationsinvarianz: Einheitskreis ändert Form nicht, wenn Zentrum verschoben wird Symmetrie: bei Translationsinvarianz und Symmetrie teilt Zentrum jede Diagonale zwischen zwei Randpunkten in genau zwei gleich lange Teile Rotationsinvarianz: Einheitskreis ist bzgl. Zentrum rotationssymmetrisch
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6.2 Distanzfunktion auf Punkten Datentyp: array [1..n] (real) Minkowski-Distanzfunktion L m Gewichtete Minkowski-Distanzfunktion L m w Quadratische Distanzfunktion d q Quadratische Pseudo-Distanzfunktion Dynamical-Partial-Semi-Pseudo-Distanzfunktion Chi-Quadrat-Semi-Pseudo-Distanzfunktion
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Minkowski-Distanzfunktion am häufigsten eingesetzte Distanzfunktion auf Punkten mit : Sonderfall bei :
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Translationsinvarianz T sein ein -dimensionaler Vektor, der durch die Differenzberechnung aus der Formel verschwindet: aber keine Skalierungs- oder Rotationsinvarianz
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreise
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Holdersche Ungleichung es gilt immer: also: Einheitskreis mit niedrigem -Wert liegt innerhalb Einheitskreises mit höherem -Wert
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Sonderfall euklidsche Distanzfunktion (m=2) entspricht Länge der Geraden durch beide Punkte Einheitskreis ist kreisförmig Rotationsinvarianz ist erfüllt, da Orthonormalmatrix Matrizenschreibweise:
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Berechnung von Reihenfolgen anhand Minkowski-Dist.-fkt. Achtung: unterschiedliche -Werte erzeugen unterschiedliche Reihenfolgen! Beispiel: Abstände dieser Punkte vom Koordinaten-ursprung :
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Gewichtete Minkowski-Distanzfunktion achsenparallele Stauchung und Streckung durch Gewichte : Forderung:
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis w 1 =0,5, w 2 =1 Translationsinvarianz keine Skalierungsinvarianz keine Rotationsinvarianz
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Quadratische Distanzfunktion Matrizenschreibweise: A im -dimensionalen Raum ist symmetrische, positiv definite Matrix
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Matrix A Einheitsmatrix : identisch mit Diagonalmatrix: entspricht (Gewichte korrespondieren zu Diagonalelementen) ansonsten: nichtuniforme Skalierung, Rotation, Spiegelung der Punkte
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Symmetrische positiv definierte Matrix A es gilt immer: (Eigenwertzerlegung): ist orthonormale Matrix (Rotation anhand Eigenvektoren) ist Diagonalmatrix (Skalierung anhand Eigenwerten)
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Berechnung der Distanz mittels auf transformierten Punkten oft relativ schnell realisierbar Symmetrische positiv definierte Matrix A (2)
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Invarianzen Translationsinvarianz keine Skalierungsinvarianz keine Rotationsinvarianz
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispielmatrix
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis des Beispiels
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Mahalanobis-Distanzfunktion Einsatz der quadratischen Distanzfunktion, wenn Distanzberechnung Kombination unterschiedlicher Dimensionen erfordert Grundlage kann Kovarianzmatrix auf Dimensionen sein Mahalanobis-Distanzfunktion
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Quadratische Pseudo-Distanzfunktion Aufgabe der Forderung nach Positiv-Definitheit für A Ziel: unsymmetrische Translationsinvarianz bzgl. Vektoren des Vektorraums : Konstruktion der Matrix A aus geeigneter Orthogonalbasis und Diagonalmatrix
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek den -Vektoren entsprechende Diagonalwerte von L auf Null setzen seien mit die durch auf Null gesetzten -Spaltenvektoren, dann gilt für Linearkombinationen hiervon: Quadratische Pseudo-Distanzfunktion (2)
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Nachweis der Translationsinvarianz Der entscheidende Schritt: laut Def ist dieser Term 0
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel Quadratische Pseudo-Distanzfunktion Konstruktion Translationsinvarianz im Winkel von 40 Grad:
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel Quadratische Pseudo-Distanzfunktion (2) Die Kombination dieser Matrizen ergibt die gewünschte Matrix A:
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis des Beispiels
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Dynamical-Partial-Semi-Pseudo-Distanzfunktion folgende Beobachtungen Chang/Wu03 bzgl. Unähnlichkeit im hochdimensionalen Raum: ähnliche Objekte liegen meist nur in wenigen Dimensionen nebeneinander Ähnlichkeit kann häufig nicht an bestimmten Dimensionen festgemacht werden
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Dynamical-Partial-Semi-Pseudo-Distanzfunktion Problem mit Minkowski-Distanzfunktion: alle Dimensionen werden berücksichtigt Berücksichtigung einer dynamischen Untermenge der Dimensionen
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Dynamic-Partial-Semi-Pseudo-Distanzfunktion (2) und seien zwei Punkte im -dimensionalen Raum und der Abstand in Dimension nur die kleinsten Abstände werden berücksichtigt:
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Eigenschaften Selbstidentität und Symmetrie sind erfüllt Verletzung der Positivität und Dreiecksungleichung
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis zweidimensionaler Raum und
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Chi-Quadrat-Semi-Pseudo-Distanzfunktion Abstand zwischen Histogrammen mit absoluten Häufigkeiten ursprünglich in Statistik entwickelt Untersuchung von Abhängigkeit zwischen Zufallsvariablen basiert auf Nullhypothese: Häufigkeitsverteilungen sind gleich also Differenz zwischen erwarteten und tatsächlichen Häufigkeiten beträgt 0
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Chi-Quadrat-Semi-Pseudo-Distanzfunktion (2) erwartete Häufigkeiten:
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Beispiel Test, ob Grippedoppelimpfung Grippe verhindern kann Befragung verschiedener Personen über Auftreten von Grippe und Impfungen erwartete Werte sind in Klammern notiert
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Berechnung der erwarteten Häufigkeiten wenn kein Zusammenhang zwischen Impfung und Gruppe, dann Wert jeder Zelle abschätzbar
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Berechnung der erwarteten Häufigkeiten / Wahrscheinlichkeiten Beispiel Grippe(=j=1)/keine Impfung (=i=1); vgl. keine Impfung p 1 mit Doppelimpfung p 2 Häufigkeit für Grippe ist = 37 =p 1 [j]+p 2 [j] Wahrsch. für keine Impfung ist 313 = p i [1]+p i [2] = n a=1 p i [a] Multiplizierte Häufigkeit für Grippe/keine Impfung ist 37*313 ~ Zähler Nenner: = =878 erwartete Häufigkeit: 37*313 / 878 = 13,19 Erwartete Wahrscheinlichkeit: p i [j] = 13,19 / 878 ^ Bemerkung: die Rechnung im Buch berücksichtigt die drei (!) Zufallsvariablen: 1.Keine Impfung 2.Eine Impfung 3.Doppelimpfung
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Eigenschaften Selbstidentität und Symmetrie sind erfüllt Rotationsinvarianz keine Positivität keine Dreiecksungleichung
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einheitskreis Abstand 0,1 um (1; 0,5)