Maschinelles Lernen   Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen.

Slides:



Advertisements
Ähnliche Präsentationen
Beispiel zum RSA-Algorithmus
Advertisements

Lösung nichtlinearer Gleichungssysteme
Christian Scheideler SS 2009
3. 3D-Betrachtungstransformationen
Schnelle Matrizenoperationen von Christian Büttner
Fünffärbbarkeit Farbnummern 0,1,2,3,4.
Kerndichteschätzung Nearest-Neighbour-Verfahren
Mehrwertige Abhängigkeiten (1)
Kosmologie mit Supernovae 1a
Syntax, Semantik, Spezifikation - Grundlagen der Informatik R. Hartwig Kapitel 4 / 1 Termalgebren Definition "Freie Algebra" Die -Algebra A = [A, F ] heißt.
Modellierung und Schätzung von Variogrammen
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
Klicke Dich mit der linken Maustaste durch das Übungsprogramm! Ein Übungsprogramm der IGS - Hamm/Sieg © IGS-Hamm/Sieg 2007 Dietmar Schumacher Zeichnerische.
Eine kleine Einführung in echte und falsche Metriken, Normen,
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (23 – Sortieren vorsortierter Daten) Prof. Th. Ottmann.
Sortieren vorsortierter Daten
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUTE University of Paderborn Algorithms and Complexity Algorithmen und Komplexität Teil 1: Grundlegende.
Beispiele für Ausdrucksalgebren
K. Desch - Statistik und Datenanalyse SS05
Effiziente Suche in Bilddatenbanken
Gaußscher Algorithmus
Mathematische Grundlagen und Rechnen mit algebraischen Zahlen
Die Funktionsgleichung
Phylogenetische Bäume & ihre Konstruktion
Folie 1 Kapitel II. Vom Raumbegriff zu algebraischen Strukturen Neubeginn: Herleitung des Begriffs Vektorraum aus intuitiven Vorstellungen über den Raumbegriff.
§9 Der affine Raum – Teil 2: Geraden
§ 28 Multilineare und Alternierende Abbildungen
§11 Skalarprodukt. Euklidische Räume
Folie 1 § 29 Determinanten: Eigenschaften und Berechnung (29.1) Definition: Eine Determinantenfunktion auf K nxn ist eine Abbildung (im Falle char(K) ungleich.
Machine Learning KNN und andere (Kap. 8).
Wahrscheinlichkeitsrechnung
(Un-)sicherheiten in Ökosystemmodellierung
Vorstellung Ateliers Permutationstests Nachmittagsateliers.
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Lösungsweg: Satz von Gauß
§24 Affine Koordinatensysteme
Optimales Güterbündel
Regionalisierte Variablen und Kriging
Zeichnen linearer Funktionen
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Mehrkriterielle Optimierung mit Metaheuristiken
Ein Thema der Physik des „Massenpunktes“ und der Photonen
Elastizität: Das Hookesche Gesetz
Fuzzymengen – Was ist das?
Plenum Ganzrationale Funktionen
Ganzrationale Funktionen
Lineare Funktionen und ihre Schaubilder, die Geraden
1, 2, 3, ... Natürliche Zahlen PaedDr. Ján Gunčaga, PhD. Lehrstuhl für Mathematik und Physik Pädagogische Fakultät Katholische Universität.
Fundamente der Computational Intelligence (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich Informatik Lehrstuhl für Algorithm Engineering Wintersemester.
SIFT Scale-Invariant-Feature-Transform
Lineare Gleichungen mit 2 Variablen
Stetige Kleinste-Quadrate-Approximation
Nichtlineare Optimierung
PowerPoint-Folien zur 8. Vorlesung „Evolutionsstrategie I“

Die Binomialverteilung
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
LdL am S. Roth :05: :05:44 Weitere Übungsbeispiele zur Booleschen Algebra Franz Jehle Boolesche Algebra, 4.3.
Folie 1 §8 Gruppen und Körper (8.1) Definition: Eine Gruppe G ist eine Menge zusammen mit einer Verknüpfung, die jedem Paar (a,b) von Elementen aus G ein.
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Einführung in die Informationsverarbeitung Teil Thaller Stunde V: Wege und warum man sie geht Graphen. Köln 14. Januar 2016.
Statistik II Statistik II Maße der zentralen Tendenz (Mittelwerte)
Exkurs: Chi-quadrat und Modellgüte 1. ist ein Distanzmaß, welches die Distanz zwischen Modellvorhersage und Daten misst.  Je kleiner desto besser ist.
Lineare Algebra II (MAVT)
Symmetrie
Kapitel 2: Klassifikation
Integration durch lineare Substitution
Schnitt Ebene/Ebene Voraussetzungen Die Ebenen
Kapitel II. Vom Raumbegriff zu algebraischen Strukturen
 Präsentation transkript:

Maschinelles Lernen   Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen

Metriken Bei nearest-neighbour-Verfahren wird der Klassifikator einzig durch die Daten und das Distanzmaß festgelegt. Expertenwissen kann hier ausschließlich durch die Wahl des Distanzmaßes einfließen! (Vergleiche: Bei einem parametrischen Modell wird der Klassifikator durch die Daten und das Verfahren zur Parameterschätzung festgelegt) Definition Distanzmaß: Eine Funktion d: X x X → ℝ heißt Distanzmaß oder Metrik auf X, wenn gilt: d(a,b) ≥ 0 für alle a,b∊X (Nicht-Negativität) d(a,b) = 0 genau wenn a=b (Definitheit) d(a,b) = d(b,a) für alle a,b∊X (Symmetrie) d(a,b)+d(b,c) ≥ d(a,b) für alle a,b,c∊X (Dreiecksungleichung) (Anm.: Axiom 1 folgt aus den restlichen Axiomen)

Metriken Beispiele: Die Lp-Norm auf ℝn (p≥1) : induziert eine Metrik Einheitskugeln verschiedener Lp-Normen (Manhattan Distanz) Für 0<p<1 ist die analog definierte Funktion d keine Metrik (wieso?).

Metriken Mahalanobis Distanz: Sei < , > ein postitiv definites Skalarprodukt im ℝn. Dann lässt sich dies darstellen durch <x,y> = xTAy mit einer geeigneten symmetrischen, positiv definiten Matrix A ∊ ℝnxn. Dies induziert eine Norm und somit eine Metrik Verbindungen zur Diskriminanzanalyse: Nimmt man an, dass die Daten einer Klasse ω einer multivariaten Normalverteilung entspringen, z.B. d=1 so kann man μω,Σω durch den Mittelwert bzw. die Kovarianzmatrix der Daten in Klasse ω schätzen. Ein neuer Punkt x wird dann in die Klasse ω klassifiziert, für die die Mahalanobis-Distanz minimal ist (sofern die Streuung |Σω| für alle Gruppen gleich ist)

Metriken Canberra Distanz: Sind alle Features eines Datenpunktes x=(x1,…,xn) nicht-negativ, d.h. gilt xj≥0 für alle j, dann ist eine Metrik, die Canberra-Metrik. Hamming Distanz: Sind alle Features eines Datenpunktes x=(x1,…,xn) binär, dann ist eine Distanzfunktion, die Hamming-Distanz. Fasst man die binären Werte 0 bzw. 1 als reelle Zahlen auf, so ist dies gerade die Manhattan Distanz. (Pearson-)Korrelationsdistanz: Für reelle Features und für das euklidische Skalarprodukt samt zugehöriger Norm sei Dann heißt die Pearson-Korrelation von x und y, und ist eine Metrik, die Korrelationsmetrik.

Metriken Tanimoto Distanz: Sind alle Features eines Datenpunktes x=(x1,…,xn) binär, dann ist eine Distanzfunktion, die Tanimoto-Distanz. Will man Teilmengen X bzw. Y einer Menge M vergleichen, so betrachtet man x=(xj)j∊M, mit xj=1 genau wenn j∊X; y wird analog definiert. Dann ist die Tanimoto Distanz von x und y: Es wird also eine Ähnlichkeit von X und Y gemessen.

Metriken Tangentendistanz (kommt of in der Bildanalyse zum Einsatz): Eine Beobachtung x∊X (z.B. ein Bild) definiert eine ganze Menge von „äquivalenten“ Beobachtungen , d.h. P(ω|x) = P(ω|m) für alle m∊ (z.B. könnte die Menge aller horizontal oder vertikal verschobenen Bilder von x sein). Testpunkt y Trainings-punkt x1 Naive Verwendung eines Abstandsmaßes führt dazu, dass ein verschobenes Muster fehlklassifiziert wird. In diesem Beispiel wäre ein vernünftiges Abstandsmaß invariant gegenüber Translationen. Trainings-punkt x2

Metriken Tangentendistanz (kommt of in der Bildanalyse zum Einsatz): Eine Beobachtung x∊X (z.B. ein Bild) definiert eine ganze Menge von „äquivalenten“ Beobachtungen , d.h. P(ω|x) = P(ω|m) für alle m∊ (z.B. könnte die Menge aller horizontal oder vertikal verschobenen Bilder von x sein). Mit n Beobachtungen x1,…xn und deren Klassenzugehörigkeiten ω1,… ω n hat man de facto die Beobachtungen mit den Klassenzugehörigkeiten ωj, j = 1,…,n gemacht. Zur nearest neighbour Klassifikation einer neuen Beobachtung y sucht man daher den kleinsten Abstand y zu den Vertretern aus d.h. man sucht Da die komplette Aufzählung aller zu aufwändig oder unmöglich ist, nähert man xj durch einen affinen Raum an, indem man sich durch „differentielle Operationen“ entstanden denkt, d.h. man berechnet und mit der Matrix (die man nur ein Mal bei der Präprozes-sierung berechnet) nähert man

Metriken Die Idee hierbei ist, dass die Tangenten-Näherung für Punkte, die sich nahe bei der neuen Beobachtung y befinden, gut ist. Für weit entfernte Punkte muss die Näherung gar nicht gut sein, da diese Punkte sowieso als Nachbarn von y ausgeschlossen werden sollen. Die Gefahr, dass durch die Tangenten-Näherung ein weit entfernter Punkt (bzw. seine Äquivalenzklasse) fälschlicherweise als benachbart zu y bewertet wird, ist dagegen gering. Δa Δ2 Δ1 Bem.: Ist d z.B. der euklidische Abstand, so lässt sich das Minimum der quadratischen Funktion schnell berechnen.

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen Aus: Duda, Hart, Stork. Pattern Classification

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen Mehr als zwei Klassen Paarweises Lernen I: Entscheide, ob x∊ωj oder x∉ωj , j=1,…,n. Paarweises Lernen II: Entscheide, ob x∊ωj oder x ∊ωk , j,k = 1,…,n, j≠k.

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen

Lineare Diskriminanzfunktionen