Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

SS 2009Maschinelles Lernen und Neural Computation 150 Kapitel 8: Kernel-Methoden.

Ähnliche Präsentationen


Präsentation zum Thema: "SS 2009Maschinelles Lernen und Neural Computation 150 Kapitel 8: Kernel-Methoden."—  Präsentation transkript:

1 SS 2009Maschinelles Lernen und Neural Computation 150 Kapitel 8: Kernel-Methoden

2 SS 2009Maschinelles Lernen und Neural Computation 151 Ausgangsbasis: Perceptron Learning Rule Rosenblatt (1962) Input wird dazugezählt (abgezogen), wenn Output falsch (mismatch-based) Verwendung: Klassifikation Target: Nach dem Lernschritt:

3 SS 2009Maschinelles Lernen und Neural Computation 152 Mathematische Formulierung Perceptron (1 Output): y i = +1/-1: Daten kommen als inneres Produkt vor (duale Darstellung) Inneres Produkt (dot product)

4 SS 2009Maschinelles Lernen und Neural Computation 153 Vor- und Nachteile des Perceptrons Vorteile: –Globale Lösung garantiert (keine lokalen Minima) –Leicht lösbar bzw. otpimierbar Nachteil: –Auf lineare Separierbarkeit beschränkt Idee: –Transformation der Daten auf einen Raum, in dem das Problem linear trennbar ist

5 SS 2009Maschinelles Lernen und Neural Computation 154 Vergleiche Diskriminanzanalyse Allgemein linear: beliebige Vorverarbeitungsfunktionen, lineare Verknüpfung Neuronales Netz: NN implementiert adaptive Vorverarbeitung nichtlinear in Parametern (w) durch Approximationstheorem: beliebig nichtlineare Diskriminanzfunktion MLP RBFN

6 SS 2009Maschinelles Lernen und Neural Computation 155 Kernels Ziel ist eine fix bestimmte Transformation x iΦ(x i ), sodass das Problem linear trennbar ist (ev. hochdimensional) Kernel: Funktion, die als inneres Produkt von Φs darstellbar ist: Φ muss nicht einmal bekannt sein

7 SS 2009Maschinelles Lernen und Neural Computation 156 Beispiel: Polynomischer Kernel 2 Dimensionen: Kernel entspricht tatsächlich einem inneren Produkt aus Vektoren mit Vorverarbeitung

8 SS 2009Maschinelles Lernen und Neural Computation 157 Beispiel Durch Transformation wird Problem linear trennbar Ф Ф -1 x1x1 x2x2 x12x12 x22x22

9 SS 2009Maschinelles Lernen und Neural Computation 158 Die Wirkung des Kernel-Tricks Einsatz des Kernels, z.B: 16x16-dimensionale Vektoren (z.B. Pixel-Bilder), Polynom 5. Grades: Dimension = –Inneres Produkt zweier dim. Vektoren Berechnung erfolgt im niedrigdimensionalen Raum: –Inneres Produkt zweier 256-dim. Vektoren –5-te Potenz

10 SS 2009Maschinelles Lernen und Neural Computation 159 Gaussscher Kernel Ф nicht darstellbar, hat aber unendliche Dimension! (wenn Trainingsset unbegrenzt groß sein kann) Folgt aus Mercers Theorem: –Betrachte die Kernel-Matrix über alle Trainingsbeispiele –Berechne Eigenwerte und -funktionen, dann gilt: –Für Gaussschen Kernel gilt: Kernel-Matrix hat vollen Rang! Dimension so groß wie das Trainingsset

11 SS 2009Maschinelles Lernen und Neural Computation 160 Large Margin Classifier Hochdimensionaler Raum: Overfitting leicht möglich Lösung: Suche Entscheidungslinie (Hyperebene) mit größtem Abstand von den Punkten Abstand maximal w Optimierung: Minimiere (Maximiere ) Randbedingung:

12 SS 2009Maschinelles Lernen und Neural Computation 161 Optimierung 1 Quadratisches Optimierungsproblem Lösungsansatz: Lagrange-Multiplikanten Randbedingung: 1. Ableitung nach w und b muss 0 sein. Das ergibt:

13 SS 2009Maschinelles Lernen und Neural Computation 162 Optimierung 2 Einsetzen der zuletzt ergebenen Terme: Duale Formulierung Wichtig: Daten stehen wieder als inneres Produkt (dot product) im Term! Kernel-Trick kann wieder angewandt werden

14 SS 2009Maschinelles Lernen und Neural Computation 163 Optimierung 3 Minimierung ist quadratisches Programmierungsproblem Globales Minimum garantiert Methoden –Chunking nutzt die Tatsache dass viele α i =0 –Decomposition Methods –Sequential Minimal Optimization (SMO) löst eine Sequenz von Problemen der Größe 2 (Paare von Variablen)

15 SS 2009Maschinelles Lernen und Neural Computation 164 Support Vectors Support-Vectors: Punkte am Rand des Margins Bestimmen alleine die Lösung, für alle anderen Punkte gilt: α i =0, können weggelassen werden Kernelfunktion Rückprojektion Support Vectors

16 SS 2009Maschinelles Lernen und Neural Computation 165 Daten mit Rauschen Bisherige Annahme: Problem ist exakt trennbar Bei Rauschen: Einführung von Slack variables: weicht den strengen Margin etwas auf w Lernparameter Duales Problem (Lagrange) bleibt gleich (bis auf Randbedingung)

17 SS 2009Maschinelles Lernen und Neural Computation 166 Beispiel Kernel: Polynom 3. Ordnung Schätzung nur mit Support- Vectors ergibt die selbe Lösung:

18 SS 2009Maschinelles Lernen und Neural Computation 167 Bedingungen für Kernels Jede Funktion K(x,z), für die gilt bzw. ist eine Kernelfunktion (positive definite Kernels) Ist K1 und K2 ein Kernel, so sind auch aK 1 (für a>0) K 1 +K 2 K 1 *K 2 Kernel Wahl des richtigen Kernels (Vorverarbeitung) ist entscheidend! Modellselektion notwendig für beliebige Trainingspunkte x i

19 SS 2009Maschinelles Lernen und Neural Computation 168 SVM-Theorie: VC-Dimension Shatter: Wenn unter n Punkten alle 2 n Klassifikationen möglich sind VC-Dimension h … kleinstes m von Punkten, für die der Lerner weniger als 2 m Klassifikationen schafft Z.B.: VC-Dim(Perceptron)=k+1 (k … Inputdimension) Für komplexe Lerner kann oft nur Schranke angegeben werden

20 SS 2009Maschinelles Lernen und Neural Computation 169 SVM-Theorie: Structural risk minimization Schranke für das Risiko (Fehler) Maximieren des Margins beschränkt VC-Dimension ||w|| kann als Regularisierungsterm betrachtet werden Gauss-Kernel: VC-Dim h= Mit Wahrscheinlichkeit 1-δ Anzahl Trainingspunkte Empirischer Fehler am Trainingsset Minimal möglicher Fehler

21 SS 2009Maschinelles Lernen und Neural Computation 170 SVM und Neuronale Netze Gauss-Kernel: RBF Sigmoid-Kernel: MLP So viele Hidden Units wie Trainingsmuster Allerdings andere Berechnung Raum ist -dimensional SVM und Boosting: formaler Zusammenhang vgl. Boosting: Punkte an der Entscheidungsgrenze bekommen größte Bedeutung (wie SV)

22 SS 2009Maschinelles Lernen und Neural Computation 171 Andere Kernelverfahren Kernel-Trick funktioniert bei allen Methoden, in denen Daten als inneres Produkt vorkommen –Kernel-PCA –Kernel-Fisher Diksriminante –Kernel Regression Gausssche Prozesse

23 SS 2009Maschinelles Lernen und Neural Computation 172 Zusammenfassung SVMs sind interessante Alternative zu klassischen neuronalen Netzen Kernel-Trick: Inneres Produkt von hochdimensionalen Features (Vorverabeitung) kann niedrigdimensional berechnet werden Beschränken der VC-Dim. (Vermeidung von Overfitting): Large Margin Classifier Lineares Modell, Quadratische Programmierung, Minimum garantiert Support Vectors: Punkte am Margin, sind alleine für Lösung verantwortlich Aber: Overfitting dennoch möglich Modellselektion notwendig Wahl des geeigneten Kernels ist sehr wichtig!


Herunterladen ppt "SS 2009Maschinelles Lernen und Neural Computation 150 Kapitel 8: Kernel-Methoden."

Ähnliche Präsentationen


Google-Anzeigen