Slides:



Advertisements
Ähnliche Präsentationen
Präsentiert von Torben Pastuch
Advertisements

Seminarankündigung für das SS04
Christian Scheideler SS 2009
Perceptrons and the perceptron learning rule
Simulation komplexer technischer Anlagen
Schnelle Matrizenoperationen von Christian Büttner
Genetische Algorithmen für die Variogrammanpassung
Seminar „Extrapolationsmethoden für zufällige Felder“
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
Adaptive lineare Transformationen AS-2
V 5: Partielle Differentialgleichungen - Grundlagen
Numerik partieller Differentialgleichungen
Beispiele für Gleichungssysteme
Mittelwert, Median, Quantil
K. Desch - Statistik und Datenanalyse SS05
Tutorium
Machine Learning KNN und andere (Kap. 8).
Maschinelles Lernen und automatische Textklassifikation
Machine Learning Was wir alles nicht behandelt haben.
Maschinelles Lernen und automatische Textklassifikation
Variationsformalismus für das freie Teilchen
Computergrafik – Inhalt Achtung! Kapitel ist relevant für CG-2!
Lösungsweg: Satz von Gauß
Ausgleichung ohne Linearisierung
Universität Stuttgart Wissensverarbeitung und Numerik I nstitut für K ernenergetik und E nergiesysteme Numerik partieller Differentialgleichungen, SS 01Teil.

Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Regionalisierte Variablen und Kriging
Globale Interpolations- und Prädiktionsverfahren
Adaptive Systeme-2 Grundlagen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Polynome und schnelle Fourier-Transformation
Die Information Bottleneck Methode


Kapitel 10 Multikollinearität
Die spline-Interpolation
Radiale Basis-funktionen
Die spline-Interpolation
Multivariate Statistische Verfahren
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Klassifikation und Regression mittels neuronaler Netze
Information Retrieval, Vektorraummodell
Stetige Kleinste-Quadrate-Approximation
Folie Einzelauswertung der Gemeindedaten

Nichtlineare Optimierung

Vortrag Relative Orientierung
SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.
Anwendung der Ellipsoidmethode in der Kombinatorischen Optimierung
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Maschinelles Lernen und Neural Computation
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
In PBPK Schätzung von Modellparametern. Direktes Problem vs. Inverses Problem Direktes Problem: gegeben Kompartimentenmode ll K, Parameter p Input x gesucht.
Geoinformationssysteme
Focusing Search in Multiobjective Evolutionary Optimization through Preference Learning from User Feedback Thomas FoberWeiwei ChengEyke Hüllermeier AG.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
Kapitel 2: Klassifikation
Kapitel 5: Der praktische Umgang mit komplexen Lernern
Maschinelles Lernen und Neural Computation
 Präsentation transkript:

Kapitel 8: Kernel-Methoden SS 2009 Maschinelles Lernen und Neural Computation

Ausgangsbasis: Perceptron Learning Rule Target: Rosenblatt (1962) Input wird dazugezählt (abgezogen), wenn Output falsch („mismatch-based“) Verwendung: Klassifikation Nach dem Lernschritt: SS 2009 Maschinelles Lernen und Neural Computation

Mathematische Formulierung Perceptron (1 Output): yi = +1/-1: Daten kommen als inneres Produkt vor („duale Darstellung“) Inneres Produkt (dot product) SS 2009 Maschinelles Lernen und Neural Computation

Vor- und Nachteile des Perceptrons Vorteile: Globale Lösung garantiert (keine lokalen Minima) Leicht lösbar bzw. otpimierbar Nachteil: Auf lineare Separierbarkeit beschränkt Idee: Transformation der Daten auf einen Raum, in dem das Problem linear trennbar ist SS 2009 Maschinelles Lernen und Neural Computation

Vergleiche Diskriminanzanalyse Allgemein linear: beliebige Vorverarbeitungsfunktionen, lineare Verknüpfung Neuronales Netz: NN implementiert adaptive Vorverarbeitung nichtlinear in Parametern (w) durch Approximationstheorem: beliebig nichtlineare Diskriminanzfunktion MLP RBFN SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Kernels Ziel ist eine fix bestimmte Transformation xi→Φ(xi), sodass das Problem linear trennbar ist (ev. hochdimensional) Kernel: Funktion, die als inneres Produkt von Φs darstellbar ist: Φ muss nicht einmal bekannt sein SS 2009 Maschinelles Lernen und Neural Computation

Beispiel: Polynomischer Kernel 2 Dimensionen: Kernel entspricht tatsächlich einem inneren Produkt aus Vektoren mit „Vorverarbeitung“ SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Beispiel Durch Transformation wird Problem linear trennbar Ф x2 x22 x1 x12 Ф-1 SS 2009 Maschinelles Lernen und Neural Computation

Die Wirkung des Kernel-Tricks Einsatz des Kernels, z.B: 16x16-dimensionale Vektoren (z.B. Pixel-Bilder), Polynom 5. Grades: Dimension = 1010 Inneres Produkt zweier 10000000000-dim. Vektoren Berechnung erfolgt im niedrigdimensionalen Raum: Inneres Produkt zweier 256-dim. Vektoren 5-te Potenz SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Gauss‘scher Kernel Ф nicht darstellbar, hat aber unendliche Dimension! (wenn Trainingsset unbegrenzt groß sein kann) Folgt aus Mercer‘s Theorem: Betrachte die Kernel-Matrix über alle Trainingsbeispiele Berechne Eigenwerte und -funktionen, dann gilt: Für Gauss‘schen Kernel gilt: Kernel-Matrix hat vollen Rang! Dimension so groß wie das Trainingsset SS 2009 Maschinelles Lernen und Neural Computation

Large Margin Classifier Hochdimensionaler Raum: Overfitting leicht möglich Lösung: Suche Entscheidungslinie (Hyperebene) mit größtem Abstand von den Punkten Optimierung: Minimiere (Maximiere ) Randbedingung: Abstand maximal w SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Optimierung 1 Quadratisches Optimierungsproblem Lösungsansatz: Lagrange-Multiplikanten Randbedingung: 1. Ableitung nach w und b muss 0 sein. Das ergibt: SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Optimierung 2 Einsetzen der zuletzt ergebenen Terme: „Duale“ Formulierung Wichtig: Daten stehen wieder als inneres Produkt (dot product) im Term! Kernel-Trick kann wieder angewandt werden SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Optimierung 3 Minimierung ist quadratisches Programmierungsproblem Globales Minimum garantiert Methoden Chunking nutzt die Tatsache dass viele αi=0 Decomposition Methods Sequential Minimal Optimization (SMO) löst eine Sequenz von Problemen der Größe 2 (Paare von Variablen) SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Support Vectors Support-Vectors: Punkte am Rand des Margins Bestimmen alleine die Lösung, für alle anderen Punkte gilt: αi=0, können weggelassen werden Kernelfunktion Rückprojektion Support Vectors SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Daten mit Rauschen Bisherige Annahme: Problem ist exakt trennbar Bei Rauschen: Einführung von „Slack variables“: weicht den strengen Margin etwas auf w Lernparameter Duales Problem (Lagrange) bleibt gleich (bis auf Randbedingung) SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Beispiel Kernel: Polynom 3. Ordnung Schätzung nur mit Support-Vectors ergibt die selbe Lösung: SS 2009 Maschinelles Lernen und Neural Computation

Bedingungen für Kernels Jede Funktion K(x,z), für die gilt bzw. ist eine Kernelfunktion („positive definite“ Kernels) Ist K1 und K2 ein Kernel, so sind auch aK1 (für a>0) K1+K2 K1*K2 Kernel Wahl des richtigen Kernels (Vorverarbeitung) ist entscheidend!  Modellselektion notwendig für beliebige Trainingspunkte xi SS 2009 Maschinelles Lernen und Neural Computation

SVM-Theorie: VC-Dimension „Shatter“: Wenn unter n Punkten alle 2n Klassifikationen möglich sind VC-Dimension h … kleinstes m von Punkten, für die der Lerner weniger als 2m Klassifikationen schafft Z.B.: VC-Dim(Perceptron)=k+1 (k … Inputdimension) Für komplexe Lerner kann oft nur Schranke angegeben werden SS 2009 Maschinelles Lernen und Neural Computation

SVM-Theorie: Structural risk minimization Schranke für das „Risiko“ (Fehler) Maximieren des Margins beschränkt VC-Dimension ||w|| kann als Regularisierungsterm betrachtet werden Gauss-Kernel: VC-Dim h=∞ Mit Wahrscheinlichkeit 1-δ Anzahl Trainingspunkte Empirischer Fehler am Trainingsset Minimal möglicher Fehler SS 2009 Maschinelles Lernen und Neural Computation

SVM und Neuronale Netze Gauss-Kernel: RBF Sigmoid-Kernel: MLP So viele „Hidden Units“ wie Trainingsmuster Allerdings andere Berechnung Raum ist ∞-dimensional SVM und Boosting: formaler Zusammenhang vgl. Boosting: Punkte an der Entscheidungsgrenze bekommen größte Bedeutung (wie SV) SS 2009 Maschinelles Lernen und Neural Computation

Andere Kernelverfahren Kernel-Trick funktioniert bei allen Methoden, in denen Daten als inneres Produkt vorkommen Kernel-PCA Kernel-Fisher Diksriminante Kernel Regression Gauss‘sche Prozesse SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Zusammenfassung SVMs sind interessante Alternative zu klassischen neuronalen Netzen Kernel-Trick: Inneres Produkt von hochdimensionalen „Features“ (Vorverabeitung) kann niedrigdimensional berechnet werden Beschränken der VC-Dim. (Vermeidung von Overfitting): Large Margin Classifier Lineares Modell, Quadratische Programmierung, Minimum garantiert Support Vectors: Punkte am Margin, sind alleine für Lösung verantwortlich Aber: Overfitting dennoch möglich Modellselektion notwendig Wahl des geeigneten Kernels ist sehr wichtig! SS 2009 Maschinelles Lernen und Neural Computation