Maschinelles Lernen mit multiplen Kernen Marius Kloft Technische Universität Berlin Kolloquium zum GI Disserationspreis, Dagstuhl, 14. Mai 2012 TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA
Maschinelles Lernen Zielstellung Beispiel Erlernen des Zusammen- hanges zweier Zufallsgrößen und auf Grundlage von Beobach- tungen Kernbasiertes Lernen: Beispiel Erkennung von Objekten in Bildern
Multiple Sichtweisen / Kerne (Lanckriet, 2004) Raum Sichtweisen wie kombinieren? Form Gewichtungen. Farbe
Bestimmung der Gewichte? Stand der Forschung „Spärliche“ Gewichtungen Kerne / Sichtweisen werden komplett ausgeschaltet Aber warum Information verwerfen? (Bach, 2008) Sparsity: Ideologische Sache / Trend
Von der Vision zur Wirklichkeit? Bisher: Spärliches Verfahren Empirisch ineffektiv in Anwendungen (Gehler et al., Noble et al., Shawe-Taylor et al., NIPS 2008) Dissertation: Neue Methodologie hat sich als Standard etabliert Effektiv in Anwendungen In der Praxis wirk- samer und effektiver Durch bei Lern- schranken: O(M/n)
Vorstellung der Methodologie Nicht-spärliche, Multiple, Kernbasierte Lernverfahren
Neue Methodologie Bestimmung der Gewichte? Generelle Formulierung (Kloft et al., ECML 2010, JMLR 2011) Bestimmung der Gewichte? Model Kern Mathematisches Programm Konvexes Problem. Generelle Formulierung Erstmalig beliebiger Verlust Erstmalig beliebige Normen z. B. lp-Normen: 1-Norm führt zu Spärlichkeit: Instanzierung neuer MKL Formulierunen Optimierung über Gewichte
Theoretische Fundamente Theoretische Klärung Aktives Thema NIPS Workshop 2010 Wir beweisen : Theorem (Kloft & Blanchard). Die lokale Rademacher-Kom- plexität von MKL ist be- schränkt durch: Folgerungen Lernschranke mit Rate bisher beste Rate: Üblicherweise Zwei Größenordnungen bes- ser für (Cortes et al., ICML 2010) (Kloft & Blanchard, NIPS 2011, JMLR 2012)
Beweisschritte Abschätzung der Originalklasse durch die zentrierten Klasse Abschätzung der Komplexität der zentrierten Klasse Ungleichungen von Khintchine-Kahane (1964) und Rosenthal (1970) Abschätzung der Komplexität der Originalklasse Umformulierung als Trunkierung der Spektren der Kerne
Optimierung Algorithmen Implementierung Newton-Methode (Kloft et al., JMLR 2011) Algorithmen Newton-Methode Sequentielle, quadratisch- bedingte Programmierung mit Höhenlinien-Projektionen Blockkoordinaten-Algorithmus Alterniere Löse (P) bezüglich w Löse (P) bezüglich %: Bis Konvergenz (bewiesen) Implementierung In C++ (“SHOGUN Toolbox”) Matlab/Octave/Python/R support Laufzeit: ~ 1-2 Größenordnungen effizienter (Skizze) EM-Algorithmus Wir beweisen nicht nur, es existiert eine Methode… analytisch
Anwendungsgebiet: Maschinelles Sehen Visuelle Objekterkennung Zielstellung: Annotation visueller Medien (z. B. Bilder): Motivation: inhaltsbasierter Bildzugriff Flugzeug Fahrrad Vogel
Anwendungsgebiet: Maschinelles Sehen Visuelle Objekterkennung Zielstellung: Annotation visueller Medien (z. B. Bilder): Motivation: inhaltsbasierter Bildzugriff Empirische Analyse Datensatz: PASCAL VOC’08 Genauigkeitsgewinn gegenüber uniformer Kerngewichtung: Gewinner: ImageCLEF 2011 Photo Annotation challenge! Multiple Kerne basierend auf Pixelfarben Formen (Gradienten) lokale Merkmale (SIFT-Wörter) räumliche Merkmale
Zusammenfassung Appli- kationen Scharfe Lernschranken Visuelle Objekterkennung Als Standard etabliert: Gewinner des Image- CLEF Wettbewerbs Training mit > 100 000 Daten- Punkten und > 1 000 Kernen Scharfe Lernschranken Appli- kationen Bioinformatik Genauerer TSS-Er- kenner als Gewinner internat. Vergleichs Methode ist praktikabel und die Leute benutzen sie – und zitieren sie freundlicherweise auch philosophische Komponente: Trend zu Sparsity in den letzten Jahren. Einfacher sparse zu machen. Aber nicht so gut. Arbeit lieber auf schnellere Optimierung von nicht-sparsen Sachen. Mit der Arbeit Trendwende eingeleitet.
Referenzen Abeel, Van de Peer, Saeys (2009). Toward a gold standard for promoter prediction evaluation. Bioinformatics. Bach (2008). Consistency of the Group Lasso and Multiple Kernel Learning. Journal of Machine Learning Research (JMLR). Kloft, Brefeld, Laskov, Sonnenburg (2008). Non-sparse Multiple Kernel Learning. NIPS Workshop on Kernel Learning. Kloft, Brefeld, Sonnenburg, Laskov, Müller, Zien (2009). Efficient and Accurate Lp-norm Multiple Kernel Learning. Advances in Neural Information Processing Systems (NIPS). Kloft, Rückert, Bartlett (2010). A Unifying View of Multiple Kernel Learning. ECML. Kloft, Blanchard (2011). The Local Rademacher Complexity of Lp-Norm Multiple Kernel Learning. Advances in Neural Information Processing Systems (NIPS). Kloft, Brefeld, Sonnenburg, Zien (2011). Lp-Norm Multiple Kernel Learning. Journal of Machine Learning Research (JMLR). Kloft, Blanchard (2012). On the Convergence Rate of Lp-norm Multiple Kernel Learning. Journal of Machine Learning Research (JMLR), to appear. Lanckriet, Cristianini, Bartlett, El Ghaoui, Jordan (2004). Learning the Kernel Matrix with Semidefinite Programming. Journal of Machine Learning Research (JMLR).
Vielen Dank für Ihre Aufmerksamkeit. Für weitere Fragen stehen ich Ihnen gerne zur Verfügung.
Anwendungsgebiet: Bioinformatik (Kloft et al., NIPS 2009, JMLR 2011) Theoretische Analyse Einfluss von lp-Norm auf Schranke: Bestätigung des Experimentes: Stärkere theoretische Garantie für vorgeschlagenen Ansatz (p>1) Empirie nähert sich Theorie an für Stichprobengröße Detektion von Transkriptionsstartpunkten: mittels Kernen basierend auf: Sequenzalignment Nukleotidverteilung downstream, upstream Faltungseigenschaften Bindungsenergien, Winkel Empirische Analyse Detektionsgenauigkeit (AUC): Höhere Genauigkeiten als spärliches MKL sowie ARTS ARTS Gewinner eines Vergleichs von 19 Modellen Abb. aus Alberts et al. (2002) (Abeel et al., 2009)