Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Lecture 8: Maschinelles Lernen mit multiplen Kernen

Ähnliche Präsentationen


Präsentation zum Thema: "Lecture 8: Maschinelles Lernen mit multiplen Kernen"—  Präsentation transkript:

1 Lecture 8: Maschinelles Lernen mit multiplen Kernen
Marius Kloft HU Berlin TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA

2 Maschinelles Lernen Weitere Beispiele Zielstellung Beispiel
Erlernen des Zusammen- hanges zweier Zufallsgrößen und auf Grundlage von Beobach- tungen Kernbasiertes Lernen: Beispiel Erkennung von Objekten in Bildern Weitere Beispiele Das heißt, wir wollen das Modell, die Funktion f, aus Daten lernen Beispiel Binäre Klassifikation Bezüge: Bilder können auch SATELLITENFOTOS sein.

3 Kernbasiertes Lernen Kernbasiertes Lernen Daten Kern ist eine Funktion
Klassenzugehörigkeiten Kern ist eine Funktion so dass eine Abbildung existiert mit Kernbasiertes Lernen: Erlernen linearer Trennung im Merkmalsraum Nicht-lineare Trennung im Ursprungsraum Mathematisches Programm - Interpretation: k misst Ähnlichkeiten (im Featureraum euklidisch, im Ursprungsraum nicht-euklidisch) Kern = Skalarprodukt durch nicht-lineare Funktion transformieren. Merkmalsraum hat höhere Dimension Zielkonflikt? L mündlich erklärem!! Verlustfunktion. Ein Beispiel ist der quadratische Loss. Differenz quadratisch bestraft.

4 Multiple Sichtweisen / Kerne
(Lanckriet et al., JMLR 2004) Weitere Bsp.: Verschiedene genomische Signale Multimodale Robotikdaten Messdaten Verschiedener Fernerkundungss ensoren  Raum Sichtweisen wie kombinieren? Form Gewichtungen Farbe Bilder als beispiel weil man es gut illustrieren kann. Können allgemein heterogene Daten. -> forward referenz: werde später nochmal zwei bsp aus der bioinf diskutieren. Andere Szenarien erwähnen: Bilder können auch Satallitenbilder sein. Oder zusätzlich sogar andere Satellitenmessdaten. Müssen keine Bilder sein. Bio-medizinische Daten (Klinisch + Verschiedene Genomische Signale) Oder multimodale Robotikdaten. Textdaten: Semantische Sichtweite oder Bag of Words In jedem Fall die Frage: wie Sichtweisen kombinieren?

5 Bestimmung der Gewichte?
Bisher „Spärliche“ Gewichtungen Kerne / Sichtweisen werden komplett ausgeschaltet Kann nachteilhaft sein JOKE hier wär nicht schlecht Liegt u.a. daran dass es einfacher ist, spärliche Gewichtungen zu berechnen, und unklar war, wie man es effizient nicht-spärlich machen könnte. Sparsity ist: 1. Trend/Mode - Ideologische Sache 2. Unklar, wie man es (EFFIZIENT!) nicht-spärlich macht - Motiv gleich erkannt? Bärchen auch? - Backup: HU

6 Von der Vision zur Wirklichkeit?
Bisher: Spärliches Verfahren Wiederholt von ungewichtetem Verfahren übertroffen (Gehler et al., Noble et al., Shawe-Taylor et al., NIPS 2008, Cortes et al., ICML 2009) (K., 2011,2012,2013; K. et al., 2009a/b, 2010, 2011, 2012, 2013) Nun: Neue Methodologie Effiziente nicht-spärliche Informationsfusion Biologie & Maschi- nelles Sehen Effiziente Algorithmen Schärfere Lern- schranken: O(M/n)

7 Vorstellung der Methodologie
Nicht-spärliches Lernen mit mehreren Kernen

8 Neue Methodologie Lernen mit mehreren Kernen Generelle Formulierung
Kloft et al., ECML 2010, JMLR 2011 Raum Lernen mit mehreren Kernen Gegeben Kerne Betrachte gewichtete Summe ~ gewichtete Merkmalsräume Gewichte bestimmen? Mathematisches Programm Generelle Formulierung Erstmalig beliebiger Verlust Erstmalig beliebige Normen z. B. lp-Normen: Form GEWICHTE? Grid search, lokale Suche, randomisierte Suche etc. Einfacher? Über Theta optimieren. Wenn L konvex, dann Problem konvex! Instanzierung neuer MKL Formulierungen. Duales Problem? Lernmaschine verschmilzt mit Lernen des Kerns. Ein großes mathematisches Program. Plot gut erklären. Für Fachfremde. Farbe Optimierung über Gewichte

9 Optimierung Algorithmen Implementierung In C++ (“SHOGUN Toolbox”)
(Kloft et al., JMLR 2011) Algorithmen Newton-Methode Sequentielle, quadratisch- bedingte Programmierung Blockkoordinaten-Algorithmus Alterniere Optimiere bezüglich w Optimiere bezüglich %: Bis Konvergenz (bewiesen) Implementierung In C++ (“SHOGUN Toolbox”) Matlab/Octave/Python/R support Laufzeit: ~ 1-2 Größenordnungen effizienter (Skizze) Bisherige Algorithmen liefern spärliche Gewichte M-Algorithmus: Kernmaschine (SVM), Formel alternieren Wir beweisen nicht nur, es existiert eine Methode… können nicht nur nicht-spärliche Gewichte optimieren. Können Gewichte auch genauer berechnen. Konvergenz gegen globales Optimum. Rate O(1/k) falls Nachfrage latest developments, ist in testing, submitted, etc. Experiments with old algorithm. Back up silde Training mit 1000 Kernen und 100,000 Datenpunkten (Kloft, Mohri, Cortes, NIPS 2013 submitted)

10 Theoretische Fundamente
Kloft & Blanchard, NIPS 2011 & JMLR 2012 Theoretische Klärung Aktives Thema Präliminarien Sei die Ausgabe der Multi- Kern-Lernmaschine (vorige Folie) Konvergenz gegen Ausgabe der theoretisch-optimalen Maschine? Theorem (Kloft & Blanchard) Konvergenz mit Rate bisher beste Rate: Üblicherweise Zwei Größenordnungen besser für Beweis der Optimalität der Rate Kloft, Bach, et al., NIPS Workshop on New Directions in Multiple Kernel Learning, 2010 (Cortes et al., ICML 2010) Bezug von Argmin E[] auf Probabilistic / randomisierte Algorithmen

11 Theoretische Fundamente
Konvergenzrate durch Eigenwerte bestimmt Sei j-ter Eigenwert des m-ten Kerns Bisher beste Konvergenzrate: Neue Rate: für beliebige gilt Wähle Konvergenzrate j-ter Ei- genwert (sortiert) Index j Cortes et al., ICML 2010 (Teil)summe korespondiert zu Fläche Kloft & Blan- chard, JMLR 2012 Für z.B. Gausskerne

12 Anwendungsgebiet: Maschinelles Sehen
Binder, Kloft, et al., PLoS One, 2012 Visuelle Objekterkennung Zielstellung: Annotation visueller Medien (z. B. Bilder): Motivation:  inhaltsbasierter Bildzugriff Flugzeug Fahrrad Vogel Say the obvious: „Können nun aus heterogenen Daten lernen. Beispiel Objekterkennung. Können beispielsweise auch Satellitenbilder sein.“

13 Anwendungsgebiet: Maschinelles Sehen
Binder, Kloft, et al., PLoS One, 2012 Visuelle Objekterkennung Zielstellung: Annotation visueller Medien (z. B. Bilder): Motivation:  inhaltsbasierter Bildzugriff Multiple Kerne basierend auf Pixelfarben Formen (Gradienten) lokale Merkmale (SIFT-Wörter) räumliche Merkmale Empirische Analyse Datensatz: PASCAL VOC’08 Genauigkeitsgewinn gegenüber uniformer Kerngewichtung: Gewinner: ImageCLEF Photo Annotation challenge! MCSVM Details Alex: SIFT: Für jeden Gridpunkt (= keypoint) und für jeden Farbkanal, ein SIFT feature. Kleinere Partitionierung in 4x4 Fenster zentriert um keypoint. In jedem Fenster, berechne Histogram von Gradientenorientierung. Für jeden Pixel in Fenster, Gradienten (Differenz) in x bzw y Richtung berechnen. Kann also Winkel berechnen. Histogram diskretisierter Winkel. BOW über SIFT. Alle SIFT features haben gleiche Dimension. Kann Raum partitionieren (k-means bspws). BOW ist Histogram von Häufigkeiten von SIFT Features in Partitionen. Jede Partition entspricht visuellem Wort. Für jeden keypoint gucke, in welche Partition das zugehörige SIFT feature fällt. BOW-C ist über Farben. Für jeden Keypoint, diskretisieren Farben, berechne Histogram in Region um Keypoint. Für mehrere Kanäle. Danach BOW. Bei globale Histogramme, sozusagen nur ein Keypoint. Für alle Kerne, noch spatial tilings. 1x1, 2x2, 3x1 für BoW. Höhere Tilings 4x4, 8x8 für globale Histogramme. Für jedes Fenster ein globales Histogram / BoW feature. Nachher konkartenieren (über 16 features für 4x4 bspws). -- alle 4 Kerne variiert über zwei Farben und drei Pyramidenebenen

14 Weitere Anwendungsgebiete
Biologie / Genetik Zielstellung: Prädiktion von Phenotyp Multiple, heterogene Daten Genomische Signale (DNA) SNPs, CNVs, Sequenzmotive RNA und Protein Expression Klinische Patientendaten Messungen, Diagnosen, demographische Daten, ... Methodik ist generell Weitere Anwendungsbereiche? Text und Speech Mining Bag of Words, n-Grams, Grammatik, Semantik, ... Neurowissenschaften & Robotik Multiple Modalitäten Methodik generell, geht über Maschinelles Sehen hinaus. Anwendung auch auf anderen Gebieten. Habe an biologischen Anwendungen gearbeitet. Kenn mich hauptsächlich damit aus. Genomisches Signale. Zb SNP (lokal). Copy Number Variation (globales Signal). Motifs (lokales Signal). Gen, RNA, Protein expression. Klinische Variablen. Medizinische Tests. Bluttest. Klinische Records. Mikrobiom (Darm). DNA von darmbakterien sequenzieren. Auf dem Gebiert bin ich natürlich kein Experte. Find ich spannend, würde gerne hinzulernen. Zeige jetzt zwei Bioninformatik Anwendungen - Shi Yu (Leuven/Chicago) Genexpression, kurz Expression oder Exprimierung, bezeichnet im weiteren Sinne die Ausprägung des Genotyps – also der genetischen Information (Gen, DNA) – zum Phänotyp einesOrganismus oder einer Zelle. Im engeren Sinne bezeichnet Genexpression die Biosynthese von RNA und Proteinen (siehe Proteinbiosynthese) aus den genetischen Informationen. Generell kann eine Regulation der Genexpression auf verschiedenen Stufen stattfinden: Die Lage des Gens auf dem Chromosom (dem Locus) bestimmt seine Zugänglichkeit für die nachfolgenden Prozesse. Die DNA liegt nicht linear im Zellkern vor, sondern ist gefaltet (sieheChromatin); das heißt, ein (Gen-)Abschnitt der DNA kann durch die Faltung so „verdeckt“ werden, dass er für die Genexpression nicht zugänglich ist. Zudem können sich dynamisch weitere Proteine an die für den Start der Transkription wichtigen und dem eigentlichen Gen vorgelagerten DNA-Abschnitte anlagern. Durch diese Transkriptionsfaktoren kann die Aktivität des Gens sowohl unterdrückt als auch verstärkt werden. Transkription: Synthese von RNA aus DNA RNA-Prozessierung: nicht nur mRNA erfährt Veränderungen wie Spleißen Translation: Synthese eines Proteins aus mRNA Proteinreifung: Veränderung von Proteinen nach ihrer Synthese (Translation), wie Proteinfaltung, Protein-Spleißen, Autoproteolyse und Posttranslationale Modifikation Dabei können – insbesondere bei Eukaryoten – die genannten Prinzipien miteinander in Wechselwirkung treten und so im Zusammenspiel von Genetik und Epigenetik noch komplexere Regulationsmechanismen bilden. Einige Gene unterliegen keiner derartigen Regulation und werden unabhängig von Zelltyp, Zellstadium und Wachstumsbedingungen dauerhaft exprimiert. Diese werden als konstitutiv exprimiert beziehungsweise als Housekeeping-Genebezeichnet.

15 Anwendungsgebiet: Bioinformatik
K. et al., NIPS 2009, JMLR 2011 Generkennung – Detektion von Transkriptionsstartpunkten: mittels Kernen basierend auf: Sequenzalignment Nukleotidverteilung downstream, upstream Faltungseigenschaften Bindungsenergien, Winkel Empirische Analyse Detektionsgenauigkeit (AUC): ARTS Gewinner eines Vergleichs von 19 Modellen Höhere Genauigkeiten durch nicht-spärliches Verfahren Abb. aus Alberts et al. (2002) (Sonnenburg et al., 2006) Transkriptionsstartpunkt:  erste Nukleotid eines in RNA überschriebenen DNA-Abschnitts (i.d.R. = Gen). (In aller Regel Beginn eines Gens) N gram Spektrumkern 2 Kerne auf Sekundärstruktur. Frage: „Heute kennen wir doch alle Gene“. Antwort: „Meisten Organismen noch nicht sequenziert sind.“ Beispiel: Juliane Dohm, Zuckerrübe. (Abeel et al., 2009)

16 Anwendungsgebiet: Bioinformatik
Vorhersage von Proteinfaltungs- klassen Faltungsklasse eines Proteins beeinflusst dessen Funktion Von Bedeutung bei der Entwicklung von Arzneimitteln Datensatz: Ying et al., 2009 27 Klassen 12 Kerne Primärstruktur (Strings), Hydrophobizität, Polarität, … Vorhersagegenauigkeit 6% höhere Genauigkeit durch vorgeschlagenes, nicht-spärliches Verfahren Ding & Dubchak, 2001 Protein in Membran: z.B. Rezeptor (empfängt Signal), will z.B. Medikament bauen (Insulin) dass an Rezeptor bindet Anderes Bsp: Kanäle. Die bestimmte Moleküle in gewissem Umfang rein- oder rauslassen. Innerhalb der Zelle: Zellorganellen (funktionelle Einheiten in der Zelle). Macht z.B. Energieproduktion. Das überwas in der Zelle passieren kann. Bsp. Golgi-Apparat. Kann Moleküle produzieren, die dann nach aussen transportiert werden. Als Signal an andere Zellen. Bsp. Aus Proteinen bestehendes Zellskelett. Liprophob (fettabweisendes) Protein kann nicht in Zellmembran stecken, da Membran aus Fett. Hydrophiles Protein nicht in Membran zu finden. Membran und Zellinners haben gewisse Ladungen. - Wasserabweisend oder wasserfreundlich (hydrophil): wichtig, weil Primär-struktur

17 Zusammenfassung Appli- kationen Lernschranken Algorithmen
Visuelle Objekterkennung Gewinner des Image- CLEF Wettbewerbs Algorithmen Lernschranken Appli- kationen Bioinformatik Genauerer TSS-Er- kenner als Gewinner internat. Vergleichs Methode ist praktikabel und die Leute benutzen sie – und zitieren sie freundlicherweise auch  (Evidenz dass nonsparse besser) philosophische Komponente: Trend zu Sparsity in den letzten Jahren. Ist einfacher, aber nicht so gut. Mitunter Arbeit lieber auf schnellere Optimierung von nicht-sparsen Sachen konzentrieren. - Technologische Grundlage zur Fusion von Information geschaffen Meine zukünftige Forschung: Verwendung in bioinformatischen und technologischen Anwendungsbereichen

18 Ausgewählte relevante Arbeiten
Kloft, Brefeld, Sonnenburg, Zien (2011). Lp-Norm Multiple Kernel Learning Journal of Machine Learning Research (JMLR), 12(Mar): Kloft , Blanchard (2012). On the Convergence Rate of Lp-norm Multiple Kernel Learning Journal of Machine Learning Research (JMLR), 13(Aug): Kloft, Laskov (2012). Security Analysis of Centroid-based Online Anomaly Detection Journal of Machine Learning Research (JMLR), 13(Dec): Kloft, Brefeld, Sonnenburg, Laskov, Müller, Zien (2009). Efficient and Accurate Lp-norm Multiple Kernel Learning. Advances in Neural Information Processing Systems 22 (NIPS 2009): Kloft and Blanchard (2011). The Local Rademacher Complexity of Lp-Norm Multiple Kernel Learning Advances in Neural Information Processing Systems 24 (NIPS 2011), pages Kloft, Mohri, Cortes (2013). Learning Kernels Using Local Rademacher Complexity Advances in Neural Information Processing Systems 26 (NIPS 2013), submitted. Kloft, Rückert, Bartlett (2010). A Unifying View of Multiple Kernel Learning Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases, ECML 2010: Kloft (2011). Lp-norm Multiple Kernel Learning Dissertation, Technische Universität Berlin, Oct 2011. Kloft (2012). Maschinelles Lernen mit Multiplen Kernen Hölldobler et al.: Ausgezeichnete Informatikdissertationen (LNI D-12), Kloft (2013). Kernel-based Machine Learning with Multiple Sources of Information Information Technology, 55(2):76-80. Kloft, Brefeld, Laskov, Sonnenburg (2008). Non-sparse Multiple Kernel Learning. Proceedings of the NIPS 2008 Workshop on Kernel Learning: Automatic Selection of Kernels. Binder, Nakajima, Kloft, Müller, Samek, Brefeld, Müller, Kawanabe (2012). Insights from Classifying Visual Concepts with Multiple Kernel Learning. PLoS ONE 7(8):e38897. Jessen, Kloft, Zien, Sonnenburg, Müller (2012). A Scatter-Based Prototype Framework and Multi-Class Extension of Support Vector Machines. PLoS ONE 7(10):e42947. Widmer, Kloft, Rätsch. Multi-task Multiple Kernel Learning Journal of Machine Learning Research, forthcoming. Widmer, Kloft, Görnitz, Rätsch (2012). Efficient Training of Graph-Regularized Multitask SVMs Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases, ECML 2012: To do: Liste vervollständigen! (Diss, Jensen, AISTATS, ein Rieck, Gunnar-Widmer,...?)

19 Externe Referenzen Abeel, Van de Peer, and Saeys (2009).  Toward a gold standard for promoter prediction evaluation. Bioinformatics, pages i313-i320. Bach, Lanckriet, and Jordan (2004).  Multiple kernel learning, conic duality, and the SMO. Proceedings of the 21th International Conference on Machine Learning (ICML 2004). Lanckriet, Cristianini, Bartlett, El Ghaoui, and Jordan (2004). Learning the Kernel Matrix with Semidefinite Programming. Journal of Machine Learning Research (JMLR). Yang, Huang, and Campbell (2009). Enhanced protein fold recognition through a novel data integration approach. BMC Bioinformatics, 10:267.


Herunterladen ppt "Lecture 8: Maschinelles Lernen mit multiplen Kernen"

Ähnliche Präsentationen


Google-Anzeigen