SOTA Andrej Gisbrecht 26.01.2007
Inhalt Motivation Algorithmus Anwendung Zusammenfassung 26.01.2006 SOTA
DNA Microarray 26.01.2006 Motivation
DNA Microarray Zeilen: Tausende verschiedene Gene Spalten: verschiedene Konditionen Zellen: Intensität 26.01.2006 Motivation
Microarray-Analyse Probleme: Sehr große Dimension Viel Redundanz Viel Rauschen 26.01.2006 Motivation
1. Versuch: UPGMA Unweighted Pair Group Method with Arithmetic Mean vereinige mit minimalem in Cluster u Höhe ist = gewichtetes Mittel der Abstände u zu und Probleme: Kann nicht mit Rauschen umgehen Deterministische Natur, unmöglich neu zu evaluieren 26.01.2006 Motivation
2. Versuch: SOM Self-Organising Map Robust bei Rauschen Schnell, geeignet für große Datensätze Visualisierung Probleme: Anzahl der Cluster fest Durch Redundanz viele Cluster an einer Stelle Ohne Baumstruktur keine Beziehung der Gene erkennbar 26.01.2006 Motivation
SOTA Self-Organising Tree Algorithm Vereinigt Vorteile der beiden Methoden Ohne Nachteile zu übernehmen Ergebnis ist ein hierarchisches Clustering erreicht mit der Präzision und Robustheit eines Neuronalen Netzes 26.01.2006 Motivation
SOTA-Training Zelle Knoten Zwei äußere Elemente, bezeichnet als Zellen, verbunden mit einem Mutterneuron, bezeichnet als Knoten Unter allen Zellen wird die heterogenste ausgewählt Die Zelle bekommt zwei Zellenkinder und wird selbst zum Knoten Knoten Zelle 26.01.2006 Algorithmus
Distanzfunktion Zwei Gene und Euklidische Distanz Pearson correlation coefficient, r Wobei Mittelwert und Standardabweichung aller Punkte des k-ten Profils sind 26.01.2006 Algorithmus
Adaption Adaption erfolgt in Epochen. Jede Epoche besteht aus zwei Schritten: Finde für jedes Profil die Gewinnerzelle, so dass dpc am kleinsten ist Aktualisiere die Gewinnerzelle und ihre Nachbarschaft mit der Formel: 26.01.2006 Algorithmus
Nachbarschaft Es wird zwischen zwei Fällen unterschieden Wenn die Schwesterzelle Nachkommen hat, wird nur die Gewinnerzelle aktualisiert Sonst werden Gewinnerzelle, Mutterzelle und Schwesterzelle mit verschiedenen aktualisiert 26.01.2006 Algorithmus
Heterogenität Die Heterogenität einer Zelle wird durch ihre Ressource R bestimmt: Es werden die Distanzen zu allen Profilen, die zu dieser Zelle zugewiesenen wurden, aufsummiert und durch ihre Anzahl geteilt. 26.01.2006 Algorithmus
Konvergenz des Netzwerks Am Ende jeder Epoche wird der Gesamtfehler berechnet: Das Netzwerk konvergiert, wenn der Fehlerzuwachs unter einen Grenzwert fällt: Danach wächst das Netzwerk weiter, indem die Zelle mit der größten Heterogenität zwei Nachkommen bekommt und der nächste Trainingszyklus anfängt. 26.01.2006 Algorithmus
Wachstum des Netzwerks Das Netzwerk hört auf zu wachsen wenn: Die am Anfang festgelegte Anzahl der Cluster erreicht wurde. Die Heterogenität des Netzwerks unter einen vorgegebenen Grenzwert fällt. Setzt man diesen Wert auf Null bekommt jedes Gen eine eigene Zelle. Auf diese Weise kann man steuern auf welchem Hierarchielevel das Clustering aufhören soll. 26.01.2006 Algorithmus
Laufzeit UPGMA quadratische Laufzeit SOTA annährend lineare Laufzeit 26.01.2006 Algorithmus
SOTA + Perzeptron Gegeben: verschiedene Krebszellen Zuerst wurde unüberwacht geclustert Gegeben: verschiedene Krebszellen Danach überwacht gelernt Die Krebsarten werden erkannt 26.01.2006 Anwendung
Clustertiefe Es wurden verschiedene Clustertiefen ausprobiert Zwei Optima bei 44 und 223 Clustern Bei zu wenig Clustern gehen viele Informationen verloren Bei zu vielen entsteht Overfitting 26.01.2006 Anwendung
Vergleich 26.01.2006 Anwendung
Perzeptrongewichte Durch die Gewichte des Perzeptrons kann man herausfinden welche Gene für welche Krebsarten verantwortlich sind 26.01.2006 Anwendung
Zusammenfassung Stabil bei Redundanz und Rauschen Sehr schnell Hierarchisches Clustering Gute Resolution der kleinen Klassen Erkennt relevante Gene 26.01.2006 Zusammenfassung
Vielen Dank für Ihre Aufmerksamkeit! SOTA Hauptseminar Self-Organizing Maps WS06/07 Referent: Andrej Gisbrecht 26.01.2006