Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

SOTA Andrej Gisbrecht 26.01.2007. 26.01.2006SOTA2 Inhalt Motivation Algorithmus Anwendung Zusammenfassung.

Ähnliche Präsentationen


Präsentation zum Thema: "SOTA Andrej Gisbrecht 26.01.2007. 26.01.2006SOTA2 Inhalt Motivation Algorithmus Anwendung Zusammenfassung."—  Präsentation transkript:

1 SOTA Andrej Gisbrecht

2 SOTA2 Inhalt Motivation Algorithmus Anwendung Zusammenfassung

3 Motivation3 DNA Microarray

4 Motivation4 DNA Microarray Zeilen: Tausende verschiedene Gene Spalten: verschiedene Konditionen Zellen: Intensität

5 Motivation5 Microarray-Analyse Probleme: Sehr große Dimension Viel Redundanz Viel Rauschen

6 Motivation6 1. Versuch: UPGMA Unweighted Pair Group Method with Arithmetic Mean vereinige mit minimalem in Cluster u Höhe ist = gewichtetes Mittel der Abstände u zu und Probleme: Kann nicht mit Rauschen umgehen Deterministische Natur, unmöglich neu zu evaluieren

7 Motivation7 2. Versuch: SOM Self-Organising Map Robust bei Rauschen Schnell, geeignet für große Datensätze Visualisierung Probleme: Anzahl der Cluster fest Durch Redundanz viele Cluster an einer Stelle Ohne Baumstruktur keine Beziehung der Gene erkennbar

8 Motivation8 SOTA Self-Organising Tree Algorithm Vereinigt Vorteile der beiden Methoden Ohne Nachteile zu übernehmen Ergebnis ist ein hierarchisches Clustering erreicht mit der Präzision und Robustheit eines Neuronalen Netzes

9 Algorithmus9 Zelle Knoten SOTA-Training Unter allen Zellen wird die heterogenste ausgewählt Die Zelle bekommt zwei Zellenkinder und wird selbst zum Knoten Knoten Zelle Zwei äußere Elemente, bezeichnet als Zellen, verbunden mit einem Mutterneuron, bezeichnet als Knoten

10 Algorithmus10 Distanzfunktion Pearson correlation coefficient, r Wobei Mittelwert und Standardabweichung aller Punkte des k-ten Profils sind Zwei Gene und Euklidische Distanz

11 Algorithmus11 Adaption Adaption erfolgt in Epochen. Jede Epoche besteht aus zwei Schritten: Finde für jedes Profil die Gewinnerzelle, so dass dpc am kleinsten ist Aktualisiere die Gewinnerzelle und ihre Nachbarschaft mit der Formel:

12 Algorithmus12 Nachbarschaft Es wird zwischen zwei Fällen unterschieden Wenn die Schwesterzelle Nachkommen hat, wird nur die Gewinnerzelle aktualisiert Sonst werden Gewinnerzelle, Mutterzelle und Schwesterzelle mit verschiedenen aktualisiert

13 Algorithmus13 Heterogenität Die Heterogenität einer Zelle wird durch ihre Ressource R bestimmt: Es werden die Distanzen zu allen Profilen, die zu dieser Zelle zugewiesenen wurden, aufsummiert und durch ihre Anzahl geteilt.

14 Algorithmus14 Konvergenz des Netzwerks Am Ende jeder Epoche wird der Gesamtfehler berechnet: Das Netzwerk konvergiert, wenn der Fehlerzuwachs unter einen Grenzwert fällt: Danach wächst das Netzwerk weiter, indem die Zelle mit der größten Heterogenität zwei Nachkommen bekommt und der nächste Trainingszyklus anfängt.

15 Algorithmus15 Wachstum des Netzwerks Das Netzwerk hört auf zu wachsen wenn: Die am Anfang festgelegte Anzahl der Cluster erreicht wurde. Die Heterogenität des Netzwerks unter einen vorgegebenen Grenzwert fällt. Setzt man diesen Wert auf Null bekommt jedes Gen eine eigene Zelle. Auf diese Weise kann man steuern auf welchem Hierarchielevel das Clustering aufhören soll.

16 Algorithmus16 Laufzeit UPGMA quadratische Laufzeit SOTA annährend lineare Laufzeit

17 Anwendung17 SOTA + Perzeptron Gegeben: verschiedene Krebszellen Zuerst wurde unüberwacht geclustert Danach überwacht gelernt Die Krebsarten werden erkannt

18 Anwendung18 Clustertiefe Es wurden verschiedene Clustertiefen ausprobiert Zwei Optima bei 44 und 223 Clustern Bei zu wenig Clustern gehen viele Informationen verloren Bei zu vielen entsteht Overfitting

19 Anwendung19 Vergleich

20 Anwendung20 Perzeptrongewichte Durch die Gewichte des Perzeptrons kann man herausfinden welche Gene für welche Krebsarten verantwortlich sind

21 Zusammenfassung21 Zusammenfassung Stabil bei Redundanz und Rauschen Sehr schnell Hierarchisches Clustering Gute Resolution der kleinen Klassen Erkennt relevante Gene

22 Vielen Dank für Ihre Aufmerksamkeit! SOTA Hauptseminar Self-Organizing Maps WS06/07 Referent: Andrej Gisbrecht


Herunterladen ppt "SOTA Andrej Gisbrecht 26.01.2007. 26.01.2006SOTA2 Inhalt Motivation Algorithmus Anwendung Zusammenfassung."

Ähnliche Präsentationen


Google-Anzeigen