SOTA Andrej Gisbrecht 26.01.2007.

Slides:



Advertisements
Ähnliche Präsentationen
Grundlagen des A*-Algorithmus und Anwendung in der Routenplanung
Advertisements

Kohonennetze für Information Retrieval mit User Feedback
Routing – Routing Protokolle
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (26-Graphenalgorithmen: Wiederholung und Übung) Prof. Th. Ottmann.
Schnelle Matrizenoperationen von Christian Büttner
Auswahl-Sort Sortieren in mehreren Durchgängen. In jedem Durchgang wird das größte Element bestimmt und mit dem letzten Element der nichtsortierten Elemente.
SST - Sequence Search Tree
Streuungsmaß 3: absolute Abweichung vom Mittelwert
5. Sortier-Algorithmen Vorbemerkungen:
Wasserfall-Ansätze zur Bildsegmentierung
Genetische Algorithmen für die Variogrammanpassung
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken X Christian Schindelhauer
Genetische Algorithmen
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
WS Algorithmentheorie 08 – Dynamische Programmierung (3) Konstruktion optimaler Suchbäume Prof. Dr. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.
Geometrisches Divide and Conquer
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
Problemstellung Berechne die Summe der Quadrate aller natürlichen Zahlen bis zu einer vorgegebenen Zahl (bspw. 100)! Oder mathematisch: Berechne.
PKJ 2005/1 Stefan Dissmann Zusammenfassung Vorwoche Programm besteht aus mehreren Bestandteilen: Schlüsselwörter Sonderzeichen Bezeichner Kommentare Texte.
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.
Self Organizing Tree Algorithm
Effiziente Algorithmen
Neuronale Netze Teil II.
Effiziente Algorithmen
Effiziente Algorithmen
Abschlussvortrag zur Studienarbeit
Kurvendiskussion Los geht´s Klick auf mich! Melanie Gräbner.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Neuronale Netze Nachtrag Perzeptron
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich.
Lineare Algebra Außerdem bieten Determinanten
DAS HERON-VERFAHREN Heron erkannte, dass man die Quadratwurzel einer Zahl bestimmen kann, indem man verschiedene Mittelwerte berechnet. Solche Nährerungsverfahren.
Der Zentralwert.
Statistische Methoden in der Wirtschafts- und Sozialgeographie
Integration oberflächenbestimmender Objekte ins DGM Seminar GIS IV SS
Das Traveling Salesman Problem (TSP)
Vom graphischen Differenzieren
Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.
Computer Algebra für Brüche --- angepasst an Ausbildungszwecke
Sebastian Loose DPF – A Perceptual Distance Function for Image Retrieval Proseminar SS 2005 Distanzen und Ähnlichkeitsmaße im Hochdimensionalem.
The PicSOM Retrieval System 1 Christian Steinberg.
Routenplanung querfeldein - Geometric Route Planning
Anwendung der Ellipsoidmethode in der Kombinatorischen Optimierung
Der A*-Algorithmus.
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
c-means clustering (FCM)
Binärbäume.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.
Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.
Vorlesung AVL-Bäume/Algorithmen-
Algorithmen für Geographische Informationssysteme
 Präsentation transkript:

SOTA Andrej Gisbrecht 26.01.2007

Inhalt Motivation Algorithmus Anwendung Zusammenfassung 26.01.2006 SOTA

DNA Microarray 26.01.2006 Motivation

DNA Microarray Zeilen: Tausende verschiedene Gene Spalten: verschiedene Konditionen Zellen: Intensität 26.01.2006 Motivation

Microarray-Analyse Probleme: Sehr große Dimension Viel Redundanz Viel Rauschen 26.01.2006 Motivation

1. Versuch: UPGMA Unweighted Pair Group Method with Arithmetic Mean vereinige mit minimalem in Cluster u Höhe ist = gewichtetes Mittel der Abstände u zu und Probleme: Kann nicht mit Rauschen umgehen Deterministische Natur, unmöglich neu zu evaluieren 26.01.2006 Motivation

2. Versuch: SOM Self-Organising Map Robust bei Rauschen Schnell, geeignet für große Datensätze Visualisierung Probleme: Anzahl der Cluster fest Durch Redundanz viele Cluster an einer Stelle Ohne Baumstruktur keine Beziehung der Gene erkennbar 26.01.2006 Motivation

SOTA Self-Organising Tree Algorithm Vereinigt Vorteile der beiden Methoden Ohne Nachteile zu übernehmen Ergebnis ist ein hierarchisches Clustering erreicht mit der Präzision und Robustheit eines Neuronalen Netzes 26.01.2006 Motivation

SOTA-Training Zelle Knoten Zwei äußere Elemente, bezeichnet als Zellen, verbunden mit einem Mutterneuron, bezeichnet als Knoten Unter allen Zellen wird die heterogenste ausgewählt Die Zelle bekommt zwei Zellenkinder und wird selbst zum Knoten Knoten Zelle 26.01.2006 Algorithmus

Distanzfunktion Zwei Gene und Euklidische Distanz Pearson correlation coefficient, r Wobei Mittelwert und Standardabweichung aller Punkte des k-ten Profils sind 26.01.2006 Algorithmus

Adaption Adaption erfolgt in Epochen. Jede Epoche besteht aus zwei Schritten: Finde für jedes Profil die Gewinnerzelle, so dass dpc am kleinsten ist Aktualisiere die Gewinnerzelle und ihre Nachbarschaft mit der Formel: 26.01.2006 Algorithmus

Nachbarschaft Es wird zwischen zwei Fällen unterschieden Wenn die Schwesterzelle Nachkommen hat, wird nur die Gewinnerzelle aktualisiert Sonst werden Gewinnerzelle, Mutterzelle und Schwesterzelle mit verschiedenen aktualisiert 26.01.2006 Algorithmus

Heterogenität Die Heterogenität einer Zelle wird durch ihre Ressource R bestimmt: Es werden die Distanzen zu allen Profilen, die zu dieser Zelle zugewiesenen wurden, aufsummiert und durch ihre Anzahl geteilt. 26.01.2006 Algorithmus

Konvergenz des Netzwerks Am Ende jeder Epoche wird der Gesamtfehler berechnet: Das Netzwerk konvergiert, wenn der Fehlerzuwachs unter einen Grenzwert fällt: Danach wächst das Netzwerk weiter, indem die Zelle mit der größten Heterogenität zwei Nachkommen bekommt und der nächste Trainingszyklus anfängt. 26.01.2006 Algorithmus

Wachstum des Netzwerks Das Netzwerk hört auf zu wachsen wenn: Die am Anfang festgelegte Anzahl der Cluster erreicht wurde. Die Heterogenität des Netzwerks unter einen vorgegebenen Grenzwert fällt. Setzt man diesen Wert auf Null bekommt jedes Gen eine eigene Zelle. Auf diese Weise kann man steuern auf welchem Hierarchielevel das Clustering aufhören soll. 26.01.2006 Algorithmus

Laufzeit UPGMA quadratische Laufzeit SOTA annährend lineare Laufzeit 26.01.2006 Algorithmus

SOTA + Perzeptron Gegeben: verschiedene Krebszellen Zuerst wurde unüberwacht geclustert Gegeben: verschiedene Krebszellen Danach überwacht gelernt Die Krebsarten werden erkannt 26.01.2006 Anwendung

Clustertiefe Es wurden verschiedene Clustertiefen ausprobiert Zwei Optima bei 44 und 223 Clustern Bei zu wenig Clustern gehen viele Informationen verloren Bei zu vielen entsteht Overfitting 26.01.2006 Anwendung

Vergleich 26.01.2006 Anwendung

Perzeptrongewichte Durch die Gewichte des Perzeptrons kann man herausfinden welche Gene für welche Krebsarten verantwortlich sind 26.01.2006 Anwendung

Zusammenfassung Stabil bei Redundanz und Rauschen Sehr schnell Hierarchisches Clustering Gute Resolution der kleinen Klassen Erkennt relevante Gene 26.01.2006 Zusammenfassung

Vielen Dank für Ihre Aufmerksamkeit! SOTA Hauptseminar Self-Organizing Maps WS06/07 Referent: Andrej Gisbrecht 26.01.2006