Self Organizing Tree Algorithm Bastian Jarzembinski Enrico Bade Tobias Aagard
Gliederung Theorie Experimente Bewertung Hintergrund Lernverfahren Attributskalierung Wachstumssteuerung Bewertung Vergleich mit anderen Verfahren Einsatz
Theorie Hintergrund Lernverfahren
Theorie Hintergrund Bioinformatik Microarrays Ähnliches Aussehen = Ähnliche Funktion?
Theorie Lernverfahren n-dimensionale Vektoren mit metrischen Attributen Knoten bilden Clusterzentren Knoten mit größter Varianz wird geteilt
Theorie Lernverfahren Inputvektor Repräsentant Distanz Lernrate Fehler
Theorie Lernverfahren Wurzel Blatt Zuordnung
Theorie Lernverfahren Variability / Spannweite Ressource / mittlere Abweichung
Theorie Lernverfahren
Theorie Lernverfahren ?
Theorie Lernverfahren Ancestor / Vorfahre Sister / Schwester
Experimente Attributskalierung Fallbeispiel
Experimente Attributskalierung Parameter in KNIME können das zyklisches Wachsen des Trees beeinflussen: Lerningrates min. variablity und min. ressource nur bei „Use variablity“ berücksichtigt min. Error Distance: Euclid. Oder Cosinus Clustern ohne Zielattribut
Experimente Fallbeispiel IRIS-Datenset 4 Attribute, metrisch skaliert Zielattribut mit 3 Klassen LIVE DEMO Quantitativer Vergleich zu Klassifikationsalgorithmen i.d.F. k-Means Keine signifikanten Unterschiede Anwendung des SOTA auf Daten mit und ohne Zielattribut Winner learningrate : Zelle wird neues Blatt (Cluster) Sister learningrate : zelle als schwester Ancestor learningrate: Zelle wird übergeordnet platziert Größenverhältnisse beachten (Win > Ancest > Sist) Min. var: Größe und Granularität des Trees beschränken Min. res: je kleiner desto granulierter werden die Zuordnungen (Epochen pro Zyklus) Dist. Berechnungsfkt. Für die Dist zw. Den Punkten
Bewertung Vergleich mit anderen Verfahren Einsatz
Bewertung Vergleich mit anderen Verfahren Eigenschaften k-Means Wenige Iterationen Einfaches Verfahren Anfällig für Rauschen / Ausreißer Ergebnis von initialen Zerlegung abhängig
Bewertung Vergleich mit anderen Verfahren Eigenschaften k-Means Wenige Iterationen Einfaches Verfahren Anfällig für Rauschen / Ausreißer Ergebnis von initialen Zerlegung abhängig Eigenschaften SOTA Annähernd lineares Laufzeitverhalten Punkt für k-Means Resistent Unabhängig
Bewertung Vergleich mit anderen Verfahren Hierarchisches Clustern Divisiv oder agglomerativ Knoten sind einfache Darstellung der Teilmengen Zwischenschritte sind irreversibel
Bewertung Vergleich mit anderen Verfahren Hierarchisches Clustern Divisiv oder agglomerativ Knoten sind einfache Darstellung der Teilmengen Zwischenschritte sind irreversibel Eigenschaften SOTA Divisives Verfahren Knoten sind Mittelwerte sämtlicher folgenden Knoten Zuordnung wird ständig angepasst
Bewertung Vergleich mit anderen Verfahren Self Organizing Map (Kohonen Map) Ähnliches Verfahren, aber andere Topologie SOM: vorgegebenes Netz, wird bestmöglich an den Eingaberaum angepasst SOTA: wächst dynamisch, um den Eingaberaum bestmöglich darzustellen; Hierarchie vorhanden SOM: vordefinierte Größe für das Netz SOTA: dynamisches Wachstum, unterschiedliche Hierarchiestufen sichbar -> eigentlich besser
Bewertung Einsatz Methodisch vielversprechend Erfolge nicht reproduzierbar Mögliche Ursachen Ungeeignete Daten Ungeeignete Parameterjustierung Mangelndes (Aufgaben-)Verständnis Weitere Untersuchung Hintergrundwissen Bioinformatik Microarray-Datensätze wählen
Fin
Theorie Hintergrund
Theorie Hintergrund