Self Organizing Tree Algorithm

Slides:



Advertisements
Ähnliche Präsentationen
Kohonennetze für Information Retrieval mit User Feedback
Advertisements

Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
Inhalt Saarbrücken,.
Data Mining / Wissensextraktion
Was ist Testtheorie?.
B-Bäume.
Streuung Bezeichnung Streuung=Dispersion=Variabilität Fragestellung:
Streuungsmaß 3: absolute Abweichung vom Mittelwert
Statistische Suche nach melodischen Prototypen
Berg-Schlosser : VL : Vergleichende Politikwissenschaft Vergleichende Methoden Ausgangsbasis : Fälle: begrenzte Auswahl auf der Makro-Ebene, abhängig.
Dynamik komplexer Systeme
Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Konfidenzintervalle für Parameter
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
Numerische Klassifikation TWINSPAN
Institut für Kartographie und Geoinformation Diskrete Mathematik I Vorlesung Bäume-
Ontologische Visualisierung von Genexpressionsdaten aus Makroarray-Experimenten Bioinformatik Praktikum David Rudolph, Michael Tauer Thema 6.
Experimentaufbau und -design
Häufigkeiten Gegeben ist eine Datenliste (Urliste) (hier z. B. die Klausur-Noten von 50 Studenten)
Quantile.
Classification of Credit Applicants Using Data Mining. Thema.
Univariate Statistik M. Kresken.
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Das wars!.
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Binomialverteilung: Beispiel
(Un-)sicherheiten in der Ökosystemmodellierung
Extended multistep outflow method for the accurate determination of soil hydraulic properties close to water saturation W. Durner und S.C. Iden, SS2012.
Daten auswerten Boxplots
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Zur Veranstaltung Business Intelligence
Ausgleichungsrechnung II
Globale Interpolations- und Prädiktionsverfahren
Auslegung eines Vorschubantriebes
Multivariate Verfahren der Statistik bei der quantitativen Textanalyse
STATISIK LV Nr.: 0028 SS Mai 2005.
Statistik: Mehr zur Regression.
Theoriereferat Indexes, Scales and Typologies The Logic of Sampling
Adaption von K-Means Algorithmen an Datenbanken
Adaption von K-Means Algorithmen an Datenbanken
Modul Statistische Datenanalyse
Kapitel 18 Dynamische Modelle: Schätzen der Parameter
VL Algorithmische BioInformatik (19710)
Referat über das Thema STOCHASTIK.
Übersicht - Methodik Studien zur Imitation von Interpretationen klassischer Klavier-Musik durch neuronale Netze.
Vorlesung Binärer Suchbaum II-

Der Zentralwert.
Pflanzenlernkartei 3 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.
Pflanzenlernkartei 2 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.
SOTA Andrej Gisbrecht
Klassifikation und Regression mittels neuronaler Netze
Statistik – Regression - Korrelation
Analyse der Laufzeit von Algorithmen
Erheben, berechnen und darstellen von Daten
Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik
Einführung in Microarray Genexpressionsdaten
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Die Dynamik von abgeleiteten Preisen Stochastische Differentialgleichungen.
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.
 Präsentation transkript:

Self Organizing Tree Algorithm Bastian Jarzembinski Enrico Bade Tobias Aagard

Gliederung Theorie Experimente Bewertung Hintergrund Lernverfahren Attributskalierung Wachstumssteuerung Bewertung Vergleich mit anderen Verfahren Einsatz

Theorie Hintergrund Lernverfahren

Theorie Hintergrund Bioinformatik Microarrays Ähnliches Aussehen = Ähnliche Funktion?

Theorie Lernverfahren n-dimensionale Vektoren mit metrischen Attributen Knoten bilden Clusterzentren Knoten mit größter Varianz wird geteilt

Theorie Lernverfahren Inputvektor Repräsentant Distanz Lernrate Fehler

Theorie Lernverfahren Wurzel Blatt Zuordnung

Theorie Lernverfahren Variability / Spannweite Ressource / mittlere Abweichung

Theorie Lernverfahren

Theorie Lernverfahren ?

Theorie Lernverfahren Ancestor / Vorfahre Sister / Schwester

Experimente Attributskalierung Fallbeispiel

Experimente Attributskalierung Parameter in KNIME können das zyklisches Wachsen des Trees beeinflussen: Lerningrates min. variablity und min. ressource nur bei „Use variablity“ berücksichtigt min. Error Distance: Euclid. Oder Cosinus Clustern ohne Zielattribut

Experimente Fallbeispiel IRIS-Datenset 4 Attribute, metrisch skaliert Zielattribut mit 3 Klassen LIVE DEMO Quantitativer Vergleich zu Klassifikationsalgorithmen i.d.F. k-Means Keine signifikanten Unterschiede Anwendung des SOTA auf Daten mit und ohne Zielattribut Winner learningrate : Zelle wird neues Blatt (Cluster) Sister learningrate : zelle als schwester Ancestor learningrate: Zelle wird übergeordnet platziert Größenverhältnisse beachten (Win > Ancest > Sist) Min. var: Größe und Granularität des Trees beschränken Min. res: je kleiner desto granulierter werden die Zuordnungen (Epochen pro Zyklus) Dist. Berechnungsfkt. Für die Dist zw. Den Punkten

Bewertung Vergleich mit anderen Verfahren Einsatz

Bewertung Vergleich mit anderen Verfahren Eigenschaften k-Means Wenige Iterationen Einfaches Verfahren Anfällig für Rauschen / Ausreißer Ergebnis von initialen Zerlegung abhängig

Bewertung Vergleich mit anderen Verfahren Eigenschaften k-Means Wenige Iterationen Einfaches Verfahren Anfällig für Rauschen / Ausreißer Ergebnis von initialen Zerlegung abhängig Eigenschaften SOTA Annähernd lineares Laufzeitverhalten Punkt für k-Means Resistent Unabhängig

Bewertung Vergleich mit anderen Verfahren Hierarchisches Clustern Divisiv oder agglomerativ Knoten sind einfache Darstellung der Teilmengen Zwischenschritte sind irreversibel

Bewertung Vergleich mit anderen Verfahren Hierarchisches Clustern Divisiv oder agglomerativ Knoten sind einfache Darstellung der Teilmengen Zwischenschritte sind irreversibel Eigenschaften SOTA Divisives Verfahren Knoten sind Mittelwerte sämtlicher folgenden Knoten Zuordnung wird ständig angepasst

Bewertung Vergleich mit anderen Verfahren Self Organizing Map (Kohonen Map) Ähnliches Verfahren, aber andere Topologie SOM: vorgegebenes Netz, wird bestmöglich an den Eingaberaum angepasst SOTA: wächst dynamisch, um den Eingaberaum bestmöglich darzustellen; Hierarchie vorhanden SOM: vordefinierte Größe für das Netz SOTA: dynamisches Wachstum, unterschiedliche Hierarchiestufen sichbar -> eigentlich besser

Bewertung Einsatz Methodisch vielversprechend Erfolge nicht reproduzierbar Mögliche Ursachen Ungeeignete Daten Ungeeignete Parameterjustierung Mangelndes (Aufgaben-)Verständnis Weitere Untersuchung Hintergrundwissen Bioinformatik Microarray-Datensätze wählen

Fin

Theorie Hintergrund

Theorie Hintergrund