Self Organizing Tree Algorithm

Slides:

Advertisements

Ähnliche Präsentationen

Kohonennetze für Information Retrieval mit User Feedback

Advertisements

Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.

Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,

Inhalt Saarbrücken,.

Data Mining / Wissensextraktion

Was ist Testtheorie?.

Streuung Bezeichnung Streuung=Dispersion=Variabilität Fragestellung:

Streuungsmaß 3: absolute Abweichung vom Mittelwert

Statistische Suche nach melodischen Prototypen

Berg-Schlosser : VL : Vergleichende Politikwissenschaft Vergleichende Methoden Ausgangsbasis : Fälle: begrenzte Auswahl auf der Makro-Ebene, abhängig.

Dynamik komplexer Systeme

Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.

WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.

Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.

Konfidenzintervalle für Parameter

Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.

Numerische Klassifikation TWINSPAN

Institut für Kartographie und Geoinformation Diskrete Mathematik I Vorlesung Bäume-

Ontologische Visualisierung von Genexpressionsdaten aus Makroarray-Experimenten Bioinformatik Praktikum David Rudolph, Michael Tauer Thema 6.

Experimentaufbau und -design

Häufigkeiten Gegeben ist eine Datenliste (Urliste) (hier z. B. die Klausur-Noten von 50 Studenten)

Classification of Credit Applicants Using Data Mining. Thema.

Univariate Statistik M. Kresken.

Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.

Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.

Vorlesung: Biometrie für Studierende der Veterinärmedizin

Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:

Binomialverteilung: Beispiel

(Un-)sicherheiten in der Ökosystemmodellierung

Extended multistep outflow method for the accurate determination of soil hydraulic properties close to water saturation W. Durner und S.C. Iden, SS2012.

Daten auswerten Boxplots

Christian Schulz, Marc Thielbeer, Sebastian Boldt

Zur Veranstaltung Business Intelligence

Ausgleichungsrechnung II

Globale Interpolations- und Prädiktionsverfahren

Auslegung eines Vorschubantriebes

Multivariate Verfahren der Statistik bei der quantitativen Textanalyse

STATISIK LV Nr.: 0028 SS Mai 2005.

Statistik: Mehr zur Regression.

Theoriereferat Indexes, Scales and Typologies The Logic of Sampling

Adaption von K-Means Algorithmen an Datenbanken

Adaption von K-Means Algorithmen an Datenbanken

Modul Statistische Datenanalyse

Kapitel 18 Dynamische Modelle: Schätzen der Parameter

VL Algorithmische BioInformatik (19710)

Referat über das Thema STOCHASTIK.

Übersicht - Methodik Studien zur Imitation von Interpretationen klassischer Klavier-Musik durch neuronale Netze.

Vorlesung Binärer Suchbaum II-

Der Zentralwert.

Pflanzenlernkartei 3 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.

Pflanzenlernkartei 2 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.

SOTA Andrej Gisbrecht

Klassifikation und Regression mittels neuronaler Netze

Statistik – Regression - Korrelation

Analyse der Laufzeit von Algorithmen

Erheben, berechnen und darstellen von Daten

Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik

Einführung in Microarray Genexpressionsdaten

Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.

Die Dynamik von abgeleiteten Preisen Stochastische Differentialgleichungen.

EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.

CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.

PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.

Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.

Präsentation transkript:

Self Organizing Tree Algorithm Bastian Jarzembinski Enrico Bade Tobias Aagard

Gliederung Theorie Experimente Bewertung Hintergrund Lernverfahren Attributskalierung Wachstumssteuerung Bewertung Vergleich mit anderen Verfahren Einsatz

Theorie Hintergrund Lernverfahren

Theorie Hintergrund Bioinformatik Microarrays Ähnliches Aussehen = Ähnliche Funktion?

Theorie Lernverfahren n-dimensionale Vektoren mit metrischen Attributen Knoten bilden Clusterzentren Knoten mit größter Varianz wird geteilt

Theorie Lernverfahren Inputvektor Repräsentant Distanz Lernrate Fehler

Theorie Lernverfahren Wurzel Blatt Zuordnung

Theorie Lernverfahren Variability / Spannweite Ressource / mittlere Abweichung

Theorie Lernverfahren

Theorie Lernverfahren ?

Theorie Lernverfahren Ancestor / Vorfahre Sister / Schwester

Experimente Attributskalierung Fallbeispiel

Experimente Attributskalierung Parameter in KNIME können das zyklisches Wachsen des Trees beeinflussen: Lerningrates min. variablity und min. ressource nur bei „Use variablity“ berücksichtigt min. Error Distance: Euclid. Oder Cosinus Clustern ohne Zielattribut

Experimente Fallbeispiel IRIS-Datenset 4 Attribute, metrisch skaliert Zielattribut mit 3 Klassen LIVE DEMO Quantitativer Vergleich zu Klassifikationsalgorithmen i.d.F. k-Means Keine signifikanten Unterschiede Anwendung des SOTA auf Daten mit und ohne Zielattribut Winner learningrate : Zelle wird neues Blatt (Cluster) Sister learningrate : zelle als schwester Ancestor learningrate: Zelle wird übergeordnet platziert Größenverhältnisse beachten (Win > Ancest > Sist) Min. var: Größe und Granularität des Trees beschränken Min. res: je kleiner desto granulierter werden die Zuordnungen (Epochen pro Zyklus) Dist. Berechnungsfkt. Für die Dist zw. Den Punkten

Bewertung Vergleich mit anderen Verfahren Einsatz

Bewertung Vergleich mit anderen Verfahren Eigenschaften k-Means Wenige Iterationen Einfaches Verfahren Anfällig für Rauschen / Ausreißer Ergebnis von initialen Zerlegung abhängig

Bewertung Vergleich mit anderen Verfahren Eigenschaften k-Means Wenige Iterationen Einfaches Verfahren Anfällig für Rauschen / Ausreißer Ergebnis von initialen Zerlegung abhängig Eigenschaften SOTA Annähernd lineares Laufzeitverhalten Punkt für k-Means Resistent Unabhängig

Bewertung Vergleich mit anderen Verfahren Hierarchisches Clustern Divisiv oder agglomerativ Knoten sind einfache Darstellung der Teilmengen Zwischenschritte sind irreversibel

Bewertung Vergleich mit anderen Verfahren Hierarchisches Clustern Divisiv oder agglomerativ Knoten sind einfache Darstellung der Teilmengen Zwischenschritte sind irreversibel Eigenschaften SOTA Divisives Verfahren Knoten sind Mittelwerte sämtlicher folgenden Knoten Zuordnung wird ständig angepasst

Bewertung Vergleich mit anderen Verfahren Self Organizing Map (Kohonen Map) Ähnliches Verfahren, aber andere Topologie SOM: vorgegebenes Netz, wird bestmöglich an den Eingaberaum angepasst SOTA: wächst dynamisch, um den Eingaberaum bestmöglich darzustellen; Hierarchie vorhanden SOM: vordefinierte Größe für das Netz SOTA: dynamisches Wachstum, unterschiedliche Hierarchiestufen sichbar -> eigentlich besser

Bewertung Einsatz Methodisch vielversprechend Erfolge nicht reproduzierbar Mögliche Ursachen Ungeeignete Daten Ungeeignete Parameterjustierung Mangelndes (Aufgaben-)Verständnis Weitere Untersuchung Hintergrundwissen Bioinformatik Microarray-Datensätze wählen

Fin

Theorie Hintergrund

Theorie Hintergrund