Biraveenmaks Ponnu Benjamin Zumbrunn decision tree Biraveenmaks Ponnu Benjamin Zumbrunn
Inhalt Was ist ein decision tree? Beispiel & Mathematik Demo ID3 Vorteile und Nachteile Einsatzgebiete Fragen
Was ist ein decision tree? → decision tree ist eine Baumstruktur → Node, Root Node, Leaf Node → Root/Node ist ein Einflusswert → Leaf Node ist die Endgültige Entscheidung
Beispiel & Mathematik (Golf spielen) → Daten aus der Vergangenheit → 3 Einflusswerte, 1 Entscheidung → Outlook: Rainy, Sunny, Overcast → Temp: Hot, Mild , Cool → Humidity: High, Normal → Windy: True, False
Beispiel & Mathematik Die Entropy beschreibt, wie homogen etwas ist. 0 = sehr homogen 1 = sehr inhomogen Entropy für Entscheidung (Target) berechnen
Beispiel & Mathematik 2. Entropy für alle Einflusswerte (Predictors) berechnen. (Häufigkeitstabelle von zwei Attributen)
Beispiel & Mathematik 3. Wichtigste Entscheidung Bestimmen. (höchste Informationsgewinn)
Beispiel & Mathematik 4. Root Node bestimmen. Entscheidung mit der Grössten Gain ist der Root Node.
Beispiel & Mathematik 5. Branches bilden. (Zweig mit Entropie von 0 ist ein Blattknoten)
Beispiel & Mathematik 6. Kinder Nodes und Kinder Branches berechnen. Ein Zweig mit einer Entropie von mehr als 0 muss weiter aufgeteilt werden. Dafür den ganzen Prozess wiederholen.
Beispiel & Mathematik 7. Kompletter Baum
Beispiel & Mathematik Ein Entscheidungsbaum kann leicht in ein Regelwerk transformiert werden, indem man vom Wurzelknoten auf die Blattknoten eins nach dem anderen abbildet.
Beispiel Titanic → Demo Wer hatte die grössten Überlebenschancen? Entscheidungswert: überlebt Passagierklasse: first, second, third, crew Alter: Erwachsen, Kind Geschlecht: männlich, weiblich → Demo
Resultate Titanic Wer hatte die grössten Überlebenschancen? Männliche Kinder der ersten Klasse: 100% Frauen der ersten Klasse: 97.2% Weibliche Kinder der zweiten Klasse: 100%
Voraussagen mit Decision Tree Neue Daten, ohne Information, wer überlebt hat
Entstehung Decision Tree “Wer bin ich?” Person? Männlich? Vorname Stefanie? … → Grösster Informationsgewinn Titanic: Geschlecht
ID3 → grösster Informationsgewinn Loop: Weise A das geeignetste Attribut zu, also wo der grösste Informationsgewinn liegt Bestimme A als das Entscheidungsattribut für einen Knoten Für jeden Wert, der A annehmen kann, erstelle einen Kindsknoten Teile die Werte auf die Blätter auf Falls Werte perfekt klassifiziert sind: anhalten (oder: falls keine Attribute mehr vorhanden sind) Sonst: gleicher Durchgang auf Kindsknoten
Vorteile → Einfache Regeln, klar ableitbar → Interpretierbarkeit und Verständlichkeit → Übersichtlich
Nachteile und Probleme → Baum kann bei vielen Klassen sehr komplex werden → Endlose Attribute: Alter < 50, < 45, < 44, < 44,5 … → Wann halten wir ID3 an? Bsp: gleiche Werte der Attribute, aber anderes Resultat (2 Männer erster Klasse, nur einer überlebte)
Einsatzgebiete Versicherungen: Bestimmen von Risikogruppen und Risikofaktoren Banken: Bewertung und Analyse von Aktien Marketing: Kundenanalyse und Produktanalyse Biologie: automatisches Bestimmen von Arten Medizin: Risikofaktoren für eine Krankheit bestimmen, Patienten-Analyse und Prophylaxe
Fragen
Quellen http://www.saedsayad.com/decision_tree.htm http://www.onlamp.com/pub/a/python/2006/02/09/ai_decision_trees.html https://intelligentjava.wordpress.com/2015/04/28/machine-learning-decision-tree/ https://orange.biolab.si (Tool)