Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Entscheidungsbäume Teil 1 (Mitchell Kap. 3)

Ähnliche Präsentationen


Präsentation zum Thema: "Entscheidungsbäume Teil 1 (Mitchell Kap. 3)"—  Präsentation transkript:

1 Entscheidungsbäume Teil 1 (Mitchell Kap. 3)
Maschinelles Lernen Entscheidungsbäume Teil 1 (Mitchell Kap. 3)

2 Beispiel Nationalitäten:

3 Beispiel Behandlung bei Artikulationsstörungen

4 Beispiel Tage, um Sport zu treiben

5 Motivation Versuche Abfolge von Tests oder Bedingungen zu automatisieren Für Aufgaben, denen irgendwie abstrahierbare Regeln zugrunde liegen Zur Repräsentation komplexer Abhängigkeiten Disjunktion von Konjunktionen

6 Eigenschaften Probleme erlauben Attribut-Wert-Darstellung
Zielfunktion muß diskret sein Disjunktive Beschreibung Fehlerhafte Trainingsdaten möglich Unvollständige Trainingsdaten möglich Typischerweise Klassifikationsprobleme

7 Typische Anwendungen Medizinische Diagnosen Analyse des Kreditrisikos
Raumbelegungspläne etc.

8 Naive Beschreibung Interne Knoten = Überprüfen eines Attributs
Verzweigung nach Anzahl der möglichen Werte Blätter: Ergebnis = Klassifikation Pfad durch den Baum = Entscheidungsprozess, für jedes Objekt gibt es genau einen Pfad von der Wurzel zu einem Blatt

9 Baum Definition: <K,bK X K> ist ein Baum mit Knoten K und Kanten b gdw. Es gibt genau ein w  K, so dass kK: <k,w> b (w heißt Wurzel) Es gibt B  K mit : bB(kK: <b,k>b) (B sind die Blätter) Für kK mit k ≠ w und k B: ki,kl K: <ki,k> b und <k,kl> b (das sind zusammen mit w die internen Knoten) Für jeden Pfad <w= ki0,ki1, ki2, ki3,..., kin> (0≤r<n: <kir,kir+1> b) gilt:  kir, kis: kir ≠ kis (keine Zyklen!)

10 Entscheidungsbaum Sei zusätzlich
A = {a1, a2, a3,..., aj} Menge von Attributen mit möglichen Attributwerten V = {va11, va12, ...,vaj1, ..., vajn} C = {c1, c2, c3,..., cm} Menge von Zielkonzepten Ein Entscheidungsbaum ist ein Baum, bei dem jeder interne Knoten mit einem Attribut gelabelt ist (k = <k,ai>) und jede Kante mit einem entsprechenden Attributwert (b = < <km,ai>,vair,<kn,al>> und vair ist möglicher Wert von ai) , jedes Blatt ist mit einer Klasse c gelabelt (k = <k,ci>)

11 Zwischenfragen Welche Tiefe hat ein Entscheidungsbaum?
Minimal? Maximal? Wieviele Knoten hat ein Entscheidungsbaum maximal? Gibt es Zielfunktionen, die nicht als Entscheidungsbaum dargestellt werden können?

12 Grundidee zur Konstruktion
Prinzip von ID3 (Quinlan 1986) Top-down Suche (greedy) durch die Menge aller möglichen Entscheidungsbäume Problem: welches Attribut soll als erstes/nächstes überprüft werden? Dasjenige, das die beste Einschränkung bringt!

13 Top-down Induktion von Entscheidungsbäumen (ID3)
Hauptschleife: Wähle bestes Entscheidungsattribut ai als Label für nächsten Knoten k Generiere für jeden möglichen Wert vl von ai Tochterknoten kn von k und Kanten, die mit vl gelabelt sind Verteile alle Trainingsbeispiele auf die Blätter Wenn sich eine korrekte Aufteilung aller Trainingsbeispiele ergibt, labele die Blätter mit C, andernfalls führe Schleife für jeden neuen Knoten aus

14 Auswahl der Attribute Wann ist ein Attribut nützlich?
Wenn es wenige Objekte, aber die eindeutig klassifiziert? Wenn es die Inputmenge möglichst gleichmäßig splittet? Betrachte Maße aus der Informations-Theorie: „Information Gain“

15 Entropie Entropie ≈ Maß für die Homogenität oder Reinheit einer Menge
Entropie = Anzahl der Bits, die für die Kodierung bestimmter Information minimal benötigt wird

16 Entropie Sei: T Menge von Trainingsdaten
p+ sei der Anteil der positiven Beispiele in T p- sei der Anteil der negativen Beispiele in T Entropie(T) = -p+ log2(p+) – p-log2p- im allgemeinen Fall: Entropie(T) = ∑cC –pclog2(pc) Annahme: 0*log2(0) = 0

17 Entropie: Beispiele Angenommen alle Beispiele sind positiv:

18 Entropie: Beispiele T1: alle Beispiele sind positiv:
p+ = 1 und p- = 0 Entropie(T1) = -1(log21) – 0(log20) = 0 T1: alle Beispiele sind negativ:

19 Entropie: Beispiele T1: alle Beispiele sind positiv:
p+ = 1 und p- = 0 Entropie(T1) = -1(log21) – 0(log20) = 0 T2: alle Beispiele sind negativ: p+ = 0 und p- = 1 Entropie(T2) = -0(log20) – 1(log21) = 0 T3: die Hälfte ist positiv und die Hälfte ist negativ: p+ = 0.5 und p- = 0.5

20 Entropie: Beispiele T1: alle Beispiele sind positiv:
p+ = 1 und p- = 0 Entropie(T1) = -1(log21) – 0(log20) = 0 T2: alle Beispiele sind negativ: p+ = 0 und p- = 1 Entropie(T2) = -0(log20) – 1(log21) = 0 T3: die Hälfte ist positiv und die Hälfte ist negativ: p+ = 0.5 und p- = 0.5 Entropie(T3) = -0.5(log20.5) – 0.5(log20.5) = -log2(0.5) = 1 T4: ¼ ist positiv, der Rest ist negativ p+ = 0.25 und p- = 0.75

21 Entropie: Beispiele T1: alle Beispiele sind positiv:
p+ = 1 und p- = 0 Entropie(T1) = -1(log21) – 0(log20) = 0 T2: alle Beispiele sind negativ: p+ = 0 und p- = 1 Entropie(T2) = -0(log20) – 1(log21) = 0 T3: die Hälfte ist positiv und die Hälfte ist negativ: p+ = 0.5 und p- = 0.5 Entropie(T3) = -0.5(log20.5) – 0.5(log20.5) = -log2(0.5) = 1 T4: ¼ ist positiv, der Rest ist negativ p+ = 0.25 und p- = 0.75 Entropie(T4) = -0.25(log20.25) – 0.75(log20.75) =

22 Entropie Werteverteilung

23 Information Gain Idee: betrachte den Unterschied in der Entropie von T, wenn nach einem Attribut ai sortiert wird: GAIN(T,ai): Entropie(T) - ∑v von ai(|Tv|/|T| * Entropie(Tv)) Das beste Attribut für einen Knoten ist dasjenige, das den höchsten Information Gain erzielt!

24 Konstruktion

25 Beispiel

26 Beispiel

27 Beispiel

28 Grundannahmen Welche Grundannahmen wurden gemacht?

29 Grundannahmen Welche Grundannahmen wurden gemacht?
Bzgl. Hypothesenraum: keine!

30 Grundannahmen Welche Grundannahmen wurden gemacht?
Bzgl. Hypothesenraum: keine! Bzgl. Struktur des entstehenden Baums?

31 Grundannahmen Welche Grundannahmen wurden gemacht?
Bzgl. Hypothesenraum: keine! Bzgl. Struktur des entstehenden Baums? Präferenz für möglichst flache Bäume Präferenz für Bäume, bei denen die spezifischsten Attribute möglichst nahe bei der Wurzel angesiedelt sind Warum möglichst flache Bäume?

32 Zusammenfassung Hypothesenraum unbeschränkt, d.h. Zielfunktion ist mit Sicherheit im Hypothesenraum enthalten Lediglich Präferenz bei der Konstruktion des Baumes Betrachtet immer gesamte Trainingsmenge Toleranz gegenüber fehlerhaften Beispielen möglich (akzeptiere auch Knoten als Blätter, die nicht ausschließlich die Zielmenge enthalten) Keine Beschreibung der gesamten Lösungsmenge Keine Gewähr, dass der minimale Baum gefunden wird, nur lokal minimal!

33 Aufgaben Berechnen Sie bitte Entropie und Information Gain für folgendes Beispiel. Was sollte also sinnvoller Weise als Top-Knoten gewählt werden?

34 Aufgaben Lösen Sie bitte Aufgabe 3.1 und 3.2 aus dem Buch von Mitchell (S. 77/78) Erstellen Sie bitte für das Beispiel von letzter Woche einen Entscheidungsbaum nach dem vorgestellten Basis-Algorithmus

35 Aufgaben (Mitchell) (3.1.) Geben Sie Entscheidungsbäume an, die die folgenden booleschen Funktionen repräsentieren: A and non B A or (B and C) A xor B (A and B) or (C and D) (3.2) Trainingsbeispiel: nächste Seite Was ist die Entropie des Trainingsbeispiels im Hinblick auf die Zielfunktion? Was ist der Information Gain von a2 für diese Trainingsbeispiele?

36 Trainingsbeispiel 3.2 Instanz Klassifikation a1 a2 1 + T 2 3 - F 4 5 6


Herunterladen ppt "Entscheidungsbäume Teil 1 (Mitchell Kap. 3)"

Ähnliche Präsentationen


Google-Anzeigen