Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Maschinelles Lernen Entscheidungsbäume Teil 1 (Mitchell Kap. 3)

Ähnliche Präsentationen


Präsentation zum Thema: "Maschinelles Lernen Entscheidungsbäume Teil 1 (Mitchell Kap. 3)"—  Präsentation transkript:

1 Maschinelles Lernen Entscheidungsbäume Teil 1 (Mitchell Kap. 3)

2 Beispiel Nationalitäten:

3 Beispiel Behandlung bei Artikulationsstörungen

4 Beispiel Tage, um Sport zu treiben

5 Motivation Versuche Abfolge von Tests oder Bedingungen zu automatisieren Für Aufgaben, denen irgendwie abstrahierbare Regeln zugrunde liegen Zur Repräsentation komplexer Abhängigkeiten Disjunktion von Konjunktionen

6 Eigenschaften Probleme erlauben Attribut-Wert- Darstellung Zielfunktion muß diskret sein Disjunktive Beschreibung Fehlerhafte Trainingsdaten möglich Unvollständige Trainingsdaten möglich Typischerweise Klassifikationsprobleme

7 Typische Anwendungen Medizinische Diagnosen Analyse des Kreditrisikos Raumbelegungspläne etc.

8 Naive Beschreibung Interne Knoten = Überprüfen eines Attributs Verzweigung nach Anzahl der möglichen Werte Blätter: Ergebnis = Klassifikation Pfad durch den Baum = Entscheidungsprozess, für jedes Objekt gibt es genau einen Pfad von der Wurzel zu einem Blatt

9 Baum Definition: ist ein Baum mit Knoten K und Kanten b gdw. –Es gibt genau ein w K, so dass k K: b (w heißt Wurzel) –Es gibt B K mit : b B( k K: b) (B sind die Blätter) –Für k K mit k w und k B: k i,k l K: b und b (das sind zusammen mit w die internen Knoten) –Für jeden Pfad ( 0r b) gilt: k ir, k is: k ir k is (keine Zyklen!)

10 Entscheidungsbaum Sei zusätzlich –A = {a 1, a 2, a 3,..., a j } Menge von Attributen mit möglichen Attributwerten V = {v a11, v a12,...,v aj1,..., v ajn } –C = {c 1, c 2, c 3,..., c m } Menge von Zielkonzepten Ein Entscheidungsbaum ist ein Baum, bei dem –jeder interne Knoten mit einem Attribut gelabelt ist (k = ) und –jede Kante mit einem entsprechenden Attributwert (b =,v air, > und v air ist möglicher Wert von a i ), –jedes Blatt ist mit einer Klasse c gelabelt (k = )

11 Zwischenfragen Welche Tiefe hat ein Entscheidungsbaum? –Minimal? Maximal? Wieviele Knoten hat ein Entscheidungsbaum maximal? Gibt es Zielfunktionen, die nicht als Entscheidungsbaum dargestellt werden können?

12 Grundidee zur Konstruktion Prinzip von ID3 (Quinlan 1986) Top-down Suche (greedy) durch die Menge aller möglichen Entscheidungsbäume Problem: welches Attribut soll als erstes/nächstes überprüft werden? –Dasjenige, das die beste Einschränkung bringt!

13 Top-down Induktion von Entscheidungsbäumen (ID3) Hauptschleife: –Wähle bestes Entscheidungsattribut a i als Label für nächsten Knoten k –Generiere für jeden möglichen Wert v l von a i Tochterknoten k n von k und Kanten, die mit v l gelabelt sind –Verteile alle Trainingsbeispiele auf die Blätter –Wenn sich eine korrekte Aufteilung aller Trainingsbeispiele ergibt, labele die Blätter mit C, andernfalls führe Schleife für jeden neuen Knoten aus

14 Auswahl der Attribute Wann ist ein Attribut nützlich? –Wenn es wenige Objekte, aber die eindeutig klassifiziert? –Wenn es die Inputmenge möglichst gleichmäßig splittet? Betrachte Maße aus der Informations- Theorie: Information Gain

15 Entropie Entropie Maß für die Homogenität oder Reinheit einer Menge Entropie = Anzahl der Bits, die für die Kodierung bestimmter Information minimal benötigt wird

16 Entropie Sei: – T Menge von Trainingsdaten –p + sei der Anteil der positiven Beispiele in T –p - sei der Anteil der negativen Beispiele in T –Entropie(T) = -p + log 2 (p + ) – p - log 2 p - –im allgemeinen Fall: Entropie(T) = c C –p c log 2 (p c ) –Annahme: 0*log 2 (0) = 0

17 Entropie: Beispiele Angenommen alle Beispiele sind positiv:

18 Entropie: Beispiele T 1 : alle Beispiele sind positiv: –p + = 1 und p - = 0 –Entropie(T 1 ) = -1(log 2 1) – 0(log 2 0) = 0 T 1 : alle Beispiele sind negativ:

19 Entropie: Beispiele T 1 : alle Beispiele sind positiv: –p + = 1 und p - = 0 –Entropie(T 1 ) = -1(log 2 1) – 0(log 2 0) = 0 T 2 : alle Beispiele sind negativ: –p + = 0 und p - = 1 –Entropie(T 2 ) = -0(log 2 0) – 1(log 2 1) = 0 T 3 : die Hälfte ist positiv und die Hälfte ist negativ: –p + = 0.5 und p - = 0.5

20 Entropie: Beispiele T 1 : alle Beispiele sind positiv: –p + = 1 und p - = 0 –Entropie(T 1 ) = -1(log 2 1) – 0(log 2 0) = 0 T 2 : alle Beispiele sind negativ: –p + = 0 und p - = 1 –Entropie(T 2 ) = -0(log 2 0) – 1(log 2 1) = 0 T 3 : die Hälfte ist positiv und die Hälfte ist negativ: –p + = 0.5 und p - = 0.5 –Entropie(T 3 ) = -0.5(log 2 0.5) – 0.5(log 2 0.5) = -log 2 (0.5) = 1 T 4 : ¼ ist positiv, der Rest ist negativ –p + = 0.25 und p - = 0.75

21 Entropie: Beispiele T 1 : alle Beispiele sind positiv: –p + = 1 und p - = 0 –Entropie(T 1 ) = -1(log 2 1) – 0(log 2 0) = 0 T 2 : alle Beispiele sind negativ: –p + = 0 und p - = 1 –Entropie(T 2 ) = -0(log 2 0) – 1(log 2 1) = 0 T 3 : die Hälfte ist positiv und die Hälfte ist negativ: –p + = 0.5 und p - = 0.5 –Entropie(T 3 ) = -0.5(log 2 0.5) – 0.5(log 2 0.5) = -log 2 (0.5) = 1 T 4 : ¼ ist positiv, der Rest ist negativ –p + = 0.25 und p - = 0.75 –Entropie(T 4 ) = -0.25(log ) – 0.75(log ) =

22 Entropie Werteverteilung

23 Information Gain Idee: betrachte den Unterschied in der Entropie von T, wenn nach einem Attribut a i sortiert wird: GAIN(T,a i ): –Entropie(T) - v von ai (|Tv|/|T| * Entropie(T v )) Das beste Attribut für einen Knoten ist dasjenige, das den höchsten Information Gain erzielt!

24 Konstruktion

25 Beispiel

26

27

28 Grundannahmen Welche Grundannahmen wurden gemacht?

29 Grundannahmen Welche Grundannahmen wurden gemacht? –Bzgl. Hypothesenraum: keine!

30 Grundannahmen Welche Grundannahmen wurden gemacht? –Bzgl. Hypothesenraum: keine! –Bzgl. Struktur des entstehenden Baums?

31 Grundannahmen Welche Grundannahmen wurden gemacht? –Bzgl. Hypothesenraum: keine! –Bzgl. Struktur des entstehenden Baums? Präferenz für möglichst flache Bäume Präferenz für Bäume, bei denen die spezifischsten Attribute möglichst nahe bei der Wurzel angesiedelt sind Warum möglichst flache Bäume?

32 Zusammenfassung Hypothesenraum unbeschränkt, d.h. Zielfunktion ist mit Sicherheit im Hypothesenraum enthalten Lediglich Präferenz bei der Konstruktion des Baumes Betrachtet immer gesamte Trainingsmenge –Toleranz gegenüber fehlerhaften Beispielen möglich (akzeptiere auch Knoten als Blätter, die nicht ausschließlich die Zielmenge enthalten) Keine Beschreibung der gesamten Lösungsmenge Keine Gewähr, dass der minimale Baum gefunden wird, nur lokal minimal!

33 Aufgaben Berechnen Sie bitte Entropie und Information Gain für folgendes Beispiel. Was sollte also sinnvoller Weise als Top- Knoten gewählt werden?

34 Aufgaben Lösen Sie bitte Aufgabe 3.1 und 3.2 aus dem Buch von Mitchell (S. 77/78) Erstellen Sie bitte für das Beispiel von letzter Woche einen Entscheidungsbaum nach dem vorgestellten Basis-Algorithmus

35 Aufgaben (Mitchell) (3.1.) Geben Sie Entscheidungsbäume an, die die folgenden booleschen Funktionen repräsentieren: 1.A and non B 2.A or (B and C) 3.A xor B 4.(A and B) or (C and D) (3.2) Trainingsbeispiel: nächste Seite 1.Was ist die Entropie des Trainingsbeispiels im Hinblick auf die Zielfunktion? 2.Was ist der Information Gain von a 2 für diese Trainingsbeispiele?

36 Trainingsbeispiel 3.2 InstanzKlassifikation a1a1 a2a2 1+TT 2+TT 3-TF 4+FF 5-FT 6-FT


Herunterladen ppt "Maschinelles Lernen Entscheidungsbäume Teil 1 (Mitchell Kap. 3)"

Ähnliche Präsentationen


Google-Anzeigen