Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.

Ähnliche Präsentationen


Präsentation zum Thema: "Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1."—  Präsentation transkript:

1 Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1

2 Überblick Bayessche Lernverfahren werden in erster Linie für Klassifikation oder Konzept-Lernen verwendet Ziel: Abschätzung der Wahrscheinlichkeit mit der ein Objekt E einer Klasse C angehört Möglichkeit der Miteinbeziehung von Vorwissen

3 Grundlagen Wahrscheinlichkeitsrechnung Ereignismenge: Ω = Menge aller möglichen (Elementar-)Ereignisse Ereignisraum: F = pot(Ω) Wahrscheinlichkeitsverteilung P: F->[0,1] –P(Ω) = 1 –Für disjunkte A i Ω: P(UA i ) = P(A i ) –P(A) ist die Wahrscheinlichkeit von A –Typischerweise: P(A) = |A|/|Ω| Bedingte Wahrscheinlichkeit: P(A|B) –Wahrscheinlichkeit von A, unter der Voraussetzung dass B –P(A|B) = P(A B) / P(B)

4 Beispiel Dreimaliges Werfen einer Münze: Ω = {kkk,kkz,kzk,zkk,kzz,zkz,zzk,zzz} A sei genau 2 mal Kopf = {kkz,kzk,zkk} P(A) = ?

5 Beispiel Dreimaliges Werfen einer Münze: Ω = {kkk,kkz,kzk,zkk,kzz,zkz,zzk,zzz} A sei genau 2 mal Kopf = {kkz,kzk,zkk} P(A) = 3/8 Sei B 1. Wurf Kopf = {kkk,kkz,kzk,kzz} P(A|B) = ?

6 Beispiel Dreimaliges Werfen einer Münze: Ω = {kkk,kkz,kzk,zkk,kzz,zkz,zzk,zzz} A sei genau 2 mal Kopf = {kkz,kzk,zkk} P(A) = 3/8 Sei B 1. Wurf Kopf = {kkk,kkz,kzk,kzz} P(A|B) = |{kkz,kzk}|/{kkk,kkz,kzk,kzz}| = ½

7 Bayesscher Satz Nützlich, wenn P(A), P(B) und P(A|B) einfacher zu berechnen oder abzuschätzen sind als der gesuchte Wert P(B|A).

8 Bayesscher Satz und maschinelles Lernen P(h): Wahrscheinlichkeit von Hypothese h P(T): Wahrscheinlichkeit von Trainingsmenge T P(T|h): Wahrscheinlichkeit von T unter der Hypothese h P(h|T): Wahrscheinlichkeit von h unter der Voraussetzung von T D.h. gesucht diejenige Hypothese h, unter der P(h|T) maximal wird

9 Bayessches Lernen P(h), P(T) werden auch als a priori Wahrscheinlichkeiten bezeichnet P(h|T) wird als a posteriori Wahrscheinlichkeit bezeichnet. Gesucht also die maximale a posteriori (MAP) Hypothese h MAP da P(T) immer konstant genügt für die Bestimmung von h MAP P(D|h)P(h):

10 Brute Force Lern-Algorithmus Einfacher Lern-Algorithmus: –Für jede Hypothese h H: Berechne P(T|h)P(h) –Gebe h MAP = argmax h HP (T|h)P(h) aus Problem: –hoher Rechenaufwand! –Wie sieht P(T|h) bzw. P(h) aus?

11 Beispiel Konzept-Lernen: P(h) = 1/|H| (jede Hypothese ist gleich wahrscheinlich) Sei t i T, t i = c(x i ), dann: P(T|h) = 1 falls für alle t i in T: h(x i ) = t i ; 0 sonst –Dann: P(h|T) = 0 gdw. h ist nicht konsistent mit T sonst P(h|T) = (1 * 1/|H|)/P(T) = 1/VS H,T –D.h. jede mit T konsistente Hypothese ist MAP Hypothese

12 Optimaler Bayes Lerner Brute Force Bayes: ergibt Hypothese mit der größten Wahrscheinlichkeit gegeben eine Trainingsmenge Eigentlich gesucht: wahrscheinlichste Klassifikation für eine neue Instanz Warum ist das nicht dasselbe?

13 Optimaler Bayes Klassifikator Beispiel: –seien h 1, h 2, h 3 Hypothesen mit P(h 1 |T) = 0,4, P(h 2 |T) = 0,3, P(h 3 |T) = 0,3 –h 1 (x) = 0, h 2 (x) = 1, h 3 (x) = 1 –Dann ist h 1 die MAP Hypothese –Die Klassifikation von x als positive Instanz erscheint jedoch wahrscheinlicher

14 Optimaler Bayes Klassifikator Idee: berechne für jede Hypothese die Wahrscheinlichkeit der Klassifikation und gewichte das jeweils gemäß der Wahrscheinlichkeit der Hypothese!

15 Optimaler Bayes Klassifikator Seien v j V die möglichen Werte für eine neue Instanz x Dann ist die Wahrscheinlichkeit, dass x den Klassifikationswert v j hat: –P(v j |T) = h H P(v j |h)P(h|T) Die optimale Klassifikation ist also der Wert v j für den P(v j |T) maximal ist

16 Optimaler Bayes Klassifikator Nachteil: sehr aufwendige Berechnung bei großer Hypothesen-Menge!

17 Naive Bayes Klassifikator Weitest verbreitete Klassifikationsstrategie in der Textklassifikation Geeignet für Lernprobleme mit mittleren bis großen Trainingsmengen Attributen, die (weitgehend) unabhängig voneinander sind. Idee: Wahrscheinlichkeit der Klassifikation lässt sich berechnen aufgrund der Wahrscheinlichkeiten der Attributwerte für bestimmte Klassifikation

18 Naive Bayes Gesucht: wahrscheinlichster Zielwert v MAP

19 Naive Bayes Nehme an, die Attribute a 1, a 2,...,a n sind voneinander unabhängig, dann: Naive Bayes Klassifikator:

20 Naive Bayes und Textklassifikation Betrachte als potentielle Attribute das Vokabular Treffe geeignete Auswahl, z.B. schließe die 100 frequentesten Wörter und alle Wörter mit einer Frequenz < 3 aus Wie realistisch ist die Unabhängigkeitsannahme für die Textklassifikation?

21 Aufgaben 1.Diskutieren Sie die Unabhängigkeitsannahme des Naive Bayes Klassifikators im Hinblick auf die Textklassifikation 2.Sie finden im mltc Verzeichnis einen Ordner /material/beispiel1/data, der Trainingstexte für verschiedene Zeitungs-Ressorts enthält. –Extrahieren Sie das Vokabular (wie zuvor beschrieben: schließen Sie die 100 frequentesten Wörter und die Wörter mit einer Frequenz < 3 aus) –Berechnen Sie für jedes Wort w und jede Kategorie c den Wert P(w|c) –Berechnen Sie für die Testdokumente im Verzeichnis test die wahrscheinlichste Kategorie –Diese Aufgabe ist als Programmier-Übung in einer Programmiersprache Ihrer Wahl gedacht, falls Sie sich die Programmierung nicht zutrauen, wählen Sie bitte einen Text aus Test aus und führen die Berechnungen nur für die darin enthaltenen Wörter und diesen einen Text aus –Zeit für die Bearbeitung der 2. Aufgabe: 2 Wochen


Herunterladen ppt "Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1."

Ähnliche Präsentationen


Google-Anzeigen