Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Algorithmen für das Erfüllbarkeitsproblem SAT
Knapsack & Bin Packing Sebastian Stober
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
Stochastik und Markovketten
Die Laufzeit von randomisierten (zufallsgesteuerten) Algorithmen hängt von gewissen zufälligen Ereignissen ab (Beispiel Quicksort). Um die Laufzeiten dieser.
Statistische Aspekte der PSG
Schnelle Matrizenoperationen von Christian Büttner
Data Mining Anwendungen und Techniken
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Maschinelles Lernen   Präsenzübung.
3. Kapitel: Komplexität und Komplexitätsklassen
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Hypothesenprüfung nach Bayes
Überprüfen von Verteilungen
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-23.
Algorithmentheorie 6 – Greedy-Verfahren
Prof.Dr.S. Albers Prof. Dr. Th. Ottmann
Kapitel 1 Das Schubfachprinzip
Kapitel 6 Mehrstufige Zufallsexperimente
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Algorithmen des Internets 2005 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität 1 Materialien zu Übung 9 Bälle in Körbe Ranged.
Was sind Histogramme? (1)
Statistische Methoden I WS 2004/2005 Probeklausur Freitag, 21. Januar statt Vorlesung - In 2 Wochen In 2 Wochen!
Relationentheorie AIFB SS Algorithmen zur Bildung von 3NF-Relationsschemata Algorithmen zur Bildung von 3NF-Relationsschemata (2|8) (2)Synthese.

Analyse eines Handballspielzuges
Wiederholung und Beispiele
Machine Learning KNN und andere (Kap. 8).
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Wahrscheinlichkeitsrechnung
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Effiziente Algorithmen
Effiziente Algorithmen
Computational Thinking Suchen und Sortieren [Ordnung muss sein…]
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Statistische Lernmethoden
Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsrechnung
Idee: Maximum-Likelihood Schätzer
Integritätserhaltung und -Überprüfung in deduktiven Datenbanken
Stochastik Grundlagen
Bestimmung der richtigen Wortbedeutung. Einfache Vorstellung Einige Wörter haben mehr als eine Bedeutung (z.B. Bank, Hahn, Schloss, Titel, Kopf,...) Ein.
K. Desch - Statistik und Datenanalyse SS05 Statistik und Datenanalyse 1.Wahrscheinlichkeit 2.Wahrscheinlichkeitsverteilungen 3.Monte-Carlo-Methoden 4.Statistische.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Gliederung der Vorlesung
Geoinformationssysteme
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 1 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.
HCS Übung 3: Computer Vision
 Präsentation transkript:

Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1 Maschinelles Lernen Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1

Überblick Bayes‘sche Lernverfahren werden in erster Linie für Klassifikation oder Konzept-Lernen verwendet Ziel: Abschätzung der Wahrscheinlichkeit mit der ein Objekt E einer Klasse C angehört Möglichkeit der Miteinbeziehung von Vorwissen

Grundlagen Wahrscheinlichkeitsrechnung Ereignismenge: Ω = Menge aller möglichen (Elementar-)Ereignisse Ereignisraum: F = pot(Ω) Wahrscheinlichkeitsverteilung P: F->[0,1] P(Ω) = 1 Für disjunkte Ai  Ω: P(UAi) = ∑P(Ai) P(A) ist die Wahrscheinlichkeit von A Typischerweise: P(A) = |A|/|Ω| Bedingte Wahrscheinlichkeit: P(A|B) Wahrscheinlichkeit von A, unter der Voraussetzung dass B P(A|B) = P(A ∩ B) / P(B)

Beispiel Dreimaliges Werfen einer Münze: Ω = {kkk,kkz,kzk,zkk,kzz,zkz,zzk,zzz} A sei „genau 2 mal Kopf“ = {kkz,kzk,zkk} P(A) = ?

Beispiel Dreimaliges Werfen einer Münze: Ω = {kkk,kkz,kzk,zkk,kzz,zkz,zzk,zzz} A sei „genau 2 mal Kopf“ = {kkz,kzk,zkk} P(A) = 3/8 Sei B „1. Wurf Kopf“ = {kkk,kkz,kzk,kzz} P(A|B) = ?

Beispiel Dreimaliges Werfen einer Münze: Ω = {kkk,kkz,kzk,zkk,kzz,zkz,zzk,zzz} A sei „genau 2 mal Kopf“ = {kkz,kzk,zkk} P(A) = 3/8 Sei B „1. Wurf Kopf“ = {kkk,kkz,kzk,kzz} P(A|B) = |{kkz,kzk}|/{kkk,kkz,kzk,kzz}| = ½

Bayes‘scher Satz Nützlich, wenn P(A), P(B) und P(A|B) einfacher zu berechnen oder abzuschätzen sind als der gesuchte Wert P(B|A).

Bayes‘scher Satz und maschinelles Lernen P(h): Wahrscheinlichkeit von Hypothese h P(T): Wahrscheinlichkeit von Trainingsmenge T P(T|h): Wahrscheinlichkeit von T unter der Hypothese h P(h|T): Wahrscheinlichkeit von h unter der Voraussetzung von T D.h. gesucht diejenige Hypothese h, unter der P(h|T) maximal wird

Bayes‘sches Lernen P(h), P(T) werden auch als „a priori“ Wahrscheinlichkeiten bezeichnet P(h|T) wird als „a posteriori“ Wahrscheinlichkeit bezeichnet. Gesucht also die maximale a posteriori (MAP) Hypothese hMAP da P(T) immer konstant genügt für die Bestimmung von hMAP P(D|h)P(h):

Brute Force Lern-Algorithmus Einfacher Lern-Algorithmus: Für jede Hypothese h  H: Berechne P(T|h)P(h) Gebe hMAP = argmaxhHP(T|h)P(h) aus Problem: hoher Rechenaufwand! Wie sieht P(T|h) bzw. P(h) aus?

Beispiel Konzept-Lernen: Dann: P(h) = 1/|H| (jede Hypothese ist gleich wahrscheinlich) Sei tiT, ti = c(xi), dann: P(T|h) = 1 falls für alle ti in T: h(xi) = ti; 0 sonst Dann: P(h|T) = 0 gdw. h ist nicht konsistent mit T sonst P(h|T) = (1 * 1/|H|)/P(T) = 1/VSH,T D.h. jede mit T konsistente Hypothese ist MAP Hypothese

Optimaler Bayes Lerner Brute Force Bayes: ergibt Hypothese mit der größten Wahrscheinlichkeit gegeben eine Trainingsmenge Eigentlich gesucht: wahrscheinlichste Klassifikation für eine neue Instanz Warum ist das nicht dasselbe?

Optimaler Bayes Klassifikator Beispiel: seien h1, h2, h3 Hypothesen mit P(h1|T) = 0,4, P(h2|T) = 0,3, P(h3|T) = 0,3 h1(x) = 0, h2(x) = 1, h3(x) = 1 Dann ist h1 die MAP Hypothese Die Klassifikation von x als positive Instanz erscheint jedoch wahrscheinlicher

Optimaler Bayes Klassifikator Idee: berechne für jede Hypothese die Wahrscheinlichkeit der Klassifikation und gewichte das jeweils gemäß der Wahrscheinlichkeit der Hypothese!

Optimaler Bayes Klassifikator Seien vj  V die möglichen Werte für eine neue Instanz x Dann ist die Wahrscheinlichkeit, dass x den Klassifikationswert vj hat: P(vj|T) = ∑hHP(vj|h)P(h|T) Die optimale Klassifikation ist also der Wert vj für den P(vj|T) maximal ist

Optimaler Bayes Klassifikator Nachteil: sehr aufwendige Berechnung bei großer Hypothesen-Menge!

Naive Bayes Klassifikator Weitest verbreitete Klassifikationsstrategie in der Textklassifikation Geeignet für Lernprobleme mit mittleren bis großen Trainingsmengen Attributen, die (weitgehend) unabhängig voneinander sind. Idee: Wahrscheinlichkeit der Klassifikation lässt sich berechnen aufgrund der Wahrscheinlichkeiten der Attributwerte für bestimmte Klassifikation

Naive Bayes Gesucht: wahrscheinlichster Zielwert vMAP

Naive Bayes Nehme an, die Attribute a1, a2, ...,an sind voneinander unabhängig, dann: Naive Bayes Klassifikator:

Naive Bayes und Textklassifikation Betrachte als potentielle Attribute das Vokabular Treffe geeignete Auswahl, z.B. schließe die 100 frequentesten Wörter und alle Wörter mit einer Frequenz < 3 aus Wie realistisch ist die Unabhängigkeitsannahme für die Textklassifikation?

Aufgaben Diskutieren Sie die Unabhängigkeitsannahme des Naive Bayes Klassifikators im Hinblick auf die Textklassifikation Implementierung eines Naive Bayes Classifiers. Material für diese Aufgabe finden Sie finden im Internet unter http://www.cis.uni-muenchen.de/kurse/pmaier/ML_05/material/MaterialBayes.tgz . Wenn Sie diese Datei auspacken, erhalten Sei einen Ordner der Trainingstexte für verschiedene Zeitungs-Ressorts (Ordner mit entsprechenden Ressortbezeichnern) sowie testdaten (Ordner test) enthält. Extrahieren Sie für die Trainingsdaten das Vokabular (wie zuvor beschrieben: schließen Sie die 100 frequentesten Wörter und die Wörter mit einer Frequenz < 3 aus) Berechnen Sie für jedes Wort w und jede Kategorie c den Wert P(w|c) Berechnen Sie für die Testdokumente im Verzeichnis test die wahrscheinlichste Kategorie Zeit für die Bearbeitung der 2. Aufgabe: 2 Wochen