Probabilistisches Schließen

Slides:



Advertisements
Ähnliche Präsentationen
Christian Scheideler SS 2009
Advertisements

Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
Eine dynamische Menge, die diese Operationen unterstützt,
Stochastik und Markovketten
6. Regelbasierte Systeme
Statistische Aspekte der PSG
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Wiederholung TexPoint fonts used in EMF.
Constraint Satisfaction Problems
Bayes-Netze KI 14-Bayes-Netze.
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
Marco Barz Seminar über Algorithmen SoSe2007
Verifizieren versus Berechnen
Zeitliches probabilistisches Schließen
Mündliche Prüfungen … im Sekretariat anmelden !
Gliederung Definition des Wahrscheinlichkeitsbegriffes
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II
Algorithmentheorie 04 –Hashing
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
Kapitel 5 Stetigkeit.
Kapitel 6 Differenzierbarkeit. Kapitel 6: Differenzierbarkeit © Beutelspacher Juni 2005 Seite 2 Inhalt 6.1 Die Definition 6.2 Die Eigenschaften 6.3 Extremwerte.
Seminar parallele Programmierung SS 2003
Hypothesen testen: Grundidee
handlungsorientierte Zugänge zur Algebra
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Christian Schindelhauer
Algorithmen des Internets 2005 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität 1 Materialien zu Übung 9 Bälle in Körbe Ranged.
Allgemein definiert man:. Bedingte Wahrscheinlichkeiten Die Belegschaft eines Betriebes wird nach Rauchern und Nicht- rauchern eingeteilt. Dabei ergibt.
Bedingte Wahrscheinlichkeiten
Statistische Methoden I WS 2002/2003 Probeklausur Freitag, 13. Dezember statt Vorlesung - Nächsten Freitag!!!
Tutorium
Tutorium Willkommen zurück, in der wunderbaren Welt der Statistik Teil II.
Tutorium
Das wars!.
Zur Kommunikation von Wahrscheinlichkeiten
Wiederholung und Beispiele
Wahrscheinlichkeitsrechnung
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Effiziente Algorithmen
Einführung in die beurteilende Statistik
Effiziente Algorithmen
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Hartmut Klauck Universität Frankfurt WS 06/
Definitionen für Wahrscheinlichkeiten
Polynome und schnelle Fourier-Transformation
Christian Scheideler Institut für Informatik Universität Paderborn
Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsrechnung
1. 2. Berechnen von Wahrscheinlichkeiten
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Analyse der Laufzeit von Algorithmen
Wann ist eine Funktion (über den natürlichen Zahlen) berechenbar?
Geoinformationssysteme
 Präsentation transkript:

Probabilistisches Schließen Grundannahmen der klassischen Logik: Satz p wahr oder falsch; man weiß, was gilt, oder man weiß nichts. Bush ist Präsident der USA. Grundannahmen der subjektiven Wahrscheinlichkeitstheorie: Satz p wahr oder falsch; Grad der Überzeugung (degree of belief) eines Agenten, dass p gilt, wird durch Wert zwischen 0 und 1 beschrieben. Obama wird mit Wahrscheinlichkeit 0.6 nächster Präsident der USA. Grundannahmen der statistischen Wahrscheinlichkeitstheorie: Es gibt wiederholbares Experiment X mit Ergebnissen x1, ..., xn. Wert zwischen 0 und 1 gibt relative Häufigkeit der Ergebnisse bei oftmaligem Wiederholen des Experiments an. Die Wahrscheinlichkeit, eine 6 zu würfeln, ist 1/6.

Bedeutung von Wahrscheinlichkeiten für rationales Entscheiden Basiert auf Wahrscheinlichkeiten der Effekte E der getroffenen Entscheidung A und deren Nutzen U(E) Beispiel Flugzeug erreichen 90 min vorher losfahren? kann schiefgehen 120 min? schiefgehen unwahrscheinlicher, aber unangenehme Wartezeit 24 Std? schiefgehen fast ausgeschlossen, aber endloses Warten Slogan: Entscheidungstheorie = Wahrscheinlichkeitstheorie + Nutzentheorie Maximum Expected Utility: Wähle Aktion A, so dass S P(E) U(E) maximal wird! EEffect(A)

Zahnweh => Karies  ...  Kinnhaken Unsicheres Wissen Beispiel Diagnose: Zahnweh => Karies falsch, weil es andere Gründe für Zahnweh geben kann Zahnweh => Karies  ...  Kinnhaken impraktikabel, Liste immer weiter verlängerbar, Medizin nicht abgeschlossen, Unterscheidung plausible/unplausible Ursachen fehlt deshalb Verwendung von Wahrscheinlichkeiten: bedingte Wahrscheinlichkeit von Karies bei Zahnweh ist 0.8: P(Karies | Zahnweh) = 0.8 Zahnweh hier die Evidenz, Zufügen neuer Evidenz kann Wahrscheinlichkeit (nichtmonoton) ändern, alle Evidenz ist grundsätzlich zu berücksichtigen

A Priori (Unbedingte) Wahrscheinlichkeit Wahrscheinlichkeit einer Proposition ohne Vorliegen von Evidenz: P(Karies) = 0.1 Aussagen, über deren W. man spricht, häufig in Form von Gleichungen Wetter ist Zufallsvariable mit Wertebereich {Sonne,Regen,Wolken,Schnee} Propositionale Konstanten auch als Zufallsvariable mit den Werten {true, false} aufzufassen. A Abkürzung für A = true, ¬A für A = false Notation: P(Wetter) steht für Vektor der W. aller Werte: <0.7, 0.2, 0.08, 0.02> heißt auch Wahrscheinlichkeitsverteilung für Wetter P(Wetter, Karies, ...) ist W.-verteilung für alle Kombinationen von Werten aller Variablen aussagenlogische Junktoren für Wahrscheinlichkeit komplexer Sätze: P(A  B) P(Wetter = Sonne) = 0.7 P(Wetter = Regen) = 0.2 P(Wetter = Wolken) = 0.08 P(Wetter = Schnee) = 0.02

Bedingte Wahrscheinlichkeit P(A | B): die Wahrscheinlichkeit von A, falls alles, was wir wissen, B ist für Zufallsvariablen X, Y bezeichnet P(X | Y) die 2-dimensionale Tabelle mit Eintrag P(X = xi | Y= yj) an der Stelle i,j bed. W. durch unbedingte definierbar, falls P(B) > 0: P(A | B) = oder P(A  B) = P(A | B) P(B) (Produktregel) oder P(A  B) = P(B | A) P(A) P(A  B) P(B) mögliche Welten vor nach Bekanntwerden von B ¬A  ¬B A  B B A  B B A

P(B | A)  P(A => B) Beispiel: P(A  B) = 0.25 P(A  ¬B) = 0.25 P(¬A  B) + P(¬A  ¬B) + P(A  B) = 0.75 P(B | A) = P(A  B) P(A) 0.25 0.5 = = 0.5 mögliche Welten P(A => B) P(B | A) A B A ¬B ¬A B ¬A ¬B

Wahrscheinlichkeitsaxiome 1. 0  P(A)  1 2. P(true) = 1, P(false) = 0 3. P(A  B) = P(A) + P(B) - P(A  B) ¬A  ¬B A A  B B Alle Eigenschaften aus Axiomen ableitbar, etwa: P(A  ¬A) P(true) 1 P(¬A) = P(A) + P(¬A) - P(A  ¬A) P(A) + P(¬A) - P(false) P(A) + P(¬A) 1 - P(A)

Sind die Wahrscheinlichkeitsaxiome vernünftig? Anhaltende philosophische Debatten über subjektive Wahrscheinlichkeit Rückführung durch de Finetti auf Wettverhalten: wer bestimmte Wahr- scheinlichkeiten annimmt, sollte bereit sein, entsprechend darauf zu setzen. de Finetti hat bewiesen: Wenn Agent 1 "Wahrscheinlichkeiten" verwendet, die die Wahrscheinlich- keitsaxiome verletzen, so gibt es für Agent 2 eine Wettstrategie, bei der 1 mit Sicherheit verliert. Agent1 Agent2 Ergebnis für Agent1 Proposition Grad Wette Quote A  B A  ¬B ¬A  B ¬A  ¬B A B A  B 0.4 0.3 0.8 A B ¬(A  B) 4 zu 6 3 zu 7 2 zu 8 -6 -7 2 -11 -6 3 2 -1 4 -7 2 -1 4 3 -8 -1

Wahrscheinlichkeitsverteilung (joint probability distribution, JPD) probabilistisches Modell: Menge {X1, ..., Xn} von Zufallsvariablen mit möglichen Werten atomares Ereignis: Belegung aller Variablen mit Werten Wahrscheinlichkeitsverteilung P(X1, ..., Xn): n-dimensionale Tabelle, weist allen atomaren Ereignissen W. zu Zahnweh ¬ Zahnweh Karies ¬ Karies 0.04 0.06 0.01 0.89 Beispiel n = 2, Summe aller Einträge = 1 Wahrscheinlichkeiten können abgelesen und aufaddiert werden: P(Karies) = 0.04 + 0.06, P(Karies  Zahnweh) = 0.04 + 0.06 + 0.01 P(Karies | Zahnweh) = = = 0.8 P(Karies  Zahnweh) P(Zahnweh) 0.04 0.04 + 0.01

Bayes´ Theorem JPD ermöglicht Berechnung aller Wahrscheinlichkeiten. Aber 2 Einträge schon im booleschen Fall (Variablen haben Werte ja/nein) gesucht: Möglichkeit, direkt mit bed. W. zu rechnen Produktregel: n P(A  B) = P(A | B) P(B) P(A  B) = P(B | A) P(A) Gleichsetzen der rechten Seiten und Division durch P(A): P(A | B) P(B) P(A) P(B | A) = (Bayes´ Regel) Verallgemeinerung: P(A | B, E) P(B, E) P(A, E) P(B | A, E) =

Anwendungsbeispiel Medizinische Diagnose: Meningitis verursacht zu 50% Nackensteife A priori Wahrscheinlichkeit von Meningitis ist 1/50 000 A priori Wahrscheinlichkeit von Nackensteife 1/20 Hat Patient mit Nackensteife Meningitis? P(S | M) P(M) P(S) 0.51 / 50000 1 / 20 P(M | S) = = = 0.0002

Vermeiden von a priori W. für Symptome Angenommen, es gibt eine weitere Krankheit W, die S verursacht. Wenn es nur darauf ankommt, die relative Wahrscheinlichkeit von W und M, gegeben S, zu berechnen, ist P(S) nicht nötig: wenn P(S | W) = 0.8 und P(W) = 1/1000, dann ist P(M | S) P(W | S) P(S | M) P(M) P(S | W) P(W) 0.51/50 000 0.81/100 = = = 1/80 Auch wenn exakte Werte für die bedingten W. nötig sind, sind manchmal a priori W. für Symptome nicht nötig: da P(S) = P(S | M) P(M) + P(S | ¬M) P (¬M) wird Bayes´ Rule zu P(S|M) P(M) P(S|M)P(M) + P(S |¬M)P(¬M) P(M|S) = also: statt P(S) wird P(S | ¬M) verwendet, häufig einfacher zu ermitteln

 P(S | M)  P(M) +  P(S | ¬M)  P(¬M) = 1 Normalisierung Es gilt P(M | S) + P(¬M | S) = 1; es muss Faktor  = 1/P(S) geben, so dass  P(S | M)  P(M) +  P(S | ¬M)  P(¬M) = 1 Im mehrwertigen Fall: P(Y | X) =  P(X | Y)  P(Y) wobei  die Normalisierungskonstante ist, d.h. die Konstante, die die Summe der Tabelleneinträge von P(Y|X) zu 1 macht. In der Praxis wird oft zunächst mit unnormalisierten Werten gerechnet, diese werden zuletzt normalisiert Beispiel: wir wissen P(M) = 0.00002, damit P(¬M) = 0.99998, P(S | M) = 0.5 Annahme: P(S | ¬M) = 4999 / 99998, gesucht  so dass  0.50.00002 + 4999 / 99998 0.99998 = 1 Lösung:  = 20

Bedingte Unabhängigkeit Seien X, Y, Z Zufallsvariablen. X ist bedingt unabhängig von Y gegeben Z genau dann wenn eine der folgenden äquivalenten Bedingungen erfüllt ist: P(X | Z) = P(X | Z,Y) P(Y | Z) = P(Y | Z,X) P(X,Y | Z) = P(X | Z) P(Y | Z) Intuitiv: falls Z bekannt ist, ändert sich die Wahrscheinlichkeit von X nicht, wenn Y bekannt wird (und umgekehrt, da bed. Unabhängigkeit symmetrisch).

Überzeugungsnetze (Bayes Netze, Belief Networks, BNs) Ein Überzeugungsnetz ist ein gerichteter Graph mit folgenden Eigenschaften 1. die Knoten des Graphen sind Zufallsvariablen 2. gerichtete Kanten von X nach Y bedeuten: X beeinflusst Y direkt 3. für jeden Knoten Y gibt es eine bedingte W. -Tabelle, die die Effekte der Elternknoten Xi auf Y beschreiben 4. der Graph ist zyklenfrei Grundidee: sparsame Repräsentation von bedingten Wahrscheinlichkeiten, alle übrigen bed. W. ergeben sich aus dieser Information zusammen mit Unabhängigkeitsannahmen, ausgedrückt durch Topologie des Graphen

Ein Überzeugungsnetz P(B) .001 P(E) .002 EinBruch Erdbeben B T T F P(A|BE) .95 .94 .29 .001 Alarm A T F P(J|A) .90 .05 A T F P(M|A) .70 .01 AnrufJohn AnrufMary Tabellen spezifizieren bedingte Wahrscheinlichkeiten für jede mögliche Wahrheitsbelegung der Elternknoten (Wert für die Negation in jeder Zeile implizit).

Überzeugungsnetze als Repräsentation der JPD Eintrag in der JPD gibt die Wahrscheinlichkeit eines atomaren Ereignisses an, d.h. einer Belegung aller Zufallsvariablen mit Werten (im booleschen Fall wahr oder falsch). ein BN ist die Repräsentation der JPD, die folgendermaßen definiert ist: n  P(X1 = x1, ..., Xn = xn) = P(Xi = xi | Eltern(Xi)) i = 1 Beispiel: P(J  M  A  ¬B  ¬E) = P(J | A) P(M | A) P(A | ¬B  ¬E) P (¬B) P(¬E) = 0.9 0.7 0.001 0.999 0.998 = 0.00062 terminiert, weil Graph azyklisch! macht implizit Unabhängigkeitsannahmen: bei gegebenem Zustand der Elternknoten haben weitere Variablen keinen Einfluss. Etwa: P(M | J, A, E, B) = P(M | A)

Ersparnis durch BN-Repräsentation im schlechtesten Fall hängt eine Variable direkt von jeder anderen ab => keine Ersparnis aber: normalerweise gibt es nicht zu großes k, so dass jede Variable höchstens von k anderen direkt abhängt dann braucht boolesches BN maximal n 2 Zahlen, dagegen JPD 2 konkretes Beispiel: n = 20, k = 5, BN braucht 640 Angaben, JPD > 1000000 Hinweis zur Erstellung von BNs es hat sich gezeigt, dass es am günstigsten ist, die kausale Struktur von Ereignissen als Grundlage für die Topologie der BNs zu verwenden andere Strategien, z. B. von Symptom zu Ursache, führen oft zu komplexeren Netzen mit schwerer zu spezifizierenden Wahrscheinlichkeiten k n

Bedingte Unabhängigkeit und d-Separation kann man aus dem Netz ablesen, ob Knotenmenge X bei gegebener Evidenz E bedingt unabhängig ist von Knotenmenge Y? ==> Begriff der d-Separation. Sinn des Ganzen: wenn X und Y durch E d-separiert wird, so sind X und Y bedingt unabhängig bei Evidenz E. E d-separiert X und Y wenn jeder ungerichtete Pfad von einem Knoten in X zu einem in Y durch E blockiert wird. Ein Pfad wird durch E blockiert wenn es auf ihm einen Knoten Z gibt, so dass 1. Z aus E und Z hat eine eingehende und eine ausgehende Pfadkante, oder 2. Z aus E und beide Pfadkanten sind ausgehend, oder 3. weder Z noch ein Nachfahre von Z sind in E, und beide Pfadkanten führen zu Z. E 1. 2. 3. Z Z Z Y X

d-Separation: Beispiel Batterie Radio Zündung Benzin Startet Fährt Radio und Benzin unabhängig gegeben Zündung Radio und Benzin unabhängig gegeben Batterie Radio und Benzin unabhängig ohne jede Evidenz Radio und Benzin abhängig gegeben Startet (wenn z.B Auto nicht startet, dann erhöht Radio die Wahrscheinlichkeit von ¬ Benzin)

Typen probabilistischer Inferenz Diagnostische Inferenz (von Effekt zu Ursache) geg.: AnrufJohn, gesucht: P(Einbruch | AnrufJohn) = 0.016 Kausale Inferenz (von Ursache zu Effekt) geg.: Einbruch, gesucht: P(AnrufJohn | Einbruch ) = 0.67 Interkausale Inferenz (zwischen Ursachen und einem gemeinsamen Effekt) geg.: Alarm, Erdbeben, gesucht: P(Einbruch | Alarm, Erdbeben) = 0.003 (explaining away) Mischformen geg.: AnrufJohn, ¬Erdbeben, gesucht: P(Alarm | AnrufJohn, ¬Erdbeben) = 0.03 (diagnostisch und kausal)

Inferenzverfahren für BNs Es existieren diverse effiziente Inferenzmethoden Variablen-Eliminationsverfahren Cliquenbaum-Propagation (HUGIN Expert – siehe Demo) Rekursives Konditionieren Effizient genug für vielfältigen praktischen Einsatz Detaillierte Behandlung im Rahmen der Vorlesung nicht möglich Hier nur kurz: rekursives Verfahren (Details dazu – nicht prüfungsrelevant - in Russell/Norvig)

Ein rekursiver BN-Algorithmus für P(X |E) Annahme: BN ist Polytree: zwischen 2 Knoten höchstens 1 ungerichteter Pfad X hat Eltern U = U1, ..., Um, Söhne Y = Y1, ..., Yn E ist der Teil der Evidenz, der mit X durch Eltern verbunden ist E ist der Teil der Evidenz, der mit X durch Söhne verbunden ist Grundidee: 1. beschreibe P(X | E) auf der Basis von und 2. berechne den Effekt von auf die Eltern Ui, und propagiere ihn zu X 3. berechne den Effekt von auf die Söhne Yj, und propagiere ihn zu X Berechnung für Eltern und Söhne rekursive Instanz des Problems für X Falls Polytree-Bedingung nicht erfüllt ist, müssen Knoten geclustert werden + X - X + - E E X X + E X - E X

Clustering: P(C) = 0.5 Cloudy C T F P(S|C) 0.1 0.5 C T F P(R|C) 0.8 0.2 Sprinkler Rain Wet Grass S R T T F F T F F P(W|SR) 0.99 0.90 0.00 aus wird P(C) = 0.5 Cloudy P(S+R|C) TT TF FT FF .08 .02 .72 .18 .40 .10 .40 .10 C T F S+R S+R T TF FT FF P(W|S+R) 0.99 0.90 0.00 Wet Grass