Mündliche Prüfungen … im Sekretariat 1.453 anmelden ! KI 13 - Unsicherheit
Unsicherheit KI 13 - Unsicherheit
Überblick Unsicherheit Wahrscheinlichkeit Syntax und Semantik Inferenz Unabhängigkeit und Bayessche Regel Beispiel: Wumpus-Welt KI 13 - Unsicherheit
Unsicherheit Sei Aktion At = „zum Flugplatz fahren“, t sei Zeit in Minuten vor dem Flug. Werde ich durch Ausführung von At den Flug erreichen? Probleme: Teilweise Beobachtbarkeit (Straßenzustand, Verkehrsdichte, Navi kaputt etc.) Unzuverlässige Sensoren (Verkehrsbericht) Unsicherheit über Ergebnis von Aktionen (Reifenpanne bei schneller Fahrt …) Immense Komplexität der Modellierung und Vorhersage (Verkehr, Wetter etc.) Daher wird ein rein logischer Ansatz entweder falsche Aussagen riskieren („A25 erreicht den Flug”), oder zu „schwachen“ Schlüssen führen, die keine Entscheidungsfindung erlauben: „A25 erreicht Flug falls kein Unfall auf der Brücke und falls es nicht regnet …“ A1440 würde höchstwahrscheinlich den Flug erreichen, aber Übernachtung auf Flugplatz erfordern. KI 13 - Unsicherheit
Umgang mit Unsicherheit Nichtmonotone Logik: Monotone Logik: Z.B. AL, PL, Schlüsse fügen Wissen zu WB hinzu, verändern vorhandenes Wissen nicht. Nichtmonotone Logik: Schlüsse können WB verändern. Dadurch vorläufige Schlussfolgerungen möglich, bei unvollständigem Wissen werden Default verwendet. Annahme: Auto hat keinen Platten. Annahme: A25 funktioniert, bis A25 durch Erfahrung widerlegt wird. Probleme: Welche Annahmen sind vernünftig? Wie werden Widersprüche behandelt? KI 13 - Unsicherheit
Umgang mit Unsicherheit Regeln mit Wahrscheinlichkeiten: A25 |→0.3 erreicht Flugplatz rechtzeitig Sprinkler |→ 0.99 NassesGras NassesGras |→ 0.7 Regen Probleme mit Kombination: Z.B. ist Sprinkler Ursache für Regen? Wahrscheinlichkeit: Drückt Glauben des Agenten aus: „Ausgehend von den gegebenen Fakten wird A25 den Flugplatz mit Wahrscheinlichkeit 0.04 rechtzeitig erreichen.“ KI 13 - Unsicherheit
Wahrscheinlichkeit Probabilistische Aussagen fassen verschiedene Effekte zusammen: Faulheit: Unfähigkeit / Unwilligkeit, alle Voraussetzungen, Ausnahmen etc. aufzuzählen. Unwissen: Fehlen von Fakten, Anfangsbedingungen etc. Zufall: Z.B. Würfeln Aus Faulheit und Unwissen resultierende Aussagen sind keine Aussagen über die Welt, sondern das Resultat von Subjektivität: Wahrscheinlichkeiten setzen die Aussagen in Beziehung zum „persönlichen“ Wissenszustand des Agenten: z.B. P(A25 erreicht Flug | keine gemeldeten Unfälle) = 0.06 Wahrscheinlichkeiten von Sätzen ändern sich, sobald neues Wissen verfügbar wird: Z.B. P(A25 erreicht Flug | keine gemeldeten Unfälle, 6:30h) = 0.15 KI 13 - Unsicherheit
Entscheidungen treffen bei Unsicherheit Agent glaubt folgendes: P(A25 erreicht Flug | …) = 0.04 P(A90 erreicht Flug | …) = 0.70 P(A120 erreicht Flug | …) = 0.95 P(A1440 erreicht Flug | …) = 0.9999 Welche Aktion soll er ausführen? Hängt von Präferenzen des Agenten ab (Flug verpassen, Wartezeit, früh aufstehen …) Nutzentheorie erlaubt Repräsentation und Inferenz von Präferenzen Entscheidungstheorie = Wahrscheinlichkeitstheorie + Nutzentheorie KI 13 - Unsicherheit
Syntax: Zufallsvariable Grundelement: Zufallsvariable Ähnlich AL: Mögliche Welten werden durch Zuweisung von Werten an Zufallsvariable definiert. Boolesche Zufallsvariable: Z.B. Loch (Habe ich ein Loch im Zahn?) Diskrete Zufallsvariable Z.B. Wetter hat einen der Werte <sonnig,regnerisch,bewölkt,schneit> Werte einer Domäne müssen erschöpfend sein und sich gegenseitig ausschliessen. Stetige Zufallsvariable Reelle Zahlen Z.B. Aussage Länge=2,4 KI 13 - Unsicherheit
Syntax: Aussagen Elementaraussagen werden getroffen durch Zuweisen eines Wertes an eine Zufallsvariable: Wetter = sonnig Loch = falsch (Abk. Loch) Komplexe Aussagen werden durch die üblichen logischen Verknüpfungen aus Elementaraussagen gebildet: Wetter = sonnig Loch = falsch KI 13 - Unsicherheit
Syntax: Ereignisse Atomares Ereignis: Eine vollständige Spezifikation des Zustands der Welt (über den der Agent allerdings unsicher ist). Bsp.: Welt besteht nur aus den zwei Booleschen Variablen Loch und Zahnschmerzen. Dann gibt es 4 verschiedene atomare Ereignisse: Loch = falsch Zahnschmerzen = falsch Loch = falsch Zahnschmerzen = wahr Loch = wahr Zahnschmerzen = falsch Loch = wahr Zahnschmerzen = wahr Atomare Ereignisse sind erschöpfend und schließen einander aus. KI 13 - Unsicherheit
Wahrscheinlichkeitsaxiome Für alle Aussagen A, B gelten die Kolmogorov-Axiome: 0 ≤ P(A) ≤ 1 P(wahr) = 1 und P(falsch) = 0 P(A B) = P(A) + P(B) - P(A B) KI 13 - Unsicherheit
A-priori-Wahrscheinlichkeit A-priori oder unbedingte Wahrscheinlichkeiten von Aussagen: P(Loch = wahr) = 0.1 und P(Wetter = sonnig) = 0.72 drücken Vermutungen aus, bevor neue Information verfügbar wird. Wahrscheinlichkeitsverteilung gibt Werte für alle möglichen Zuweisungen: P(Wetter) = <0.72, 0.1, 0.08, 0.1> (normalisiert, d.h. Summe = 1) Gemeinsame Wahrscheinlichkeitsverteilung für mehrere Zufallsvariable gibt Wahrscheinlichkeit aller atomaren Ereignisse an: P(Wetter,Loch) ist eine 4 × 2 Matrix von Werten: Wetter = sonnig regnerisch bewölkt schneit Loch = wahr 0.144 0.02 0.016 0.02 Loch = falsch 0.576 0.08 0.064 0.08 Die gemeinsame Wahrscheinlichkeitsverteilung beantwortet alle Fragen über die Domäne !
Bedingte Wahrscheinlichkeit Bedingte oder a-posteriori-Wahrscheinlichkeiten z.B. P(Loch | Zahnschmerzen) = 0.8 d.h. die Information Zahnschmerzen ist gegeben (aber mehr nicht). Notation für bedingte Verteilungen: P(Loch | Zahnschmerzen) = 2-komp. Vektor von 2-komp. Vektoren Falls zudem Loch bekannt ist, gilt P(Loch | Zahnschmerzen,Loch) = 1. Weitere Information kann irrelevant sein: P(Loch | Zahnschmerzen,sonnig) = P(Loch | Zahnschmerzen) = 0.8 Derartige durch Domänenwissen unterstützte Inferenz ist sehr wichtig! KI 13 - Unsicherheit
Bedingte Wahrscheinlichkeit Definition bedingter Wahrscheinlichkeit: P(a | b) = P(a b) / P(b) wenn P(b) > 0 Produktregel ist alternative Formulierung: P(a b) = P(a | b) P(b) = P(b | a) P(a) Die allgemeine Version gilt für ganze Verteilungen, z.B. P(Wetter, Loch) = P(Wetter | Loch) P(Loch) (Dies stellt 4 × 2 separate Gleichungen dar, nicht Matrixmultiplikation !) Kettenregel (abgeleitet durch wiederholte Anwendung der Produktregel): P(X1, …,Xn) = P(X1,...,Xn-1) P(Xn | X1,...,Xn-1) = P(X1,...,Xn-2) P(Xn-1 | X1,...,Xn-2) P(Xn | X1,...,Xn-1) = … = πi= 1n P(Xi | X1, … ,Xi-1) KI 13 - Unsicherheit
Inferenz durch Aufzählung WB: Gemeinsame Wahrscheinlichkeitsverteilung Probabilistische Inferenz: Berechnung der Wahrscheinlichkeit von Aussagen. KI 13 - Unsicherheit
Inferenz durch Aufzählung Gemeinsame Wahrscheinlichkeitsverteilung: KI 13 - Unsicherheit
Inferenz durch Aufzählung Gemeinsame Wahrscheinlichkeitsverteilung: Wahrscheinlichkeit einer Aussage φ ist die Summe der Wahrscheinlichkeiten der entsprechenden atomaren Ereignisse: P(φ) = Σω:ω╞φ P(ω). KI 13 - Unsicherheit
Inferenz durch Aufzählung Gemeinsame Wahrscheinlichkeitsverteilung: Wahrscheinlichkeit einer Aussage φ ist die Summe der Wahrscheinlichkeiten der entsprechenden atomaren Ereignisse: P(φ) = Σω:ω╞φ P(ω). P(Zahnschmerzen) = 0.108 + 0.012 + 0.016 + 0.064 = 0.2 KI 13 - Unsicherheit
Inferenz durch Aufzählung Gemeinsame Wahrscheinlichkeitsverteilung: Wahrscheinlichkeit einer Aussage φ ist die Summe der Wahrscheinlichkeiten der entsprechenden atomaren Ereignisse: P(φ) = Σω:ω╞φ P(ω). P(Zahnschmerzen) = 0.108 + 0.012 + 0.016 + 0.064 = 0.2 P(Zahnschmerzen Loch) = 0.108 + 0.012 + 0.016 + 0.064 + 0.072 + 0.008 = 0.28 KI 13 - Unsicherheit
Inferenz durch Aufzählung Gemeinsame Wahrscheinlichkeitsverteilung: Bedingte Wahrscheinlichkeiten: P(Loch | Zahnschmerzen) = P(Loch Zahnschmerzen) / P(Zahnschmerzen)* = (0.016+0.064) / (0.108 + 0.012 + 0.016 + 0.064) = 0.4 *Da Zahnschmerzen bekannt muss jetzt die linke Tabellenhälfte auf 1 normiert werden. KI 13 - Unsicherheit
Normalisierung Nenner kann als Normalisierungskonstante angesehen werden: α = 1 / P(Zahnschmerzen) P(Loch | Zahnschmerzen) = α P(Loch, Zahnschmerzen) = α [P(Loch, Zahnschmerzen, catch) + P(Loch, Zahnschmerzen, catch)] = α [<0.108, 0.016> + <0.012, 0.064>] = α <0.12, 0.08> = <0.6, 0.4> Idee: Berechne Verteilung der Abfragevariablen (Loch) in Abhängigkeit von Evidenzvariablen (Zahnschmerzen) und Summation über unbeobachtete Variable (Catch).
Inferenz durch Aufzählung Bei einer Menge X von Zufallsvariablen interessieren uns Gemeinsame a-posteriori Verteilungen der Abfragevariablen Y bei gegebenen Werten e für die Evidenzvariablen E. Die unbeobachteten Variablen sind H = X – Y – E, sie werden durch Summation beseitigt: P(Y | E = e) = α P(Y,E = e) = α Σh P(Y, E= e, H = h) Probleme: Worst-case Zeitkomplexität ist für n Variable O(dn), wobei d die größte Stelligkeit (d.h. # Werte) ist. Raumkomplexität O(dn) um die gemeinsame Verteilung zu speichern. Wie findet man die Werte für O(dn) Einträge? KI 13 - Unsicherheit
Unabhängigkeit A und B sind unabhängig wenn gilt: P(A|B) = P(A) oder P(B|A) = P(B) oder P(A, B) = P(A) P(B) Da das Wetter unabhängig von meinen Zähnen ist, gilt: P(Zahnschmerzen, Catch, Loch, Wetter) = P(Zahnschmerzen, Catch, Loch) P(Wetter) Damit reduzieren sich die 32 Werte in der Tabelle der gemeinsamen Wahrscheinlichkeitsverteilung auf 12. KI 13 - Unsicherheit
Unabhängigkeit Weiteres Bsp.: Für n Münzwürfe mit 2n Werten ergibt Unabhängigkeit Reduzierung auf n. Absolute Unabhängigkeit ist sehr nützlich, aber selten. Zahnmedizin ist ein Gebiet mit Hunderten von Variablen, die alle nicht unabhängig sind. Was tun? KI 13 - Unsicherheit
Bedingte Unabhängigkeit P(Zahnschmerzen, Loch, Catch) hat 23 – 1 = 7 unabhängige Wahrscheinlichkeiten (die 8. ist festgelegt, da Summe =1 ). Wenn ein Loch da ist, ist die Wahrscheinlichkeit, dass der Arzt es findet (catch) unabhängig davon, ob ich Zahnschmerzen habe: (1) P(Catch | Zahnschmerzen, loch) = P(Catch | loch) Ebenso liegt Unabhängigkeit vor, wenn kein Loch da ist: (2) P(Catch | Zahnschmerzen, loch) = P(Catch | loch) Nach (1),(2) ist Catch also bedingt unabhängig von Zahnschmerzen für geg. Wert für Loch: P(Catch | Zahnschmerzen, Loch) = P(Catch | Loch) Es ist aber nicht P(Catch | Zahnschmerzen) = P(Catch) P(Zahnschmerzen) ! Denn Catch hängt sehr wohl von Zahnschmerzen ab, solange wir nichts über Loch wissen. KI 13 - Unsicherheit
Bedingte Unabhängigkeit Ebenso wie P(Catch | Zahnschmerzen, Loch) = P(Catch | Loch) gilt: P(Zahnschmerzen | Catch, Loch) = P(Zahnschmerzen | Loch) P(Zahnschmerzen, Catch | Loch) = P(Zahnschmerzen | Loch) P(Catch | Loch) Vollständige gemeinsame Wahrscheinlichkeitsverteilung ergibt sich mittels Kettenregel: P(Zahnschmerzen, Catch, Loch) = P(Zahnschmerzen | Catch, Loch) P(Catch, Loch) = P(Zahnschmerzen | Catch, Loch) P(Catch | Loch) P(Loch) = P(Zahnschmerzen | Loch) P(Catch | Loch) P(Loch) d.h. 2 + 2 + 2 - 1 = 5 unabhängige Werte. KI 13 - Unsicherheit
Bedingte Unabhängigkeit Meist reduziert bedingte Unabhängigkeit die Größe der Repräsentation einer gemeinsamen Verteilung von n Zufallsvariablen von „exponentiell in n“ auf „linear in n“. Bedingte Unabhängigkeit ist eine einfache und robuste Form der Wissensrepräsentation in unsicheren Umgebungen. KI 13 - Unsicherheit
Bayessche Regel Produktregel P(ab) = P(a | b) P(b) = P(b | a) P(a) Bayessche Regel: P(a | b) = P(b | a) P(a) / P(b) Dasselbe für Verteilungen: P(Y|X) = P(X|Y) P(Y) / P(X) = α P(X|Y) P(Y) Nützlich für Berechnung diagnostischer Wahrscheinlichkeit aus kausaler Wahrscheinlichkeit: P(Ursache | Wirkung) = P(Wirkung | Ursache) P(Ursache) / P(Wirkung) Z.B. sei M Meningitis, S sei steifer Nacken: P(M | S) = P(S | M) P(M) / P(S) = 0.8 × 0.0001 / 0.1 = 0.0008 Beachte: A-posteriori Wahrscheinlichkeit für Meningitis ist auch bei Symptom „steifer Nacken“ sehr klein, weil die a-priori Wahrscheinlichkeit für Meningitis klein ist, die a-priori Wahrscheinlichkeit für „steifer Nacken“ dagegen wesentlich größer! KI 13 - Unsicherheit
Bayessche Regel und bedingte Unabhängigkeit Bisher: Schluss auf Ursache aus einer beobachteten Wirkung (= Evidenz) der Form P(M | S) = P(S | M) P(M) / P(S) Wie kann man aus mehreren Evidenzen auf Ursache schließen? Bsp.: Evidenzen = zahnschmerzen, catch. P(Loch | Zahnschmerzen Catch) = α P(Zahnschmerzen Catch | Loch) P(Loch) = α P(Zahnschmerzen | Loch) P(Catch | Loch) P(Loch) P(Loch, Zahnschmerzen, Catch) = P(Zahnschmerzen | Loch) P(Catch | Loch) P(Loch) Dies ist ein Beispiel eines naiven Bayes-Modells der Form P(Ursache,Wirkung1, … ,Wirkungn) = P(Ursache) πi P(Wirkungi | Ursache) KI 13 - Unsicherheit
Bayessche Regel und bedingte Unabhängigkeit Naives Bayes-Modell: P(Ursache,Wirkung1, … ,Wirkungn) = P(Ursache) πi P(Wirkungi | Ursache) Gesamtzahl der Parameter ist linear in n. KI 13 - Unsicherheit
Wumpus-Welt Pij = wahr wenn Pit in [i,j] Bij = wahr wenn Breeze in [i,j] Wir berücksichtigen nur B1,1, B1,2, B2,1 im Wahrscheinlichkeitsmodell. KI 13 - Unsicherheit
Wumpus-Welt: Wahrscheinlichkeits-Modell Vollständige gemeinsame Wahrscheinlichkeitsverteilung: P(P1,1 … P4,4, B1,1, B1,2, B2,1) Wende Produktregel an, um Regeln der Form P(Wirkung | Ursache) zu erhalten: P(B1,1, B1,2, B2,1 | P1,1 … P4,4) P(P1,1 … P4,4) 1. Faktor: 1, falls Pits neben Breeze, sonst 0. 2. Faktor: Ein Feld enthält mit der Wahrscheinlichkeit 0.2 ein Pit, dadurch ergeben sich n Pits: P(P1,1 … P4,4) = Pi,j=1,14,4 P(Pi,j) = 0.2n x 0.816-n KI 13 - Unsicherheit
Wumpus-Welt: Beobachtungen und Anfragen Bekannt: bb = b1,1 b1,2 b2,1 („breezes bekannt“) pb = p1,1 p1,2 p2,1 („pits bekannt“) Anfrage: P(P1,3 | pb, bb) = ? Definiere „pits unbekannt“ pu = Alle Pi,j ohne pb und, P1,3, . Inferenz durch Aufzählung: P(P1,3 | pb, bb) = a Spu P(P1,1 … P4,4, bb) Aufwand wächst exponentiell mit # Felder ! KI 13 - Unsicherheit
Wumpus-Welt: Bedingte Unabhängigkeit Beobachtungen (Breeze) sind bedingt unabhängig von den anderen unbeobachteten Feldern, wenn die Nachbarfelder gegeben sind. Es gilt ub = Fringe Other P(b | P1,1 … P4,4) = P(b | P1,3 , pb, pu) = P(bb | P1,3 , pb, Fringe) (= cf. nächste Folie!) Forme Anfrage so um, dass dies ausgenutzt werden kann! KI 13 - Unsicherheit
Wumpus-Welt: Bedingte Unabhängigkeit P(P1,3 | pb, bb) = a Spu P(P1,1 … P4,4, bb) = a Spu P(P1,3, pb, pu, bb) = a Spu P(b | P1,3 , pb, pu) P(P1,3 , pb, pu) = a Sfringe Sother P(b | P1,3 ,pb,fringe,other) P(P1,3 ,pb,fringe,other) = a Sfringe Sother P(b | P1,3 ,pb,fringe) P(P1,3 ,pb,fringe,other) = a Sfringe P(b | P1,3 ,pb,fringe) SotherP(P1,3 ,pb,fringe,other) = a Sfringe P(b | P1,3 ,pb,fringe) SotherP(P1,3 ) P(pb) P(fringe) P(other) = a P(pb) P(P1,3 ) Sfringe P(b | P1,3 ,pb,fringe) P(fringe) Sother P(other) = a´ P(P1,3 ) Sfringe P(b | P1,3 ,pb,fringe) P(fringe)
Wumpus-Welt: Bedingte Unabhängigkeit P(P1,3 | pb, bb) = a´ P(P1,3 ) Sfringe P(b | P1,3 ,pb,fringe) P(fringe) = a´ <0.2 (0.04 + 0.16 + 0.16), 0,8 (0.04 + 0.16)> @ <0.31, 0.69> P(P2,2 | pb, bb) @ <0.86, 0.14> KI 13 - Unsicherheit
Zusammenfassung Wahrscheinlichkeitstheorie ist ein streng definierter Formalismus für unsicheres Wissen. Die gemeinsame Wahrscheinlichkeitsverteilung spezifiziert die Wahrscheinlichkeit jedes atomaren Ereignisses, sie stellt die WB dar. Abfragen werden durch Summation über Wahrscheinlichkeiten atomarer Ereignisse beantwortet. Die „Werkzeuge“ dafür sind Unabhängigkeit und bedingte Unabhängigkeit von Variablen. KI 13 - Unsicherheit
Zusammenfassung Bisher: Reale Anwendungen: Gemeinsame Wahrscheinlichkeitsverteilung wurde als gegeben angesehen. Inferenz durch Reduktion. Dabei war (bedingte) Unabhängigkeit nützlich. Reale Anwendungen: Gemeinsame Wahrscheinlichkeitsverteilung unbekannt. Unabhängigkeit muss angenommen werden, um die gemeinsame Wahrscheinlichkeitsverteilung aus begrenztem Wissen zu erschließen. KI 13 - Unsicherheit