Geoinformationssysteme

Slides:



Advertisements
Ähnliche Präsentationen
Christian Scheideler SS 2009
Advertisements

Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Stochastik und Markovketten
Maschinelles Lernen Jun. Prof. Dr. Achim Tresch
Masterstudiengang IE (Industrial Engineering)
Maschinelles Lernen   Präsenzübung.
Genetische Algorithmen für die Variogrammanpassung
1 1. Splineglättung 1.1 Motivation 1.2 Notation 1.3 Splineglättung
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Hypothesenprüfung nach Bayes
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
K. Desch - Statistik und Datenanalyse SS05
K. Desch - Statistik und Datenanalyse SS05
Was sind Histogramme? (1)
Statistische Methoden I
Nachholung der Vorlesung vom Freitag
Statistische Methoden II SS 2008
Vorlesung Die Vorlesung Statistische Methoden II nächste Woche vom 6. Juni ( nächste Woche ) wird auf den 4. Juni (Mittwoch) vorverlegt ! 14 – 16 Zeit:
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
Statistische Methoden II SS 2008 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Makarenkostraße (Kiste)
M-L-Schätzer Erwartungswert
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden I SS 2005
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur nächste Woche - statt Vorlesungen -
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird verlegt. Der Nachholtermin wird noch bekannt gegeben.
Bedingte Wahrscheinlichkeiten Die Belegschaft eines Betriebes wird nach Rauchern und Nicht- rauchern eingeteilt. Dabei ergibt sich die folgende Tabelle:
Probeklausur Die Probeklausur findet am anstelle der Vorlesung statt. 13. Juni 2003 Nächste Woche!!
Test auf Normalverteilung
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Binomialverteilung: Beispiel
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Vorlesung: ANOVA I
Wahrscheinlichkeitsrechnung
Eigenschaften der OLS-Schätzer
Variationsformalismus für das freie Teilchen
Effiziente Algorithmen
Ausgleichungsrechnung I
Entscheidung bei Infomationsdefizit: Simultane optimale Alternativensuche und Nutzenpräzisierung o.Univ. Prof. Dkfm. Dr. Wolfgang Janko, WU.
Regionalisierte Variablen und Kriging
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Die Gaußverteilung.
Statistische Lernmethoden
Korpuslinguistik für und mit Computerlinguistik
Kapitel 3 Lineare Regression: Schätzverfahren
Strategie der Modellbildung
Einführung zur Fehlerrechnung

Variogramme und Kriging
K. Desch - Statistik und Datenanalyse SS05
Die Binomialverteilung
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
Kapitel 2: Klassifikation
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
 Präsentation transkript:

Geoinformationssysteme Geoinformationssysteme - Vorlesung 7 - FH Koblenz Geoinformationssysteme 23.11.2009 Prof. Dr. Stefan Hawlitschka

Themen Bayes‘sche Entscheidungstheorie Maximum Likelihood Schätzer Maximum a Posteriori Schätzer Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Bayes‘sche Entscheidungstheorie Kontinuierliche Variablen Wir betrachten mehrere Merkmale mit Merkmalsvektor x im euklidischen Raum Rd. Wir lassen mehr als zwei Klassen zu Die Einführung einer Kostenfunktion ermöglicht, bestimmte Fehlklassifizierungen als schwerwiegender zu bewerten als andere Wir hatten die a posteriori Wahrscheinlichkeit durch die Regel von Bayes definiert: Likelihood A priori Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Bayes‘sche Entscheidungstheorie Wie konstruieren wir die Wahrscheinlichkeitsfunktionen? Beispiel für a priori Wahrscheinlichkeit: wie oft kommt jede Klasse in einer Stichprobe vor (empirische Häufigkeit)? Beispiel für Likelihood: empirische Helligkeitsverteilung p(x|) Daten (Beobachtungen) Empirische Verteilung Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Bayes‘sche Entscheidungstheorie Das Auszählen der Klassenhäufigkeiten liefert meist eine gute Approximation des wahren Priors. Problem: Die empirische Verteilung ist meist eine schlechte Approximation der Likelihood. Es existieren zu wenige Beobachtungen, um insbesondere hochdimensionale Verteilungen zu schätzen Ansatz: Modellannahmen geben zusätzliche Information zur Struktur des Problems, bzw. der Form der Likelihood. Beispiel: Daten D={x1,…,xk} Helligkeit des Seeteufels. Wir suchen die Verteilung der Zufallsvariablen X. Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Bayes‘sche Entscheidungstheorie tatsächliche Dichte von X empirische Dichtefunktion „gelernte“ Dichtefunktion Parameterschätzung (ML): Mittelwert = 179 Standardabw. = 9.5 Modellannahme: X ist eine normalverteilte Zufallsvariable N(μ,σ2) Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Die Gauß (Normal-) Verteilung Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Die Gauß-Verteilung Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Die Gauß-Verteilung Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Bayes‘sche Entscheidungstheorie Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Bayes‘sche Entscheidungstheorie Loss Funktion und Risk Seien {1,…,c} die c wahren Zustände und {1,…,a} a mögliche Aktionen (Entscheidungen) Loss: Die loss function (kurz: loss) (i|j) gibt die mit der Entscheidung i(x) verbundenen Kosten (cost) an, wenn die wahre Klassenzugehörigkeit durch wj gegeben ist Risk: Der Erwartungswert einer loss-Funktion wird risk R genannt. Da P(j|x) die Wahrscheinlichkeit für das Auftreten der Klasse i ist, definieren wir für c Klassen i: Wenn wir die Daten x messen, können wir die Kosten minimieren, indem wir die Aktion i wählen, welche die riskfunktion minimiert. Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Bayes‘sche Entscheidungstheorie Bei kontinuierlichen Variablen x wird die loss function zu einer Entscheidungsfunktion (x) für die Werte 1,…,a. Das Gesamtrisiko R ergibt sich zu Wenn (x) so gewählt ist, dass jedes einzelne R(i(x)) minimal für jedes x ist, ist sicherlich R minimal. Die Bayes Entscheidungsregel lautet also: Berechne die bedingten riskfunktionen und wähle die Aktion, bei welcher R(i(x)) minimal ist. Das resultierende Gesamtrisiko R* heißt Bayes risk und die beste erreichbare Lösung Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Bayes‘sche Entscheidungstheorie Beispiel: Zwei Kategorien Klassifikation 1 ist die Entscheidung für Klasse 1 2 die Entscheidung für Klasse 2 ij sind die Kosten für die Entscheidung für Klasse i, wenn j vorliegt. Wir schreiben die bedingten Risikofunktionen aus: Üblicherweise würde man sich für 1 entscheiden, wenn R(1|x)< R(2|x). Wenn man dies in den a posteriori Wahrscheinlichkeiten ausdrückt, ergibt sich: Wenn die  richtig definiert worden sind, sind 21-11 und 12-22 positiv. In Praxis ist unsere Entscheidung den wahrscheinlicheren Zustand definiert, und wir können nach obiger Ungleichung die Wahrscheinlichkeiten mit den Differenzen der Loss-Funktionen skalieren. Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Bayes‘sche Entscheidungstheorie Nach Anwendung der Regel von Bayes können wir die Entscheidungsregel schreiben als: Wir entscheiden uns für 1, falls und für 2 andernfalls. Alternative Schreibweise: Dies ist die Likelihood Ratio und ist eine Entscheidungsregel, welche auf den Likelihood Funktionen der gemessenen Daten x basiert. Wir entscheiden uns für \omega_1, falls die Likelihood ratio eine vorgegebene Schwelle übersteigt. Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Bayes‘sche Entscheidungstheorie Loss functions können unterschiedlich definiert werden. Bei der Regression sind es die quadratischen Abstände von der Ausgleichsgeraden. Hier werden die Abweichungen quadratisch gewertet. Wenn bei einer Klassifikation alle Fehlklassifikationen gleich gewichtet werden sollen, wird die so genannte symmetrische oder null-eins loss Funktion angewendet: Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Bayes‘sche Entscheidungstheorie Bei der 0-1 loss Funktion werden alle Fehler gleich gewichtet und die risk function ist gleich der mittleren Fehlerwahrscheinlichkeit Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

ML Schätzer für Gauß-Verteilung Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

ML Schätzer für Gauß-Verteilung Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

MAP Schätzer für Gauß-Verteilung Wir wollen P(μ|D) ∝ P(D| μ) P(μ) maximieren. Spezifikation des Priors: P(μ) ~N(μ0,σ02) , μ0 und σ02 sind festgelegt P(μ|D) Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

MAP Schätzer für Gauß-Verteilung Somit hat p(μ|D) die Gestalt Koeffizientenvergleich ergibt: und , wobei

MAP Schätzer für Gauß-Verteilung Auflösen nach μn, σn ergibt (mit ) : 0 für n∞ 1 für n∞ 0 für n∞ p(μ|D) nimmt bei μn sein Maximum an, somit ist μn der MAP-Schätzer. Für n∞ geht dieser in den ML-Schätzer μ = über. Der Posterior versammelt seine Masse mit n∞ immer enger um μn. Mit zunehmendem n wird der Einfluss des Priors (μ0,σ0) auf den Posterior bzw. den MAP-Schätzer immer geringer.

MAP Schätzer für Gauß-Verteilung Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009

Vielen Dank für Ihre Aufmerksamkeit! Geoinformationssysteme - Vorlesung 7 - FH Koblenz 23.11.2009