Ausgleichungsrechnung II

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Univariate Statistik M. Kresken.
Masterstudiengang IE (Industrial Engineering)
Genetische Algorithmen für die Variogrammanpassung
Modellierung und Schätzung von Variogrammen
Seminar „Extrapolationsmethoden für zufällige Felder“
1 1. Splineglättung 1.1 Motivation 1.2 Notation 1.3 Splineglättung
Numerik partieller Differentialgleichungen
Gliederung Definition des Wahrscheinlichkeitsbegriffes
Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.
Portfoliomodelle Faktormodelle
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
K. Desch - Statistik und Datenanalyse SS05
Zeitreihenanalyse WS 2004/2005 Michael Hauhs / Gunnar Lischeid
Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.
Konfidenzintervalle Intervallschätzung
M-L-Schätzer Erwartungswert
Mögliche Funktionenklassen
Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Datenmatrix.
Häufigkeiten Gegeben ist eine Datenliste (Urliste) (hier z. B. die Klausur-Noten von 50 Studenten)
Streuungsparameter für Median Mittlere Abweichung vom Median Die Ungleichung gilt für jede Konstante c.
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Univariate Statistik M. Kresken.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Tutorium
Tutorium
Diskrete Wahrscheinlichkeitsmodelle
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Wiederholung und Beispiele
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Binomialverteilung: Beispiel
Vorlesung: ANOVA I
Wahrscheinlichkeitsrechnung
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Variationsformalismus für das freie Teilchen
Histogramm/empirische Verteilung Verteilungen
Ausgleichungsrechnung I
Ausgleichungsrechnung II
Ausgleichungsrechnung I
Regionalisierte Variablen und Kriging
STATISIK LV Nr.: 0028 SS Mai 2005.
Kapitel 13 Zeitreihen und Zeitreihen-Modelle
Kapitel 10 Multikollinearität
Kapitel 13 Zeitreihen und Zeitreihen-Modelle
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Wie bewältigt man Stationaritätsannahmen in der Geostatistik? Brenning & van den Boogaart A.Brenning, Humboldt-Universität zu Berlin
Ausgleichungsrechnung
Regression und Kollokation
Data Mining Georg Pölzlbauer.
Statistik – Regression - Korrelation
Einführung zur Fehlerrechnung
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
Meßreihe: Modellansatz
Variogramme und Kriging
setzt Linearität des Zusammenhangs voraus
Deterministische Verfahren
Geostatistik Kriging Sarah Böckmann.
Der Wiener Prozess und seltene Ereignisse
Die Dynamik von abgeleiteten Preisen Stochastische Differentialgleichungen.
Geoinformationssysteme
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
 Präsentation transkript:

Ausgleichungsrechnung II Geostatistik Einführung Statistische Grundbegriffe Geostatistische Begriffe Variogramm Explorative Datenanalyse Prädiktion und Krigen Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Was ist Geostatistik? Statistik, die sich auf die Erde bezieht Problem: Erde hält sich nicht immer an mathematisch wünschenswerte Eigenschaften (Stetigkeit) In verschiedenen Geowissenschaften ange-wendet (Geographie, Geologie, Geophysik etc.) Noel Cressie: Statistische Theorie im Zusam-menhang mit Prozessen, die mit räumlichen Indizes behaftet sind. Ausgleichungsrechnung II Gerhard Navratil

Definition Geostatistik (1) Modellierung von Daten als Realisierung eines Zufallsprozesses {Z(x):xD} wobei D der d-dimensionale Raum ist und x darin variieren kann. In der Praxis: Schätzungen aufgrund weniger Proben Ausgleichungsrechnung II Gerhard Navratil

Definition Geostatistik (2) Zeitlich-räumlicher Prozess: Dann definiert über {Z(x,t):xD, tT} Im folgenden: Datenbereich rein räumlich, auch wenn über größerer Zeitraum erhoben Gezeigt wird: Schließen von Daten an bekannten Orten auf den Prozess Ausgleichungsrechnung II Gerhard Navratil

Definition Geostatistik (3) Geostatistik = Anwendung stochastischer Prozesse in den Geowissenschaften Dient Analyse und Modellierung raum-bezogener Daten Bei ‚einfacher‘ Ausgleichungsrechnung Raumbezug nicht verwendet Ausgleichungsrechnung II Gerhard Navratil

Geostatistik = Arbeit im Team Daten verschiedenster Herkunft  Teamarbeit, z.B. Geologe, Montanist, Finanzmanager, Statistiker Aufgaben des Statistikers Erstellen eines Probenplanes Zusammenfassen/Visualisieren der Daten Suche nach Ausreißern/räuml. Strukturen Schätzen von Gesamt-/Durchschnittswerten Inter- und Extrapolation Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Beispiele Exploration von Erzlagerstätten oder Erdölvorkommen Analyse von Bodenverunreinigungen Niederschlagsmengen/Temperaturwerte prädizieren Grundwassermodellierung Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Datengewinnung z.B. Entnahme von Bodenproben Erfassung mittels Messgeräten Direkte Beobachtung Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Verwendetes Beispiel Aus Cressie: Statistics for Spatial Data Messungen des Kohlengehaltes auf dem Gelände der Robena-Mine (Pennsylvania) Nahezu regelmäßiger Raster mit einer Maschenweite von 2500ft (~750m) Kein rechteckiges Gebiet Ausgleichungsrechnung II Gerhard Navratil

Statistische Grundbegriffe Momente einer Verteilung Quartil Median Interquartiler Bereich Quantile Ausgleichungsrechnung II Gerhard Navratil

Momente einer Verteilung Mittelwert (Moment 1. Ordnung) Streuung oder Standardabweichung (zentrales Moment 2. Ordnung) Schiefe (zentrales Moment 3. Ordnung) Normalverteilung charakterisiert durch Mittelwert und Streuung – nicht robust! Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Quantil Wert, der den a-Anteil der Daten von den übrigen (1-a) Daten abtrennt: a-Quantil Angabe in Prozent: Perzentil Median: 50%-Perzentil oder 0,5-Quantil Quartile: Unteres Quartil = 0,25-Quantil Oberes Quartil = 0,75-Quantil Ausgleichungsrechnung II Gerhard Navratil

Interquartiler Bereich Bereich zwischen unterem und oberem Quartil (0,75-Quantil – 0,25-Quantil) Umfasst 50% der Daten Vergleichbar mit Streuung – hohe Stabilität Bei exakter Normalverteilung gilt Ausgleichungsrechnung II Gerhard Navratil

Geostatistische Begriffe Regionalisierte Zufallsvariable Zufallsvariable Zufallsprozess Realisierung einer Zufallsvariable Stationarität Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Zufallsvariable Z Ist eine (veränderliche) Größe Wird in einem zufälligen Versuch untersucht Nimmt verschiedene Werte an Hat eine Verteilung (also Erwartungswert, Streuung, etc.) Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Zufallsprozess Z(t) Ist eine Zufallsvariable Nach einem Parameter t geordnet (meist nach der Zeit) Besitzt somit statistische Verteilung und zeitliche Struktur (=Abhängigkeit) Abhängigkeit beschrieben durch Kovarianzfunktion Ausgleichungsrechnung II Gerhard Navratil

Regionalisierte Zufallsvariable Auch: Räumlicher Zufallsprozess Z(x) Zufallsvariable mit räumlicher Struktur Parameter x ist ein Ortsvektor im d-dimensionalen Raum Besitzt somit statistische Verteilung und räumliche Struktur (=Abhängigkeit) Abhängigkeit beschrieben durch Variogramm bzw. Kovariogramm Keine Vergangenheit/Gegenwart/Zukunft Dimension (theoretisch) nicht beschränkt Ausgleichungsrechnung II Gerhard Navratil

Realisierung einer Zufallsvariablen Ist im allgemeinen ein skalarer Wert z(x) Kann ein geometrischer Messwert sein Aber auch: Schadstoffgehalt der Luft, Gesteinsdichte, Lärmpegel, etc. Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Geostatistik Statistische Untersuchung von Daten-sätzen, die mit Orten verknüpft sind, also regionalisierte Zufallsvariablen Annahme: Bestimmte Struktur, also Korrelation zwischen z(x) und z(x+h) Beschrieben durch Variogramm/Kovario-gramm Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Stationarität Bestimmung der Parameter der Ver-teilungsfunktion: Mehrere Datensätze an jedem Punkt nötig Ist meist nicht möglich (mehrere Boden-proben?) oder zu teuer Annahme: Eigenschaften ändern sich nicht mit dem Ort – ist meist erfüllt wenn vorausgehende Transformationen erlaubt (Elimination des Trend) Ausgleichungsrechnung II Gerhard Navratil

Intrinsische Stationarität (1) Für jedes Z(x) existiert ein Erwartungswert E(Z(x)), der unabhängig vom Ort x ist Insbesondere gilt auch also frei von einem Trend Erwartungswert geschätzt aus Proben zu Ausgleichungsrechnung II Gerhard Navratil

Intrinsische Stationarität (2) Für jedes Z(x) existiert eine Varianz Var(Z(x)), die unabhängig vom Ort x ist Varianz kann aus empirischen Proben geschätzt werden zu Ausgleichungsrechnung II Gerhard Navratil

Intrinsische Stationarität (3) Die Varianz der Differenz Z(x1)–Z(x2) ist nur von der relativen Lage der Orte abhängig mit h=x1–x2 Wenn alle drei Bedingungen erfüllt: homogen und isotrop Ausgleichungsrechnung II Gerhard Navratil

Variogramm (1) Beschreibt die Korrelation zwischen räumlich strukturierten Realisierungen einer regionalisierten Zufallsvariablen Für homogene, isotrope Felder definiert als Aus empirischen Daten für Abstand h (lag) geschätzt als Anzahl der Messwertpaare mit Abstand h Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Variogramm (2) Praktische Berechnung: Oft Einteilung in Abstandsklassen - Aus n Werten alle n(n-1)/2 Paare gebildet, für jedes Paar Abstand und Quadrat der Messwertdifferenz gebildet  in äquidistente Klassen geteilt Variogrammwert dann Variogramm definiert als 2g, Semi-Variogramm ist g das halbe Variogramm Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Eigenschaften (1) Verhalten im Bereich des Ursprungs: g(0)=0 In der Praxis: Bei Messwerten mit kleinem Abstand tritt Differenz auf = Nugget Effekt Ursachen: Letzte Information zu Nullpunkt extrapoliert, Medium hat kleinste Körnung (Microscale Effect), Messgenauigkeit Microscale und Messgenauigkeit als stochastisch unabhängig modelliert Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Eigenschaften (2) Varianz des Zufallsfeldes Mit wachsendem h steigt das Variogramm Oft ab Schwellenwert konstant (Kovarianz gleich Null) Korrelationsweite (range): Ab hier Differenz zwischen Funktionswert und Varianz kleiner als gewählter Wert e Grenzwert: Schwellenwert (sill) Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Gerhard Navratil

Theoretische Variogramme (1) Nugget Effekt aus kürzesten Paaren er-mittelt, über Paare in bestimmtem Abstand diskrete Funktionswerte für 2g, aber keine eindeutige Funktion! Ergebnis kann sich mit anderen Klassen-größen erheblich ändern Funktion muss bestimmte Bedingungen erfüllen, unterschiedliche Modelle entwickelt Ausgleichungsrechnung II Gerhard Navratil

Theoretische Variogramme (2) Lineares Modell kein Schwellenwert Sphärisches Modell Exponentielles Modell Schwellenwert Ausgleichungsrechnung II Gerhard Navratil

Theoretische Variogramme (3) Rational-quadratisches Modell Wellen-Modell Potenz-Modell Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Linear Spärisch Exponentiell Rational-quadratisch Wellen Potenz Ausgleichungsrechnung II Gerhard Navratil

Anisotrope Variogramme Bisher h immer Vektor – sinnvoll, wenn ab-hängig von Richtung (Staubimmissionen und Wind) Anisotropie oft mit Transformationen behebbar Im Allgemeinen: Isotrope Variogramme mit (d,d)-Matrix A zur Transformation  geometrische Anisotropie Ausgleichungsrechnung II Gerhard Navratil

Kovariogramm/Korrelogramm (1) Kovariogramm beschreibt wie Variogramm die räumliche Struktur. Bei Stationarität definiert durch Entspricht Autokovarianzfunktion bei Zeitprozessen Korrelogramm: Normieren, also Ausgleichungsrechnung II Gerhard Navratil

Kovariogramm/Korrelogramm (2) Beziehungen Variogramm und Kovariogramm können ineinander übergeführt werden, wenn stationär Ausgleichungsrechnung II Gerhard Navratil

Explorative Datenanalyse Datenmaterial prüfen auf Ausreißer Verteilung räumliche Struktur Grundsätzlich: Daten, die nicht zum Modell passen, sollen erkannt werden Modell meist Gauß‘sches Modell Ausreißer über bekannte Tests Räumlicher Modellanteil: Daten die nicht zu ihren Nachbarn passen Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Visualisierung Einfache Methoden: Histogramme, Stamm-und-Blatt Darstellung, Box-Plot Kandidaten für Ausreißer über Betrachten der Darstellung Nächster Schritt: Visualisierung der räumlichen Struktur – z.B. Lageplots der Messpunkte, Tabellen mit Messwerten, axonometrische 3D-Darstellung  Stationarität, Trend Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II 6 7 003 66678888899 8 00111222222234 56666666788888899999999 9 000000001111122222223333333444444 555555666666666778888888888999999999 10 000000001111111222222333334444444 56666667777788888899999 11 0000011122222223344 5666689 12 568 13 14 15 16 17 Unterscheidet sich stark von den Übrigen Werten – Ausreißer? Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Ausreißer fast nicht sichtbar! Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Trendermittlung (1) Bisherige Methoden: Veranschaulichung Reihen- und spaltenweises Ermitteln von Mittelwert und Median: Trend bzw. nicht stationäre Stellen Stationär: Median = Mittelwert Ausreißer: Überdurchschnittlich große Differenz Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Trendermittlung (2) Annahme: Werte unabhängig und gleich-verteilt, Erwartungswert m, Varianz s, Dichtefunktion f Mittelwert: Median: Es gilt und normiert die Differenz Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Anscheinend Trend in Ost-West-Richtung In einigen Zeilen/Spalten Abstand Mittelwert-Median Groß – Ausreißer? Ausgleichungsrechnung II Gerhard Navratil

Bivariater Scatter-Plot (1) Methode um Ausreißer sichtbar zu machen X-Achse: Werte z(x) Y-Achse: Werte z(x+h) Ausreißer fallen deutlich aus dem Schema Ausgleichungsrechnung II Gerhard Navratil

Bivariater Scatter-Plot (2) Ausgleichungsrechnung II Gerhard Navratil

Prädiktion und Krigen (1) Bisher Daten an vorhandenen Stellen beurteilt Jetzt: Schätzen von Daten an Stellen, an denen nicht gemessen wurde Ausgang: Zufallsprozess von dem n Daten z(xi) erhoben wurden, Daten werden verwendet um Prozess zu beschreiben Ziel: Prädiktion einer bekannten Funktion g Ausgleichungsrechnung II Gerhard Navratil

Prädiktion und Krigen (2) Einfachster Fall: Punktschätzung Häufig auch: Schätzen des Durchschnittes eines Blocks Gestaltung der Funktion ermöglicht Glättung, Filterung und Prädiktion Krigen: Prädiktionsform, abgeleitet von Methode der kleinsten Quadrate Ausgleichungsrechnung II Gerhard Navratil

Prädiktion und Krigen (3) Best: wirksam Linear: lineare Schätzfunktion Unbiased: erwartungstreu Estimator: Schätzer Kollokation war ähnlich aber ohne Erwartungstreue Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Prädiktor (1) Prädiktor p(Z;x0) schätzt Wert Z(x0) auf-grund der Daten Z=(Z(x1), …, Z(xn)) Verlustfunktion (loss function) L(Z(x0),p(Z;x0)) Abweichung tatsächlicher Wert – prädizierter Wert Optimaler Prädiktor, wenn Bayes‘sches Risiko E{L} minimal Häufige Verlustfunktion: Quadratfehler-verlust (squared-error loss) Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Prädiktor (2) Lineare und nicht-lineare Ansätze möglich Im Folgenden: Linear, also Parameter l1, …, ln, k so zu bestimmen, dass Erwartungswert minimal Eingesetzt in Verlustfunktion: Bayes‘sches Risiko wird Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Prädiktor (3) Mit und mit erhalten wir Minimaler Prädiktionsfehler: Diese Form der Prädiktion: Simple Kriging (einfaches Krigen) – nicht erwartungstreu aber geringster Prädiktionsfehler Ausgleichungsrechnung II Gerhard Navratil

Gewöhnliches Krigen (1) Wieder Daten an n Punkten bekannt, Prädiktionsfunktion wie vorher Weitere Annahmen: 1. Bed.: Mittelwert für alle Werte gleich  stationärer Zufallsprozess, Beschreibung durch Variogramm 2. Bed.: Erwartungstreue Ausgleichungsrechnung II Gerhard Navratil

Gewöhnliches Krigen (2) Verlustfunktion wie vorher Zu minimieren ist Unter der Bedingung können wir schreiben Ausgleichungsrechnung II Gerhard Navratil

Gewöhnliches Krigen (3) Wenn das Modell gilt, können wir schreiben Ableitung nach li und m gleich Null gesetzt gibt Ausgleichungsrechnung II Gerhard Navratil

Gewöhnliches Krigen (4) In Vektorform Aufgelöst nach li ergibt sich Ergebnis ändert sich nicht, wenn statt Variogramm g(h) das Variogramm g(h)+c verwendet wird (ev. stabilere Numerik) Mittlerer Prädiktionsfehler (Krige-Varianz) Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II A-priori-Prädiktion Wenn Variogramm bekannt, kann ein geplanter Probenplan a priori untersucht werden Notwendige Koeffizienten ergeben sich aus Abstand der Punkte und Variogramm Ausgleichungsrechnung II Gerhard Navratil

Einfluss des Nugget-Effektes (1) Aufgliederung notwendig: Abweichungen d(x) setzen sich zusammen aus stationärem Prozess und Messrauschen: Wenn Z(x) mit dem vorigen Formelapparat prädiziert, dann Wert mit Störeinflüssen  eigentlich nur erlaubt wenn e(x)=0 Anteil aufgrund eines stationären Prozesses Anteil aufgrund des Messrauschens Ausgleichungsrechnung II Gerhard Navratil

Einfluss des Nugget-Effektes (2) Richtiger: Messfehlerfreie Version von Z prädizieren (richtiger Wert ist gesucht!) Es gilt oder Dann gilt Zu minimieren ist also Und man kommt auf Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II Universal Kriging Erweitert die Theorie des Ordinary Kriging Statt neue Annahme Summe: Linearkombination aus bekannten Werten mit unbekannten Parametern, die den Mittelwert beschreibt Besteht aus beliebigen Funktionen p, daher sehr universell Ausgleichungsrechnung II Gerhard Navratil

Ausgleichungsrechnung II ENDE Ausgleichungsrechnung II Gerhard Navratil