Ausgleichungsrechnung II Geostatistik Einführung Statistische Grundbegriffe Geostatistische Begriffe Variogramm Explorative Datenanalyse Prädiktion und Krigen Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Was ist Geostatistik? Statistik, die sich auf die Erde bezieht Problem: Erde hält sich nicht immer an mathematisch wünschenswerte Eigenschaften (Stetigkeit) In verschiedenen Geowissenschaften ange-wendet (Geographie, Geologie, Geophysik etc.) Noel Cressie: Statistische Theorie im Zusam-menhang mit Prozessen, die mit räumlichen Indizes behaftet sind. Ausgleichungsrechnung II Gerhard Navratil
Definition Geostatistik (1) Modellierung von Daten als Realisierung eines Zufallsprozesses {Z(x):xD} wobei D der d-dimensionale Raum ist und x darin variieren kann. In der Praxis: Schätzungen aufgrund weniger Proben Ausgleichungsrechnung II Gerhard Navratil
Definition Geostatistik (2) Zeitlich-räumlicher Prozess: Dann definiert über {Z(x,t):xD, tT} Im folgenden: Datenbereich rein räumlich, auch wenn über größerer Zeitraum erhoben Gezeigt wird: Schließen von Daten an bekannten Orten auf den Prozess Ausgleichungsrechnung II Gerhard Navratil
Definition Geostatistik (3) Geostatistik = Anwendung stochastischer Prozesse in den Geowissenschaften Dient Analyse und Modellierung raum-bezogener Daten Bei ‚einfacher‘ Ausgleichungsrechnung Raumbezug nicht verwendet Ausgleichungsrechnung II Gerhard Navratil
Geostatistik = Arbeit im Team Daten verschiedenster Herkunft Teamarbeit, z.B. Geologe, Montanist, Finanzmanager, Statistiker Aufgaben des Statistikers Erstellen eines Probenplanes Zusammenfassen/Visualisieren der Daten Suche nach Ausreißern/räuml. Strukturen Schätzen von Gesamt-/Durchschnittswerten Inter- und Extrapolation Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Beispiele Exploration von Erzlagerstätten oder Erdölvorkommen Analyse von Bodenverunreinigungen Niederschlagsmengen/Temperaturwerte prädizieren Grundwassermodellierung Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Datengewinnung z.B. Entnahme von Bodenproben Erfassung mittels Messgeräten Direkte Beobachtung Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Verwendetes Beispiel Aus Cressie: Statistics for Spatial Data Messungen des Kohlengehaltes auf dem Gelände der Robena-Mine (Pennsylvania) Nahezu regelmäßiger Raster mit einer Maschenweite von 2500ft (~750m) Kein rechteckiges Gebiet Ausgleichungsrechnung II Gerhard Navratil
Statistische Grundbegriffe Momente einer Verteilung Quartil Median Interquartiler Bereich Quantile Ausgleichungsrechnung II Gerhard Navratil
Momente einer Verteilung Mittelwert (Moment 1. Ordnung) Streuung oder Standardabweichung (zentrales Moment 2. Ordnung) Schiefe (zentrales Moment 3. Ordnung) Normalverteilung charakterisiert durch Mittelwert und Streuung – nicht robust! Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Quantil Wert, der den a-Anteil der Daten von den übrigen (1-a) Daten abtrennt: a-Quantil Angabe in Prozent: Perzentil Median: 50%-Perzentil oder 0,5-Quantil Quartile: Unteres Quartil = 0,25-Quantil Oberes Quartil = 0,75-Quantil Ausgleichungsrechnung II Gerhard Navratil
Interquartiler Bereich Bereich zwischen unterem und oberem Quartil (0,75-Quantil – 0,25-Quantil) Umfasst 50% der Daten Vergleichbar mit Streuung – hohe Stabilität Bei exakter Normalverteilung gilt Ausgleichungsrechnung II Gerhard Navratil
Geostatistische Begriffe Regionalisierte Zufallsvariable Zufallsvariable Zufallsprozess Realisierung einer Zufallsvariable Stationarität Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Zufallsvariable Z Ist eine (veränderliche) Größe Wird in einem zufälligen Versuch untersucht Nimmt verschiedene Werte an Hat eine Verteilung (also Erwartungswert, Streuung, etc.) Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Zufallsprozess Z(t) Ist eine Zufallsvariable Nach einem Parameter t geordnet (meist nach der Zeit) Besitzt somit statistische Verteilung und zeitliche Struktur (=Abhängigkeit) Abhängigkeit beschrieben durch Kovarianzfunktion Ausgleichungsrechnung II Gerhard Navratil
Regionalisierte Zufallsvariable Auch: Räumlicher Zufallsprozess Z(x) Zufallsvariable mit räumlicher Struktur Parameter x ist ein Ortsvektor im d-dimensionalen Raum Besitzt somit statistische Verteilung und räumliche Struktur (=Abhängigkeit) Abhängigkeit beschrieben durch Variogramm bzw. Kovariogramm Keine Vergangenheit/Gegenwart/Zukunft Dimension (theoretisch) nicht beschränkt Ausgleichungsrechnung II Gerhard Navratil
Realisierung einer Zufallsvariablen Ist im allgemeinen ein skalarer Wert z(x) Kann ein geometrischer Messwert sein Aber auch: Schadstoffgehalt der Luft, Gesteinsdichte, Lärmpegel, etc. Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Geostatistik Statistische Untersuchung von Daten-sätzen, die mit Orten verknüpft sind, also regionalisierte Zufallsvariablen Annahme: Bestimmte Struktur, also Korrelation zwischen z(x) und z(x+h) Beschrieben durch Variogramm/Kovario-gramm Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Stationarität Bestimmung der Parameter der Ver-teilungsfunktion: Mehrere Datensätze an jedem Punkt nötig Ist meist nicht möglich (mehrere Boden-proben?) oder zu teuer Annahme: Eigenschaften ändern sich nicht mit dem Ort – ist meist erfüllt wenn vorausgehende Transformationen erlaubt (Elimination des Trend) Ausgleichungsrechnung II Gerhard Navratil
Intrinsische Stationarität (1) Für jedes Z(x) existiert ein Erwartungswert E(Z(x)), der unabhängig vom Ort x ist Insbesondere gilt auch also frei von einem Trend Erwartungswert geschätzt aus Proben zu Ausgleichungsrechnung II Gerhard Navratil
Intrinsische Stationarität (2) Für jedes Z(x) existiert eine Varianz Var(Z(x)), die unabhängig vom Ort x ist Varianz kann aus empirischen Proben geschätzt werden zu Ausgleichungsrechnung II Gerhard Navratil
Intrinsische Stationarität (3) Die Varianz der Differenz Z(x1)–Z(x2) ist nur von der relativen Lage der Orte abhängig mit h=x1–x2 Wenn alle drei Bedingungen erfüllt: homogen und isotrop Ausgleichungsrechnung II Gerhard Navratil
Variogramm (1) Beschreibt die Korrelation zwischen räumlich strukturierten Realisierungen einer regionalisierten Zufallsvariablen Für homogene, isotrope Felder definiert als Aus empirischen Daten für Abstand h (lag) geschätzt als Anzahl der Messwertpaare mit Abstand h Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Variogramm (2) Praktische Berechnung: Oft Einteilung in Abstandsklassen - Aus n Werten alle n(n-1)/2 Paare gebildet, für jedes Paar Abstand und Quadrat der Messwertdifferenz gebildet in äquidistente Klassen geteilt Variogrammwert dann Variogramm definiert als 2g, Semi-Variogramm ist g das halbe Variogramm Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Eigenschaften (1) Verhalten im Bereich des Ursprungs: g(0)=0 In der Praxis: Bei Messwerten mit kleinem Abstand tritt Differenz auf = Nugget Effekt Ursachen: Letzte Information zu Nullpunkt extrapoliert, Medium hat kleinste Körnung (Microscale Effect), Messgenauigkeit Microscale und Messgenauigkeit als stochastisch unabhängig modelliert Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Eigenschaften (2) Varianz des Zufallsfeldes Mit wachsendem h steigt das Variogramm Oft ab Schwellenwert konstant (Kovarianz gleich Null) Korrelationsweite (range): Ab hier Differenz zwischen Funktionswert und Varianz kleiner als gewählter Wert e Grenzwert: Schwellenwert (sill) Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Gerhard Navratil
Theoretische Variogramme (1) Nugget Effekt aus kürzesten Paaren er-mittelt, über Paare in bestimmtem Abstand diskrete Funktionswerte für 2g, aber keine eindeutige Funktion! Ergebnis kann sich mit anderen Klassen-größen erheblich ändern Funktion muss bestimmte Bedingungen erfüllen, unterschiedliche Modelle entwickelt Ausgleichungsrechnung II Gerhard Navratil
Theoretische Variogramme (2) Lineares Modell kein Schwellenwert Sphärisches Modell Exponentielles Modell Schwellenwert Ausgleichungsrechnung II Gerhard Navratil
Theoretische Variogramme (3) Rational-quadratisches Modell Wellen-Modell Potenz-Modell Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Linear Spärisch Exponentiell Rational-quadratisch Wellen Potenz Ausgleichungsrechnung II Gerhard Navratil
Anisotrope Variogramme Bisher h immer Vektor – sinnvoll, wenn ab-hängig von Richtung (Staubimmissionen und Wind) Anisotropie oft mit Transformationen behebbar Im Allgemeinen: Isotrope Variogramme mit (d,d)-Matrix A zur Transformation geometrische Anisotropie Ausgleichungsrechnung II Gerhard Navratil
Kovariogramm/Korrelogramm (1) Kovariogramm beschreibt wie Variogramm die räumliche Struktur. Bei Stationarität definiert durch Entspricht Autokovarianzfunktion bei Zeitprozessen Korrelogramm: Normieren, also Ausgleichungsrechnung II Gerhard Navratil
Kovariogramm/Korrelogramm (2) Beziehungen Variogramm und Kovariogramm können ineinander übergeführt werden, wenn stationär Ausgleichungsrechnung II Gerhard Navratil
Explorative Datenanalyse Datenmaterial prüfen auf Ausreißer Verteilung räumliche Struktur Grundsätzlich: Daten, die nicht zum Modell passen, sollen erkannt werden Modell meist Gauß‘sches Modell Ausreißer über bekannte Tests Räumlicher Modellanteil: Daten die nicht zu ihren Nachbarn passen Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Visualisierung Einfache Methoden: Histogramme, Stamm-und-Blatt Darstellung, Box-Plot Kandidaten für Ausreißer über Betrachten der Darstellung Nächster Schritt: Visualisierung der räumlichen Struktur – z.B. Lageplots der Messpunkte, Tabellen mit Messwerten, axonometrische 3D-Darstellung Stationarität, Trend Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II 6 7 003 66678888899 8 00111222222234 56666666788888899999999 9 000000001111122222223333333444444 555555666666666778888888888999999999 10 000000001111111222222333334444444 56666667777788888899999 11 0000011122222223344 5666689 12 568 13 14 15 16 17 Unterscheidet sich stark von den Übrigen Werten – Ausreißer? Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Ausreißer fast nicht sichtbar! Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Trendermittlung (1) Bisherige Methoden: Veranschaulichung Reihen- und spaltenweises Ermitteln von Mittelwert und Median: Trend bzw. nicht stationäre Stellen Stationär: Median = Mittelwert Ausreißer: Überdurchschnittlich große Differenz Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Trendermittlung (2) Annahme: Werte unabhängig und gleich-verteilt, Erwartungswert m, Varianz s, Dichtefunktion f Mittelwert: Median: Es gilt und normiert die Differenz Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Anscheinend Trend in Ost-West-Richtung In einigen Zeilen/Spalten Abstand Mittelwert-Median Groß – Ausreißer? Ausgleichungsrechnung II Gerhard Navratil
Bivariater Scatter-Plot (1) Methode um Ausreißer sichtbar zu machen X-Achse: Werte z(x) Y-Achse: Werte z(x+h) Ausreißer fallen deutlich aus dem Schema Ausgleichungsrechnung II Gerhard Navratil
Bivariater Scatter-Plot (2) Ausgleichungsrechnung II Gerhard Navratil
Prädiktion und Krigen (1) Bisher Daten an vorhandenen Stellen beurteilt Jetzt: Schätzen von Daten an Stellen, an denen nicht gemessen wurde Ausgang: Zufallsprozess von dem n Daten z(xi) erhoben wurden, Daten werden verwendet um Prozess zu beschreiben Ziel: Prädiktion einer bekannten Funktion g Ausgleichungsrechnung II Gerhard Navratil
Prädiktion und Krigen (2) Einfachster Fall: Punktschätzung Häufig auch: Schätzen des Durchschnittes eines Blocks Gestaltung der Funktion ermöglicht Glättung, Filterung und Prädiktion Krigen: Prädiktionsform, abgeleitet von Methode der kleinsten Quadrate Ausgleichungsrechnung II Gerhard Navratil
Prädiktion und Krigen (3) Best: wirksam Linear: lineare Schätzfunktion Unbiased: erwartungstreu Estimator: Schätzer Kollokation war ähnlich aber ohne Erwartungstreue Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Prädiktor (1) Prädiktor p(Z;x0) schätzt Wert Z(x0) auf-grund der Daten Z=(Z(x1), …, Z(xn)) Verlustfunktion (loss function) L(Z(x0),p(Z;x0)) Abweichung tatsächlicher Wert – prädizierter Wert Optimaler Prädiktor, wenn Bayes‘sches Risiko E{L} minimal Häufige Verlustfunktion: Quadratfehler-verlust (squared-error loss) Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Prädiktor (2) Lineare und nicht-lineare Ansätze möglich Im Folgenden: Linear, also Parameter l1, …, ln, k so zu bestimmen, dass Erwartungswert minimal Eingesetzt in Verlustfunktion: Bayes‘sches Risiko wird Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Prädiktor (3) Mit und mit erhalten wir Minimaler Prädiktionsfehler: Diese Form der Prädiktion: Simple Kriging (einfaches Krigen) – nicht erwartungstreu aber geringster Prädiktionsfehler Ausgleichungsrechnung II Gerhard Navratil
Gewöhnliches Krigen (1) Wieder Daten an n Punkten bekannt, Prädiktionsfunktion wie vorher Weitere Annahmen: 1. Bed.: Mittelwert für alle Werte gleich stationärer Zufallsprozess, Beschreibung durch Variogramm 2. Bed.: Erwartungstreue Ausgleichungsrechnung II Gerhard Navratil
Gewöhnliches Krigen (2) Verlustfunktion wie vorher Zu minimieren ist Unter der Bedingung können wir schreiben Ausgleichungsrechnung II Gerhard Navratil
Gewöhnliches Krigen (3) Wenn das Modell gilt, können wir schreiben Ableitung nach li und m gleich Null gesetzt gibt Ausgleichungsrechnung II Gerhard Navratil
Gewöhnliches Krigen (4) In Vektorform Aufgelöst nach li ergibt sich Ergebnis ändert sich nicht, wenn statt Variogramm g(h) das Variogramm g(h)+c verwendet wird (ev. stabilere Numerik) Mittlerer Prädiktionsfehler (Krige-Varianz) Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II A-priori-Prädiktion Wenn Variogramm bekannt, kann ein geplanter Probenplan a priori untersucht werden Notwendige Koeffizienten ergeben sich aus Abstand der Punkte und Variogramm Ausgleichungsrechnung II Gerhard Navratil
Einfluss des Nugget-Effektes (1) Aufgliederung notwendig: Abweichungen d(x) setzen sich zusammen aus stationärem Prozess und Messrauschen: Wenn Z(x) mit dem vorigen Formelapparat prädiziert, dann Wert mit Störeinflüssen eigentlich nur erlaubt wenn e(x)=0 Anteil aufgrund eines stationären Prozesses Anteil aufgrund des Messrauschens Ausgleichungsrechnung II Gerhard Navratil
Einfluss des Nugget-Effektes (2) Richtiger: Messfehlerfreie Version von Z prädizieren (richtiger Wert ist gesucht!) Es gilt oder Dann gilt Zu minimieren ist also Und man kommt auf Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II Universal Kriging Erweitert die Theorie des Ordinary Kriging Statt neue Annahme Summe: Linearkombination aus bekannten Werten mit unbekannten Parametern, die den Mittelwert beschreibt Besteht aus beliebigen Funktionen p, daher sehr universell Ausgleichungsrechnung II Gerhard Navratil
Ausgleichungsrechnung II ENDE Ausgleichungsrechnung II Gerhard Navratil