Zeitreihenanalyse WS 2003/2004 Michael Hauhs/ Holger Lange

Slides:



Advertisements
Ähnliche Präsentationen
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Advertisements

Masterstudiengang IE (Industrial Engineering)
Modellierung und Schätzung von Variogrammen
Zeitreihen Gliederung Allgemeines zu Zeitreihen
Heute Prüfung der Produkt-Moment Korrelation
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Tobias Lauer.
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Computerkurs: Quantitative Auswertung biochemischer Experimente Tag 8 Einführung in die numerische Integration Aufgabe 18: Simulation einer Assoziationskinetik.
Portfoliomodelle Faktormodelle
K. Desch - Statistik und Datenanalyse SS05
Zeitreihenanalyse WS 2004/2005 Michael Hauhs / Gunnar Lischeid
Zeitreihenanalyse WS 2004/2005 Michael Hauhs / Gunnar Lischeid
Modellbildung in der Geoökologie (G5, 103) SS 2004
Bruchpunktanalyse langzeitkorrelierter Daten
Zeitreihenanalyse WS 2004/2005 Michael Hauhs / Gunnar Lischeid
Zeitreihenanalyse WS 2004/2005 Michael Hauhs / Gunnar Lischeid
Modellbildung in der Geoökologie (G5, 103) SS 2004
Entwicklung von Simulationsmodellen WS 2007/08 Dr. Falk-Juri Knauft Mittwoch 9.15 Uhr – Uhr S25 Praktikum zur Entwicklung von Simulationsmodellen:
Entwicklung von Simulationsmodellen WS 2007/08 Dr. Falk-Juri Knauft Mittwoch 9.15 Uhr – Uhr S25 Praktikum zur Entwicklung von Simulationsmodellen:
Entwicklung von Simulationsmodellen
Entwicklung von Simulationsmodellen WS 2007/08 Dr. Falk-Juri Knauft Mittwoch 9.15 Uhr – Uhr S25 Praktikum zur Entwicklung von Simulationsmodellen:
Entwicklung von Simulationsmodellen
Statistische Methoden I
Nachholung der Vorlesung vom Freitag
Statistische Methoden II SS 2008
Vorlesung Die Vorlesung Statistische Methoden II nächste Woche vom 6. Juni ( nächste Woche ) wird auf den 4. Juni (Mittwoch) vorverlegt ! 14 – 16 Zeit:
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
Statistische Methoden II SS 2008 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Makarenkostraße (Kiste)
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden I WS 2004/2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße.
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden II SS 2003
Statistische Methoden I WS 2002/2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße.
Probeklausur Die Probeklausur findet am anstelle der Vorlesung statt. 13. Juni 2003 Nächste Woche!!
Univariate Statistik M. Kresken.
Tutorium
Tutorium
Wiederholung und Beispiele
Binomialverteilung: Beispiel
Vorlesung: ANOVA I
(Un-)sicherheiten in der Ökosystemmodellierung
Stochastische Prozesse I
Ausgleichungsrechnung I
Partielle Autokorrelation
Ausgleichungsrechnung II
Chi Quadrat Test Tamara Katschnig.
Regionalisierte Variablen und Kriging
STATISIK LV Nr.: 0028 SS Mai 2005.
Statistik: Mehr zur Regression.
Kapitel 13 Zeitreihen und Zeitreihen-Modelle
Kapitel 13 Zeitreihen und Zeitreihen-Modelle
Multivariate Statistische Verfahren
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
3.3 Moving-Average-Prozesse (MA-Modelle)
Statistik – Regression - Korrelation
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
Meßreihe: Modellansatz
setzt Linearität des Zusammenhangs voraus
K. Desch - Statistik und Datenanalyse SS05
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.
Testtheorie (Vorlesung 14: ) Testtheorie allgemein:  Ziele und Inhalte der Testtheorie:  Beurteilung der Eigenschaften von Tests  Speziell: Güte.
Ausgleich nach der Methode der kleinsten Quadrate
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
 Präsentation transkript:

Zeitreihenanalyse WS 2003/2004 Michael Hauhs/ Holger Lange http://www.bitoek.uni-bayreuth.de/mod/html/ws0204/geooekologie/zeitreihenanalyse/ Definition einer Zeitreihe, Eigenschaften Tests und Trenderkennung bei Zeitreihen Fouriertransformationen, Powerspektrum, Lomb-Scargle Methode Zeitreihenmodellierung der ARMA-Klasse Modellierung von Zeitreihen mit langem Gedächtnis Kausalität, Transferfunktionen, multivariate Methoden Skalierung, (Multi-)Fraktale Komplexität und Information von Zeitreihen Wavelets Für den genaueren Terminplan s. die Web-Seiten

Kontexte der Veranstaltung Wissenschaften komplexer Systeme Biologie Ökologie Sozial- Wirtschaftswissenschaften Wissenschaften einfacher Systeme Physik Chemie Mathematik Analyse von Strukturen Ökosystem Realisation & Kontrolle von Verhalten Ingenieur-Wissenschaften Informatik Umwelttechnik Kreislaufwirtschaft Nutzungstraditionen Land- Forstwirtschaft Wasserwirtschaft Naturschutz

Kontexte der Veranstaltung Das Lehrangebot der Ökologischen Modellbildung Wissenschaften einfacher Systeme Wissenschaften komplexer Systeme Modellbildung in der Geoökologie G5 Einführung Ökologie G5 Zeitreihenanalyse M103, 409, 509 Ökologische Modellbildung M103 Spezial-Wissenschaften: Biogeografie Bodenkunde Geologie Hydrologie Meteorologie Toxikologie ... Entwicklung von Simulations- Modellen M103 Ingenieur-Wissenschaften Nutzungstraditionen

Lehrveranstaltungen im WS 04/05 Zeitreihenanalyse (Do 11-13): Methoden Auswertung von Monitoringdaten, die internen Prozesse der zugehörigen Systeme sind unbekannt. Praktikum am Ende des Semesters Umweltinformationssysteme (Mi 8-10) Methoden zu Organisation und Bewertung von Daten und Abläufen im Umweltbereich Simulation von sozialen und ökologischen Systemen (28-30.1.05 Wallenfels) Agentensimulationen, zusammen mit P&E (Hegselmann) Mustererkennung in der Fernerkundung terrestrischer Ökosysteme (Lange/Lischeid) Blockseminar, nach Vereinbarung Entwicklung von Simulationsmodellen (M103) (Knauft) (Di 12-13, Mi 14-17) Vorlesung (1) mit Praktikum (3) zum Erlernen einer Simulationssprache (Vensim)

Literatur zum Thema K.W. Hipel und A.I. McLeod: Time Series Modelling of Water Resources and Environmental Systems, Elsevier 1994 H. Tong: Non-linear Time Series, Oxford Science Publ. 1990 R. Schlittgen: Angewandte Zeitreihenanalyse, Oldenbourg 2001 Brillinger, D.R. (1981): Time Series. Data Analysis and Theory. J. Honerkamp: Stochastic Dynamical Systems, VCH 1994 Aus diesen Büchern sowie eigenen Arbeiten und Methoden rekrutiert sich das hier präsentierte Material. Es gibt aber noch viele andere Publikationen zum Thema auf technisch sehr unterschiedlichem Niveau. Viele Lehrbücher haben einen wirtschafts- oder sozialwissenschaftlichen Hintergrund; in der Physik wird die Zeitreihenanalyse i.a. nicht als eigenständiges Gebiet, sondern als Teil der Statistischen Physik aufgefasst; in den Geowissenschaften und der Ökosystemforschung gibt es nur sehr wenig einführende Texte dieses Themas. Hier stellt das Buch von Hipel und McLeod eine primäre Referenz dar; allerdings beschränkt es sich zu großen Teilen auf lineare Modelle und ist in der Darstellung z.T. veraltet. Bezüglich des mathematischen Niveaus ergibt sich folgende Reihung von unten nach oben: Schlittgen – Kantz und Schreiber – Hipel und McLeod – Honerkamp – Tong. Die beiden letzten richten sich dementsprechend stärker an den theorieinteressierten Leser als den „Nur-Anwender“.

Wozu Zeitreihenanalyse ? Direkteste Verbindung zur experimentellen Beschreibung von Systemen (Datenerhebung) kommt (i.d.R.) ohne Annahme von Prozessen aus kommt mit gar keinem bis wenigen Parametern aus konkrete empirische Beschreibung des zeitlich variablen (dynamischen) Verhaltens Vorhersage oft erfolgreicher als bei Prozessmodellen Klassifikation von Modellen nach ihrer Erklärungsleistung Sensibler Test von Modellen ("mehr als r2")

Zugänge aus der Physik: Suche nach der Dynamik des erzeugenden Systems (z.B. Geophysik, Meteorologie) der typische Zugang in den Geowissenschaften aus der Mathematik: als Beispiel für geordnete (oder partiell geordnete) Mengen aus den Ingenieurwissenschaften (z.B. Hydrologie): als Ausdruck des empirischen Wissens (Abflüsse) aus der Modellbildung: als wichtiges Beispiel zur Demonstration der heutigen technischen Möglichkeiten gibt es einen typischen Zugang für Ökosysteme ?

Was ist eine Zeitreihe? Definition: Eine Zeitreihe ist eine Menge von Werten, die in einer festgelegten (und bekannten!) Reihenfolge vorliegen: Die Zuordnung der Werteposition zum Referenzzeitpunkt ist eine monotone Funktion Ist der zeitliche Abstand zweier Messungen konstant: heißt die Zeitreihe äquidistant. Es gilt dann Fehlt ein i in dieser Liste, hat die Zeitreihe eine Lücke. Wie behandelt man Lücken? Was ist eine Lücke bei Nicht-Äquidistanz?

Eigenschaften und Bezeichnungen bei Zeitreihen Univariate Zeitreihe: Eine (reellwertige) Variable an einem Ort gemessen Multivariate Zeitreihe: mehrere Variablen am selben Ort Mehrdimensionale Zeitreihe: eine Variable an verschiedenen Orten zu jeweils gleichen Zeitpunkten Äquidistante Zeitreihe Lückenfreiheit Homogenität: pdf ändert sich nicht mit der Zeit Generelles Problem: viele Eigenschaften beziehen sich auf / sind nur definiert für unendlich lange Zeitreihen In der Mathematik werden Zeitreihen oft als Realisation eines stochastischen Prozesses definiert (oft unbrauchbar...)

Zeitreihen (ein Wettbewerb) Aus: weigand and gershenfeld (1996) time series prediction A: ein gut kontrolliertes laborexperiment: 1000 Messpunkte der Fluktuationen eines Lasers. Die durch drei gekoppelte nicht-lineare gewöhnliche Dgl beschrieben werden (Hübner) B: 34.000 Punkte aus dem EEG eines schlafenden Patienten. Die Regulation ist nicht verstanden, wird aber zur Diagnose verwendet (enthält Muster) C: Wechselkurse (Schweizer Franken gegen Dollar) je 3000 Punkte über 1-2 Minuten. Falls der Markt funktioniert soll das ein Random Walk sein D: eine numerisch erzeugte Reihe, 9 Freiheitsgrade ... E: astrophysikalische Daten zu einem variablen Stern (ca. 27.000 punkte mit Messrauschen ...) F: Fuge von Bach.

Zeitreihen: Eigenschaften

Grundlegende Definitionen I Eine Datenreihe liegt vor. Mittelwert: Faustregel : Zur Berechnung des q-ten Moments benötig man mind. 2q Datenpunkte Varianz (Standardabweichung: ) Variationskoeffizient: Für endliche Zeitreihen (Länge N) kann man diese Größen zwar immer berechnen, es gibt aber Prozesse und Datensätze, wo die q-ten Momente nicht gegen einen festen Wert konvergieren – d.h. entweder unbeschränkt wachsen oder im Endlichen „mäandern“. Die Voraussetzung nahezu aller Methoden und Tests ist, dass das nicht der Fall ist – die Frage ist dann natürlich, wie man das bei endlichem N überprüfen kann. q-tes zentrales Moment:

Grundlegende Definitionen II Häufigkeitsverteilung: Histogramme Binbreite: Faustregel : 95% der Bins sollten je mind. 5 Datenpunkte enthalten Häufigkeitsverteilungen  Wahrscheinlichkeitsverteilungen (pdf´s) Median: 50% der Werte sind kleiner Modus/Modalwert: Position des Maximums der pdf x%-Quantil: x % der Werte sind kleiner

Grundlegende Definitionen III Autokovarianz: Autokorrelationsfunktion: Faustregeln: Mindestens 30 Datenpunkte Nur Lags k < N/4 (Puristen) bzw. k < N/2 (Pragmatiker) vertrauen Oft sind die Daten so „harmlos“, dass man auch für Lags > N/2 noch stabile Ergebnisse erhält. Ansonsten zeigen sich bei sehr großen Lags wilde Fluktuationen, die nicht interpretiert werden sollten. In jedem Fall mißt die Autokorrelation aber nur lineare Korrelationen und ist als Funktion mit einem Argument (dem Lag) nur auf stationäre Zeitreihen anwendbar. Die Verallgemeinerung auf beliebige Reihen ist die Zweipunktfunktion; hier steht statt t_i und t_i+k t_1 und t_2 in der Summe. Daten müssen „im Prinzip“ äquidistant vorliegen; Lücken sind ein echtes Problem!

Wann ist eine Zeitreihe eine Zeitreihe? Gibt es signifikante Autokorrelationen, ist die zeitliche Reihenfolge wichtig. Die einzelnen Werte sind dann nicht unabhängig. Unabhängigkeit erreicht man durch Aggregation Wahl einer gröberen Messauflösung Falls unabhängig: Zeitreihen als Realisationen eines stochastischen Prozesses Das ist natürlich wieder nur eine lineare Definition. Die lineare Unabhängigkeit ist aber das Ziel aller linearen Zeitreihenmodelle: hat man erreicht, dass durch das Modell nicht erklärte Rest der Beobachtungen (die Residuen) nichts weiter als ein unkorreliertes, also unabhängiges und gleichverteiltes Rauschen ist, gilt das Modell als erfolgreich, selbst wenn die Varianz dieses Rauschens groß ist gegenüber dem erklärten Anteil. I.a. liegen Mischtypen vor (z.B. additives Rauschen)

Test für (lineare) Unkorreliertheit Berechnung der Autokorrelation. Für unkorrelierte Daten gilt: Daher sind die 95%-Signifikanzlinien (evtl. Verbesserungen für kleine n) (normalverteilt) Liegen weniger als 5% der Werte ausserhalb des Intervalls, liegen keine signifikanten Korrelationen vor  Autokorrelationslänge Die Autokorrelation ist auch bei nicht-normalverteilten Daten selber normalverteilt, solange die Daten unkorreliert sind. In der Praxis benutzt man das Kriterium, um den zeitlichen Abstand zu ermitteln, ab dem die Daten als (linear) unabhängig angesehen werden können. In vielen Beispielen aus der geowissenschaftlichen Praxis lässt sich ein solcher Abstand gar nicht ermitteln (langreichweitige Korrelationen). Partielle Autokorrelation (PACF) später (AR-Modellierung)

Beispiel: Wolfers Sonnenfleckenrelativzahlen

Autokorrelation der Sonnenflecken

Lang- und Kurzzeitgedächtnis Definition: Gedächtnis einer Zeitreihe Eine Zeitreihe hat kurzes Gedächtnis Und wie merkt man ein langes Gedächtnis, wenn man eine endliche Zeitreihe hat, wo das M gar nicht unendlich werden kann? Es gibt immer nur die Aussage „bis zu einem Zeithorizont bis ... lassen sich Korrelationen feststellen“.

Autokovarianzmatrix symmetrisch (Mittel über alle Fenster) symmetrisch positiv definit für stationäre Zufallsprozesse für multivariates Gaußsches Rauschen ausreichend zur vollständigen Charakterisierung Diese Matrix ist die Basisgröße für eine Reihe von Verfahren: Hauptkomponentenanalyse, Karhunen-Loeven Zerlegung, Singuläre Systemanalyse.

Kreuzkorrelation zweier Zeitreihen Die natürliche Verallgemeinerung der Autokorrelation auf zwei unterschiedliche Zeitreihen; es gelten dieselben Bedingungen. Hier sind allerdings die positiven und negativen Lags nicht symmetrisch wie bei der Autokorrelation.

Eigenschaften der Kreuzkorrelation ist nicht symmetrisch: 95% Signifikanz: Lag-Beschränkung:

Kreuzkorrelation: RP Trend gegen Sonnenflecken 0.6 0.4 0.2 CCF -0.2 -0.4 -0.6 -20 -15 -10 -5 5 10 15 20 Abstand (Jahre)

Arten von Kausalitätsbeziehungen Eigenschaften der Kreuzkorrelation X verursacht Y Y verursacht X Instantane Kausalität Rückkopplung Y verursacht nicht X X und Y sind unabhängig

Kausalität für Zeitreihen nach Granger Gegeben zwei Zeitreihen und eine Informationsmenge die mindestens enthält. Ein-Schritt-Vorwärts-Prädiktor für mit minimalem mittleren quadratischen Fehler Def.: X verursacht Y X beeinflusst Y instantan X und Y sind rückgekoppelt X verursacht Y und Y verursacht X

Spezialfall: Korrelationskoeffizient mindestens 4 gemeinsame Datenpunkte (evtl. Ausdünnen) ist t-verteilt mit n-2 Freiheitsgraden Bei 95% Signifikanz: sehr robust gegen Nicht-Normalität

Tests und Trenderkennung bei Zeitreihen Problem vieler Zeitreihen-Modelle und Analysemethoden: u.a. Stationarität vorausgesetzt Zwei Auswege: Geeignete Modellklasse wählen Vorbehandlung der Zeitreihen (Ggf. wünschenswerte) Eigenschaften von Zeitreihen: Ergodizität Stationarität Linearität Homoskedastizität Normalität Trendfreiheit (deterministisch/stochastisch) Unkorreliertheit (Identically Independently Distributed, IID) Das ist keine vollständige Liste!