Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Regression und Korrelation

Ähnliche Präsentationen


Präsentation zum Thema: "Regression und Korrelation"—  Präsentation transkript:

1 Regression und Korrelation
5 Regression und Korrelation 5.1 Regression 5.2 Korrelation 5.3 Statistische Tests 5.4 Zusammenhangmaße für nicht-metrische Variablen 5.5 Nichtlineare Regression 5.6 Multiple Regression und Korrelation 5.7 Statistische Modelle 5.8 Varianzanalyse

2 Regression und Korrelation
5 Regression und Korrelation Regressions- und Korrelationsanalyse ermittelt den statistischen Zusammenhang zwischen zwei (bivariat) oder mehreren (multivariat) ZVAs: - statistische Zusammenhangtests können nur entscheiden, ob ein signifikanter Zusammenhang besteht - Frage nach Art und Stärke des Zusammenhangs mit Regressions- bzw. Korrelationsanalyse zu beantworten Verfahren der Regressions- und Korrelationsanalyse sowohl auf GG als auch auf STP anzuwenden je nach Skalenniveau der Variablen unterschiedliche Verfahren zu wählen: - klassische Regression und Korrelation setzt metrische Variablen voraus - Korrelationsmaße für ordinal- und nominalskalierte Variablen ebenfalls gebräuchlich - Regression für nicht metrische Variablen eher selten (s. Statistik II)

3 Regression und Korrelation
5 Typen von Zusammenhängen: komplex einseitig (nichtlinear) einfach einseitig X1 X0 Y X Y X2 X3 Y : Verdunstung X0 : Globalstrahlung X1 : Temperatur (=X) X2 : Luftfeuchte X3 : Turbulenz einfach wechselseitig Y X “Scheinkorrelation“ mehrfach einseitig Z X1 Y X2 X3 Y X

4 Regression und Korrelation
5 Veranschaulichung der Kovariabilität: proportionaler (positiver) Zusammenhang kein Zusammenhang “je mehr desto mehr“ Globalstrahlung Verdunstung Verdunstung Ozongehalt Bezugseinheit (Zeitpunkt, Region, Proband, …) Bezugseinheit (Zeitpunkt, Region, Proband, …) umgekehrt proportionaler (negativer) Zusammenhang instationärer Zusammenhang “je mehr desto weniger“ Verdunstung Bewölkung Niederschlag bis Bewässerung Verdunstung Bezugseinheit (Zeitpunkt, Region, Proband, …) Bezugseinheit (Zeitpunkt, Region, Proband, …)

5 Regression und Korrelation
5 Ermittlung der Kovariabilität: X : Verdunstung Y : Temperatur Globalstrahlung Verdunstung Bezugseinheit (Zeitpunkt, Region, Proband, …) Kovarianz:

6 Regression 5.1 Regressionsanalyse ermittelt die Art des Zusammenhangs zwischen Variablen: - Abhängigkeit einer Variablen Y von einer (einfach) oder mehreren (multiple) Variablen X bzw. X1, X2, …, Xn: Regression (Rückschluss) - unabhängige Ausgangsvariable: Prädiktor, Regressor - abhängige Zielvariable: Prädiktand, Regressand - inhaltlich festgelegt: z.B. Globalstrahlung  Verdunstung elementarster Fall ist lineare Einfachregression: - gesucht ist Funktion f, die linearen Zusammenhang zwischen Y und X beschreibt: - diese Funktion f ist eine Geradengleichung der Form: - diese Regressionsgerade spiegelt die Orientierung der zweidimensionalen Punktwolke der Werte von X und Y am besten wider Regression von Y nach X b : Steigung (Regressionskoeffizient) a : y-Achsenabschnitt (Regressionskonstante)

7 Regression 5.1 typische Fragestellung: - X : Temperatur
- Y : Verdunstung Streuungsdiagramm (Punktwolke): - x-Achse: unabhängige Variable - y-Achse: abhängige Variable ?

8 Regression 5.1 Regressionsgerade hat zwei zentrale Eigenschaften:
- exakte Lage hängt allein von der Verteilung der Punkte (xi,yi) im Streuungs- diagramm ab - optimale Repräsentanz der Punktwolke: alle Punkte sollen möglichst nah an der Geraden liegen, d.h. eine minimale mittlere Distanz haben - aus rechentechnischen Gründen werden vertikale Entfernungen betrachtet: Residuen

9 { Regression 5.1 Gauß‘sches Prinzip der kleinsten Quadrate:
- aus mathematischen Gründen nicht absolute sondern quadratische Residuen bei der Minimierung berücksichtigt (least square fit): - E ist eine Funktion der Parameter a und b, deren Minima durch die Nullstellen der partiellen Ableitungen nach a und b gekennzeichnet sind: { Normalgleichungen I und II: 2 Gleichungen für 2 Unbekannte a und b

10 Regression 5.1 Berechnung des Regressionskoeffizienten b:
- Normalgleichung (I) mit xi sowie Normalgleichung (II) mit n multiplizieren: - Subtraktion (I) minus (II) liefert:

11 Regression 5.1 Berechnung der Regressionskonstante a:
- Normalgleichung (I) mit xi2 sowie Normalgleichung (II) mit xi multiplizieren: - Subtraktion (I) minus (II) liefert:

12 Regression 5.1 Beispiel zur manuellen Berechnung der Parameter a und b: - generell empfiehlt sich Berechnung mit Tisch-/Taschenrechner - Bestimmung der folgenden Formelterme über tabellarisches Schema: - Einsetzen der Terme in obige Formeln liefert die Geradengleichung:

13 Regression 5.1 Interpretation der Regressionsgleichung:
- zugrunde liegendes Modell ist nicht - sondern - Regressionsgleichung kann nur die Information auf Y abbilden, die in X enthalten ist - die Residuen ε kennzeichnen die zufälligen (nicht systematischen) Abweichungen der tatsächlichen y-Werte von der Regressionsgeraden - diese Zufallsfehler können auf andere, nicht berücksichtigte Prädiktoren zurückzuführen sein (multiple Regression) oder letztendlich stochastisch sein - die Residuen ε sind eine Funktion der Zeit und durch die Regressionsanalyse normiert: - die Regressionsgerade läuft immer durch das arithmetische Mittelzentrum - ferner stellen a und b nur STP-Schätzer für die entsprechenden Para- meter der GG dar: Konfidenzintervall und Signifikanzniveau zu bestimmen Anpassung auf den Mittelwert

14 beliebige Bezugseinheit
Regression 5.1 Interpretation der Regressionsgleichung: - Regressionskoeffizient gibt an, um wie viele Einheiten sich Y ändert, wenn X sich um eine Einheit ändert: 0,15 mm pro 1,0 °C - bei positivem b ist Beziehung proportional, bei negativem b umgekehrt proportional - über die Regressionsgleichung lassen sich nun für beliebige (auch nicht auftretende) x-Werte die geschätzten y-Werte berechnen: - somit lassen sich auch Datenlücken in Y schließen und Prognosen für Y berechnen: Prognosezeitraum von Y Datenlücke von Y Y Y X X beliebige Bezugseinheit Zeit

15 Regression 5.1 Bestimmung von Zeitreihentrends:
- im Falle des Trends ist die Zeit immer die unabhängige Variable X - bei annähernd linearen Entwicklungen lässt sich eine Zukunftsprognose anhand der Regressionsgleichung (statistisches Modell) durchführen - Beispiel: gegeben sind Zeitreihen der Natalität und Verstädterung in der ehem. Sowjetunion: großes Residuum: unsichere Prognose ! ? kleines Residuum: sichere Prognose

16 Korrelation 5.2 Korrelationsanalyse ermittelt die Stärke des Zusammenhangs zwischen Variablen: - keine Unterscheidung zwischen abhängigen und unabhängigen Variablen - hier nur lineare Einfachkorrelation im bivariaten Fall Berechnung des Bestimmtheitsmaßes: - im Fall einer perfekten deterministischen Beziehung liegen alle Wertepaare (xi,yi) von X und Y exakt auf einer Geraden: - dann gilt für die STP-Varianz der yi: - d.h. die Varianz der yi wird ausschließlich bestimmt durch die Varianz der xi

17 Korrelation 5.2 Berechnung des Bestimmtheitsmaßes:
- im nicht-deterministischen Fall existiert ein Residuum ε: - dann gilt für die Varianz der yi: - S kennzeichnet zusätzlichen Varianzanteil des Residuums, so dass Varianz der yi aus 2 Anteilen besteht: Resultat des Einflusses der xi und nicht erfasster (stochastischer) Anteil der εi - es gilt S = 0 nur im Fall, dass alle εi = 0 (deterministischer Zusammenhang)

18 5.2 Korrelation Berechnung des Bestimmtheitsmaßes:
- Verhältnis des durch xi erklärten Varianzanteils von yi durch die Gesamt- varianz der yi ist Maß für die Stärke des Zusammenhangs zwischen X und Y: Bestimmtheitsmaß B: - B kennzeichnet die durch X erklärte Varianz von Y - es gilt 0 ≤ B ≤ 1 - im Falle B = 1 liegt ein streng determi- nistischer Zusammenhang vor, d.h. alle Wertepaare (xi,yi) liegen exakt auf der Regressionsgeraden

19 Korrelation 5.2 Berechnung des Korrelationskoeffizienten ist aber gebräuchlicher: - sog. Produktmoment-Korrelationskoeffizienten rxy (nach Pearson) - gibt auch Proportionalität des Zusammenhangs an: positiv, negativ - allgemeine Definition: - mit einigen Umformungen von B - ergibt sich sich für den Korrelationskoeffizienten:

20 Korrelation 5.2 Eigenschaften des Korrelationskoeffizienten:
- rxy kennzeichnet die mit den Einzelstandardabweichungen normierte Kovarianz von X und Y - es gilt rxy = ryx - rxy hat immer das gleiche Vorzeichen wie b: - Wertebereich und Deutung: - Beispiel Temperatur und Verdunstung: positiv : proportional (je mehr desto mehr) negativ: umgekehrt proportional (je mehr desto weniger) sehr starker Zusammenhang starker Zusammenhang mittelstarker Zusammenhang schwacher Zusammenhang kein Zusammenhang 70,2 % der Verdunstungs- schwankungen können durch die Temperaturvariabilität erklärt werden (sehr starker Zusammenhang)

21 Statistische Tests 5.3 Bestimmung der Koeffizienten der Regressions- und Korrelationsanalyse basiert i.d.R. auf STP-Werten xi und yi: - unterschiedliche STP-Werte führen zu unterschiedlichen Koeffizienten: - rxy und b sind Schätzer für die entsprechenden Koeffizienten ρ bzw. β der bivariaten GG (X,Y)  Frage nach Konfidenzintervallen von ρ und β  Frage nach Hypothesentest: H0 : ρ = H1 : ρ ≠ 0 H0 : β = H1 : β ≠ 0

22 Statistische Tests 5.3 statistische Tests für den Korrelationskoeffizienten: - vorausgesetzt ist, dass X und Y bivariat normalverteilt sind mit den Parametern μx, μy, σx, σy, ρxy: - im Fall ρ = 0: kreisrunde Form - im Fall ρ ≠ 0: elliptische Form - Randverteilungen der bivariat normalverteilten GG sind univariate Normal- verteilungen - es gilt ferner, dass für beliebige x0  X und y0  Y die bedingten Wahrschein- lichkeiten P(Y|X=x0) und P(X|Y=y0) univariate Normalverteilungen sind

23 Statistische Tests 5.3 statistische Tests für den Korrelationskoeffizienten: - im Fall der bivariaten Normalverteilung ist ρ ein Maß für die Stärke des allgemei- nen Zusammenhangs zwischen X und Y - im Fall einer anderen bivariaten Vertei- lung misst ρ nur den linearen Zusammen- hang zwischen X und Y - Bild oben rechts zeigt keine Korrelation trotz starken Zusammenhangs, nur weil GG nicht bivariat normalverteilt sind - in der Praxis im Einzelfall zu prüfen, ob GG bivariat normalverteilt ist - meist aber STP zu klein für sichere Überprüfung - stattdessen werden nur die beiden Randverteilungen auf NV überprüft - in meisten Fällen ist dann GG bivariat normalverteilt (Ausnahmen selten) - statistische Tests jedoch relativ ro- bust gegenüber Verletzungen dieser Voraussetzung

24 Statistische Tests 5.3 statistische Tests für den Korrelationskoeffizienten: - nun zu überprüfen, ob Schätzwert rxy der STP {(xi,yi), i=1..n} für eine der beiden Hypothesen spricht: - unter H0 ist die folgende Testvariable t-verteilt mit Φ = n – 2 Freiheitsgraden: - im konkreten Fall ist dann die Prüfgröße mit dem kritischen Wert der t- Verteilung zu vergleichen (α, zweiseitig): - Beispiel Temperatur und Verdunstung:  signifikanter Zusammenhang zwischen Temperatur und Verdunstung H0 : ρ = H1 : ρ ≠ 0

25 Bezugseinheit (Zeitpunkt, Region, Proband, …)
Statistische Tests 5.3 Problem der “ökologischen Verfälschung“: - zeitliche, räumliche oder inhaltliche Aggregation der Daten bewirkt immer Erhöhung des Korrelationskoeffizienten (pos./neg.) - praktisch durch Aggregation jeder Zusammenhang zu erzeugen: Maß der Aggregation als ZVA zu interpretieren - nur durch statistischen Test und angepasste Anzahl der Freiheitsgrade richtig einzuschätzen X : Verdunstung Y : Temperatur rxy=0,73 rxy=0,87 Globalstrahlung Verdunstung Bezugseinheit (Zeitpunkt, Region, Proband, …)

26 Statistische Tests 5.3 statistische Tests für die Regressionsanalyse:
- andere Voraussetzungen als bei Korrelationsanalyse (unterschiedliche gedankliche Konzepte) - lineare Einfachregression soll beste Schätzung von Y bewerkstelligen unter folgenden Vorausetzungen: 1) ZVA Y|x ist für jeden Wert x normalverteilt mit Mittelwert μy|x und Standardabweichung σy|x nicht linear: widerspricht Forderung 2) 2) die Mittelwerte μy|x liegen auf der Geraden: μy|x = β•X + α (stellt sicher, dass der Zusammen- hang linear ist)

27 Statistische Tests 5.3 statistische Tests für die Regressionsanalyse:
3) Homogenität der Zufallsfehlervarianzen σ2y|x nicht homogen: widerspricht Forderung 3) 4) die Residualvariablen ε|x = y|x – μy|x sind jeweils paarweise stochastisch unabhängig: ρ = 0 εi sind strukturiert: widerspricht Forderung 4) lineare Einfachregression ist kein angemessenes Modell, obwohl Bestimmtheitsmaß und Korrelationskoeffizient sehr hoch sind

28 Statistische Tests 5.3 statistische Tests für die Regressionsanalyse:
- in der Praxis sind diese Voraussetzungen kaum zu prüfen, da bei STP zu jedem xi jeweils nur ein yi gegeben ist - zumindest Streudiagramm zeichnen, um Forderungen 2) bis 4) visuell abzuschätzen  Test für lineare Regressionsgleichung ergibt sich aus der Forderung, dass die Residuen εi annähernd bivariat normalverteilt um 0 sind mit ρ = 0  zusammenfassend: die Residualvariablen ε|x müssen: den Mittelwert με = 0 haben für alle x homogene Varianz σ2ε|x = σ2ε haben bivariat normalverteilt sein mit dem Korrelationskoeffizienten ρε = 0

29 Statistische Tests 5.3 Test für den Regressionskoeffizienten:
- geprüft werden die Hypothesen: - unter der Voraussetzung der H0 ist die folgende Prüfgröße t-verteilt mit (n-2) Freiheitsgraden: - zu vergleichen mit kriti- schem Wert tα/2;Φ gegeben das Irrtumsniveau α - Beispiel Temperatur und Verdunstung (α=5%):  es existiert ein linearer Zusammenhang H0 : β = H1 : β ≠ 0

30 Statistische Tests 5.3 Konfidenzintervall für den Regressionskoeffizienten: - β liegt mit einer Irrtumswahrscheinlichkeit α im Konfidenzintervall: - Beispiel Temperatur und Verdunstung: - graphisch lässt sich das Konfidenzinter- vall über die beiden Grenzgeraden ver- anschaulichen: - die Grenzgeraden haben immer das arithmetische Mittelzentrum als Dreh- punkt

31 Statistische Tests 5.3 Konfidenzintervall für die Schätzwerte :
ist Schätzwert für das arithmetische Mittel aller zu einem x-Wert gehörenden Werte y|x der ZVA Y|x - Grundlage für die Berechnung des Konfidenzintervalls ist die folgende Schätzfunktion, die t-verteilt ist mit (n-2) Freiheitsgraden: hängt von der Distanz zum Mittelwert ab: Standardfehler wächst mit zunehmender Distanz vom arithmetisches Mittelzentrum

32 Statistische Tests 5.3 Konfidenzintervall für die Schätzwerte :
- dann lautet das Konfidenzintervall für den Erwartungswert der ZVA Y|x: - je näher am Mittelwert von X desto genauer die Schätzung von Y - Beispiel Temperatur und Verdunstung: - graphisch zu veranschaulichen durch Vertrauensband: Langfristprognosen werden immer unsicherer

33 Zusammenhangmaße für nicht-metrische Variablen
5.4 Regressions- und Korrelationsanalyse erfordern metrische Variablen: - für ordinal- und nominalskalierte Variablen existieren ebenfalls Zusammen- hangmaße (Korrelationskoeffizienten) - auch für metrische Variablen, die nicht bivariat normalverteilt sind oder einen nichtlinearen (aber monotonen) Zusammenhang haben Rang-Korrelationskoeffizient ρs nach Spearman: - gegeben ist STP einer bivariaten GG (X,Y) mit zumindest ordinalskalierten ZVA X und Y - STP-Werte xi und yi sind der Größe nach geordnet mit den Rangplätzen: - dann wird der Rang-Korrelationskoeffizient geschätzt durch: große Rangpaardifferenzen durch die Quadrierung relativ stark gewichtet bei Gefahr von Ausreißern besser Rang-Korrelationskoeffizient τ von Kendall

34 Zusammenhangmaße für nicht-metrische Variablen
5.4 Rang-Korrelationskoeffizient ρs nach Spearman : - rs entspricht bei singulären Daten genau dem Produktmoment- Korrelationskoeffizient rxy nach Pearson wegen: - rs gibt Richtung und Stärke des monotonen Zusammenhangs an (gegensinnig, gleichsinnig): - Interpretation: - für Signifikanztest ist die folgende Prüfgröße unter H0 : ρs = 0 standardnormal- verteilt, wenn n ≥ 30 (ansonsten Werte aus Tabelle für Rs): ρs = -1 Variablen exakt gegensinnig ρs < 0 Variablen negativ korreliert (mehr oder weniger gegensinnig) ρs = 0 Variablen ohne monotonen Zusammenhang ρs > 0 Variablen positiv korrelíert (mehr oder weniger gleichsinnig) ρs = +1 Variablen exakt gleichsinnig

35 Zusammenhangmaße für nicht-metrische Variablen
5.4 Rang-Korrelationskoeffizient ρs nach Spearman : - Beispiel: gegeben 7 Rangpaare - bei Rangplätzen mit Bindungen ρs nach folgender Formel geschätzt: i Rang xi Rang yi 1 7 2 5 3 6 4 k : Anzahl der Bindungen bei X l : Anzahl der Bindungen bei Y txj : Anzahl der STP-Elemente mit gleichem Rang xj tyj _ Anzahl der STP-Elemente mit gleichem Rang yj

36 Zusammenhangmaße für nicht-metrische Variablen
5.4 Rang-Korrelationskoeffizient ρs nach Spearman : - Beispiel: Verstädterung und Natalität in Russland (eigentlich metrisch) - es besteht ein signifikanter monotoner Zusammenhang zwischen Natalität und Verstädterung (gegensinnig) Rangreihen mit Bindungen: X : 6-mal (10,5; 13,5; 16,5; 22,5; 25,5; 4,0) Y : 1-mal (14,5)

37 Zusammenhangmaße für nicht-metrische Variablen
5.4 Rang-Korrelationskoeffizient auch bei metrischen Variablen geeignet, die einen monotonen, aber keinen linearen Zusammenhang besitzen: - häufiger Fall in der Praxis wie z.B. Entwicklungsstand und medizinische Versorgung (metrisch) (s.u.) - Produktmoment-Korrelationskoeffizient liefert -0,41 und Signifikanzniveau 1 % - aber Voraussetzungen für Signifikanztest (bivariat normalverteilt) nicht erfüllt - ρxy = -0,41 vermittelt auch falschen Eindruck der Stärke des Zusammenhangs - denn ρs liefert -0,85 und erfasst somit den deutlichen Zusammenhang im Streudiagramm, den der lineare Ansatz von ρxy nicht erfasst - nach linearer Transformation (doppelt logarithmisch) liefert auch ρuv = -0,85 Originalachsen doppelt logarithmiert

38 Zusammenhangmaße für nicht-metrische Variablen
5.4 Kontingenzkoeffizient C nach Pearson: - gegeben 2 nominal-skalierte ZVA X und Y mit k bzw. l verschiedenen Ausprägungen in Kontingenztafel: - Unabhängigkeit der beiden ZVA lässt sich über χ2-verteilte Prüf- größe für mehrfach gestufte Merk- male testen: - Prüfgröße χ2 ist direkt proportional zu n:

39 Zusammenhangmaße für nicht-metrische Variablen
5.4 Kontingenzkoeffizient C nach Pearson: - ein mit n normiertes Zusammenhangmaß ermöglicht Vergleich von diversen Kontingenztafeln mit unterschiedlichem n: - es gilt C*  {0..1} mit möglichem Maximalwert bei: - damit ergibt sich der Kontingenzkoeffizient C zu: - C ist ebenfalls auf {0..1} normiert und gibt die Stärke des Zusammenhangs zwischen X und Y an, allerdings nicht die Richtung: aus Residualkomponente schließen: - die Nullhypothese H0 : C = 0 wird mit der χ2-verteilten Prüfgröße (s.o.) mit Φ = (k-1)•(l-1) Freiheitsgraden getestet

40 Zusammenhangmaße für nicht-metrische Variablen
5.4 Kontingenzkoeffizient C nach Pearson: - Beispiel Wahlverhalten in BRD: CDU-Anteil und ländlicher Raum: - unter der Nullhypothese (kein Zusammenhang) ergeben sich die erwarteten Häufigkeiten zu: - Prüfgröße: - kritischer Wert (zweiseitig, α = 5%): - CDU-Wähleranteil ist Funktion der Bevölkerungsdichte n = 94 Kreise k = 4 Anteil-Kategorien l = 3 Bevölkerungsdichte- kategorien

41 Zusammenhangmaße für nicht-metrische Variablen
5.4 Kontingenzkoeffizient C nach Pearson: - Stärke des Zusammenhangs gemessen durch Kontingenzkoeffizient C: - Richtung des Zusammenhangs wird deutlich, wenn die Residualkomponenten in Kontingenztafel eingetragen werden: - in ländlichen Regionen ist der Anteil der CDU-Wähler signifikant höher als in Verdichtungsräumen

42 Zusammenhangmaße für nicht-metrische Variablen
5.4 Vierfelder-Korrelationskoeffizient ρΦ: - Sonderfall der Kontingenztafel mit k = l = 2: dichotome Variablen X und Y - Vierfelder-Korrelationskoeffizient ergibt sich zu: - es gilt ρΦ  {-1..1}: - für den Signifikanztest ist die folgende Prüf- größe χ2-verteilt mit Φ = 1 Freiheitsgrad: ρΦ = -1 maximaler negativer Zusammenhang ρΦ = 0 kein Zusammenhang ρΦ = +1 maximaler positiver Zusammehang

43 Zusammenhangmaße für nicht-metrische Variablen
5.4 Vierfelder-Korrelationskoeffizient ρΦ: - Beispiel: Zusammenhang zwischen Erwerbsstruktur und Mechanisierungsgrad - Vierfelder-Korrelationskoeffizient: - Prüfgröße und kritischer Wert (zweiseitig, α = 5%): - es existiert ein signifikanter positiver Zusammenhang zwischen Erwerbs- struktur und Mechanisierungsgrad Y=1 : hoher Mechanisierungsgrad Y=0 : geringer Mechanisierungsgrad X=1 : Vollerwerbsbetrieb X=0 : Nebenerwerbsbetrieb

44 “Take-away“ 5 Die Regressions- und Korrelationsanalyse ermitteln die Art bzw. die Stärke des Zusammenhangs zwischen (metrischen) Zufallsvariablen Häufig kommt die lineare Einfachregression zum Einsatz, bei der die Regressionsgleichung eine Gerade beschreibt. Die Regressionsgleichung eignet sich auch zur Erfassung von Zeitreihentrends und zur Prognose von zukünftigen Entwicklungen. Der Produktmoment-Korrelationskoeffizient ist ein normiertes Zusam-menhangmaß, dass die wechselseitig erklärte Varianz zwischen 2 metrischen Variablen kennzeichnet. Für ordinalskalierte Variablen fungiert der Rang-Korrelationskoeffizient, für nominalskalierte Variablen der Kontigenzkoeffizient bzw. der Vierfelder-Korrelationskoeffizient als Zusammenhangmaß. Basieren Regressionsgleichung und Korrelationskoeffizient auf STP-Werten, existieren Signifikanztests und Mutungsbereiche zur Schätzung der entsprechenden Koeffizienten der GG.

45 Nichtlineare Regression
5.5 viele Prozesse lassen sich nicht durch ein lineares Modell abbilden: - Bsp.: Gesetz des abnehmenden Ertragszuwachses bei Düngung: - Bsp.: überwundene Distanz zum Einzelhandel (Wahrnehmungs-/Bewertungseffekt): - Bsp.: Natalität und Verstädterung: Sättigungsniveau lineare Einfachregression ist kein angemessenes Modell, obwohl Bestimmtheitsmaß und Korrelationskoeffizient sehr hoch sind

46 Nichtlineare Regression
5.5 es existieren mehrere Möglichkeiten, in solchen Fällen zu verfahren: (1) Zusammenhang wird stückweise linearisiert: (2) weitere Variablen werden einbezogen: (3) X und Y werden zu neuen Variablen X* und Y* transformiert, welche ihrer- seits einen linearen Zusammenhang besitzen: (4) Polynome höherer Ordnung werden angefittet: traditionell-islamische Regionen westlich-moderne Regionen multiple Regression: YNat.=a + b · XUrb. + c · XTrad.

47 Nichtlineare Regression
5.5 Variablentransformation: - Untersuchung zum Einkaufsverhalten in Finnland: - einfache Transformation mit logarithmus naturalis: - Regressionsgleichung für transformierte Werte: Originalstreudiagramm transformiertes Streudiagramm

48 Nichtlineare Regression
5.5 Variablentransformation: - nichtlineare Regressionsfunktion für Y erhält man durch Invertierung der Transformation: - Graph der nichtlinearen Regressionsfunktion: - beachte: geschätzt wird das Modell - folglich wird nicht die Summe sondern die Summe minimiert, es wird also nicht zwangsläufig die beste Exponentialfunktion für Y geschätzt - statistische Tests können nur für das Modell für Y* durchgeführt werden - Frage nach bester Schätzung für das Modell

49 Nichtlineare Regression
5.5 Variablentransformation: - es existieren einige weitere Funktionen, die sich durch Transformationen lineari- sieren lassen - mit linearer Einfachregres- sion lassen bereits viele Ty- pen von Zusammenhängen erfassen - allerdings Problem der Schätzung des Modells für Y - welche Funktionsklasse geeignet ist, kann nur optisch (Streudiagramm) oder iterativ entscheiden werden:

50 Nichtlineare Regression
5.5 Polynome höherer Ordnung: - Polynome sind ganzrationale Funktionen vom Typ: - Polynom 1. Grades: Gerade - Polynom 2. Grades: Parabel - Polynom 3. Grades: S-Kurve - Polynom 4. Grades - zahlreiche Prozesse in der Natur können durch Polynom- funktionen angenähert werden Y X

51 Nichtlineare Regression
5.5 Polynome höherer Ordnung: - für die nichtlineare Regression werden i.d.R. Polynome bis zum 4. Grad betrachtet: - nach der Methode der kleinsten Quadrate muss für die optimale Wahl der Polynomkoeffizienten ai gelten: - partielle Ableitung nach den 5 Koeffizienten: innere Ableitung äußere Ableitung

52 Nichtlineare Regression
5.5 Polynome höherer Ordnung: - 5 Normalgleichungen für 5 Koeffizienten: - direkt übertragbar auf Fall mit mehreren Einflussgrößen U, V, W, X: - im Einzelfall ist iterativ zu prüfen, von welchem Polynomgrad auszugehen ist; dabei ist nur in seltenen Fällen ein Grad > 4 theoretisch zu begründen

53 Nichtlineare Regression
5.5 Polynome höherer Ordnung: - Gleichungssystem ist über eine Matrixgleichung zu lösen: - Matrix X enthält den Prädiktor als Anomalie zu unterschiedlichen Potenzen: - Vektor y enthält den Prädiktanden als Anomalie zur Potenz 1: - Vektor a enthält die Koeffizienten des Polynoms 4. Grades unter Verwendung der Methode der kleinsten Quadrate:

54 Einschub: Matrixalgebra
5.5 eine geordnete Liste von skalaren Variablenwerten heißt Vektor: - Anzahl der Elemente xi , i=1..n in einem Vektor bestimmen die Dimension - ein 1-dimensionaler Vektor ist demnach ein Skalar - per definitionem ist x ein Spaltenvektor und die Transponierte xT ein Zeilen- vektor - die Addition und Subtraktion von Vektoren vollzieht sich direkt über die Elemente der Vektoren – immer vorausgesetzt, dass die Vektoren die gleiche Dimension besitzen: - Multiplikation von einem Vektor mit einem Skalar liefert einen Vektor:

55 Einschub: Matrixalgebra
5.5 Vektoroperationen: - zwei Vektoren der gleichen Dimension können zum sog. Skalarprodukt mitein- ander multipliziert werden, Ergebnis ist ein Skalar: - ein Vektor kennzeichnet einen Punkt in einem n-dimensionalen Raum: - die sog. Euklidische Länge eines Vektors im Raum beschreibt die Distanz zwischen diesem Punkt und dem Ursprung (Skalar): - Winkel zwischen zwei Vektoren ist gegeben durch: zwei Vektoren sind orthogonal (cos(α) = 90°), wenn das Skalarprodukt gleich null ist, wegen: cos(0) = 90°

56 Einschub: Matrixalgebra
5.5 eine Matrix ist eine 2-dimensionale rechtwinklige Datenstruktur mit n Zeilen und m Spalten: - die Werte xij , i = 1..n, j = 1..m heißen die Elemente der Matrix - Dimension einer Matrix: - eine (1 x m)-dimensionale Matrix entspricht einem Zeilenvektor - eine (n x 1)-dimensionale Matrix entspricht einem Spaltenvektor - eine (1 x 1)-dimensionale Matrix ist eine Skalar - eine quadratische Matrix liegt vor bei: - eine symmetrische Matrix liegt vor bei: - Definition der Einheitsmatrix: Dimension von I passt sich immer der entsprechen Matrixoperation an Hauptdiagonale

57 Einschub: Matrixalgebra
5.5 Matrixoperationen: - Transponierte einer Matrix durch Vertauschen von Zeilen und Spalten (Spiegelung an Hauptdiagonalen): - für symmetrische Matrizen gilt: - Multiplikation einer Matrix mit einem Skalar funktioniert ebenfalls über die Elemente: - Addition/Subtraktion zweier Matrizen ist nur für identische Dimensionen definiert und vollzieht sich über die Elemente:

58 Einschub: Matrixalgebra
5.5 Matrixoperationen: - Multiplikation zweier Matrizen ist nur definiert, wenn die Anzahl der Spalten in der linken Matrix der Anzahl der Zeilen in der rechten Matrix entspricht: - graphisch lässt sich die Matrixmultiplikation veranschaulichen als eine Vielzahl von Skalarprodukten zwischen den entsprechenden Zeilen- und Spaltenvek- toren innerhalb der Matrizen: - damit ist offensichtlich, dass für Matrizen das Kommutativgesetz der skalaren Multiplikation nicht gilt: im obigen Fall würde Y∙X zu einer (3 x 3)-dimensionalen Matriz Z führen

59 Einschub: Matrixalgebra
5.5 Matrixoperationen: - Asymmetrie der Matrixmultiplikation kann am besten anhand von Vektoren veranschaulicht werden:

60 Einschub: Matrixalgebra
5.5 Matrixoperationen: - Summe der Diagonalelemente einer quadratischen Matrix heißt Spur: - Determinante einer quadratischen Matrix ist eine skalare Größe, die in etwa dem Vektorbetrag entspricht: - diese Berechnung ist rekursiv, d.h. es müssen zunächst alle Unter- determinanten von X berechnet werden bis det(X) = x11 bei n = m = 1 - nur vom Computer zu lösen außer bei (2 x 2)-Matrizen:

61 Einschub: Matrixalgebra
5.5 Matrixoperationen: - eine Division ist nur für quadratische Matrizen definiert, die den sog. vollen Rang besitzen oder nichtsingulär sind: - bei singulären Matrizen ist die Determinante gleich null - nichtsinguläre Matrizen sind invertierbar, d.h. es exisitert für Matrix X eine Matrix Y, so dass gilt: - dann ist Y die Inverse von X: - sehr rechenaufwendig (Computer!) außer bei (2 x 2)-Matrizen: Matrix enthält keine redundante Information, d.h. keine Zeile oder Spalte kann durch Linearkombination aus einer anderen Zeile bzw. Spalte rekonstruiert werden: xij ≠ c ∙ xkj , i ≠ k für alle j=1..m

62 Einschub: Matrixalgebra
5.5 Matrixoperationen: - Diagonalmatrizen lassen sich ebenfalls sehr einfach invertieren, indem Kehrwert auf Diagonale eingesetzt wird: - invertierte Matrix hat die gleiche Dimension wie die Ausgangsmatrix - wenn Ausgangsmatrix symmetrisch, ist auch die Inverse symmetrisch - weitere Gesetze bei Matrixoperationen:

63 Nichtlineare Regression
5.5 Polynome höherer Ordnung: - Matrix XTX enthält die Kovarianzen der unabhängigen Variable X zu ver- schiedenen Potenzen: - Vektor XTy enthält die Kovarianzen zwischen abhängiger Variable Y und unabhängiger Variable X zu verschiedenen Potenzen:

64 Nichtlineare Regression
5.5 Polynome höherer Ordnung: - Bsp.: Trendpolynom 4. Grades angepasst an nordhemisphärische Mittel- temperatur: - Funktionswerte des Polynoms können vereinfacht mit dem Horner-Schema berechnet werden (hier für X = x0): Regressionsgerade: a4 a3 a2 a1 a0 x0 a4x0 (a3 + a4x0) x0 (a2 + a3x0 + a4xo2) x0 (a1 + a2x0 + a3x02 + a4x03) x0 a3 + a4x0 a2 + a3x0 + a4xo2 a1 + a2x0 + a3x02 + a4x03 a0 + a1x0 + a2x02 + a3x03 + a4x04 f(x0)

65 Multiple Regression und Korrelation
5.6 häufig werden Prozesse durch mehrere überlagerte Einflussfaktoren bedingt: - z.B. Stauaufkommen auf deutschen Straßen: X1 Y X2 X3 Zenithwinkel der Sonneneinstrahlung (B=50%) Residuum Stauaufkommen Pendleraufkommen (B=27%) B=88% (X1 ┴ X2 ┴ X3) Problem der Multikollinearität Residuum Stauaufkommen Ferienanteil BL (B=11%)

66 Multiple Regression und Korrelation
5.6 partielle Korrelation: - Isolierung des Einflusses einzelner Faktoren in Unabhängigkeit von anderen Faktoren - partieller Korrelationskoeffizient zwischen Y und Xk in Unabhängigkeit des Einflusses von Xl: - es gilt allgemein: - Bsp.: Binnenwanderungssaldo und sozialgeographische Charak- teristika in norddeutschen Kreisen

67 Multiple Regression und Korrelation
5.6 partielle Korrelation: - einfache Korrelationskoeffizienten zwischen Y und X1, …, X5 (* = 1%-Niveau): - Variable X5 hat stärksten Einfluss (Indikator für Verstädterungsgrad) - welche Variable hat nächst stärkeren Einfluss: X4? - wegen der Kollinearität zwischen der Variablen X5 und den weiteren Indikato- ren der Verstädterung (X1, X4, X6, X7) stellt die Variable X3 als Indikator für die Wirtschaftsstärke eines Raumes den nächst wichtigen Einfluss: - Variable X3 erklärt den größten Anteil der Residualvarianz von Y ohne X5 - auch auf Fall mit mehr als 2 Prädiktorvariablen anwendbar (multiple Regression):

68 Multiple Regression und Korrelation
5.6 multiple Korrelation: - Frage nach dem durch die Variablen X1, X2, …, Xm erklärten Varianzanteil von Y: multiples Bestimmtheitsmaß - positive Wurzel aus dem multiplen Bestimmtheitsmaß heißt multipler Korrelationskoeffizient: - nur dann eindeutig gegeben, wenn gilt: - Bsp. Binnenwanderungssaldo: erklärter Varianzanteil der beiden wichtigsten Variablen X5 und X3: - auch auf Fall mit (m > 2) Prädiktorvariablen anwendbar mit sog. b-Gewichten:

69 Multiple Regression und Korrelation
5.6 multiple Regression: - analog zum Polynom, aber mit unterschiedlichen Prädiktorvariablen X1, X2,…, Xm und meist (aber nicht zwangsläufig) zur Potenz 1: - Koeffizienten der multiplen Regression sind wieder über das lineare Glei- chungssystem zu berechnen: - Matrix X enthält die verschiedenen Prädiktoren als Anomalien: - Vektoren y und a enthalten wieder den Prädiktanden als Anomalie bzw. die Koeffizienten der multiplen Regression: - erklärte Gesamtvarianz der multiplen Regressionsgleichung wird durch multi- ples Bestimmtheitsmaß angegeben

70 Multiple Regression und Korrelation
5.6 multiple Regression: - Bsp. Binnenwanderungssaldo: - partielle Regressionskoeffizienten ai ändern sich bei Hinzunahme weiterer Prädiktoren: je stärker, je größer die Kollinearität - geometrisch betrachtet gilt: k = 1 : Regressionsgerade k = 2 : Regressionsebene k > 2 : Hyperebene

71 Multiple Regression und Korrelation
5.6 Testverfahren: - Kennwerte ai des Regressionsmodells und Koeffizienten rYX sowie R und B sind Schätzer für die entsprechenden Parameter der GG - Aushangspunkt ist wieder das Modell: - die Residuen εi sollen wieder binormal verteilt sein mit ρ = 0 (Voraussetzun- gen der Regressionsanalyse) - dann lassen sich die Eigenschaften der multiplen Regression und Korrelation aus der STP für die GG testen: - ferner ist wie im bivariaten Fall eine Schätzung des Konfidenzintervalls von Y mit Vertrauensband möglich

72 Multiple Regression und Korrelation
5.6 Test für das multiple Bestimmtheitsmaß = Gesamtvarianz des Regres- sionsmodells: - Gesamtvarianz von Y lässt sich zerlegen in erklärten und nicht erklärten (stochastischen) Anteil: - Regressionsmodell ist signifikant, wenn erklärter Varianzanteil größer als nicht erklärter Varianzanteil: auszudrücken in Form des multiplen Bestimmtheits- maßes - folgende Prüfgröße für das multiple Bestimmtheitsmaß ist unter H0 F-verteilt mit (k) Zählerfreiheitsgraden und (n – k – 1) Nennerfreiheitsgraden: - Prüfgröße F ist umgekehrt proportional zur Anzahl der berücksichtigten Prädiktoren: a-priori Selektion der Prädiktoren ist häufig sinnvoll

73 Multiple Regression und Korrelation
5.6 Test für das multiple Bestimmtheitsmaß: - Bsp. Binnenwanderungssaldo (n = 65 Kreise, α = 5%):  in beiden Fällen ist das Regressionsmodell statistisch signifikant auf dem 5%-Niveau  Hinzunahme weiterer Prädiktoren bewirkt deutlich kleinere Prüfgröße: in Grenzfällen entscheidend für Hypothesenentscheid

74 Multiple Regression und Korrelation
5.6 Test für die partiellen Korrelationskoeffizienten: - Prüfgröße für die ZVA R “partieller Korrelationskoeffizient unter Ausschluss al- ler anderen Prädiktoren bei STP der Größe n“ ist identisch mit bivariatem Fall: - unter H0 t-verteilt, allerdings mit geringerer Zahl an Freiheitsgraden: - Bsp. Binnenwanderungssaldo: partielle Korrelationskoeffizienten: - kritische Werte bei α = 5% und Φ = 57 (zweiseitig): - Hypothesenentscheid: * = Variable hat statistisch signifikanten Einfluss auf Y auf dem 5%-Niveau (H1 annehmen): X1 X2 X3 X4 X5 X6 X7 R -0,04 0,35 -0,30 -0,23 -0,69 -0,10 0,26 ^t -0,31 2,97 -2,50 -1,88 -7,57 -0,80 2,14 X1 X2 X3 X4 X5 X6 X7 R -0,04 0,35* -0,30* -0,23 -0,69* -0,10 0,26*

75 Multiple Regression und Korrelation
5.6 Test für die partiellen Regressionskoeffizienten: - Prüfgröße für die ZVA B “partieller Regressionskoeffizient von Xi der Regres- sion von Y nach X1, …, Xk bei STP der Größe n“ ist analog zum bivariatem Fall: - unter H0 t-verteilt mit (n – k – 1) Freiheitsgraden: - Standardfehler von B muss zunächst berechnet werden:

76 Statistische Modelle 5.7 statistische Modelle haben über die Regressionsanalyse hinaus weitere methodische Ansprüche: - optimale Auswahl der Prädiktoren im Hinblick auf statistische Signifikanz, erklärte Varianz, Aussagekraft und Robustheit - Abschätzung der Unsicherheit - Bewertung des Regressionsmodells Regression Screening: - schrittweise multiple Regression mit progressiver Hinzunahme weiterer Prädiktoren in der Reihenfolge ihrer Wichtigkeit - 1. Schritt: Regression auf die erste Spalte in der Datenmatrix X:

77 Statistische Modelle 5.7 Regression Screening:
- 2. Schritt: wichtigsten Prädiktor auswählen über lineare Einfachkorrelation mit Prädiktand: Regression auf Regressionskonstante und 1. Prädiktor: Berechnung des Residuums (nicht durch P1 erklärter Anteil von Y):

78 Statistische Modelle 5.7 Regression Screening:
- 3. Schritt: nächst wichtigen Prädiktor auswählen über lineare Einfach- korrelation mit Residuum des Prädiktanden: Regression auf Regressionskonstante, 1. und 2. Prädiktor: Berechnung des Residuums (nicht durch P1 und P2 erklärter Anteil von Y):

79 Statistische Modelle 5.7 Regression Screening:
- 4. – k. Schritt: jeweils nächst wichtigen Prädiktor auswählen über lineare Einfachkorrelation mit Residuum des vorherigen Schrittes: Regression auf Regressionskonstante, 1. bis k. Prädiktor: Berechnung des Residuums (nicht durch Regression erklärter Anteil von Y):

80 Statistische Modelle 5.7 Kreuzvalidation:
- Prädiktand- und Prädiktorreihen werden aufgeteilt in einen abhängigen und einen unabhängigen Datensatz: - abhängiger Datensatz: Basis für Regressionsanalyse (Training) - unabhängiger Datensatz: Basis für Kreuzvalidation (Bootstrap-Elemente) - Auswahl der m Bootstrap-Elemente erfolgt mit Zufallszahlengenerator und über sinnvolles Datenfenster (Autokorrelation) - Mittelwert der abhängigen Daten muss neu adjustiert werden auf kürzeren Datensatz Bootstrap-Elemente Prädiktandreihe Prädiktorreihe 1 Jahr 1 Jahr n Bezugseinheit

81 unabhängiger Datensatz
Statistische Modelle 5.7 Kreuzvalidation: - Regressionsanalyse liefert Schätzwerte für abhängigen Datensatz und Schätzwerte für unabhängigen Datensatz: - mean-square error als Gütemaß für Regres- sionsmodell kann ebenfalls für abhängigen und unabhängigen Datensatz berechnet werden: - MSE nimmt per definitionem immer ab mit jedem zusätzlichen Prädiktor (“Overfitting“) - MSEB besitzt Minimum an der Stelle der optimalen Prädiktorselektion mit der optimalen Anzahl z: abhängiger Datensatz unabhängiger Datensatz Anzahl Prädiktoren

82 … Statistische Modelle 5.7 Monte Carlo-Technik:
- zufällige Auswahl der Bootstrap-Elemente wird p-mal wiederholt: 1. Durchgang q. Durchgang p. Durchgang

83 unabhängiger Datensatz
Statistische Modelle 5.7 Monte Carlo-Technik: - Regressionsanalyse liefert Schätzwerte für abhängigen Datensatz und Schätzwerte für unabhängigen Datensatz in Abhängigkeit der zufälligen Bootstrap- Auswahl q: - mean-square error als Gütemaß für Regres- sionsmodell kann ebenfalls für abhängigen und unabhängigen Datensatz berechnet werden in Ab- hängigkeit von q: - für MSE lässt sich über Monte Carlo-Ansatz Konfidenzintervall mit α = 5% angeben - optimale Prädiktorselektion an der Stelle mit dem Minimum von MSEB im Mittel über q: abhängiger Datensatz unabhängiger Datensatz Anzahl Prädiktoren

84 Statistische Modelle 5.7 Bewertung des statistischen Modells:
- Verbesserung der Vorhersagbarkeit durch die ausgewählten Prädiktoren lässt sich allgemein durch den Brier Skill Score beziffern - Treffsicherheit von bestimmten vorhergesagten Werteklassen lässt sich mit der sog. log(odds)-Ratio testen Brier Skill Score: - misst die Verbesserung der Vorhersage durch ein statistisches Modell mit Prädiktoren gegenüber der Mittelwertsvorhersage y: Y gute Mittelwertsvorhersage (Azorenhoch) X Y X schlechte Mittelwertsvorhersage (Monsun)

85 Varianzanalyse 5.8 Varianzanalyse ist ein Pendant zur Regressionsanalyse: - abhängige Variable Y ist metrisch skaliert (stetig) - unabhängige Variblen Xi sind kategorial (diskret): nominal- oder ordinalskaliert - bei Regression existiert zu jedem Wert x eine normalverteilte ZVA Y|x mit Mittelwert μY|x und von x unabhängiger Standardabweichung σε, wobei die μY|x auf einer Geraden liegen: - Abhängigkeit der ZVA Y von X kommt dadurch zum Ausdruck, dass β  0 bzw.: - bei kategorialer ZVA X kann zwar keine lineare Abhängikeit bzgl. Y bestimmt werden, aber zu testen, ob die m Kate- gorien von X einen signifikanten Einfluss auf die Varianz von Y haben: Regressionsanalyse Varianzanalyse

86 Varianzanalyse 5.8 einfache Varianzanalyse:
- Werte der ZVA Y lassen sich durch das folgende Modell darstellen: - damit lauten die beiden Hypothesen gegeben eine Zufalls-STP der Größe n = n1 + n2 + … + nm: - Test der Nullhypothese erfolgt auf Basis einer Zerlegung der Gesamtvarianz bzw. der Quadratsummen (SS = Sum of Squares) von Y: Bsp. Klimatologie: i = 1..n Zeiteinheiten j = 1..m Klimamodell- experimente Experimente mit unterschied- lichen, aber fixen Randbedin- gungen (Treatment): z.B. CO2-Gehalt SSt : gesamte Quadratsumme von Y SSβ : Treatment-Effekt von X auf Y SSε : Fehlerquadratsumme innerhalb der Kategorien

87 Varianzanalyse 5.8 einfache Varianzanalyse:
- unverzerrte Schätzer für die Mittelwerte μ und μj: - Berechnung der Quadratsummen: - die folgende Prüfgröße ist F-verteilt mit (m – 1, n – m) Freiheitsgraden: 4 x CO2 2 x CO2 präindustriell Temperatur μ3 μ μ2 μ1 Jahr

88 Varianzanalyse 5.8 einfache Varianzanalyse:
- relativer Varianzanteil des Treatment-Effektes an der Gesamtvarianz von Y: - für diese erklärte Varianz ist die folgende Prüfgröße ebenfalls F-verteilt mit (m – 1, n – m) Freiheitsgraden: - anhand eines sog. Scheffé-Tests lässt sich auch entscheiden, welche Mittel- werte (Treatment) voneinander verschieden sind - Bsp. Binnenwanderungssaldo und Siedlungsstruktur in Norddeutschland: fixe (nicht zufällige) Treatment-Effekte zufällige Treatment-Effekte  fixe (nicht zufällige) Treatment-Effekte zufällige Treatment-Effekte  Y : Binnenwanderungssaldo X1 : kreisfreie Städte X2 : Landkreis mit Verdichtungsansatz X3 : Landkreis ohne Verdichtungsansatz fixe Treatment-Effekte (reproduzierbar) m = 3 n = 65

89 Varianzanalyse 5.8 einfache Varianzanalyse:
- Bsp. Binnenwanderungssaldo: Originaltabelle nach X umstruktierte Tabellen

90 Varianzanalyse 5.8 einfache Varianzanalyse:
- Bsp. Binnenwanderungssaldo: - Berechnung der Quadratsummen: - Berechnung der Prüfgröße und kritischer Wert (α = 5%): - Berechnung der erklärten Varianz mit Prüfgröße und kritischem Wert (α = 5%): Siedlungsstruktur hat statistisch signifikanten Einfluss auf Binnen- wanderungssaldo mit einer erklär- ten Varianz in Höhe von 41%.

91 Varianzanalyse 5.8 einfache Varianzanalyse:
- bei manchen Fragestellungen können i und j auch vertauscht sein, so dass nicht nach den systematischen Unterschieden zwischen Experimenten, son- dern nach der gemeinsamen Entwicklung in der Zeit gefragt wird: - häufig bei transienten Treatment-Effekten in nichtlinearen Systemen mit star- ker Abhängigkeit von den Anfangsbedingungen: Detektion des Klimawandels - Verfahren ist identisch, nur i und j sind anders definiert: μj μj μ Temperatur Niederschlag μ Jahr Jahr Bsp. Klimatologie: i = 1..n Ensembleläufe j = 1..m Zeiteinheiten Zeit als Treatment-Effekt bei kontinuierlich steigenden CO2-Konzentrationen

92 Varianzanalyse 5.8 doppelte Varianzanalyse:
- Ansatz der Varianzanalyse direkt erweiterbar auf mehr als eine unabhängige kategoriale Variable - allerdings schnell sehr aufwendig, deshalb hier nur für zwei unabhängige Variablen - gegeben ist eine ZVA Y über zwei Kategorien i = 1..ni und j = 1..nj sowie k = 1..nk Bezugseinheiten (n = ni ∙ nj ∙ nk): - Frage nach Varianzanteilen von systematischen Modellunterschieden, ge- meinsamem Treatment (z.B. CO2-Anstieg) und interner Variabilität durch unterschiedliche Anfangsbedingungen Bsp. Klimatologie: i = 1..ni Klimamodelle j = 1..nj Zeiteinheiten k = 1..nk Ensembleläufe

93 Varianzanalyse 5.8 doppelte Varianzanalyse: - Quadratsummenzerlegung:
- Nullhypothesen separat für alle erklärbaren Varianzanteile: - unverzerrte Schätzer für Mittelwerte: μ3j μj μi=3 μ2j Temperatur μ1j μ μi=1 μi=2 Jahr

94 Varianzanalyse 5.8 doppelte Varianzanalyse:
- Berechnung der Quadratsummen: - erklärte Varianzanteile:

95 Varianzanalyse 5.8 doppelte Varianzanalyse:
- die folgenden Prüfgrößen sind F-verteilt mit entsprechenden Freiheitsgraden:

96 Varianzanalyse 5.8 doppelte Varianzanalyse:
- Bsp. Varianzanteile der bodennahen Temperatur im Zeitraum 1880–2049: CO2-Einfluss vor allem in niederen Breiten Modellunsicherheiten über Orographie und an Eisrändern interne Variabilität im Bereich der Zyklogenese

97 “Take-away“ 5 Die Regressions- und Korrelationsanalyse ermitteln die Art bzw. die Stärke des Zusammenhangs zwischen (metrischen) Zufallsvariablen Häufig kommt die lineare Einfachregression zum Einsatz, bei der die Regressionsgleichung eine Gerade beschreibt, nichtlineare und multiple Ansätze sind aber ebenfalls lösbar. Die Regressionsgleichung eignet sich auch zur Erfassung von Zeitreihentrends und zur Prognose von zukünftigen Entwicklungen. Für ordinalskalierte Variablen fungiert der Rang-Korrelationskoeffizient, für nominalskalierte Variablen der Kontigenzkoeffizient bzw. der Vierfelder-Korrelationskoeffizient als Zusammenhangmaß. Statistische Modelle vereinen die Verfahren der multiplen Regression, Kreuzvalidation und Monte Carlo-Technik und besitzen ein vielfältiges Anwendungspotenzial. Die Varianzanalyse erfasst den Einfluss von unabhängigen auf abhängige ZVA bei nicht-metrischen Prädiktoren.


Herunterladen ppt "Regression und Korrelation"

Ähnliche Präsentationen


Google-Anzeigen