Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004.

Ähnliche Präsentationen


Präsentation zum Thema: "Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004."—  Präsentation transkript:

1 Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung

2 2 Überblick Lineare Modelle Verschiedene Splines Optimierung: Validierung AIC Freiheitsgrade GAM Beispiel

3 3 Lineares Modell X Kovariablen, Y Responsevariablen Additiver linearer Zusammenhang zwischen Y und X Mit zufälliger Störgröße ε

4 4 Polynom 3. Grades Rückführung des Modells auf einfaches lineares Modell mit: Designmatrix

5 5 Schätzung Basierend auf KQ-Schätzung P ist Projektionsmatrix rgP= spP= rgX= Anzahl der Spalten =Anzahl der freien Parameter

6 6 Smoother Problem: bei manchen Datensätzen gibt es keine einfache Transformation Lösung: Ersetzen der linearen Beziehung durch: f unspezifische Funktion, die bestimmten Glattheitsforderungen genügt (etwa f stetig, stetig differenzierbar etc.)

7 7 Basisfunktionsansätze Approximiere die unbekannte Funktion durch möglichst flexiblen Funktionenraum Darstellung der Funktion f als Linearkombination einer endlichen Menge von Basisfunktionen

8 8 Polynome vom Grad p einfacher Basisansatz basiert auf Polynome als Basisfunktionen verwenden wir Problem: Wahl von p?

9 9 Polynomial Splines Intervall [a,b] R und Knoten a-ξ 1 < ξ 2 <....< ξ m-b Spline-Funktion Funktion s:[a,b]->R heißt Spline-Funktion vom Grad l (Ordnung l+1), wenn S ist Polynom (max Grad k) auf [ξ j, ξ j+1 ] j=0,..,m S besitzt stetige Ableitungen der Ordnung l-1 auf [a,b] Menge der Polynomsplines ist ein Vektorraum der Ordnung m+(l-1) (Anzahl der Knoten + Grad)

10 10 B-Splines Basisfunktion für Splines Dann erhalten wir für z [a,b]

11 11 B-Splines zur Berechnung benötigen wir 2l zusätzliche Knoten Knotenmenge bildet erweiterte Partition äquidistante Knotenwahl: Intervall [x min,x max ] und erhalten Knoten Wie viele Knoten sollen spezifiziert werden? Wo sollen die Knoten plaziert werden?

12 12 Bilder B-Spline

13 13 P-Splines definiere eine relativ große Anzahl äquidistanter Knoten (ca ) um ausreichende Flexibilität des Splineraums zu gewähren zu starke Abweichungen benachbarter Regressionskoeffizienten β j werden durch Strafterme basierend auf quadrierte Differenzen k-ter Ordnung bestraft

14 14 P-Spline unbekannte Funktion f durch einen Spline vom Grad l approximieren B j ist eine B-Spline Basis

15 15 P-Splines penalisierte Residuenquadratsumme Differenzenoperator k-ter Ordnung Strafterm-> Verhindert zu starke Anpassung an Daten, damit überfitten Glättungsparameter λ

16 16 Glättungsspline x 1 min Lösung: natürliche kubische Splines ist Polynom 3.Grades auf [x i ;x i+1 ] für alle i f´´(x i ) ist stetig in allen Beobachtungen f´´(x 1 )=f´´(x n )=0 d.h. am Rand verschwindet die 2. Ableitung

17 17 kubische Splines a

18 18 lokale Polynome Nächste Nachbar Schätzer Lokale polynomiale Regression Locally-weighted running-line smoother loess im statistischen Programmpaket loess k nahsten Nachbarn

19 19 Nächste Nachbar Schätzer Mittelwert der Responsebeobachtungen in einer Nachbarschaft formal: Ave Mittelwertoperator und N(x i ) eine Nachbarschaft von x i symmetrische Nachbarschaft k nächsten Nachbarn (unsymmetrische Nachbarschaft)

20 20 Mittelwertoperatoren Running mean Schätzer: arithmetisches Mittel der Beobachtung in N(x i ) zur Bestimmung von Running median Schätzer: Median der Beobachtung in N(x i ), nichtlinearer Glätter Running line Schätzer: Beim Running line Schätzer definieren wir KQ-Schätzer basierend auf Beobachtungen

21 21 Lokale polynomiale Regression Taylorapproximation gewichtete Residuenquadratsumme wobei alsSchätzer bedingter Erwartungswert

22 22 Berechnung der lokalen Polynome K nächste Nachbar von x 0 wird identifiziert, bezeichnet als N(x 0 ) wird berechnet, Distanz des weitesten nahsten Nachbarn von x 0 Gewichte w i sind zugewiesen zu jedem Punkt in N(x 0 ), sie benutzen das tri-kubsiche Gewichtsfunktion:

23 23 Berechnung der lokalen Polynome definierten Gewichte mit 0u1 bestimmen durch gewichtete lineare Regression

24 24 Glättungsparameterwahl λ steuert den Ausgleich zwischen Bias und Variabilität λ opt minimiert ein Kriterium mean average squared error predicted squared-error

25 25 Kreuz-Validierung Leaving one out Schätzung aller Daten ohne (y i,x i ) Summe der neuen Gewichte Σ(s ij /(1-s ii) )=1

26 26 Generalisierte Kreuz-Validierung Rechentechnisch einfacher S ii durch Spur ersetzt

27 27 Additive Modelle Additivität der Einflußgrößen wird beibehalten, während der lineare Einfluss fallen gelassen wird f 1,...,f p sind unbekannte glatte Funktionen

28 28 AIC-Statistik Erste Term bestraft eine mangelnde Anpassung an die Daten Zweite Term bestraft die hohe Modellkomplexität Menge des AIC hat Form des Akaike- Informationskriterium Matrix R ist Gesamtsmoothermatrix

29 29 Freiheitsgrade SST =SSM+SSE n-1 = p +n-p-1Freiheitsgrade σ²=SSE/n-p -> erwartungstreuer Schätzer df=sp(S λ ) (alternativ: n-sp(2S λ -S λ S λ T ) oder sp(S λ S λ T )) Freiheitsgrade Freiheitsgrade der Fehler

30 30 Projektionsmatrix df(model)=tr(S) df(error)=E(RSS)=σ²(n-tr(2S-SS T ) S ist symmetrisch und idempotent Für polynomiale Regression, Regressions- Splines df(error)=σ²(n-tr(S))

31 31 Generalisierte Lineare Modelle Bedingte Verteilung gehört Exponentialfamilie an Es gilt: Erwartungswertr hängt über Responsefunktion ab

32 32 Generalisierte additive Modelle Lineare Prädiktor wird durch additiven ersetzt Unbekannte Funktionen könne durch KQ- Algorithmus und Backfitting Algorithmus geschätzt werden Residuenquadratsumme wird durch Devianzen ersetzt

33 33 Generalisierte additive Modelle Loglikelihood in Abhängigkeit vom geschätzten Erwartungswert Devianz: Je höher Devianz, desto schlechter Anpassung

34 34 Generalisiertes lineares Modell

35 35 Polynom 3. Grades

36 36 Kubischer Spline mit 3 Knoten

37 37 Kubischer Spline mit 7 Knoten

38 38 Lokal gewichteter Spline

39 39 Smoothing Spline

40 40 Quellenangabe Studie Assesing Confounding, Effect Modification, and Thresholds in the Association between Ambient Particles and Daily Deaths Joel Schwarz Generalized Additive Models Hastie/Tibsherani Multivariate Statistical Modelling Based on Generalized Linear Models Fahrmeir/Tutz Computerintensive Verfahren der Statistik Stefan Lang


Herunterladen ppt "Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004."

Ähnliche Präsentationen


Google-Anzeigen