Präsentation herunterladen
1
Generalisierte additive Modelle
Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung
2
Überblick Lineare Modelle Verschiedene Splines
Optimierung: Validierung AIC Freiheitsgrade GAM Beispiel
3
Lineares Modell X Kovariablen, Y Responsevariablen
Additiver linearer Zusammenhang zwischen Y und X Mit zufälliger Störgröße ε
4
Polynom 3. Grades Rückführung des Modells auf einfaches lineares Modell mit: Designmatrix
5
Schätzung Basierend auf KQ-Schätzung P ist Projektionsmatrix
rgP= spP= rgX= Anzahl der Spalten =Anzahl der freien Parameter
6
Smoother Problem: bei manchen Datensätzen gibt es keine einfache Transformation Lösung: Ersetzen der linearen Beziehung durch: f unspezifische Funktion, die bestimmten Glattheitsforderungen genügt (etwa f stetig, stetig differenzierbar etc.)
7
Basisfunktionsansätze
Approximiere die unbekannte Funktion durch möglichst flexiblen Funktionenraum Darstellung der Funktion f als Linearkombination einer endlichen Menge von Basisfunktionen
8
Polynome vom Grad p einfacher Basisansatz basiert auf Polynome
als Basisfunktionen verwenden wir Problem: Wahl von p?
9
Polynomial Splines Intervall [a,b] R und Knoten
a-ξ1< ξ2<....< ξm-b Funktion s:[a,b]->R heißt Spline-Funktion vom Grad l (Ordnung l+1), wenn S ist Polynom (max Grad k) auf [ξ j, ξ j+1] j=0,..,m S besitzt stetige Ableitungen der Ordnung l-1 auf [a,b] Menge der Polynomsplines ist ein Vektorraum der Ordnung m+(l-1) (Anzahl der Knoten + Grad)
10
B-Splines Basisfunktion für Splines Dann erhalten wir für z [a,b]
11
B-Splines zur Berechnung benötigen wir 2l zusätzliche Knoten
Knotenmenge bildet erweiterte Partition äquidistante Knotenwahl: Intervall [xmin,xmax] und erhalten Knoten Wie viele Knoten sollen spezifiziert werden? Wo sollen die Knoten plaziert werden?
12
Bilder B-Spline
13
P-Splines definiere eine relativ große Anzahl äquidistanter Knoten (ca ) um ausreichende Flexibilität des Splineraums zu gewähren zu starke Abweichungen benachbarter Regressionskoeffizienten βj werden durch Strafterme basierend auf quadrierte Differenzen k-ter Ordnung bestraft
14
P-Spline unbekannte Funktion f durch einen Spline vom Grad l approximieren Bj ist eine B-Spline Basis
15
P-Splines penalisierte Residuenquadratsumme
Differenzenoperator k-ter Ordnung Strafterm-> Verhindert zu starke Anpassung an Daten, damit überfitten Glättungsparameter λ
16
Glättungsspline x1<x2<…<xn ->min
Lösung: natürliche kubische Splines ist Polynom 3.Grades auf [xi;xi+1] für alle i f´´(xi) ist stetig in allen Beobachtungen f´´(x1)=f´´(xn)=0 d.h. am Rand verschwindet die 2. Ableitung
17
kubische Splines a<x1<...<xn<b eine Unterteilung des Intervalls [a,b] zusätzliche Randbedingung: s‘‘(a)=0, s‘‘(b)=0 in den Intervallen [a,xn] und [xn,b] ist s linear bei Glättungssplines mehr Basisfunktionen notwendig penalisierter KQ-Kriterium wobei ein NKS in B-Spline Basis ist
18
lokale Polynome Nächste Nachbar Schätzer Lokale polynomiale Regression
Locally-weighted running-line smoother im statistischen Programmpaket loess k nahsten Nachbarn
19
Nächste Nachbar Schätzer
„Mittelwert“ der Responsebeobachtungen in einer Nachbarschaft formal: Ave Mittelwertoperator und N(xi) eine Nachbarschaft von xi symmetrische Nachbarschaft k nächsten Nachbarn (unsymmetrische Nachbarschaft)
20
Mittelwertoperatoren
Running mean Schätzer: arithmetisches Mittel der Beobachtung in N(xi) zur Bestimmung von Running median Schätzer: Median der Beobachtung in N(xi), nichtlinearer Glätter Running line Schätzer: Beim Running line Schätzer definieren wir KQ-Schätzer basierend auf Beobachtungen
21
Lokale polynomiale Regression
Taylorapproximation gewichtete Residuenquadratsumme wobei als Schätzer bedingter Erwartungswert
22
Berechnung der lokalen Polynome
K nächste Nachbar von x0 wird identifiziert, bezeichnet als N(x0) wird berechnet, Distanz des weitesten nahsten Nachbarn von x0 Gewichte wi sind zugewiesen zu jedem Punkt in N(x0), sie benutzen das tri-kubsiche Gewichtsfunktion:
23
Berechnung der lokalen Polynome
definierten Gewichte mit ≤u≤1 bestimmen durch gewichtete lineare Regression
24
Glättungsparameterwahl
λ steuert den Ausgleich zwischen Bias und Variabilität λopt minimiert ein Kriterium mean average squared error predicted squared-error
25
Kreuz-Validierung Leaving one out Schätzung aller Daten ohne (yi,xi)
Summe der neuen Gewichte Σ(sij/(1-sii))=1
26
Generalisierte Kreuz-Validierung
Rechentechnisch einfacher Sii durch Spur ersetzt
27
Additive Modelle Additivität der Einflußgrößen wird beibehalten, während der lineare Einfluss fallen gelassen wird f1,...,fp sind unbekannte „glatte“ Funktionen
28
AIC-Statistik Erste Term bestraft eine mangelnde Anpassung an die Daten Zweite Term bestraft die hohe Modellkomplexität Menge des AIC hat Form des Akaike-Informationskriterium Matrix R ist Gesamtsmoothermatrix
29
Freiheitsgrade SST =SSM+SSE n-1 = p +n-p-1 Freiheitsgrade
σ²=SSE/n-p -> erwartungstreuer Schätzer df=sp(Sλ) (alternativ: n-sp(2Sλ-SλSλT ) oder sp(SλSλT)) Freiheitsgrade Freiheitsgrade der Fehler
30
Projektionsmatrix df(model)=tr(S) df(error)=E(RSS)=σ²(n-tr(2S-SST)
S ist symmetrisch und idempotent Für polynomiale Regression, Regressions-Splines df(error)=σ²(n-tr(S))
31
Generalisierte Lineare Modelle
Bedingte Verteilung gehört Exponentialfamilie an Es gilt: Erwartungswertr hängt über Responsefunktion ab
32
Generalisierte additive Modelle
Lineare Prädiktor wird durch additiven ersetzt Unbekannte Funktionen könne durch KQ-Algorithmus und Backfitting Algorithmus geschätzt werden Residuenquadratsumme wird durch Devianzen ersetzt
33
Generalisierte additive Modelle
Loglikelihood in Abhängigkeit vom geschätzten Erwartungswert Devianz: Je höher Devianz, desto schlechter Anpassung
34
Generalisiertes lineares Modell
35
Polynom 3. Grades
36
Kubischer Spline mit 3 Knoten
37
Kubischer Spline mit 7 Knoten
38
Lokal gewichteter Spline
39
Smoothing Spline
40
Quellenangabe Studie „Assesing Confounding, Effect Modification, and Thresholds in the Association between Ambient Particles and Daily Deaths“ Joel Schwarz „Generalized Additive Models“ Hastie/Tibsherani „Multivariate Statistical Modelling Based on Generalized Linear Models“ Fahrmeir/Tutz „Computerintensive Verfahren der Statistik“ Stefan Lang
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.