Generalisierte additive Modelle

Slides:



Advertisements
Ähnliche Präsentationen
8. Termin Teil B: Wiederholung Begriffe Baum
Advertisements

Hauptseminar Robot/Computer Vision SS 2001 Active Contours von Andrew Blake und Michael Isard B-Splines Florian Klaschka.
Christian Scheideler SS 2009
Perceptrons and the perceptron learning rule
O-Notation in der Informatik
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
2. Kapitel: Komplexität und Komplexitätsklassen
Seminar „Extrapolationsmethoden für zufällige Felder“
1 1. Splineglättung 1.1 Motivation 1.2 Notation 1.3 Splineglättung
13 2. Eine Anwendung der Spline-Glättung in der Versicherungsmathematik: Geographische Prämienschätzung durch räumliche Whittaker-Glättung 2.1 Vorbemerkungen.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Das freie Randwertproblem von Stokes
Zeitreihenanalyse WS 2004/2005 Michael Hauhs / Gunnar Lischeid
Kubische Bézier Kurven
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Bézier-Bernstein Methoden für Bivariate Polynome
§14 Basis und Dimension (14.1) Definition: V sei wieder ein K-Vektorraum. Eine Menge B von Vektoren aus V heißt Basis von V, wenn B ist Erzeugendensystem.
§14 Basis und Dimension  (14.1) Definition: V sei wieder ein K-Vektorraum. Eine Menge B von Vektoren aus V heißt Basis von V, wenn B ist Erzeugendensystem.
Tutorium
Tutorium
Seminar Stringtheorie und Geometrische Methoden der Physik
Computergrafik – Inhalt Achtung! Kapitel ist relevant für CG-2!
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Effiziente Algorithmen
EXCEL PROFESSIONAL KURS
Computerorientierte Physik VORLESUNG Zeit: jeweils Mo Uhr Ort: Hörsaal 5.01, Institut für Experimentalphysik, Universitätsplatz 5, A-8010.
Ausgleichungsrechnung II
Zeit: 13h-15h Datum: Raum: IFW B42
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Polynome und schnelle Fourier-Transformation
Fundamente der Computational Intelligence
Kapitel 10 Multikollinearität
Kapitel 9 Analyse der Modellstruktur Hackl, Einführung in die Ökonometrie 2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u:
Lineare Restriktionen
Kapitel 18 Dynamische Modelle: Schätzen der Parameter
Ökonometrie I Analyse der Modellstruktur Ökonometrie I2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u: n-Vektoren; X: Ordnung.
Kapitel 19 Kointegration
Kapitel 16 Ökonometrische Modelle
Kapitel 4 Annahmen des linearen Regressionsmodells
Kapitel 18 Dynamische Modelle: Schätzen der Parameter.
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
Teil 2: Kurven und Flächen
Strategie der Modellbildung
Mathematik 1. Studienjahr Modul M1: Elemente der Mathematik
Die spline-Interpolation
1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Die spline-Interpolation
Klassifikation und Regression mittels neuronaler Netze
Das Traveling Salesman Problem (TSP)
Stetige Kleinste-Quadrate-Approximation
Nichtlineare Optimierung
Vortrag Relative Orientierung
Deterministische Verfahren
„Seminar: Statistische Analyse zur Wirkung von Luftschadstoffen“ Fallstudie in den USA zum Thema Luftschadstoffe Antonia Zapf, am 22.November 2004 Dozenten:
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.
Fundamentalräume einer Matrix
Approximation (Teil 2) / SES.125 Parameterschätzung
Die Numerische Differentiation
 Präsentation transkript:

Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

Überblick Lineare Modelle Verschiedene Splines Optimierung: Validierung AIC Freiheitsgrade GAM Beispiel

Lineares Modell X Kovariablen, Y Responsevariablen Additiver linearer Zusammenhang zwischen Y und X Mit zufälliger Störgröße ε

Polynom 3. Grades Rückführung des Modells auf einfaches lineares Modell mit: Designmatrix

Schätzung Basierend auf KQ-Schätzung P ist Projektionsmatrix rgP= spP= rgX= Anzahl der Spalten =Anzahl der freien Parameter

Smoother Problem: bei manchen Datensätzen gibt es keine einfache Transformation Lösung: Ersetzen der linearen Beziehung durch: f unspezifische Funktion, die bestimmten Glattheitsforderungen genügt (etwa f stetig, stetig differenzierbar etc.)

Basisfunktionsansätze Approximiere die unbekannte Funktion durch möglichst flexiblen Funktionenraum Darstellung der Funktion f als Linearkombination einer endlichen Menge von Basisfunktionen

Polynome vom Grad p einfacher Basisansatz basiert auf Polynome als Basisfunktionen verwenden wir Problem: Wahl von p?

Polynomial Splines Intervall [a,b] R und Knoten a-ξ1< ξ2<....< ξm-b Funktion s:[a,b]->R heißt Spline-Funktion vom Grad l (Ordnung l+1), wenn S ist Polynom (max Grad k) auf [ξ j, ξ j+1] j=0,..,m S besitzt stetige Ableitungen der Ordnung l-1 auf [a,b] Menge der Polynomsplines ist ein Vektorraum der Ordnung m+(l-1) (Anzahl der Knoten + Grad)

B-Splines Basisfunktion für Splines Dann erhalten wir für z [a,b]

B-Splines zur Berechnung benötigen wir 2l zusätzliche Knoten Knotenmenge bildet erweiterte Partition äquidistante Knotenwahl: Intervall [xmin,xmax] und erhalten Knoten Wie viele Knoten sollen spezifiziert werden? Wo sollen die Knoten plaziert werden?

Bilder B-Spline

P-Splines definiere eine relativ große Anzahl äquidistanter Knoten (ca. 20-40) um ausreichende Flexibilität des Splineraums zu gewähren zu starke Abweichungen benachbarter Regressionskoeffizienten βj werden durch Strafterme basierend auf quadrierte Differenzen k-ter Ordnung bestraft

P-Spline unbekannte Funktion f durch einen Spline vom Grad l approximieren Bj ist eine B-Spline Basis

P-Splines penalisierte Residuenquadratsumme Differenzenoperator k-ter Ordnung Strafterm-> Verhindert zu starke Anpassung an Daten, damit überfitten Glättungsparameter λ

Glättungsspline x1<x2<…<xn ->min Lösung: natürliche kubische Splines ist Polynom 3.Grades auf [xi;xi+1] für alle i f´´(xi) ist stetig in allen Beobachtungen f´´(x1)=f´´(xn)=0 d.h. am Rand verschwindet die 2. Ableitung

kubische Splines a<x1<...<xn<b eine Unterteilung des Intervalls [a,b] zusätzliche Randbedingung: s‘‘(a)=0, s‘‘(b)=0 in den Intervallen [a,xn] und [xn,b] ist s linear bei Glättungssplines mehr Basisfunktionen notwendig penalisierter KQ-Kriterium wobei ein NKS in B-Spline Basis ist

lokale Polynome Nächste Nachbar Schätzer Lokale polynomiale Regression Locally-weighted running-line smoother im statistischen Programmpaket loess k nahsten Nachbarn

Nächste Nachbar Schätzer „Mittelwert“ der Responsebeobachtungen in einer Nachbarschaft formal: Ave Mittelwertoperator und N(xi) eine Nachbarschaft von xi symmetrische Nachbarschaft k nächsten Nachbarn (unsymmetrische Nachbarschaft)

Mittelwertoperatoren Running mean Schätzer: arithmetisches Mittel der Beobachtung in N(xi) zur Bestimmung von Running median Schätzer: Median der Beobachtung in N(xi), nichtlinearer Glätter Running line Schätzer: Beim Running line Schätzer definieren wir KQ-Schätzer basierend auf Beobachtungen

Lokale polynomiale Regression Taylorapproximation gewichtete Residuenquadratsumme wobei als Schätzer bedingter Erwartungswert

Berechnung der lokalen Polynome K nächste Nachbar von x0 wird identifiziert, bezeichnet als N(x0) wird berechnet, Distanz des weitesten nahsten Nachbarn von x0 Gewichte wi sind zugewiesen zu jedem Punkt in N(x0), sie benutzen das tri-kubsiche Gewichtsfunktion:

Berechnung der lokalen Polynome definierten Gewichte mit 0≤u≤1 bestimmen durch gewichtete lineare Regression

Glättungsparameterwahl λ steuert den Ausgleich zwischen Bias und Variabilität λopt minimiert ein Kriterium mean average squared error predicted squared-error

Kreuz-Validierung Leaving one out Schätzung aller Daten ohne (yi,xi) Summe der neuen Gewichte Σ(sij/(1-sii))=1

Generalisierte Kreuz-Validierung Rechentechnisch einfacher Sii durch Spur ersetzt

Additive Modelle Additivität der Einflußgrößen wird beibehalten, während der lineare Einfluss fallen gelassen wird f1,...,fp sind unbekannte „glatte“ Funktionen

AIC-Statistik Erste Term bestraft eine mangelnde Anpassung an die Daten Zweite Term bestraft die hohe Modellkomplexität Menge des AIC hat Form des Akaike-Informationskriterium Matrix R ist Gesamtsmoothermatrix

Freiheitsgrade SST =SSM+SSE n-1 = p +n-p-1 Freiheitsgrade σ²=SSE/n-p -> erwartungstreuer Schätzer df=sp(Sλ) (alternativ: n-sp(2Sλ-SλSλT ) oder sp(SλSλT)) Freiheitsgrade Freiheitsgrade der Fehler

Projektionsmatrix df(model)=tr(S) df(error)=E(RSS)=σ²(n-tr(2S-SST) S ist symmetrisch und idempotent Für polynomiale Regression, Regressions-Splines df(error)=σ²(n-tr(S))

Generalisierte Lineare Modelle Bedingte Verteilung gehört Exponentialfamilie an Es gilt: Erwartungswertr hängt über Responsefunktion ab

Generalisierte additive Modelle Lineare Prädiktor wird durch additiven ersetzt Unbekannte Funktionen könne durch KQ-Algorithmus und Backfitting Algorithmus geschätzt werden Residuenquadratsumme wird durch Devianzen ersetzt

Generalisierte additive Modelle Loglikelihood in Abhängigkeit vom geschätzten Erwartungswert Devianz: Je höher Devianz, desto schlechter Anpassung

Generalisiertes lineares Modell

Polynom 3. Grades

Kubischer Spline mit 3 Knoten

Kubischer Spline mit 7 Knoten

Lokal gewichteter Spline

Smoothing Spline

Quellenangabe Studie „Assesing Confounding, Effect Modification, and Thresholds in the Association between Ambient Particles and Daily Deaths“ Joel Schwarz „Generalized Additive Models“ Hastie/Tibsherani „Multivariate Statistical Modelling Based on Generalized Linear Models“ Fahrmeir/Tutz „Computerintensive Verfahren der Statistik“ Stefan Lang