„Seminar: Statistische Analyse zur Wirkung von Luftschadstoffen“ Fallstudie in den USA zum Thema Luftschadstoffe Antonia Zapf, am 22.November 2004 Dozenten:

Slides:

Advertisements

Ähnliche Präsentationen

Polynomial Root Isolation

Advertisements

Die Beschreibung von Bewegungen

Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.

Bewegungswissenschaft

Einkommensungleichheit

Forschungsstrategien Johannes Gutenberg Universität Mainz

Thema der Stunde I. Einführung in die Varianzanalyse:

Forschungsstatistik II

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.

Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.

Nicht-Lineare Regression

Konfidenzintervalle für Parameter

Modellvergleich.

Mehrfachregressionen

Quantitative Methoden I

Hypothesen testen: Grundidee

K. Desch - Statistik und Datenanalyse SS05

Strukturgleichungsmodelle

Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.

Mögliche Funktionenklassen

Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.

Unser siebentes Tutorium

Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.

Wiederholung und Beispiele

Generalisierte additive Modelle

Vorlesung: ANOVA I

Probleme der Modellspezifikation

Multikollinearität Wann spricht man von Multikollinearität?

Wiederholung: Einfache Regressionsgleichung

Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014

Ausgleich von Sterbetafeln

Ausgleichungsrechnung II

Logistische Regression

Globale Interpolations- und Prädiktionsverfahren

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Hartmut Klauck Universität Frankfurt SS

Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/

Statistische Lernmethoden

Korpuslinguistik für und mit Computerlinguistik

Statistik: Mehr zur Regression.

Kapitel 10 Multikollinearität

Kapitel 9 Analyse der Modellstruktur Hackl, Einführung in die Ökonometrie 2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u:

Lineare Restriktionen

Kapitel 18 Dynamische Modelle: Schätzen der Parameter

Mehr zum Testen von Hypothesen

Kapitel 18 Dynamische Modelle: Schätzen der Parameter.

Strategie der Modellbildung

1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.

Statistik – Regression - Korrelation

Klimadapt: Interpolation der REMO UBA Daten und Untersuchung von Kühl- und Heizgradtagen mit StartClim Daten Universität für Bodenkultur, Wien Department.

Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig

setzt Linearität des Zusammenhangs voraus

Die einfache/multiple lineare Regression

1 Analyse konstruierter Daten … mit EffectLite Ref.: Marie Grahl, Victoria Paul, Katja Peilke.

SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.

K. Desch - Statistik und Datenanalyse SS05

Geostatistik Kriging Sarah Böckmann.

Geoinformationssysteme

EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.

Erprobung von Interpolationsmethoden für plan-polare Antennenmesstechnik von Michael Delissen Michael Delissen, IHF, RWTH Aachen University.

- Seite 1 TIME INTELLIGENCE ® by Zeichenrand – Löschen! Titel.

 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.

Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.

Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.

- Seite 1 TIME INTELLIGENCE ® by Titel.

Exkurs: Chi-quadrat und Modellgüte 1. ist ein Distanzmaß, welches die Distanz zwischen Modellvorhersage und Daten misst.  Je kleiner desto besser ist.

Präsentation transkript:

„Seminar: Statistische Analyse zur Wirkung von Luftschadstoffen“ Fallstudie in den USA zum Thema Luftschadstoffe Antonia Zapf, am 22.November 2004 Dozenten: Prof. Dr. Küchenhoff, PD Dr. Peters

A. Zapf2 Schätzung von Luftschadstoff-bedingter Mortalität und Grenzwert-Level: Eine Zeitreihenanalyse der 20 größten US- Städte Autoren: Michael J. Daniels, Francesca Dominici, Jonathan M. Samet, und Scott L. Zeger (2000)

A. Zapf3 Gliederung: n Einleitung n Daten n Modelle n Schätzungen n Ergebnisse n Diskussion n Literaturverzeichnis

A. Zapf4 Einleitung n Vermutung: Anstieg der Mortalität bei Luftverschmutzung unterhalb des Grenzwertes von (US National Ambient Air Quality Standard, 150 μm/ als 24- Stunden-Durchschnitt) n Einführung von Modellen um den Zusammenhang darzustellen n Anwendung auf die Daten PM10: Partikel die höchstens 10 Mikrometer groß sind

A. Zapf5 Einleitung (Modelle): Drei plausible Modelle für den Zusammenhang von logarithmierter Mortalität und -Konzentration n Modell 1: lineares Modell ohne Grenzwert n Modell 2: Spline dose-response Modell (log(Mortalität) Glättungs-Funktion von ) n Modell 3: Grenzwert-Modell (Annahme: kein Zusammenhang unterhalb des Grenzwertes, linearer Zusammenhang oberhalb)

A. Zapf6 Einleitung (Ziele): n Ziel 1: Vereinigung der Informationen der 20 Städte um die Form der durchschnittlichen dose-response Kurve zu präzisieren; n Ziel 2: Testen der Hypothese, dass der Zusammenhang zwischen Luftver- schmutzung und Mortalität annährend linear ist; n Ziel 3: Identifikation möglicher Grenzwerte, unterhalb derer keine Auswirkung der Luftverschmutzung auf die Mortalität nachgewiesen werden kann

A. Zapf7 Daten: Mortalität, Wetter und Luftverschmutzung für die 20 größten US-Städte von Datensatz eine größeren Projekts (Morbidität, Mortalität, Luftverschmutzung

A. Zapf8 Die Daten

A. Zapf9 Daten (Luftschadstoffe) n Daten vom Aerometrik-Informations- Retrieval-System n an manchen Orten viele fehlende Werte für, da nur alle sechs Tage gemessen n bei mehr als einer Messstation pro Stadt wurde der Jahresdurchschnitt für jede Messstation korrigiert, und dann das um 10% gestutzte Mittel über alle Messreihen verwendet (Schutz vor Ausreißern)

A. Zapf10 Daten (Mortalität) n Daten vom National Center for Health Statistics n Tod durch äußere Umstände ausgeschlossen n nach Altersgruppen klassifiziert: =75 Jahre n nach Todesursache klassifiziert: kardiale, respiratorische Erkrankungen, Grippe und Lungenentzündung (=kardiovaskuläre und respiratorische Ursachen) andere übrige Krankheiten (=andere Ursachen) chronisches obstruktives Asthma und damit zusammenhängende Störungen eingeschlossen

A. Zapf11 Daten (Wetter) n Daten vom EarthInfo Datensatz n stündliche Temperatur und Feuchtigkeit n 24-Stunden-Durchschnitt n bei mehr als einer Wetterstation pro Stadt wurde das Mittel aller Stationen verwendet

A. Zapf12 Modell 1 n log-lineares Poissonmodell zur Schätzung des relativen Anteils von Luftverschmutzung/ Mortalität für jeden Ort getrennt (generalisiertes additives Modell mit log link und Poisson-Fehler) Y|X-Po( ) Confounder: Altersspezifische Langzeittendenzen (z.B. Neuerungen in der Medizin), Wetter, Wochentag

A. Zapf13 Modell 1 n : beobachtete Mortalität für jede Altersgruppe a : Mittelwert von am Tag t und t-1 : erwartete Anzahl von Todesfällen am Tag t confounder n β : log-relative Rate von Mortalität und Anstieg von um eine Einheit n Sensitivitätsanalyse: Rechnung mit der -Konzentration vom aktuellen Tag und vom Vortag einzeln Wenn die PM10-Konzentration vom vorherigen (laufenden) Tag fehlt, dann benutzen wir nur die PM10- Konzentration vom laufenden (vorherigen) Tag. Wenn fehlende Werte für manche Variable an manchen Tagen sind, beschränken wir die Analyse auf Tage, an denen nicht für alle Kovariaten fehlende werte sind

A. Zapf14 Modell 1 n mögliche Confounder von β: z.B. Änderungen im Gesundheitswesen, saisonbedingte Ursachen oder Grippe-Epidemien n Kontrolle dieser Confounder und Berücksichtigung von zeitlichen Korrelationen in den Zeitreihen durch Beachtung kurzzeitiger Schwankungen bei Mortalität n Schwankungen der Mortalität heraus-partialisiert durch Hereinnahme von Glättungs-Splines über die Kalenderzeit S(time, df) für jede Stadt df= Anzahl der freien Parameter, nicht datengesteuert

A. Zapf15 Modell 1 n df = 7 pro Jahr, vordefinierter Glättungsparameter Beseitigung von Confoundern wie saisonale Grippe-Epidemien und längerfristige Tendenzen (z.B. Änderung in der medizinischen Praxis und im Gesundheitswesen)

A. Zapf16 Modell 1 n Kontrolle von altersspezifischen langfristigen und saisonalen Schwankungen durch eigene Glättungsfunktion für die Zeit mit 8 df über alle Jahre für jede Altersgruppe n Kontrolle vom Wetter durch Glättungsfunktionen für Temperatur und mit jeweils 6 df, und für Feuchtigkeit und mit jeweils 3 df temp_0 = Temp. Am selben Tag, temp_1- 3= durchschn. Temp. Der drei vorherigen Tage

A. Zapf17 Endmodell 1 n Gefittetes log-lineares generalisiertes additives Modell, um die geschätzte log- relative Rate und die Devianz V( ) für jeden Ort zu erhalten intercept for age group a + seperate smooth functions of time (8 df) for age group a =  + confounder n DOW = Indikatorvariable für day of week

A. Zapf18 Ergebnisse vom Modell 1

A. Zapf19 Modell 2 n Untersuchung der log-linearen Annahme für Modell (1) Spline dose-response Modell n Mortalität als Glättungsfunktion von S(,λ) n λ : Freiheitsgrade der Glattheit der dose-response Kurve n Annährung durch Beschränkung der Glättungsfunktion auf die natürlichen kubischen Splines mit einer festen Anzahl von Knoten kubische Polynome (Polynome 3.Grades), 1. und 2. Ableitung der Splines muss an den Knoten gleich sein

A. Zapf20 Modell 2 n Spline dose-response Modell: n Natürlicher kubischer Spline mit Knoten bei 30 und 60  g/ (ca 25 und 75% Quantile)

A. Zapf21 Modell 3 n Frage: Mortalitäts-Effekte unwesentlich unter einem Wert? Grenzwert-Modell: n = x wenn und = 0 wenn x<0 n d.h. wenn, 0 sonst n h unbekannt, aus den Daten geschätzt n (  im Modell 1 misst den prozentualen Anstieg der Mortalität per 10-μm/ -Schritte,  wenn höher als h ist)

A. Zapf22 Schätzung (Stadt-spez. Parameter) n Mit gam() in Splus Anpassung der Modelle 1 und 2 um Stadt-spezifische Schätzungen und Standardfehler des linearen Effektes und des Parameter-Vektors zu erhalten n = Stadt-spezifischer Parameter zur Messung der Auswirkung von auf die Mortalität (für Modell 1 und 2, c=1,…,20)

A. Zapf23 Schätzung n Für das lineare Modell (1) ist, und für das dose-response-Modell (2) ist gleich dem Koeffizienten-Vektor, entsprechend den Splines n Kombination der Koeffizienten über die Städte n Test auf Heterogenität (mit statistischer Generalisierung) n n Unter der Nullhypothese (keine Heterogenität) ist chi-quadrat-verteilt mit Freiheitsgraden (M1: 19, M2: 95)

A. Zapf24 Schätzung (Annahme der Nullh. ) n = 0 wenn, wenn also die Städte- spezifischen Schätzer gleich dem Gesamtmittel sind n Unter Annahme der Nullhypothese: Kombination der Städte-spezifischen Schätzungen durch ein fixed-effects Modell mit den Gewichten Schätzer:, mit der Varianz Varianz ist Gewicht, wenn Varianz groß -> Variable weniger gewichtet, wenn Varianz klein -> Variable mehr gewichtet

A. Zapf25 Schätzung (Annahme der Alternativh.) n Unter Annahme der Alternativ- Hypothese: Anpassung eines zweistufigen bayesianischen hierarchischen Modells n mit flachen priori auf  (Gesamt- Koeffizienten-Vektor) und D (Zwischen- Städte-Kovarianz-Matrix) Hierarchisch: Schätzer wird in einem nächsten Modell eingesetzt

A. Zapf26 Schätzung n Gewichte: n Weil in Modell (3) angenommen wird, dass der Grenzwert h unbekannt ist Schätzung von h und  für jede Stadt durch folgende Methode:

A. Zapf27 Schätzung (des Grenzwertes) n Gittersuche mit möglichen Grenzwerten (h=5-200μm/, Schrittweite 5μm/ ) n Modell 3 mithilfe der gam-Funktion für jede Stadt anwenden n ML-Schätzer von θ, abhängig von h n Für jede Stadt Gitter nach dem durchsuchen, das die likelihood minimiert n n Keine Vereinigung der Koeffizienten über die Städte für Modell (3), weil die Koeffizienten für verschiedene h verschieden interpretiert werden können

A. Zapf28 Schätzung n Keine Kovarianzmatrix oder Standardfehler für die Grenzwerte berechnet (für die meisten Städte ziemlich instabil) n Keine Fisher-Informations-Matrix n Um den Schätzer des Gesamt-Grenzwertes zu finden, wurde so gewählt, dass die Standardabweichung minimal, bzw. die log- likelihood maximal wird

A. Zapf29 Schätzung (vom Gesamtgrenzwert) n sind Städte-spezifische Devianz und log-likelihood n h im Bereich  0,5,10,...,75  g/ ] n 75  g/ höchster Wert, für den alle Parameter für das Grenzwert-Modell gegeben waren n h= 0, linearer Fall als Spezialfall

A. Zapf30 Schätzung (des Unsicherheitsmaßes) n Unsicherheits-Maß für den Grenzwert mit den a-posteriori-Wkten: n 95%-HPD-Intervall:

A. Zapf31 Schätzung n Gewicht kann als approximative posteriori- Wahrscheinlichkeit des Modells interpretiert werden n Vergleich der Modelle innerhalb der Städte und über alle Städte (beste Anpassung der Daten) mit Akaike information criterion, AIC=deviance + 2(number of parameters) n Beim Vergleich Grenzwert-Modell / lineares Modell ist h=0 ausgeschlossen n Zur Schätzung des Gesamt-Grenzwertes ist h=0 eingeschlossen Modell mit geringerem AIC wird bevorzugt

A. Zapf32 Ergebnisse

A. Zapf33 Ergebnisse

A. Zapf34 Ergebnisse

A. Zapf35 Ergebnisse

A. Zapf36 Ergebnisse

A. Zapf37 Ergebnisse

A. Zapf38 Diskussion n Ziel der Untersuchungen (dieser und anderer) ist die Minimierung des Risikos für die öffentliche Gesundheit n Schadstoff-Konzentrationen sind noch nicht unter Grenzwerten wo sie keine Auswirkungen mehr haben (falls es solche Grenzwerte gibt) n Dose-response-Analysen bisher nur innerhalb einzelner Orte begrenzte Vergleichsmöglichkeit von Modellen n Bisher oft Methoden benutzt, die nicht mehr für optimal gehalten werden

A. Zapf39 Diskussion n Hier Vergleich von linearem Modell und Spline dose-response-Modell bzw. Grenzwert-Modell n In 20 größten US-Städten besser verallgemeinerbar n Methode angebracht um die Unsicherheit vom geschätzten Grenzwert zu prüfen n Auch vorher schon stückweise Polynome und kubische Splines verwendet, aber Daten auf einzelne Orte begrenzt

A. Zapf40 Diskussion  Für gesamte und kardiovaskuläre/ respiratorische Todesursachen kein Grenzwert erkennbar unter dem die Auswirkungen klein sind, bei anderen Todesursachen schon  Geschätzte Grenzwert -Level für andere Ursachen niedriger als für totale und kardio- respiratorische Ursachen (65µg/ bzw. 15µg/ )  Modell-Vergleiche (auf AIC basierend) wählen immer das log-lineare Modell, nur bei „andere Ursachen“ das Grenzwert-Modell

A. Zapf41 Diskussion Einschränkungen: n schlechte Informationslage für manchen Städte  zu Modell (2) hinzufügen, = Städte-spezifischer Grenzwert, Gesamtgrenzwert, Variabilität der Grenzwerte zwischen den Orten n feste Knoten  Aber bei vernünftigen Punkten fixiert, und genügende Flexibilität  Methoden entwickeln um Anzahl und Lokalisation der Knoten zu schätzen

A. Zapf42 Diskussion Resultate: n Risikofreie Levels von wahrscheinlich niedriger als der National Ambient Air Quality Standards n Ergebnisse deuten darauf hin, dass lineare Modelle ohne Grenzwert geeignet sind die Auswirkung von Luftverschmutzung auf die tägliche Mortalität einzuschätzen

A. Zapf43 Literatur: n Daniels et al. Estimating Particulate Matter-Mortality Dose-Response Curves and Threshold Levels: An Analysis of Daily Time-Series for the 20 Largest Us Cities, AjE 2000 n Rüger, Test- und Schätztheorie, Band I, Oldenbourg 1999 n Küchenhoff, Skript zur Vorlesung Lineare Modelle, WS 04/05