Raymond J. Carroll Texas A&M University Non/Semiparametrische Regression und clustered/Longitudinal.

Slides:



Advertisements
Ähnliche Präsentationen
Kerndichteschätzung Nearest-Neighbour-Verfahren
Advertisements

Die deutsche Satzstellung
Faltung Entfaltung Bestimmung der (unbekannten) Funktion f aus den (bekannten) Funktionen h und g. Bezeichnung h(x) … Messdaten f(y) … Physikalisches Profil.
Art der Arbeit (Projekt-/Studien-/Diplomarbeit/
Telling Time in German Deutsch 1 Part 1 Time in German There are two ways to tell time in German. There are two ways to tell time in German. Standard.
Individualisierte Medizin am Inselspital Genetik und Perioperative Medizin.
Mixed Models Jonathan Harrington library(ez) library(lme4)
Konfidenzintervalle für Parameter
K. Desch - Statistik und Datenanalyse SS05
Statistische Methoden II
Die Vorlesung Statistische Methoden II findet am (nächste Woche) nicht nicht statt. Diese Vorlesung wird zu einem späteren Termin, der noch bekannt.
Tutorium
Interaction Effects in Spatial Regression: The Example of U.S. Smoke Free Air Legislation Christian W. Martin, Universität Hamburg.
Haben – to have ich habe du hast er/sie hat es hat man hat wir haben
Multikollinearität Wann spricht man von Multikollinearität?
LZ: Using infinitive clauses & Giving Reasons Wie sagt man…? 1.I ride my bike, to save money. 2.I work out(trainieren) in order to run a 5K 3.He is doing.
Don`t make me think! A Common Sense Approach to Web Usability
Ausgleichungsrechnung I
AufwÄrmung A look at the future…..Match the German phrases on the left to the English ones on the right. Do your best; I am grading on participation! Wie.
Ausgleichungsrechnung II
Abschlussvortrag zur Studienarbeit
Damals und Heutzutage By the end of todays lesson you will be able to highlight differences between life now and one hundred years ago. You will also be.
Test Review Deutsch I Kapitel I.
Deutsch II Frau Spampinato
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Polynome und schnelle Fourier-Transformation
Kapitel 8 Jeopardy Review By: Frau M Jeopardy Stimmt das? A, B, oder C? Ergänzen den Satz Adjektiv endungen Bild Beschreibung
Statistik: Mehr zur Regression.
Mittwoch: LT: Infinitive clauses
Kapitel 18 Dynamische Modelle: Schätzen der Parameter
Kapitel 3 Lineare Regression: Schätzverfahren
Kapitel 21 Mehrgleichungs-Modelle: Schätzverfahren
Kapitel 18 Dynamische Modelle: Schätzen der Parameter.
Kapitel 21 Mehrgleichungs- Modelle: Schätzverfahren.
CALPER Publications From Handouts to Pedagogical Materials.
Engineering tools for the NEO engineer
Deutsch Zwei
Forschungsplattform Theorie und Praxis der Fachdidaktiken Workshop Finalisierung der Forschungsinstrumente 28 – 29. Jänner 2010 USZ 1, Schmelz.
Universität StuttgartInstitut für Wasserbau, Lehrstuhl für Hydrologie und Geohydrologie Copulas (1) András Bárdossy IWS Universität Stuttgart.
Data Mining Spectral Clustering Junli Zhu SS 2005.
GERMAN 1013 Kapitel 2 2. Die Familie die Großeltern die Eltern die Kinder die Geschwister die Enkel der Großvater der Vater der Sohn der Bruder die Großmutter.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Modalverben.
Der formelle Imperativ – the Imperative
Statistical Parametric Mapping
Konjunktionen & Indirekte Fragen {Conjunctions}
Was glaubst du… Was ist ein gutes Geschenk für deine Gastschwester/ Gastbruder? Ein Buch? Ein Radiowecker? Ein Hut? Ohrringe? Eine DVD?
III II I Relations between masses and mixing angles.
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
Varianzstabilisierung von Genexpressionsdaten
Nachweis von B 0 s -Oszillationen mit dem ATLAS Detektor am LHC B. Epp 1, V.M. Ghete 2, E. Kneringer 1, D. Kuhn 1, A. Nairz 3 1 Institut für Experimentalphysik,
Interrogative Words. Interrogative words, also called question words are used to ask for information.
Mittwoch der
Kapitel 2 Grammar INDEX 1.Subjects & Verbs 2.Conjugation of Verbs 3.Subject Verb Agreement 4.Person and Number 5.Present Tense 6.Word Order: Position of.
Kapitel 7 Grammar INDEX 1.Comparison 2.Adjectives 3.Adjective Endings Following Ein-Words.
Kapitel 8 Grammar INDEX 1.Command Forms: The Du-Command Form & Ihr- Command 2.Sentences & Clauses.
Komparativ und Superlativ German 2. zum Beispiel … Ein VW ist schnell. Ein BMW ist schneller. Ein Porsche ist am Schnellsten. There are 2 levels of comparison:
Word order: 1.In a main clause the VERB is the second idea: Helgakommteben aus der Bäckerei This may not be the second word Meiner Meinung nachsind Hobbys.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
FREUNDSCHAFTEN 11A Freunde fürs Leben Lernziele Lernziele: 1.Understand and produce vocabulary to describe the roles and importance of friends 2. Consider.
Hochschule Anhalt FB Informatik und Sprache Master Informationsmanagement Dayun Xu Slide 1 Adjustment of ECG Signals by using linear geometric transformation.
Du bist am dicksten und am dümmsten.
Formation of Questions in German
Sichtbar – Mit den Augen wahrnehmbar.
associated to Stealth CMEs
Ein wenig Grammatik Plural subject pronouns Verb Endings
Telling Time in German Deutsch 1 Part 1.
Reflexive Verbs.
Density Estimation Tim Pfeifle Technische Universität München Fakultät für Informatik Garching, 08. June 2017.
 Präsentation transkript:

Raymond J. Carroll Texas A&M University Non/Semiparametrische Regression und clustered/Longitudinal Daten Es heißt Gerglich: gemischt Deutsch und English

College Station, Texas A&M University I-35 I-45 Big Bend National Park (Wüste und Berge) Wichita Falls, meine Heimat (ja, ich bin ein Texaner!) West Texas Palo Duro Canyon, der Grand Canyon of Texas Guadalupe Mountains National Park (3,000 meter hoch) Ost Texas

Raymond CarrollAlan Welsh Naisyin WangEnno Mammen Xihong Lin Oliver Linton Dank an Für die Artikel: Bitte besuchen Sie meine Webseite

Übersicht Longitudinal Modelle: Panel Daten Hintergrund: Splines = Kerne für unabhängige Daten Daten mit Korrelation: Splines = Kerne?

Panel Daten (Einfaches Beispiel) i = 1,…,n Cluster oder Individuen j = 1,…,m Beobachtungen per Cluster Subjekt/ Cluster t1t2… tm 1XXX 2XXX …X nXXX

Panel Daten i = 1,…,n Cluster/Individuen j = 1,…,m Beobachtungen per Cluster Wichtige Punkte: Clustergröße m fest Das ist nicht ein multiples Zeitreihen Problem mit Clustergröße Bemerkungen zum einfachen Zeitreihen Problem: Ende des Vortrags

Die Marginal Nicht-Parametrische Modell Y = Response (Zielgröße) X = Kovariablen in einem Cluster Frage: Können wir die Korrelation für eine bessere Eff izienz benutzen?

Ein nicht standard Beispiel: Forschung zu Darmkrebs (Tierversuch) Daten aus einzelnen Zellen in Ratten mit DNA schaden, differentiation, proliferation, apoptosis, P27, etc.

Unabhängige Daten Splines (smoothing, P-splines, etc.) mit penalty parameter = Ridge Regression Etwas Bias, kleine Varianz ist über-parameterisiert LS ist eine polynomiale Regression

Unabhängige Daten Kerne (lokale Durchschnitte, lokale lineare, usw.), mit Kerndichte Funktion K und Bandweite h Wenn die Bandweite h 0 geht, sind nur Beobachtungen mit X in der Nähe von t wichtig

Unabhängige Daten Wichtige Methoden Splines Kerne Smoothing parameters sind notwendig für beide Methoden Schätzungen: ähnlich in den meisten Datensätzen Erwartung: Splines = Kerne: es gibt eine Kern- Funktion und eine Bandweite in welchen Kerne und Splines gleich sind (asymptotisch) 12

Unabhängige Daten Splines und Kerne sind Linear in den Responses Silverman: es gibt eine Kern Funktion und eine Bandweite in welchen gleich sind (asymptotisch) In diesem Sinn, Splines = Kerne

Beispiel: Die weight Funktionen G n (t=.25,x) für unabhängige Daten in einen spezifischen Fall Kern Smoothing Spline Beachten Sie die Ähnlichkeit die Formen. Nur die Xs in der Nähe von t=0.25 bekommen Gewicht

Working Unabhängigkeit Working Unabhängigkeit: wenn man alle Korrelationen ignoriert Korrektur der Standardfehler später Vorteil: Einfach Nachteil: möglicher Verlust von Effizienz Beispiel endes des Vortrags Standard Methode: zum Beispiel, Zeger & Diggle, Hoover, Rice, Wu & Yang, Lin & Ying, etc.

Working Unabhängigkeit Working Unabhängigkeit: Weighted Splines und weighted Kerne sind linear in den Responses Das Silverman Resultat ist immer noch gü ltig In diesem Sinn, Splines = Kerne

Benützung der Korrelation Für abhängigen Daten ist die Spline Methode klar Sei ein Working Kovarianz Matrix sein Penalized Generalized least squares (GLS) GLS Ridge Regression Weil die Splines auf der Likelihood Methode basieren, kann man sie schnell auf neue Probleme verallgemeinern

Benützung der Korrelation Für die abhängigen Daten, die Spline Methologien sind klar Kerne sind nicht so klar Aber man kann theoretische Rechnungen mit Kernen machen lokal likelihood Kern Ideen sind Standard in unabhängigen Daten Problemen Die meisten Arbeiten für Kerne mit Korrelationen haben die lokal likelihood Idee benutzt.

Kerne und Korrelation Problem: Wie kann man locality für Kernels definieren? Ziel: Die Schätzung der Funktion von t = diagonal Matrix mit standard Kern weight Standard Kern Methode: GLS aber inverse Kovariance Matrix ist Dieser Schätzer ist lokal

Kerne und Korrelation beispiel: m=3, n=35 Exchangeable Korrelations Struktur Rot: = 0.0 Grün: = 0.4 Blau: = 0.8 Beachten Sie: die Kerne sind lokal Die weight Funktion G n (t=.25,x)

Splines und Korrelation Beispiel: m=3, n=35 Exchangeable Korrelations Struktur Rot: = 0.0 Grün: = 0.4 Blau: = 0.8 Beachten Sie : die Splines sind nicht lokal Die weight Funktion G n (t=.25,x)

Splines und Korrelation Beispiel: m=3, n=35 Komplexe Korrelation Struktur Rot: Fast singular Grün: = 0.0 Blau: = AR(0.8) Beachten Sie : die Splines sind nicht lokal Die weight Funktion G n (t=.25,x)

Splines und Standard Kerne Wenn man versucht die Korrelation zu benutzen: Standard Kerne bleiben lokal Splines sind nicht lokal Numerische Ergebnisse können theoretisch bestätigt werden

Kerne und Korrelation: Überraschungen GLS mit weight Optimal working Kovarianzmatrix ist working Unabhängigkeit! Bei Benutzung der richtigen Kovarianzmatrix Varianz wird größer MSE wird größer Splines Kerne (Meiner Meinung nach: nicht diese Kerne)

Pseudo-Responses Kern Methoden Bessere Kern Methoden sind möglich Pseudo-Responses: Original Methode Konstruktion: Lineare Transformation von Y Erwartungswert = (X) Kovariance = Diagonal Matrix Diese Methode ist eine Transformation des original Responses, aber ohne Änderung des Erwartungswertes

Pseudo-Observation Kernel Methods Entwicklung: Lineare Transformation des Y Erwartungswert = (X) Kovarianz = Diagonal Matrix Iterativ Effizienz: Im allgemein, größere Effizienz als bei working Unabhängigkeit Beweiß des Prinzips: Eine Kern Methode kann so konstruiert werden, dass man die Korrelation benutzen kann

Vergleich der Effizienz der Splines und der Pseudo-Response Kerne Exchng: Exchangeable mit Korrelation 0.6 AR: autoregressive mit Korrelation 0.6 Near Sing: fast singuläre Matrix

Was machen GLS Splines? GLS Splines sind in Wirklichkeit working Unabhängigkeit Splines mit pseudo-responses Defininiere GLS Splines sind working Unabhängigkeit Splines

GLS Splines und SUR Kerne GLS Splines sind working Unabhängigkeit Splines Algorithmus: Iteration bis zur Konvergenz Idee: für Kerne, machen Sie die gleichen Rechnungen Das ist die Naisyin Wang SUR Methode

SUR Kernel Methods Es ist wohl bekannt dass das GLS Spline ein analytische genaue Form hat Wir haben gezeigt dass die SUR Kern Methode auch ein analytische genaue Form hat Beide Methoden sind linear in dem Responses Schwierige Rechnungen zeigen dass Silvermans Ergebnis für die SUR Kern Methode immer noch stand hält Splines = SUR Kerne

lokal oder nicht? GLS Splines und SUR Kerne sind nicht lokal Mancher findet dieses überraschend Wir brauchen eine andere Formulierung Wir mochten die Funktion von t zu erschätzen Ergebnis: Wenn ein X in der Nähe von t ist, haben alle Responses im Cluster Gewicht (nicht nur die Kovariablen in der Nähe von t) lokalheit: Definiert für die Cluster, nicht für X

lokal oder nicht? Wangs SUR Kerne = pseudo Kerne mit kluger linearer Transformation. Definieren Sie SUR Kerne sind working Unabhängigkeit Kerne

Im welchem Sinn sind Splines lokal? Splines = SUR Kerne (Silverman-type Ergebnis) GLS Spline: Iterativ Standard unabhängig Spline smoothing SUR pseudo-Responses für jede Iteration GLS Splines sind nicht lokal GLS Splines sind lokal in (der gleichen!) pseudo- Responses

Zeitreihen Probleme Zeitreihen: ähnliche Probleme Originale pseudo-Response Methode Zwei Stufen Lineare Transformation Erwartungswert (X) unabhängige Fehler Dann wenden Sie die Standard Kern Methode an Möglichkeit für große Effizienz unendlich für AR Probleme mit großer Korrelation

Zeitreihen: AR(1) Beispiel, Erste Pseudo-Response Methode AR(1), Korrelation : Regress Y t 0 an X t

Zeitreihen Probleme AR(1) Fehler mit Korrelation Effizienz der pseudo-Response Methode vergleichen mit working Unabhängigkeit:

Semiparametrisches Modell Y = Response X,Z = Zeit variierende Kovariablen Frage: Kann man die Effizienz durch die Benützung der Korrelation verbessern??

Profil Methode 2 Stufen Stufe I: Für jedes, regress (wie?) Stufe II: Regress (wie?)

Profil Methode Stufe I: Für jedes, regress (wie?) Möglichkeiten: Working Unabhängigkeit Standard Kerne Pseudo –Response Kerne SUR Kerne

Profil Methode Stufe II: Regress (wie?) Möglichkeiten: Working unabhängigkeit GLS, mit der Benutzung der Kovarianz Structur

Profil Methode Die Verbindung des SUR Kerne mit GLS ist semiparametrich asymptotisch effizient

Alter Anzahl von Zigaretten pro Tag Drogengebrauch # von Partnern Depression? Longitudinal CD4 Count Daten (Zeger und Diggle) Working Unabhängigkeit Est. s.e. Semiparametric GLS Z-D Semiparametric GLS refit

Folgerung I: Nicht-parametrische Regression Bei Nicht-parametricher Regression Kernels = Splines für working Unabhängigkeit (W.I.) Working Unabhängigkeit ist nicht effizient Standard Kerne Splines für korrelierte Daten

Folgerung II: Nicht-parametrische Regression In Nicht-parametricher Regression Pseudo-response Methode hat mehr Effizienz als working Unabhängigkeit SUR Kerne = Splines für korrelierte Daten Splines und SUR Kerne sind nicht lokal Splines und SUR Kerne sind lokal in pseudo- Responses

Folgerung III: Semiparametrische Regression In semiparametrischer Regression: Die Methode der Schätzung hat einen Effekt SUR Kerne (und GLS Splines) plus profile- GLS sind effizient (asymptotisch) In der Praxis Unterschiede zwischen der working Unabhängigkeit und Semiparametrische GLS in den Schlüssen

Eine Bermerkung Alle Schwierigkeiten in diesem Problem kommen durch unsere Versuche, gute Kern Methoden zu definieren Abschließend, Kerne haben nicht mehr Efficienz als Splines, und Sie sind schwieriger zu definieren Aber, mit Kerne kann man theoretische Rechnungen machen

Eine Werbung Semiparametric Regression Cambridge University Press, 2003 David RuppertMatt Wand Raymond Carroll

The decrease in s.e.s is in accordance with our theory. The other phenomena are more difficult to explain. Nonetheless, they are not unique to semiparametric GEE method. Similar discrepant outcomes occurred in parametric GEE estimation in which (t) was replaced by a cubic regression function in time. Furthermore, we simulated data using the observed covariates but having responses generated from the multivariate normal with mean equal to the fitted mean in the parametric correlated GEE estimation, und with correlation given by Zeger und Diggle. The level of divergence between two sets of results in the simulated data was fairly consistent with what appeared in the Table. For example, among the first 25 generated data sets, 3 had different signs in sex partners und 7 had the scale of drug use coefficient obtained by WI 1.8 times or larger than what was obtained by the proposed method. The Numbers in the Table