Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

IBE, Korr. (L6-2)1 Korrelation und lineare Regression Quantitative Methoden in der klinischen Epidemiologie.

Ähnliche Präsentationen


Präsentation zum Thema: "IBE, Korr. (L6-2)1 Korrelation und lineare Regression Quantitative Methoden in der klinischen Epidemiologie."—  Präsentation transkript:

1 IBE, Korr. (L6-2)1 Korrelation und lineare Regression Quantitative Methoden in der klinischen Epidemiologie

2 IBE, Korr. (L6-2)2 Lernziele Besteht ein funktioneller Zusammenhang zwischen zwei Messungen an einem Patienten? Korrelation als Maßzahl für die Stärke eines linearen Zusammenhanges Beschreiben des linearen Zusammenhanges Korrelationsanalysen wenn eine Folge von Messwertpaaren pro Patient erhoben wird. Nicht-parametrische Korrelation: Monotonie des Zusammenhanges. Probleme: Scheinkorrelation und Korrelation bei aggregierten Daten. Korrelation und kausaler Zusammenhang Prädiktion von zukünftigen Werten Übereinstimmung von Messungen

3 IBE, Korr. (L6-2)3 Beispiel: Alter und Fettanteil (I) Eine Studie von Mazess et al. (1984) untersucht den prozentualen Fettanteil (% Fett) im Körper von n=18 gesunden Erwachsenen im Alter von 23 bis 61 Jahren. Besteht ein Zusammenhang zwischen dem Alter und dem Fettgehalt im Körper? Subj. Alter Fett[%] Subj. Alter Fett[%]

4 IBE, Korr. (L6-2)4 Beispiel: Alter und Fettanteil (II) Beispiel Fettanteil

5 IBE, Korr. (L6-2)5 Pearsons Korrelationskoeffizient: Formel (I) Formel: r = Gleichsinnigkeit von x- und y-Werten führt zu großen Werten in Straffheit bedeutet geringe Variabilität, damit wird der Nenner klein und der Bruch groß. Der Korrelationswert ändert sich nicht, wenn die Rolle von x und y vertauscht wird.

6 IBE, Korr. (L6-2)6 Beispiel: Alter und Fettanteil (II) Beispiel Fettanteil x=46,3 y=28,3

7 IBE, Korr. (L6-2)7 Pearsons Korrelationskoeffizient: Richtung (II) Erwünschte Eigenschaften eines statistischen Maßes für einen linearen Zusammenhang : Vorzeichen gibt die Richtung des Zusammenhanges an. Negativer Wert: Mit zunehmendem x-Wert nimmt der y-Wert ab Positiver Wert: Mit zunehmendem x-Wert nimmt der y-Wert zu x-Achse y-Achse Negative Korrelation Positive Korrelation

8 IBE, Korr. (L6-2)8 Pearsons Korrelationskoeffizient: Quiz (III) Abweichen (in beiden Richtungen) von der Null gibt Stärke des Zusammenhanges an: = 0, falls kein linearer Zusammenhang = 1 (bzw. = -1), bei maximalem linearen Zusammenhang Korrelationsquiz: Für welche der abgebildeten Situationen vermuten Sie einen Korrelationswert, der näher an der 0 als an +1 oder -1 liegt?

9 IBE, Korr. (L6-2)9 Pearsons Korrelationskoeffizient: Skalierung (IV) Der Korrelationskoeffizient ist dimensionslos und skalenunabhängig: Die Multiplikation der Variablenwerte mit einem konstanten Faktor oder deren Verschiebung um einen konstanten Wert haben keinen Einfluß auf den Wert des Korrelationsmaßes. Beispiel: Der Korrelationskoeffizient ist unabhängig davon, ob die Messung in Metern oder Zentimetern erfolgt ist. Gleiche Korrelation

10 IBE, Korr. (L6-2)10 Pearsons Korrelationskoeffizient: Statistik (V) Beispiel Fettanteil: Nach Anwendung der Formel auf die Daten von Mazess et al. ergibt sich r = % Konfidenzintervall: [0.516; 0.919] Formeln für diese Berechnung sind kompliziert, Angaben werden aber von den meisten Statistikprogrammen geliefert. Test auf Korrelation: Nullhypothese: Es besteht kein linearer Zusammenhang p-Wert:

11 IBE, Korr. (L6-2)11 Interpretationsprobleme mit Korrelationen (I) Statistischer Zusammenhang ist kein kausaler Zusammenhang. Das gleichsinnige Verhalten beider Variablen kann durch eine verborgene dritte Variable gesteuert werden. Beispiel: Der Korrelationskoeffizient zwischen der Fähigkeit Rechenaufgaben zu lösen und der Körpergröße bei Kindern ist positiv. Beides nimmt mit dem Alter zu. Anderes Beispiel: Abhängigkeit von Gehalt und Schuhgröße: Schuhgröße Einkommen Männer Frauen Korrelation durch Confounding

12 IBE, Korr. (L6-2)12 Interpretationsprobleme mit Korrelationen (II) Pro Individuum darf nur ein Beobachtungspaar vorliegen. Oft wird aber auch die Frage nach der Korrelation zweier Marker im Verlauf einer Erkrankung bei einem Patienten gefragt. Hier müssen andere Verfahren zur Berechnung der Korrelation verwendet werden Selektionsprozesse können Korrelationsaussagen beeinflussen: verringert die Korrelation vergrößert die Korrelation Auswahl innerer WerteAuswahl extremer Werte

13 IBE, Korr. (L6-2)13 Interpretationsprobleme mit Korrelationen (III) Verzerrte Korrelation bei gemischten Stichproben Korrelation aller: r = Männer: r = 0.89 Frauen: r = 0.51

14 IBE, Korr. (L6-2)14 Interpretationsprobleme mit Korrelationen (IV) Gefahr der Überinterpretation beim simultanen Untersuchen vieler Korrelationen. Manche signifikante Korrelation kann falsch positiv sein. (Adjustierung für multiples Testen). 10 stetige Variablen erlauben die Untersuchung von 45 Korrelationen. Korrelation misst den Grad des Zusammenhanges, nicht den Grad der Übereinstimmung. Übereinstimmung und guter Zusammenhang Keine Übereinstimmung aber guter Zusammenhang Gleiche Korrelation

15 IBE, Korr. (L6-2)15 Interpretationsprobleme mit Korrelationen (V) Grenzen der Anwendung des Korrelationskoeffizienten von Pearson: Hat eine der zu untersuchenden Variablen nur ordinales Skalenniveau oder liegt ein monotoner, nicht-linearer Zusammenhang vor, so ist der Korrelationskoeffizient nach Pearson nicht das geeignete Instrument zur Quantifizierung des Zusammenhanges.

16 IBE, Korr. (L6-2)16 Spearmans Korrelationskoeffizient (I) Der Korrelationskoeffizient nach Spearman entspricht dem Korrelationskoeffizienten nach Pearson, beruht aber bei der Berechnung nicht auf den Originalmesswerten (x i, y i ), sondern auf deren zugehörigen Rangzahlen (r i, s i ), die separat nach der Stellung der jeweiligen Beobachtung in der nach Größe geordneten Messreihe aller x und y Messwerte bestimmt werden. Dabei sind d i die Differenzen der Rangwerte bezüglich X bzw. Y und n die Anzahl der Beobachtungen.

17 IBE, Korr. (L6-2)17 Spearmans Korrelationskoeffizient (II) Wikipedia: Spearman Korrelationskoeffizient IQ, X i Stunden TV pro Woche, Y i Rang x i Rang y i didi d²

18 IBE, Korr. (L6-2)18 Spearmans Korrelationskoeffizient (III) Voraussetzungen: Der aus der Punktwolke vermutete Zusammenhang muss nur monoton sein (monoton wachsend oder fallend). Es ist kein linearer Zusammenhang notwendig. Beide Merkmale sind mindestens ordinalskaliert. Eigenschaften: Analog zum Korrelationskoeffizienten nach Pearson; Unterschied: keine direkte Beziehung zur Regressionsanalyse, da jetzt nicht die lineare Assoziation quantifiziert wird, sondern eine breiter gefasste monotone Assoziation von Interesse ist. Sein Wert wird weniger von Ausreißern beeinflusst als der des Pearson Korrelationskoeffizienten

19 IBE, Korr. (L6-2)19 Spearmans Korrelationskoeffizient (IV) Zusammenhang zwischen Lungenkrebstodesfällen und Zigarettenkonsum: Korrelationskoeffizient nach Pearson: Korrelationskoeffizient nach Spearman: 0.726

20 IBE, Korr. (L6-2)20 Beschreiben eines linearen Zusammenhanges (I) Alter [Jahre] Fett [%]

21 IBE, Korr. (L6-2)21 Beschreiben eines linearen Zusammenhanges (II) Er Wert des Pearson-Korrelationskoeffizienten, der deutlich von der Null verschieden ist, läßt auf einen linearen Zusammenhang schließen. Der Wert des Pearson-Korrelationskoeffizienten gibt jedoch keinerlei Information über die Form des linearen Zusammenhanges. Das Verfahren der linearen Regression ermöglicht eine quantitative Beschreibung des vermuteten Zusammenhanges.

22 IBE, Korr. (L6-2)22 Lineare Regression (I) Vorhersage einer Zielgröße Y bei gegebener Einflußgröße X durch eine lineare Gleichung: y = a + bx Der Achsenabschnitt a und die Steigung b werden so bestimmt, daß man die Gerade enthält, die den geringsten quadratischen Abstand zu den beobachteten (x,y) Punkten hat. Mit dieser Strategie ergibt sich b = r s y / s x mit r – Korrelation zwischen x und y, s x – Standardabweichung der x-Werte s y - Standardabweichung der y-Werte a = - b mit Mittelwert der y-Werte, Mittelwert der x-Werte x y

23 IBE, Korr. (L6-2)23 Lineare Regression (II) Beispiel Fettanteil: r = Korrelation zwischen x und y s x = x – Alter in Jahren Standardabweichung s y =9.144y – Fettgehalt [%]Standardabweichung b = Steigung der Regressionsgeraden = x – Alter in JahrenMittelwert = y – Fettgehalt [%]Mittelwert a = Achsenabschnitt der Regressionsgerade Regressionsgerade: y = x Pro weiterem Lebensjahr nimmt der mittlere Fettgehalt des Körpers um etwa 0.55% zu.

24 IBE, Korr. (L6-2)24 Abweichung vom Mittelwert y i – y = (y i – y* i ) + (y* i – y) y: Mittelwert aller y-Messungen y* i = a + bx i : Geradenwert für Beobachtung i y i : y-Wert der Beobachtung i SS total = SS Residuen + SS Regression Anteil der erklärten Varianz: SS Regression / SS total = r² Das Quadrat der Korrelation wird auch Bestimmtheitsmaß genannt.

25 IBE, Korr. (L6-2)25 Residualanalyse (I) Unter den Residuen einer Regressionsanalyse versteht man die Unterschiede zwischen der Beobachtung und dem Wert, der durch die Regressionsgerade für diese Beobachtung vorgegeben wird. Die Residuen quantifizieren das Rauschen der Beobachtungen um die Regressionsgerade. Die Varianz der Residuen wird als Schätzer für das Rauschen der Beobachtungen um die Regressionsgerade verwendet. Ist die Varianz der Residuen klein, so liegen die Beobachtungen eng um die Gerade und somit ist der Pearson Korrelationskoeffizient der Beobachtungen nahe an -1 oder 1. Ein Residuum Noch ein Residuum

26 IBE, Korr. (L6-2)26 Residualanalyse (II) Passt ein lineares Regressionsmodell zu den Daten: Residuen repräsentieren Rauschen, sie sollten den Mittelwert 0 haben und keine Struktur aufweisen. Ideal: ein um die Null liegendes Band, falls man auf der x-Achse den x-Wert einer Beobachtung aufträgt und auf der y-Achse deren Residuum. Falls die Residuen normalverteilt sind, so lassen sich Aussagen über die Regression auch statistisch testen. Es lassen sich dann Konfidenzintervalle berechnen: 95% Konfidenzintervall für die Abszisse der Geraden und die Geradensteigung. Betrachte Residuen mit dem QQ-Plot um die Normalverteilungs- annahme zu prüfen.

27 IBE, Korr. (L6-2)27 Residualanalyse (III)

28 IBE, Korr. (L6-2)28 QQ-Plot Die tatsächlichen Realisationen der interessierenden Variablen werden gegen die erwarteten Werte der zu untersuchenden Verteilung (hier Normalverteilung) geplottet:

29 IBE, Korr. (L6-2)29 Korrelation innerhalb Patienten (I) Bei 8 Probanden werden wiederholt pH und PaCO 2 Messungen durchgeführt. Wie groß ist die Korrelation zwischen beiden Messungen? Subj. pHPaCO 2 Subj. pHPaCO 2 Subj. pHPaCO Bland, Altman (1995) BMJ, 310:446

30 IBE, Korr. (L6-2)30 Korrelation innerhalb Patienten (II) Addiere für jeden Patienten die quadrierten Residuen um seine Gerade und die quadrierten Abweichungen der Geradenwerte vom Mittelwert des Patienten. Dies ergibt SS Residuen und SS Regression Daraus errechnet man SS total = SS Residuen + SS Regression und für das Quadrat der Korrelation r²: SS Regression / SS total = r²

31 IBE, Korr. (L6-2)31 Korrelation innerhalb Patienten – Berechnung (III) Problem: Eine unabhängige Variable liegt in Ordinal- oder Nominal- skalierung in n Ausprägungen vor Lösung: Umkodieren – es werden (n-1) Dummyvariablen erzeugt Beispiel: Subject 8 Ausprägungen -> 7 Dummys Subjectp1p2p3p4p5p6p Alte Variable Neue Variablen

32 IBE, Korr. (L6-2)32 Korrelation innerhalb Patienten – Berechnung (IV) Df Sum Sq Mean Sq F value Pr(>F) PaCO * Subjects <2e-16 *** Residuals SS total = SS Residuen + SS Regression SS Residuen = SS Regression = SS total = r² = SS Regression / SS total = / = r (Korrelation) = (aufgrund der Richtung der Geraden) ANOVA Berechnung der Quadratsummen mittels ANOVA (etwa in SPSS)

33 IBE, Korr. (L6-2)33 Vorhersage von Werten - Prädiktion Ein Patient hat zum Zeitpunkt der Untersuchung einen Blutdruckwert von x mmHg. Wie kann sein Blutdruckwert für das nächste Jahr vorhergesagt werden? Aus Studien sind folgende Tatsachen bekannt: Mittelwert des Blutdrucks in der Altersgruppe des Patienten (m); Streuung des Blutdrucks in der Altersgruppe des Patienten (s 2 ); Mittlere Veränderung des Blutdrucks, wenn die Population um ein Jahr altert (d); Korrelation der Blutdruckwerte, wenn ein Patient um 1 Jahr altert (ρ). Antwort: Vorhersage:m+d+ρ (x-m) Präzision:(1-ρ 2 ) s 2

34 IBE, Korr. (L6-2)34 Regression zum Mittelwert Zeit m m + d d Die vorhergesagte Veränderung ist exakt d, wenn die Korrelation zwischen den Zeitpunkten 1 ist; d+(m-x), wenn es keine Korrelation zwischen beiden Zeitpunkten gibt; d + (1-ρ)·(m-x), wenn die Korrelation zwischen beiden Zeitpunkten ρ beträgt; x m-x d

35 IBE, Korr. (L6-2)35 Regression zum Mittelwert Regression zum Mittelwert beschreibt das Phänomen, dass bei zwei verbundenen Messungen extreme Werte bei einer der beiden Messungen im Durchschnitt mit weniger extremen Werten bei der anderen Messung einhergehen. Es tritt dann auf, wenn die Stichprobenauswahl anhand von extremen Baselinewerten des Untersuchungsmerkmals durchgeführt wurde Bei perfekter Korrelation zwischen den beiden Messungen tritt der Effekt nicht auf Je stärker die Korrelation zwischen den beiden Messungen ist, desto geringer ist der Effekt

36 IBE, Korr. (L6-2)36 Regression zum Mittelwert Beispiel: Writing Group of the PREMIER Collaborative Research Group (2003) JAMA, 289(16): Patienten mit hohem Blutdruck ( mm Hg bzw mm Hg, Durchschnitt aus 3 Messungen) werden in 3 Gruppen randomisiert: Zwei Gruppen mit Verhaltensintervention (Established/Established+DASH) und eine Vergleichsgruppe (Advice Only) Nach 3 Monaten und nach 6 Monaten werden erneut Blutdruckmessungen durchgeführt Durchschnittliche Ruhewerte: 100–130 mmHg (systolischer Wert) 60–85 mmHg (diastolischer Wert )

37 IBE, Korr. (L6-2)37 Zusammenfassung Die Korrelation nach Pearson quantifiziert, wie gut ein Zusammenhang durch eine lineare Funktion beschrieben werden kann. Liegt eine ausreichend starke Korrelation bei den untersuchten Daten vor, so kann der lineare Zusammenhang durch eine lineare Regression quantitativ beschrieben werden. Funktionelle Zusammenhänge lassen sich oft in lineare Zusammenhänge transformieren und dann geeignet durch eine lineare Regression beschreiben. Residualanalyse ist ein wichtiges Instrument um eine korrekte Beschreibung eines linearen Zusammenhanges durch eine lineare Regression zu analysieren. Der Spearmansche Korrelationskoeffizient ist ein geeignetes Instrument um die Güte bei monotonen Zusammenhängen zu quantifizieren. Korrelation ist nicht mit Übereinstimmung gleichzusetzen Korrelation ist verantwortlich für das Phänomen: Regression zum Mittelwert.

38 IBE, Korr. (L6-2)38 Quiz Was ist ein Residuum im linearen Modell? a)Der Anteil der erklärten Varianz an der Gesamtvarianz b)Die Differenz zwischen zwischen der Beobachtung und dem Wert, der durch die Regressionsgerade für diese Beobachtung vorgegeben wird c)Der y-Achsenabschnitt der Regressionsgerade d)Die Steigung der Regressionsgerade

39 IBE, Korr. (L6-2)39 Quiz Welche Aussage über den Korrelationskoeffizienten von Pearson trifft nicht zu? a)X und Y lassen sich beliebig vertauschen b)Der Korrelationskoeffizient von Pearson liegt zwischen -1 und 1 c)Der Korrelationskoeffizient von Pearson gibt die Stärke und die Richtung eines beliebigen monotonen Zusammenhangs wieder d)Liegt eine der beiden Variablen nur in ordinalem Skalenniveau vor, ist der Korrelationskoeffizient von Pearson nicht anwendbar

40 IBE, Korr. (L6-2)40 Quiz Wann kann Regression zum Mittelwert auftreten? a)Wenn die Stichprobenauswahl anhand von extremen Baselinewerten des Untersuchungsmerkmals durchgeführt wurde b)Wenn der Korrelationskoeffizient von Pearson auf einen nicht- monotonen Zusammenhang angewendet wurde c)Wenn bei der linearen Regression die Residuen eine nicht-zufällige Struktur aufweisen d)Wenn der Korrelationskoeffizient von Pearson auf verbundene Beobachtungen angewendet wurde

41 IBE, Korr. (L6-2)41 Quiz Wir wollen den Zusammenhang zwischen Gesundheitszustand (aus einem Fragebogen, Kategorien: 1=gut, 2=mittel, 3=schlecht) und dem Alter des Patienten untersuchen. Was sollten wir berechnen? a)Korrelationskoeffizient von Pearson b)Korrelationskoeffizient von Spearman c)QQ-Plot d)Regression zum Mittelwert e)Keine der Methoden unter a) – d) sind für die Lösung der Fragestellung geeignet

42 IBE, Korr. (L6-2)42 Quiz Welches der folgenden Maße misst die Übereinstimmung zweier Merkmale? a)Korrelationskoeffizient von Pearson b)Korrelationskoeffizient von Spearman c)Bestimmtheitsmaß d)Keines dieser Maße

43 IBE, Korr. (L6-2)43 Quiz Welche der folgenden Aussagen über die lineare Regression trifft zu? a)X und Y lassen sich beliebig vertauschen b)Wenn das Modell korrekt spezifiziert ist, ist die Varianz der Residuen konstant c)Das Quadrat des Korrelationskoeffizienten von Spearman wird auch Bestimmtheitsmaß genannt d)Die abhängige Variable muss mindestens ordinales Skalenniveau haben


Herunterladen ppt "IBE, Korr. (L6-2)1 Korrelation und lineare Regression Quantitative Methoden in der klinischen Epidemiologie."

Ähnliche Präsentationen


Google-Anzeigen