Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
1
Korrelation und Skalentransformation
Seminar Evaluation und Forschungsstrategien 2 WISE2019/20 Jana Duckwitz, Sarah Kaiser, Johannes Marasek, Lea Tröster
2
Gliederung Korrelation- Definition
Korrelationsarten- theoretischer Hintergrund Pearson‘s Produkt- Moment- Korrelation Spearman‘s Rangkorrelation punktbiseriale Korrelation tetrachorische Korrelation Phi Korrelation Cramer‘s V Partialkorrelation Skalentransformation Praktische Anwendung
3
Korrelation- was ist das?
deskriptives Zusammenhangsmaß, das die Stärke des Zusammenhangs zwischen zwei Variablen beschreibt die Stärke des Zusammenhangs wird in Form eines Korrelationskoeffizienten r angezeigt r= -0,9884 Beispiele: Zusammenhang zwischen dem Verkauf von Bio- Lebensmittel und Autismus je höher der Verkauf, desto mehr steigt die Prävalenz für Autismus Zusammenhang zwischen mexikanischem Zitronenimport und Autobahnunfälle je mehr Zitronen importiert werden, desto weniger Menschen sterben auf der Autobahn Scheinkorrelation aber eigentlich Scheinkausalität Kommt komisch vor: gutes Beispiel für Korrelation ist NICHT Kausalität! Nur weil man einen Zusammenhang zwischen zwei Variablen gefunden hat, bedeutet das nicht, dass ein Kausalbeziehung besteht! Zusammenhang kann zufällig oder durch eine Drittvariablen zustande kommen, die man nicht mit erhoben hat und den Zusammenhang künstlich herstellt!
4
Skalenniveaus Eigenschaften Beispiele Nominalskala
Unterscheidung von Kategorien Realisationen vollständig beliebig nicht interpretierbar Geschlecht, Haarfarbe, Geschmacksrichtung Ordinalskala natürliche Ordnung der Realisationen numerische Abstände nicht interpretierbar Plätze bei Marathonlauf, Schulnoten, Zufriedenheit (Skala von 1-5) Intervallskala numerische Abstände interpretierbar kein natürlicher Nullpunkt Temperatur (in °C), Intelligenzquotient, Jahresabstände Verhältnisskala natürlicher Nullpunkt Größe, Gewicht, Energie, Geld Absolutskala natürliche Einheit Bevölkerungsgröße eines Landes, Stückzahl an produzierten PKW Jede folgende Skala, beinhaltet alle Eigenschaften der vorherigen Skala Nominal: einfachste Skala Ordinal: Intervall: das am häufigsten verwendete Skalenniveau Verhältnis: Absolut: Einheit, die nicht künstlich hergestellt wurde, sondern von Natur aus so ist
5
1. Pearsons Produkt-Moment-Korrelation
Berechnung der Kovarianz Messwerte werden für beide Variablen erhoben Berechnung der Differenz der Messwerte zum Mittelwert der jeweiligen Variable für jeden Merkmalsträger Multiplikation der Differenzen Summation der Produkte Division durch n (n = Stichprobengröße) Man will Zusammenhang zwischen zwei Variablen erfassen Herleitung der Produkt- Moment- Korrelation 1. Berechnung der Kovarianz: Man beobachtet bei n Merkmalsträgern für zwei Variablen die Messwerte der Merkmalsträger Für jeden Merkmalsträger wird die Differenz seines Messwertes zum Mittelwert in der einen Variable berechnet Das wird auch bei der anderen Variablen gemacht Die beiden Differenzen werden miteinander multipliziert n- Produkte von Differenzen für die Merkmalsträger Produkte werden aufsummiert und durch die n Merkmalträger geteilt, damit sich die Kovarianz auf genau diese Stichprobe bezieht Kovarianz = unstandardisiert d.h. die Kovarianz ist äquivariant, sodass sie sich bei Multiplikation einer Datenreihe um den Multiplikationsfaktor mitverändert, obwohl der graphische Zusammenhang gleichbleibt ( man streckt nur die x Achse daher bleibt Diagramm gleich) Ergebnis? Die Kovarianz beschreibt bereits, wie stark zwei Variablen zusammenhängen, jedoch ist sie äquivariant und damit unstandardisiert. Aus der Kovarianz wird die Korrelation, ein standardisiertes Maß berechnet.
6
1. Pearsons Produkt-Moment-Korrelation
Berechnung der Korrelation Berechnung der Kovarianz Berechnung der Standardabweichungen der ursprünglichen Datenreihen von beiden Variablen Division von Kovarianz durch das Produkt der Standardabweichungen 2. Ableitung der Korrelation durch z- Standardisierung der Kovarianz Berechnung der Kovarianz der Daten Diese wird danach durch die Standardabweichung der ersten Datenreihe und zweiten Datenreihe geteilt Ergebnis ist der Korrelationskoeffizient
7
Stärke von Zusammenhängen
Korrelationen liegen immer zwischen -1 und +1 Positive Werte zeigen einen gleichsinnigen Zusammenhang an Negative Werte zeigen einen gegensinnigen Zusammenhang an Korrelation von 0 zeigt keinen Zusammenhang an Cohen‘s Faustregeln
8
Graphische Darstellung: Scatterplot
Beschreibung der 4 Scatterplots: Wenn höhere Werte auf der einen Variable mit höheren Werten auf der anderen Variable einhergehen, ist die Korrelation positiv Wenn niedrigere Werte auf der einen Variable mit höheren Werten auf der anderen Variable einhergehen, ist die Korrelation negativ Je steiler die Korrelationsgerade, die man in die Punktwolke legt, ist, desto größer ist die Korrelation
9
1. Voraussetzungen Achtung Ausreißer! Linearität
Intervallskalenniveau der Daten Beispiele Intelligenzquotient Grad Celsius Jahresabstände … = extreme Werte, die mind. 1,5 bis 3 SD vom Mittelwert entfernt sind erhöhen/ senken die Korrelation künstlich Voraussetzungen: Linearität: höhere Werte in X gehen mit höheren Werten in Y einher Intervallskalenniveau der Daten Wie bereits erwähnt: Beispiele Intelligenzquotient Grad Celsius Jahresabstände Variablen, bei denen der numerische Abstand interpretierbar ist Ausreißer: = extreme Werte, die mind. 1,5 bis 3 SD vom Mittelwert entfernt sind erhöhen/ senken die Korrelation künstlich, da diese nicht gegen Ausreißer robust ist blaue Linie: eigentlicher Zusammenhang rote Linie: durch Ausreißer kreierter Zusammenhang
10
2. Spearmans Rangkorrelation
beschreibt die Stärke des Zusammenhangs zweier ordinalskalierter Daten Die Stärke des Zusammenhangs wird in Form eines Rangkorrelationskoeffizienten rho angezeigt numerischer Abstand zwischen zwei Realisationen nicht interpretierbar keine Linearität vorausgesetzt Rangbildung der Daten zeigt die Stärke eines Zusammenhangs in Form eines Zusammenhangskoeffizient an in diesem Fall nennt man diesen Spearmans roh gibt das gleiche an, wie die Produkt- Moment Korrelation Unterschied: Ausgangslage sind Ordinaldaten anstatt Intervalldaten Bei der Ordinalskala ist der numerische Abstand zwischen zwei Realisationen der Variable nicht interpretierbar jedoch müssen die Abstände/Differenzen eine Bedeutung haben, um die Produkt- Moment Korrelation durchführen zu können Was tun? Rangbildung Bei der Rangbildung können maximal so viele Ränge vergeben werden, wie es Merkmalsträger gibt, also n Der numerisch niedrigste Messwert von der Variablen erhält dabei den kleinsten Rang 1, der höchste Wert erhält den Rang n Falls es in der Messung einen Zahlenwert mehrfach gibt, wird der mittlere Rang vergeben 12,12,12 eigentliche Rangplatzvergabe wäre in 13, 23, 3 3 Daraus macht man = 6 / 3 = Rangplatz 2, den die drei erhalten
11
Rangbildung Rangbildung
Annahme: Abstände zwischen Rängen sind interpretierbar, daher kann man die Produkt- Moment Korrelation auf die Ränge anwenden Interpretation wie bei normalen Intervalldaten Beispiel: Links: normale Produkt- Moment- Korrelation je älter man ist, desto weniger Zeit braucht man Rechts: Rangkorrelation was stellt man fest? perfekte Korrelation, da ein höherer Rang der einen Variable mit einem kleineren Rang der anderen Variable einhergeht Unterschied zu Produkt- Moment- Korrelation: Robustheit gegen Ausreißer! da ein sehr großer Zahlenwert, nur den höchsten Rangwert bekommen wird! Wenn bei Alter 10, Zeit 11,2 Zeit 50 stehen würde, würde sich die Rangkorrelation nicht verändern!
12
3. Punktbiseriale Korrelation
X: (künstlich/natürlich) dichotom nominalskaliert Y: intervallskaliert Geschlecht Zustand einer Schwangerschaft Zustand einer Warnlampe … Intelligenzquotient Grad Celsius Jahresabstände … 3. Punktbiseriale Korrelation
13
Darstellungsformen Datentabelle 1 Datentabelle 2
Pearson Produkt-Moment-Korrelation Punktbiseriale Korrelation Datentabelle 1 Datentabelle 2 Nr X Y 1 15,2 2 11,3 3 17,8 4 10,9 … n 1 15,2 12,3 … 17,8 10,9 Unterschied: Anzahl an Merkmalsträgern kann unterschiedlich sein! 3. Punktbiseriale Korrelation
14
Formel der punktbiserialen Korrelation
SD aller intervallskalierten Variablen Gesamtanzahl aller Personen Excel Umsortierung: 0/1-Kodierung (z.B. Männer: 0 und Frauen: 1) Produkt-Moment-Korrelation nach Pearson: r =KORREL(Datenreihe X, Datenreihe Y) 3. Punktbiseriale Korrelation
15
Exkurs: Biseriale Korrelation
Y: intervallskaliert X: künstlich dichotom nominalskaliert Zustand einer Warnlampe (an, aus) Alter (unter 25, über 25) Einkommen (niedrig, hoch) Depression (ja, nein) versetzungsfähig (ja, nein) …. Intelligenzquotient Grad Celsius Jahresabstände … ursprünglich stetig intervallskaliert Exkurs: Biseriale Korrelation
16
Exkurs: Biseriale Korrelation
implizites Kriterium Ursprungsvariable stetig Zwischenvariable dichotom beliebige Kriteriumsetzung => Korrektur Exkurs: Biseriale Korrelation
17
Formel für die biseriale Korrelation
Korrekturterm omega Bedingung: Normalverteilung der Ursprungsvariablen Exkurs: Biseriale Korrelation
18
4. Tetrachorische Korrelation
Y: künstlich dichotom nominalskaliert X: künstlich dichotom nominalskaliert Zustand einer Warnlampe (an, aus) Alter (unter 25, über 25) Einkommen (niedrig, hoch) Depression (ja, nein) versetzungsfähig (ja, nein) …. Zustand einer Warnlampe (an, aus) Alter (unter 25, über 25) Einkommen (niedrig, hoch) Depression (ja, nein) versetzungsfähig (ja, nein) …. ursprünglich normalverteilt ursprünglich normalverteilt 4. Tetrachorische Korrelation
19
Darstellungsformen Datentabelle Kontingenztabelle
Pearson Produkt-Moment-Korrelation Tetrachorische Korrelation Datentabelle Kontingenztabelle Nr X Y 1 2 3 4 … n 4. Tetrachorische Korrelation
20
Formel für die tetrachorische Korrelation
Excel: COS(PI()/(1+WURZEL(N11*N22/(N12*N21)))) 4. Tetrachorische Korrelation
21
Verwendung Bedingungen Normalverteilung
keine asymmetrischen Randhäufigkeiten keine Verbundhäufigkeiten < 5 überschätzt sonst wahre Korrelation 4. Tetrachorische Korrelation
22
5. Phi Korrelation beschreibt die Stärke des Zusammenhangs zweier natürlich dichotomer Variablen Berechnung: Phi liegt zwischen -1 und 1
23
5. Phi Korrelation Problem:
Bei schiefen Randverteilungen kann der Phi-Koeffizient selbst bei maximalem Zusammenhang zwischen den Variablen die Grenze ±1 nicht erreichen Bei schiefen Randverteilungen sollte Phi daher an der maximal möglichen Korrelation normiert werden
24
5. Phi Korrelation Die maximale positive Korrelation berechnet sich als Und die maximale negative Korrelation ist
25
5. Phi Korrelation Korrektur:
Wenn Phi-Koeffizient positiv, kann/soll er an der maximal möglichen positiven Korrelation normiert werden über Ist er negativ, berechnet sich die Normierung ganz analog als
26
6. Cramérs V beschreibt die Stärke des Zusammenhangs nicht dichotomer nominalskalierter Variablen Berechnung: Ansatz: Vergleich von beobachteter Kontingenztabelle mit einer fiktiven Kontingenztabelle, die entstanden wäre, hätte kein Zusammenhangzwischen den Variablen bestanden Tabelle der erwarteten Häufigkeiten wird berechnet mit:
27
6. Cramérs V χ² χ² ist Null bei perfekter Unabhängigkeit, ansonsten größer Null χ² kann beliebig große Werte annehmen, abhängig von der Anzahl der Ausprägungen und der Beobachtungen Je größer das Ergebnis, desto größer der Unterschied zw. erwarteten und beobachteten Häufigkeiten Wichtig: Chi² darf nur dann berechnet werden, wenn alle Zellhäufigkeiten der erwarteten Häufigkeiten größer 5 sind
28
6. Cramérs V Korrektur: Cramer's V
Cramer's V liegt immer zwischen 0 und 1
29
7. Partialkorrelation Einsatz um ein Problem bei der Regression zu lösen: Entsteht die Korrelation von zwei Variablen tatsächlich über einen direkten Zusammenhang ODER werden beide von einer Drittvariable beeinflusst? Die Partialkorrelation ist die, um den Einfluss einer Drittvariable, bereinigte Korrelation zweier Variablen
30
7. Partialkorrelation Wie berechnen wir jetzt die Partialkorrelation?
Angenommen wir haben die Variablen y1 und y2 und wollen untersuchen ob deren Korrelation durch eine Variable x beeinflusst wird Wir sagen durch Regression y1 aus x voraus und berechnen die Residuen Wir sagen genauso y2 aus x voraus und berechnen die Residuen Jetzt berechnen wir die Korrelation der beiden Residuen miteinander. Das ist unsere Partialkorrelation Je näher die Partialkorrelation bei 0 liegt, desto mehr lässt sich der Zusammenhang zwischen y1 und y2 auf x zurückführen
31
Korrelationen im Überblick
nominal- dichotom polytom intervall- ordinal- künstlich natürlich Pearsons Produkt Moment Korrelation (punkt-) biseriale Korrelation punktbiseriale Korrelation Spearmans Rang-korrelation Cramers V (künstlich dichotom) tetrachorische Korrelation (natürlich dichotom) Phi-Korrelation (polytom)
32
8. Skalentransformation
Warum Skalentransformation? Nur Variablen, die auf derselben Skala gemessen wurden, sind direkt miteinander vergleichbar Wollen wir trotzdem eine Vergleich anstellen, müssen wir die Skalen ineinander überführen Oft werden beispielsweise die bei einem Test gemessenen Rohwerte in leichter zu interpretierende Testwerte überführt
33
8. Skalentransformation
Theoretisch kann man jede Skala transformieren, indem man die Datenwerte nach beliebigen Vorstellungen verrechnet ABER die erlaubten Transformationen hängen vom Skalenniveau ab: Bei einer Ordinalskala sind beliebige Transformationen zulässig, solange sie die Ordnung der Skala nicht verletzen Bei der Intervallskala sind lineare Transformationen zulässig (+,-,*,/), also solche, die das Verhältnis der Differenzen der einzelnen Skalenwerte nicht verändern
34
8. Skalentransformation
Weit verbreitet: Die Skalentransformation durch z-Standardisierung Die erhobenen Werte werden zunächst in z-Werte überführt. Dafür bilden wir für jeden Wert die Differnz mit dem Mittelwert der Verteilung und teilen dann durch die Standardabweichung Um aus der z-Skala eine neue Skala zu machen, müssen wir nur noch die z- Werte mit der gewünschten Standardabweichung multiplizieren und dann den gewünschten Mittelwert addieren
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.