Skalentransformation & Korrelation Von Sophia Rosar, Jan Schmitz, Hannah Kölle, Theresa Nix
Ablauf Variablen Skalen Skalentransformation Korrelationen Übungsaufgaben
Vom Merkmal zur Variable Merkmalsträger: Statistische Einheit (z.B. Personen) Merkmal: Eigenschaft einer statistischen Einheit (z.B. X=Haarfarbe) Merkmalsausprägung: Wert/Ausprägung, die ein Merkmal annehmen kann (z.B. blond) Variable: Eindeutige Zuordnung von Zahlen (Realisationen) zu Merkmalen (z.B. x1=0, wenn Haarfarbe blond)
Variablen-Definitionen Extensionale Definition: Zählt alle Realisationen der Variable Kann jede beliebige Zahl sein z.B. Liste der Studenten im ersten Semester Intensionale Definition Gibt Vorschrift an, die die Variable eindeutig spezifiziert (Nennung der Grenzen des Wertebereichs) Sinnvoll, wenn Merkmal zu viele Ausprägungen hat z.B. Größen (alle reellen Zahlen)
Arten von Variablen Diskrete Variablen Endlich und feste Variablen -> begrenzte Anzahl von Werten Dichotom: 2 mögliche, diskrete Werte Polytom: Mehr als 2 diskrete Werte Stetige Variablen Kann unendlich viele beliebige Werte annehmen (reelle Zahlen) Z.B. Körpergröße
Die Skala „…ein Messinstrument, mit dem man empirischen Gegenständen Zahlenwerte zuordnet, die der Stärke bestimmter Eigenschaften dieser Gegenstände entsprechen.“ Definition „Skala“ nach DORSCH, Lexikon der Psychologie
Skalen 5 verschiedene Skalenniveaus Qualitativ: Nominalskala & Ordinalskala Quantitativ: Intervall-, Verhältnis- & Absolutskala Direkte Vergleichbarkeit nur bei Variablen, die auf selbiger Skala gemessen werden -> Sonst: Skalentransformation
Nominalskala Unterscheidung von Kategorien Zahlen arbiträr, nicht interpretierbar Zulässige Operationen: Äquivalenzrelation Zulässige Transformationen: in eindeutige Abbildungen Kennwerte: Modus, Häufigkeiten, Chi² Beispiel: Geschlecht/ Wohnort etc.
Nominalskala- Grafische Darstellung Säulendiagramm Kreisdiagramm
Ordinalskala Realisationen können (natürlich) geordnet werden ->Objekte können gemäß der Skalenwerte in eine Rangreihe gebracht werden Numerische Abstände nicht interpretierbar/ quantifizierbar
Operationen: Äquivalenzrelation, Ordnungsrelation Operationen: Äquivalenzrelation, Ordnungsrelation Transformationen: streng monotone Transformationen, die die Ordnung der Rangreihe erhalten -> Transitivität darf nicht verletzt werden! Kennwerte: Modalwert, Median, Extrema, Quantile, Quantilsrang -> Fragestellung: Wie viele waren besser? Beispiel: Schulnoten, Tabellenplätze bei Sportveranstaltungen
Ordinalskala-Grafische Darstellung Empirische Häufigkeitsverteilung Empirische Verteilungsfunktion
Intervallskala Differenzen von Werten vergleichbar, nicht Werte selbst Einheit wird definiert, kein natürlicher Nullpunkt Operationen: Äquivalenzrelation, Vergleichsrelation Transformationen: alle linearen Transformationen (Grundrechenarten) -> Differenzverhältnisse müssen erhalten bleiben! Kennwerte: Mittelwerte, Streuungsmaße: Spannweite& Interquartilsabstand, Mittlere Abweichung zum Median, Abweichungsquadratsumme, Varianz, Standardabweichung Beispiel: Temperatur in Celsius
Intervallskala-Grafische Darstellung Fehlerbalkendiagramm Box-Whisker-Plot x.25 = 1. Quartil x.75 = 3. Quartil X_quer = Mittelwert dq = Interquartilsabstand
Skalentransformation- Z-Standardisierung Umwandlung von einer Skala in eine Andere Ziel: Merkmalsverteilungen mit unterschiedlichen Mittelwerten und Streuungen vergleichbar machen Beurteilung der Werte bezüglich ihrer relativen Lage in der Verteilung
Skalentransformation Schritt 1: z-Standardisierung jedes Datenpunktes Z = transformierter Stichprobenwert, auch z-Wert X = Stichprobenwert μ = Mittelwert σ = Standardabweichung Schritt 2: (lineare) Transformation jedes Datenpunktes in die neue Skala
Z-Standardisierung Eigenschaften Für normalverteilte z-Werte gilt: µ = 0 σ= 1 (Bzw. Festlegung eines neuen Mittelwerten & Standardabweichung) Der Wert z gibt an, wie viele Standardabweichungen und in welche Richtung ein Messwert xi vom Mittelwert entfernt ist Durch die z-Transformation wird die Form der Verteilung nicht beeinflusst!
Beispiele: Hamburg-Wechsler IQ-Test (MW=100, s=15), IQ-Skala laut IST (MW=100, s=10), Stanine-Skala (MW=5, s=2)
Korrelationen Kovarianz Korrelation Punktbiseriale Korrelation Bisereale Korrelation Tetrachorische Korrelation Rangkorrelation nach Spearman (Ordinaldaten) Phi-Koeffizient (bivariante Nominaldaten) Chi2 Koeffizient -> Cramers V (Vergleich Kontingenztabelle mit Indifferenztabelle
Kovarianz Bivariate Intervalldaten Positiver oder negativer Zusammenhang zwischen 2 Datenreihen Positiv wenn gleichsinniger Zusammenhang/ negativ wenn gegensinnig Erfüllt nicht Forderung der Invarianz Äquivarianz keine gute Eigenschaft
Produkt-Moment-Korrelation (Pearson) X & Y z-standardisieren -> befreit von Äquivarianz Korrelationskoeffizient Eigenschaften: Ab Intervallskala Zwischen -1 & 1 r= 0 -> kein Zusammenhang neg. r = gegensinniger Zusammenhang / pos. R = gleichsinnig Ausreißer abhängig Lineare Transformationen keine Auswirkung
Faustregeln Cohen 1988 Vorsicht bei Interpretation -> hohe Korrelation nur wegen Ausreißer? -> Scatterplot betrachten In experimentellen Studien erst r=.75 hoch Zufallskorrelation wegen zu kleiner Stichproben
Voraussetzung für Kausalität KORRELATION IST NICHT GLEICH KAUSALITÄT Korrelation ungleich Null Ursache vor Wirkung Andere Erklärung für Kovariation ausgeschlossen Raum-zeitlich indifferent
Grafische Beschreibung Scatterplot: Zusammenhang von Messwertpaar in Punktwolke abgebildet Einfach interpretierbar
Punktbiseriale Korrelation X = dichotom & nominalskaliert / Y = intervallskaliert wie 2 intervallskalierte Variablen betrachten Dichotomisieren von Variablen gibt nicht wahren Zusammenhang an X‘ X Y Selben Eigenschaften wie PMK
Biseriale Korrelation Korrektur der kriteriumsabhängigen Veränderung (dichotomisieren) Selben Eigenschaften wie PMK Normalverteilungsannahme der stetigen Variable rpbis vorzuziehen, da keine Normalverteilungsannahme
Tetrachorische Korrelation 2 künstlich dichotomisierte Variablen 2x2 Kontingenztabelle Überschätzt Korrelation wenn Randverteilung stark asymmetrisch oder nxy < 5 Selten in Praxis genutzt
Rangkorrelation nach Spearman Bivariante Ordinaldaten Abstände nicht interpretierbar -> Rangordnung nutzen Rangbildung Ties bilden bei mehreren gleichen Werten von X PMK der Ränge berechnen
Spearman‘s rs Wertebereich: -1 bis 1 (Vorzeichen = Richtung des Zusammenhangs) Robust bezüglich Ausreißern Invariant bei streng monotonen Transformationen
Phi-Koeffizient Bivariante Nominaldaten Unabhängigkeit in Kontingenztabellen Variable X sagt nichts über Y aus Randhäufigkeiten bleiben gleich Abhängigkeit in Kontingenztabellen Variable X sagt etwas über Y aus Verbundhäufigkeiten betrachten
Phi-Koeffizient 1. Weg: 1) Variablen numerisch beschreiben 2) Datentabellen erstellen 3) PMK berechnen 2. Weg: 1) Phi-Koeffizient-Formel anhand 2x2 Kontingenztabelle
Phi-Koeffizient Gleiches Maß wie r Positives Phi: Kombination auf Hauptdiagonale hoch Negatives Phi: Kombination auf Nebendiagonale hoch Selbe Eigenschaften wie PMK Nur interpretierbar in Bezug auf Kontingenztabelle
Phi Koeffizient Nur interpretierbar in Bezug auf Kontingenztabelle & Vorzeichen Wegen schiefen Randhäufigkeiten Phi = -1 & +1 nicht erreichbar Phi Max + & - berechnen Hauptdiagonale / Nebendiagonale auf 0 setzen Phi an maximal mögliche Korrelation normieren = Phi norm
Phi Koeffizient Interpretation: Phi & Phinorm sehr unterschiedlich -> Phi max sehr klein 2 Gruppen in Daten Für Mehrheit stimmt schwacher Zusammenhang
Chi² Koeffizient Beobachtete Kontingenztabelle mit erwarteter (fiktiver) vergleichen Indifferenztabelle berechnen = Verbundhäufigkeiten unter Unabhängigkeit
Chi² Koeffizient Chi² = 0 bei perfekter Unabhängigkeit beliebig große Werte Normieren um zu interpretieren
Cramers V Als Korrelationskoeffizient interpretierbar V = 0 bei perfekter Unabhängigkeit Zwischen 0 & 1 Sagt ob Zusammenhang da, aber nicht wo
Quellen https://www.emathzone.com/tutorials/basic-statistics/scatter-diagram.html (Scatterplot Bild, 23.10.2019) https://www.methodenberatung.uzh.ch/de/skalenniveau.html#1.2._Ordinalskala (Beispielbilder zu Nominalskala und Ordinalskala, 29.10.2019) http://www.fsrpsychologie.uni-jena.de/fsr_psychologiemedia/-p-154.pdf%3Frewrite_engine%3Did (Bild zur Normalverteilung, 29.10.2019) Iversity:https://iversity.org/de/my/courses/primer-deskriptive-statistik/lesson_units; Kapitel 2-6; 28.10.2019 Markus Wirtz, Christof Nachtigall: Deskriptive Statistik-Statistische Methoden für Psychologen Teil 1, 4. überarbeitete Auflage 2006, Juventa Verlag Weinheim und München, Kapitel 2: S.43-55; S.88-93 https://www.mathe-lexikon.at/statistik/einfuhrung/grafische-darstellung/kreisdiagramm.html (Bild Kreisdiagramm, 03.11.2019) https://www.mathe-lexikon.at/statistik/einfuhrung/grafische-darstellung/saulendiagramm.html (Bild Säulendiagramm, 03.11.2019)