Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz Stunde 30.11.04
Themen der Stunde I. Aktualisierung: Häufigkeitsverteilungen II. Abweichungsmaße III. Standardisierung IV. Die Normalverteilung
Häufigkeitsverteilungen Absolute Häufigkeit eines Wertes x : Relative Häufigkeit eines Wertes x : (N = Anzahl aller Werte) Kumulierte absolute Häufigkeit bis zu einer Schranke x : Relative kumulierte Häufigkeit bis zu einer Schranke x : (Empirische Verteilungsfunktion) [Datenbeispiele, Mathematica]
Beispiel Diskrete Variable: 50 mal einen Würfel werfen Hufigk. Summen- % glt. Kumul % 1 7 14.00000 14.0000 2 11 18 22.00000 36.0000 3 9 27 18.00000 54.0000 4 6 33 12.00000 66.0000 5 8 41 16.00000 82.0000 50 100.0000 Diskrete Variable: 50 mal einen Würfel werfen
Beispiel kontinuierliche Variable: 50 Zeiten für eine Wertejustage Hufigk. Summen- % glt. Kumul % 20.00000<x<=30.00000 0.00000 0.0000 30.00000<x<=40.00000 2 4.00000 4.0000 40.00000<x<=50.00000 3 5 6.00000 10.0000 50.00000<x<=60.00000 10 10.00000 20.0000 60.00000<x<=70.00000 20 20.00000 40.0000 70.00000<x<=80.00000 12 32 24.00000 64.0000 80.00000<x<=90.00000 14 46 28.00000 92.0000 90.00000<x<=100.0000 4 50 8.00000 100.0000 kontinuierliche Variable: 50 Zeiten für eine Wertejustage
Beispiel: Kumulierte Häufigkeiten Kumuliert Würfeln Kumuliert Zeiten Häufigkeit Häufigkeit Augenzahl Justagezeit (Intervall-Mitte)
Klassenbildung Klassen sind halb-offene Intervalle: der obere Wert gehört hinzu, der untere nicht Das gesamte Werteensemble X wird in k disjunkte und erschöpfende Klassen eingeteilt. Zur Beschriftung der Werteachse wird häufig die Klassenmitte di verwendet.
Klassenbildung Die Meßwertklassen dürfen sich nicht überschneiden Die obere Klassengrenze gehört zur Klasse, die untere nicht Alle Klassen sollen dieselbe Breite haben (Normalfall) Nicht mehr als 20 Klassen bilden Anzahl k der Kategorien sollte etwa betragen
Klassenbildung Anzahl k der Kategorien bei Umfang N Klassen k Umfang N 5 16 6 32 7 64 8 128 9 256 10 512 11 1024 12 2048 13 4096 14 8192 15 16384 32768 17 65536 18 131072 19 262144 20 524288 Anzahl k der Kategorien bei Umfang N Oder die einfachere Regel „bit + 1“ :
Beispiel zu viele optimal Optischer Eindruck wird durch Anzahl der Klassen bestimmt
Empirische Verteilungsfunktion F(x) Es gilt: xa xb F(x) x Ferner gilt für die relative Häufigkeit im Intervall (xa,xb]:
Median N ungerade: N gerade: x (Justagezeit) Relative kumulierte Häufigkeit Median N ungerade: Der te Wert N gerade: Mittel zwischen bem Wert und ten Der Median ist derjenige Wert, der die Reihe der Messwerte Halbiert (50% liegen drunter, 50% drüber) [Tafelbeispiel, Mathematica]
Quantile: Centil, Dezentil, Quartil Relative kumulierte Häufigkeit Median = 2. Quartil 1. Quartil x (Justagezeit) Die Meßwerte (x), die bestimmten relativen Häufigkeiten entsprechen, werden Quantile genannt. Centil: 100er Einteilung Dezentil: 10er Einteilung, Quartil: 4er Einteilung
Quantile: empirische Bestimmung Es sei p ein Anteilswert, 0 < p < 1. Ein Wert xp, für den gilt, dass mindestens ein Anteil der Daten p kleiner oder gleich xp und mindestens ein Anteil 1-p der Daten größer oder gleich xp ist, heisst p-Quantil. Es gilt: Quantile können auch über eine graphische Methode aus der empirischen Verteilungsfunktion gewonnen werden. [Berechnungsbeispiele, Mathematica-Beispiele]
Quantile: empirische Bestimmung Fall 1: Np ist nicht ganzzahlig: Die Horizontale vom p-Wert der Y-Achse trifft auf ein senkrechtes Treppenstück. Der X-Wert ist das zugehörige Quantil. Fall 2: Np ist ganzzahlig: Die Horizontale vom p-Wert der Y-Achse trifft genau eine Treppenstufe. Mittelung der Treppengrenzen ergibt das Quantil.
Ausgleichskurve x (Justagezeit) Relative kumulierte Häufigkeit Median = 2. Quartil 1. Quartil F(x) Die Quantile kann man auch mit einer glatten Ausgleichskurve, die die empirische Verteilungsfunktion gut beschreibt, ermitteln [Tafel+Mathematica]
Abweichungsmaße Die Abweichungsmaße bewerten die Abweichung aller Werte des Kollektivs von einem Maß der zentralen Tendenz. Sie Geben das Ausmaß der Homogenität der Werte an Die wichtigsten Abweichungsmaße sind 1. Varianz und Standardabweichung 2. Mittlere Abweichung 3. Halber Quartilsabstand
Mittlere Abweichung Ist die Summe aller Abweichungsbeträge vom Mittelwert Diese Abweichung ist vom Median minimal (von jedem anderen Wert ist sie größer)
Halber Quartilabstand Justagezeit Relative kumulierte Häufigkeit Q1 Q3
Varianz und Standardabweichung Die Varianz ist die Summe aller Abweichungsquadrate vom Mittelwert, gewichtet um den Stichprobenumfang. Die Standardabweichung ist die Wurzel der Varianz [Tafelbeispiel: alternative Berechnung]
Verteilungsmomente heisst k - tes Potenzmoment. heisst k - tes Zentralmoment. [Tafelbetrachtung: Varianz und Covarianz in Momentenschreibweise]
Momentenschreibweise (Varianz in Momentenschreibweise) (Covarianz zweier Variablen in Momentenschreibweise)
Linear transformierte Daten Für linear transformierte Daten gilt: von beiden Beziehungen wird umfassend Gebrauch gemacht [Tafelbetrachtungen]
Standardisierung Die Standardvariable z hat folgende Eigenschaften: Die Standardisierung drückt einen Meßwert aus als eine Abweichung vom Mittelwert, gemessen in Einheiten der Standardabweichung. Sie ist eine spezielle Lineartransformation. Die Standardvariable z hat folgende Eigenschaften: [Mittelwert Null] [Standardabweichung Eins] [Tafelbetrachtung]
IQ‘s IQ- Werte sind Standardwerte, die aus z- transformierten Rohdaten [Mittelwert Hundert] [Standardabweichung fünfzehn] IQ- Werte sind Standardwerte, die aus z- transformierten Rohdaten berechnet werden. Sie sind eine spezielle Lineartransformation und drücken wie z- Werte, die individuelle Leistung, zumeist gemessen über die Anzahl gelöster Aufgaben, als Abweichung vom Mittelwert der Vergleichsgruppe aus „Variabilitäts-IQ“ . [Tafelbeispiel, Berechnungsbeispiel]
Standard-Werte z IQ T Die Standardwerte wie T oder IQ sind einfache lineare Transformationen der z Werte. Ihre Kennwerte berechnen sich nach den Eigenschaften für lineare Transformationen. Die Standardwerte haben daher folgende Eigenschaften:
Die Normalverteilung 20 25 30 35 40 45 50 55 60 65 70 75 80 x 0.01 0.02 0.03 0.04 f (x) Die Normalverteilung (Gauss‘sche Glockenkurve) ist eine symmetrische Verteilung. Ihre Form ist durch die Standardabweichung und den Mittelwert eindeutig festgelegt. Sie resultiert aus dem Modell unabhängiger sich überlagernder Zufallsfehler („Galton-Brett“) [Tafelbeispiel Galton, Mathematica]
Die Normalverteilung 20 25 30 35 40 45 50 55 60 65 70 75 80 x 0.05 0.1 0.15 0.2 F(x) Die Verteilungsfunktion der Normalverteilung (Fläche unter der Normalkurve) kann man nicht auf eine geschlossene Form bringen. Sie ist aber für standardisierte Variablen (z-Standardisierung) austabelliert und elektronisch implementiert (z.B. in Excel).
Die Normalverteilung 68.26% 95.5% -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 z f(z) 95.5% -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 z f(z) Die Fläche unter der Kurve ist bei der Normalverteilung eine Funktion der Standardabweichung (in Einheiten von s angebbar) [Tabellenbenutzung, Mathematica, Aufgabenbeispiel zu IQ‘s]
Standardisierung & Verteilung Die Standardisierung ändert die Verteilungsform nicht. Ist eine Variable normalverteilt, so ist auch die z- standardisierte Variable normalverteilt. Aus der z- standardisierten Variable über Lineartransformation gewonnene Standardvariable sind ebenfalls normalverteilt.
Schiefe Linkssteil: rechtssteil: f(x) f(x) x x 2 4 6 8 10 0.05 0.1 AM Med Mod 2 4 6 8 10 0.05 0.1 0.15 0.2 0.25 f(x) x 0.25 0.2 0.15 0.1 0.05 x 2 4 6 8 10 Mod Med AM Linkssteil: rechtssteil:
Momentenkoeffizienten heisst Momentenkoeffizient der Schiefe (Kurtosis). Für symmetrische Verteilungen gilt: Linkssteil: a3 > 0 Rechtsssteil: a3 < 0 [Tafelbetrachtung, Beispielberechnung]
Momentenkoeffizienten heisst Momentenkoeffizient der Breite (Exzess). Für normale (Normalverteilung) Breiten gilt: schmal: a4 > 3 breit: a4 < 3 [Beispielberechnung]
Standardisierung & Verteilung Die Standardisierung ändert die Verteilungseigenschaften nicht. Ist eine Variable z.B linkssteil, so ist auch die z- standardisierte Variable linkssteil. Lineare Transformationen ändern prinzipiell nicht Verteilungs- Eigenschaften wie Schiefe und Exzess.