Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Intervall Ordinal Nominal Mindestskalenniveau des x-Merkmals IntervallOrdinalNominal Mindestskalenniveau des y-Merkmals Pearson-Korrelation, Regressionsanalyse.

Ähnliche Präsentationen


Präsentation zum Thema: "Intervall Ordinal Nominal Mindestskalenniveau des x-Merkmals IntervallOrdinalNominal Mindestskalenniveau des y-Merkmals Pearson-Korrelation, Regressionsanalyse."—  Präsentation transkript:

1 Intervall Ordinal Nominal Mindestskalenniveau des x-Merkmals IntervallOrdinalNominal Mindestskalenniveau des y-Merkmals Pearson-Korrelation, Regressionsanalyse Analyse mit ordinal-logistischen Modellen Analyse mit nominal-logistischen Modellen (logistische Regression), Univariate Diskriminanzanalyse Mittelwerttests, Varianzanalyse Rangkorrelation (z.B. Spearmans, Kendalls ) Analyse mit nominal-logistischen Modellen Vergleiche zweier Mittelwerte, Varianzanalyse, Vergleiche von Varianzen. Nichtparametrische Verfahren (bei Verletzung von Verteilungs-Voraussetzungen) Nichtparametrische Verfahren (Mediantest, Wilcoxontests, Kruskal-Wallis-Test, Friedman- Varianzanalyse), Analyse mit ordinal-logistischen Modellen Kreuztabellenanalysen, Chi-Quadrat, Nominale Korrelation (Chi-Quadrat- Normierungen, Goodmans, Kruskals, kappa), Analyse mit loglinearen und nominal-logistischen Modellen MO - GO > 0 MO > GO Mittlere Organisationen sind im Durchschnitt effizienter als große. S - L = 0 S = L Durchschnittlich arbeiten Studenten gleich viel wie Lehrlinge. W - B = 1000 W = B + 1000 White Collars (Weißkragenarbeiter) verdienen im Schnitt 1000 Euro mehr als Blue Collars (Blaumann-Arbeiter). vor - nach = 0 vor = nach Die Sozialkompetenz wird durch Gesprächstherapie nicht verbessert (Sk vor bzw. nach Therapie). F - M = 0 F = M Frauen sind (im Durchschnitt) gleich intelligent wie Männer. zH - Uni = 2 zH = Uni + 2 Studenten arbeiten durchschnittlich zu Hause um zwei Stunden mehr als an der Uni. V - S = 0 V = S Väter sind im Schnitt gleich groß wie ihre Söhne. E - Z = 0 E = Z Sind Zwillinge (Erst- und Zweitgeborene) im Schnitt gleich intelligent? M - E = 0 M = E Im Durchschnitt haben Schüler in Mathematik gleich gute Noten wie in Englisch. Em - Ef = 0 Em = Ef Ist die durchschnittliche Berufsausbildungsdauer von Ehemännern gleich lang wie die der Ehefrauen? in Hypothesenform: Typische Fragestellungen : Die Differenz in den Mittelwerten der beiden Gruppen (1, 2) in der Gesamtheit ist gefragt: Wie verschieden sind zwei Gruppen (im Schnitt)? Vergleich zweier Mittelwerte keineirgendwelche Frauenirgendwelche MännerIntelligenz von Männern und Frauen keineirgendwelche Blue C.irgendwelche White C.White & Blue Collars Unverbunden heißen zwei Stichproben, für die eine solche eindeutige Regel nicht existiert. eindeutiggleiche Personen danachPersonen vor TherapiebeginnSozialkompetenz vorher/ nachher eindeutigderen Söhneirgendwelche VäterGröße von Vater und Sohn eindeutigZweitgeborenerirgendwelche ErstgeborenenIntelligenz der Zwillinge eindeutigderen Ehefrauenirgendwelche Ehemänner Berufsausbildungsdauer von Ehemännern und Ehefrauen Regel 2. Stichprobe 1. StichprobeBeispiel Verbunden heißen zwei Stichproben genau dann, wenn es eine Regel gibt, jeder UE aus der einen Stichprobe genau eine UE aus der anderen Stichprobe zuzuordnen. Designüberlegungen: Verbundene und unverbundene Stichproben Die Hypothese (H 0 bzw. H a ) behauptet, dass diese Differenz einen speziellen Wert habe (dabei ist 0 oft gleich 0) bzw. größer oder kleiner gleich diesem Wert sei. Analyse zweier Merkmale

2 Differenz der Arbeitszeit Arbeitszeit in Stunden -2 12 -2 1 Stichprobe der Differenzen: d j := y 1j – y 2j 16 26 10 21 1. Stichprobe (zu Hause): y 1j 18 14 12 20 2. Stichprobe (in Uni): y 2j 4. 3. 2. 1. UE-Paare Beispiel: Durchschnittlicher Unterschied im Arbeitsverhalten von Studenten in Stunden (zu Hause vs. an der Uni). Konfidenzintervalle und Tests für 1 - 2 bei verbundenen Stichproben Da jedem Messwert der einen Stichprobe exakt ein Messwert der andern Stichprobe entspricht, können die Differenzen auf der Individualebene gebildet werden. Die Differenzwerte selbst werden wie eine Stichprobe für ein Merkmal (das Differenzenmerkmal) behandelt. Stichprobe 1: y 1j (j=1,2,...,n) Stichprobe 2: y 2j (j=1,2,...,n) Mittelwerte der Populationen: 1 (Pop 1), 2 (Pop 2). Mittelwert Standard- abweichung d j :=y 1j – y 2j. Reduktion auf eine Stichprobe, die Stichprobe der Differenzen: Mittelwert der Differenzenpopulation: 1 - 2 Standardfehler des Differenzen- Mittelwerts Das Konfidenzintervall für die Mittelwert-Differenz kann nach den Formeln für ein Merkmal berechnet werden (1- )-Konfidenzintervall für bei nicht bekannter Varianz (df=n-1) Berechnen des 95%-Konfidenzintervalls für die Mittelwertdifferenz: df = 3 (=4-1). = (-8.32668, 12.82668). Hypothesentests für die Mittelwert-Differenz-Hypothese ( ) können ebenfalls Hypothesentests wie bei einem Merkmal durchgeführt werden. Stf( ) linksseitigrechtsseitigbeidseitig Alternativhypothese KB bei nicht bekannter Varianz Der zweiseitige kritische Bereich liegt daher außerhalb (inklusive Randpunkte) von: d.h. außerhalb von (-8.57668, 12.57668). liegt nicht im kritischen Bereich. Daher wird die Nullhypothese nicht abgelehnt. Sei H 0 : 1 - 2 = 2. 0 ist daher gleich 2. Die Alternativhypothese sei: H a : 1 - 2 2. Der kritische Bereich ist daher zweiseitig. Aus der Student-t-Verteilung bei df =3 und =0.05 ist erhält man Beispiel (Fortsetzung):

3 Konfidenzintervalle und Tests für 1 - 2 bei unverbundenen Stichproben Beispiel: Körpergröße der ersten 16 UEen, getrennt nach Sex. Daten sind hier nach Körpergröße sortiert. Stichprobe 1 (m): 170, 174, 174, 175, 178, 184, 184, 185, 186, 188, 189, 190, 191, 194. Stichprobe 2 (w): 165, 167. Stichprobe 1: y 1j (j=1,2,...,n 1 ) Stichprobe 2: y 2j (j=1,2,...,n 2 ) Datenaufbereitung 2. (w) 1. (m) Stich- probe i. Standard- abweichung 1.41421 7.49359 166 183 Mittelwert 2 14 An- zahl 1.0000 2.0027 Standardfehler Für jede Gruppe i = 1,2. Mittelwert Varianz nein Konfidenzintervall für 1 - 2 (Konfidenzniveau = q) o ( ) kf q q u q o q bekannt kf := q z q := ja kf := q t q := (df = ), df = :=n 1 +n 2 2 := kf := q t q (df ), df = Homoskedast- isch nein ja 1. Homoskedastischer Fall: df = =14. kf := 0.95 t (14)=2.15. 0.95 =5.466 Konfidenzintervall für 1 - 2 : 17± 2.15* 5.466 2. Heteroskedastischer Fall: df =11.2. kf := 0.95 t (11.2)=2.2. 0.95 = Konfidenzintervall für 1 - 2 : 17± 2.2 *2.24 Beispiel(Fortsetzung): Sei q = 0.95. = 17. Populationsvarianzen sind unbekannt linksseitigrechtsseitig beidseitig 1– -z 1– z 2 1–1– z 2 1–1– -z Je nach Varianzen- Bedingung 1– t (df) 2 1–1– t (df) 2 1–1– -t (df) 1– -t (df) Beispiel (Fortsetzung): Testen der Nullhypothese, dass Männer im Schnitt 10 cm größer sind als Frauen: ( 0 10). nein Standardisierter Testwert für den Test der Hypothese H 0 : 1 - 2 = 0 bekannt :=mit Homo? ja = z, ja := mit = t (df = ), := mit = t (df ), nein KB Hetero-Fall: -1.80 1.80 -2.202.20 Homo-Fall: -1.76 1.76 -2.152.15 KB Hetero-Fall: Standardis. Testwert = = 3.125 = t (df ), df =11.2. Homo-Fall: Standardis. Testwert = = 1.28 = t (df = ), df = =14. Sei =0.05.

4 2.12132 192.5 24 Uni, Ing.schule u. ä 0.70711 189.5 23 Abitur 5.83095 182.0 52 höherer Schulabschluß 7.23418 178.5 41 Volksschulabschluss Standardab- weichung MittelwertAnzahl i. Stp Schulausbildung des Vaters Gesamt Mittelwert 183.69. Gesamt-Varianz = 642.769 / 12 Vergleich mehrerer Mittelwerte bei unverbundenen Stichproben Stichprobe i: y ij (j=1,2,...,n 1 ), i=1, 2, …, I Datenaufbereitung Für jede Gruppe i = 1,…,I Mittelwert Varianz Determinationskoeffizient 1. Art (= 2 ) R y (MIT x) für alle UEen. (y Dach) heißt prädizierter Wert (engl. predicted value). Für jede UE wird der Mittelwert der Gruppe prädiziert, zu der die UE gehört. F y (MIT x) R y (OHNE x) für alle UEen.prädizierter Wert OHNE Berücksichtigung von x. Für jede UE wird der Gesamtmittelwert prädiziert. 2 = - F y (OHNE x) F y (MIT x) - ssq(total) ssq(within) = ssq(total) ssq(between) = = ssq(within) = Summe der quadrierten Prädiktionsfehler (=MIT-Residuen: ) = iijMIT,ij yy:r F y (OHNE x) = ssq(total) = Summe der quadrierten Prädiktionsfehler (=OHNE-Residuen: ) = yy:r ijOHNE,ij = ssq(within) ssq(between) 2 11 yn 2 yn 2 22 yn 2 II yn ssq(between) = 642.769 298 = 344.769 2 = 344.769 / 642.769 0.5364. 53.64 % Fehlerreduktion: Erklärte Varianz Beispiel: Körpergröße des Sohnes und Schulausbildung des Vaters, n=13. 19424 19114 Uni 19023 18913 Abi 18852 18642 18432 17822 17412 höhere Sch. 18541 18431 17521 17011 Volks- schule y ij ji - 192.5 - 189.5 - 182.0 - 178.5 - 183.69 4.5 0.5 136 157 298 74112.5 71820.5 165620.0 127449.0 439002 ssq(within) = 298 183.69 ssq(total) = 642.769 Eigenschaften der Quadratsummen und des eta**2 ssq(within) ist kleiner als ssq(total), wenn die Gruppenmittelwerte verschieden sind (ssq(between) ist daher >0, ebenfalls 2 ) ssq(within) ist gleich ssq(total), wenn alle Gruppenmittelwerte gleich sind (ssq(between) ist dann =0, ebenfalls 2 ) Wenn alle Gruppenmittelwerte gleich sind, sind sie gleich dem Gesamtmittelwert. 2 ist gleich 1, wenn ssq(within) =0 (d.h. die Prädiktion mit der Gruppen-Mittelwert-Regel ist fehlerlos).

5 Maße der Relevanz eines Unterschieds: PRE und andere Wer ausreichende Mittel hat, große Stichproben zu finanzieren, kann auch bei sehr kleinen Populationsunterschieden signifikante Ergebnisse erreichen, da der Standardfehler mit steigendem n gegen 0 geht. Problem: Allgemeine Maße für die Größe von Unterschieden in der Population, bzw. Schätzung in der Stichprobe. Für alle Skalentypen wurden so genannte PRE-Maße (Costner 1965) entwickelt (PRE ist die Abkürzung für proportional Reduction of Error). Für Intervallskalen: Effekt-Size (J. Cohen):, das ist die standardisierte Mittelwertdifferenz. 10 Beispiel: Kirchgang und Partei-Präferenz i n Gaißegg 3070 302010nein 7060ja Kirchgang neinja x: CP-Präferenz y: 10 PRE-Maß Konstruktionsschritte: Erstellen einer Prädiktionsregel für das y-Merkmal, die das x- Merkmal berücksichtigt. R y (MIT x) R y (MIT x): Wenn x = ja, dann y = ja; wenn x = nein, dann y = nein. Definieren eines Fehlermaßes: Ausmaß des Fehlers, der bei Anwendung der Regel R y (MIT x) auf alle einzelnen UEen entsteht. F y (MIT x) Als Fehler F y (MIT x) könnte man hier definieren: Anzahl falscher Prädiktionen, die beim Anwenden der Regel entstehen: 10 + 10 = 20. Erstellen einer Prädiktionsregel für das y-Merkmal, die das x- Merkmal NICHT berücksichtigt. R y (OHNE x) R y (OHNE x): Immer (OHNE x zu berücksichtigen), y = ja. F y (OHNE x) 30 Der Prädiktionsfehler kann durch die Berücksichtigung von x um 33% reduziert werden. Fehlerreduktionsanteil durch Berücksichtigung des x-Merkmals. In %: Prozentuale Fehlerreduktion mit Hilfe von x. - F y (OHNE x) F y (MIT x) PRE= PRE = (30 – 20) / 30 10 / 30 = 0.33. für alle UEen. (y Dach) heißt prädizierter Wert (engl. predicted value). Für jede UE wird der Mittelwert der Gruppe prädiziert, zu der die UE gehört. R y (OHNE x) für alle UEen.prädizierter Wert OHNE Berücksichtigung von x. Für jede UE wird der Mittelwert der Gruppe prädiziert, zu der die UE gehört. 2 = - F y (OHNE x) F y (MIT x) - ssq(total) ssq(within) = ssq(total) ssq(between) = F y (MIT x) = ssq(within) = Summe der quadrierten Prädiktionsfehler (=MIT-Residuen: ) = iijMIT,ij yy:r = ssq(total) = Summe der quadrierten Prädiktionsfehler (=OHNE-Residuen: ) = yy:r ijOHNE,ij ssq(between) = ssq(within) 22 22 2 11 ynynyn Das PRE-Konzept am Beispiel zweier dichotomer Merkmale Die Untersuchung der Relevanz des x-Merkmals für das y-Merkmal besteht im PRE-Konzept darin, eine Prädiktions-Regel zu beurteilen, die erlaubt, auf Grund der Kenntnis der x- Merkmalsausprägung die y-Merkmalsausprägung zu prädizieren (prognostizieren, diagnostizieren bzw. erraten). Der Determinationskoeffizient 1. Art bei UNverbundenen Stichproben (= 2 ) ist ein PRE-Maß R y (MIT x) Definieren eines Fehlermaßes: Ausmaß des Fehlers, der bei Anwendung der Regel R y (OHNE x) entsteht. Als Fehler F y (OHNE x) könnte man hier definieren: Anzahl falscher Prädiktionen, die beim Anwenden der Regel entstehen: 30. F y (OHNE x) ssq(between) = 1237.75 732 = 505.75 2 = 505.75 / 1237.75 0.41. 41 % Fehlerreduktion: Erklärte Varianz ssq(within) = 732ssq(total) = 1237.75

6 Test der Hypothese, dass alle Mittelwerte gleich sind Planung des Tests 1. Nullhypothese: alle Mittelwerte sind gleich ( ). Bei möglichst sparsamer Aufzählung genügen allerdings (I-1) Einzelhypothesen (z.B. ). Alternativhypothese: Nicht alle Mittelwerte sind gleich (Zumindest ein Mittelwert ist verschieden von den andern). Testverteilung unter H 0 ermitteln: F F F-Verteilung mit 20, 20 Freiheitsgraden 3, 9 Freiheitsgraden F-Verteilung mit 2, 9 Freiheitsgraden 5, 9 Freiheitsgraden 5, 60 Freiheitsgraden 3. Von der Extremposition her nun untersuchen, wie weit sich der Ablehnungsbereich nach innen erstreckt. c) Kritischen Bereich festlegen Bedeutung der H 0 in Teststatistikwert F? 4. a) F wäre 0, falls H 0 exakt stimmte. H0H0 Extrempositionen (EP) zugunsten von H a : bei sehr großem F wird H 0 abgelehnt.b)EP KB 3.86 F F-Verteilung df 1 = 3 df 2 = 9 95% = 0.05 Durchführung des Tests Als Schema für die Berechnung wird meist eine ANOVA-Tabelle (ANOVA steht für ANalysis Of VAriance) erstellt ssq(total)Total ssq(within)Error, within ssq(between)Faktor, between Sum of SquaresVariationsquelle ANOVA-Tabelle 642.769Total 298Fehler 344.769Ausbildung des Vaters Sum of SquaresVariationsquelle n-1 df2= n-I df1= I-1 df. 12 =13-1 9=13-4 3 = 4-1 df. msq(within) =ssq(within) / df2 msq(between) = ssq(between) / df1 Mean sum of squares 53.564 = 642.769 / 12 33.1111 = 298 / 9 114.923 = 344.769 / 3 Mean sum of squares F(df1,df2) = msq(between) / msq(within) F-Ratio F(3,9)= 3.471 = 114.923 / 33.1111 F-Ratio Beispiel: Körpergröße des Sohnes und Schulausbildung des Vaters, n=13; I=4. Nullhypothese: Es gibt keine systematischen, durchschnittlichen Körpergrößenunterschiede. Auswahl einer Teststatistik:2. wobei df 1 =(I-1) und df 2 =(n-I) ist. )df, (F 21, df/ / 2 1 ssq(within) ssq(between) df 1 heißt Zählerfreiheitsgrad, df 2 Nennerfreiheitsgrad df 1 =(4-1)=3. und df 2 =(n-I) = 9 msq = Mean sum of squares = Mittlere Quadratsumme = Quadratsumme pro Freiheitsgrad Liegt der F-Wert im kritischen Bereich? Nein. Daher wird die Nullhypothese akzeptiert. Als Fehlermaß im Rahmen des PRE-Index wird hier die Fehlerquadratsumme pro Freiheitsgrad verwendet. Umrechnen des F-Werts in den Determinationskoeffizienten ( 2 ) und umgekehrt.Adjustierter Determinationskoeffizient 1. Art (bzw. Adjustiertes 2 ). msq(within) 1: 2 msq(total) 2 = 3.471 / (9/3+ 3.471) 0.5364

7 ....................... usw......................... µ Effektdarstellung (Darstellung der Mittelwerte als Summe eines generellen und eines gruppenspezifischen Effekts) Asymmetrische EffekteSymmetrische Effekte Modellkonzeption für die Varianzanalyse µ2µ2 µ1µ1 µ3µ3 µ4µ4 2 3 4 Der Mittelwert der Normalfall-Stufe des Faktors wird als genereller Effekt = µ N definiert. Die Differenzen zum generellen Effekt werden als gruppenspezifische Effekte bezeichnet: i = µ i µ2µ2 µ1µ1 µ3µ3 µ4µ4 2 3 4 1 Der generelle Effekt wird in die Mitte der Mittelwerte gelegt: )...( I21 I 1 Die Differenzen zum generellen Effekt werden als gruppenspezifische Effekte bezeichnet: i = µ i = (170+174+180+180)/4 = 176 4 = 180 176 = 4. = 170 4 = 180 170 = 10. µ1µ1 µ2µ2 µ3µ3 Abi hS Uni y Vs Beispiel: Die Körpergröße in 4 Teil- Population seien µ 1 =170, µ 2 =174, µ 3 =µ 4 =180. 1. Wh. 2. Wh. Stratifizierte Zufallsauswahl Population Die Standardabweichungen aller Teilpopulationen gleich: 1 = 2 =... = I =: (=Homoskedastizität). Für Zwecke des Testens und der Konstruktion von Konfidenzintervalle wird zusätzlich Normalverteilung vorausgesetzt. Die Gesamtheit besteht aus I Teilpopulationen (für jede Gruppe, Schicht, Stratum). Jede Teilpopulation wird charakterisiert durch die Mittelwerte, die eventuell verschieden sind: µ 1, µ 2,..., µ I. Mit Hilfe der Stichprobensvariablen Y ij wird das Ergebnis des Ziehens beschrieben. Alle Stichprobenvariablen Y ij ((j=1,…, n i ) i=1,..., I) sind voneinander unabhängig. Aus jeder Teilpopulation wird eine Stichprobe bestimmter Größe (= n i ) gezogen. Stichprobenziehung (Geschichtete bzw, stratifizierte Zufallsauswahl) e ij ist von Ziehung zu Ziehung unabhängig und stammt jeweils aus der gleichen Störgrößen- Verteilung mit der Standardabweichung (auch mit e bezeichnet) und µ e =0. Y ij i e 0 -2 e - e 2 e e e ij i ij eY Y ij i e ij Varianzanalytische Modellgleichung: (egal, ob dabei symmetrische oder asymmetrische Effekte gemeint sind) ij i eY Darstellung der Stichprobenvariablen als Summe systematischer und stochastischer Größen: Die unterschiedlichen Populationsmittelwerte stellen die systematische Verschiedenheit dar. Die erratisch zufällige Variation wird durch das zufällige Ziehen der Stichprobe aus einer mehr oder weniger breiten Verteilung zugelassen. Wichtige Designvariante: Randomisierung bei Experimenten i.e.S. Fragestellung bei Experimenten im engeren Sinn: Welche Auswirkungen (Effekte) haben die I Behandlungsarten (Treatments)? (eventuell im Vergleich zu Plazebo-Treatment) Randomisierungsprinzip: Die Untersuchungseinheiten sollen den I Treatmentgruppen nach einem Zufallsverfahren zugeordnet werden. Die über Randomisierung gewonnen Messungen können mit dem vorliegenden Populations-Stichproben-Modell der Varianzanalyse behandelt werden. Darüber hinaus gibt es eigene sogenannte Randomisierungsmodelle, für die i. a. weniger Voraussetzungen nötig sind (nichtparametrische Verfahren). Analyseverfahren

8 Einfache Regressionsanalyse Streudiagramm für Körpergröße und Gewicht Beispiel: Körpergröße (=y) und Körpergewicht (=x) von Studenten. 1919013 1948412 1868411 1898110 185809 188798 178747 174726 184665 190654 184653 174642 175601 yiyi xixi i Körpergewicht in kg Körper größe in cm Gesucht ist eine Regel, mit der die y-Werte mittels einer einfachen Funktion bei Kenntnis der x-Werte möglichst gut erraten werden können. Die einfachste Funktion ist eine Gerade: y = a + b x, b ist Steigung, a Abschnitt auf y R y (OHNE x), für jede UE wird der Gesamtmittelwert prädiziert. yy ˆ OHNE,i : F y (OHNE x) = ssq(total) = Summe der quadrierten Abweichungen vom Mittelwert = = (n-1)*Stichprobenvarianz Determinationskoeffizient 2. Art (= quadrierter Korrelationskoeffizient): - F y (OHNE x) F y (MIT x) - ssq(total) ssq(y.x) = r2r2 yx = - 1 ssq(total) ssq(y.x) = -0.04 5.63 -2.37 1.96 -1.60 1.85 -5.93 -9.04 3.62 10.07 4.07 -5.49 -2.71 y.x i 191.04 188.37 187.04 186.60 186.15 183.93 183.04 180.38 179.93 179.49 177.71 i y ˆ MIT x y ˆ OHNE,i y: 184 i x 44426. 006. 151 i y ˆ ssq(y.x)= 332.53 ssq(total) = 548 - 548 332.53 r2r2 yx = = 0.392D. h. 39.2% Fehlerreduktion durch Geradenregel Unter allen möglichen Geraden die suchen, die AM BESTEN zu den gegebenen Datenpunkten passt. Optimalität der Geraden Am besten passen kann unterschiedlich definiert werden (z.B. die Summe der Residuen-Beträge bzw. der Residuen- Quadrate sollte möglichst KLEIN werden). a=5, b=0.6 a=3, b=1 a=3, b=0.6 Summe der Residuen-Beträge,844.8 22.4 8 6.4 Summe der Residuen-Quadrate, Gesucht sind jene a und b, für die die Funktion f(a,b) minimal ist: ssq(y.x) = f(a,b): = Residuen Für die obigen 4 fest gegebenen Datenpunkte f(a,b) Summe der Residuen- Quadrate für die diversen a und b optimale Gerade im Sinne der kleinsten Summe der quadrierten Residuen (Kleinst-Quadrate-Lösung) Die Datenpunkte sind fest gegeben. Variabel ist nur a und b. Die Summe der Residuen-Quadrate als Funktion von a und b: für alle UEen.heißt prädizierter Wert. Für jede UE wird der y-Wert prädiziert, der auf der Geraden liegt. R y (MIT x) i y ˆ i bxa: i y ˆ Residuen r i := y i = y.x i (= y unter Konstanthaltung von x = der Teil von y, der nicht durch eine Geradengleichung mit x prädizierbar ist). i y ˆ F y (MIT x) = ssq(y.x) = Summe der quadrierten Residuen: n 1i 2 i x.y

9 Minimum der KQ-Funktion f(a,b) und Formeln für a bzw. b Das Minimum einer Funktion kann mit Hilfe der Differentialrechnung gefunden werden: die ersten Ableitungen der Funktion f(a,b) nach den Variablen (a bzw. b) null setzen. f(a,b): = Beim Ableiten von f(a,b) nach a wird b wie eine konstante Größe behandelt (=partielle Ableitung nach a); entsprechend bei der Ableitung nach b: Umformen der beiden 0-gesetzten Ableitungen liefern die so genannten Normalgleichungen. Auflösen der Normalgleichungen nach den beiden Unbekannten a und b liefert die Formeln für a und b f(a,b) a b Projektion der Funktion f(a,b) auf die Achse a bzw. auf die Achse b, für das Beispiel der 4 Datenpunkte. Reformulieren von b Die so genannte Kovarianz zwischen y und x wird mit Cov(y,x) bzw. s yx abgekürzt folgendermaßen berechnet: 17190364818100 16296376367056 15624345967056 15309357216561 14800342256400 14852353446241 13172316845476 12528302765184 12144338564356 12350361004225 11960338564225 11136302764096 10500306253600 177861440676725762392964Summe = xy= y 2 = x 2 = y= x Füge Spalten für, und hinzu. Auf der Basis dieser Summen können alle relevanten Größen berechnet werden: Zusammenfassung: Schema zur Berechnung von a und b usw. Stelle die Datenpaare als Tabelle dar. 1919013 1948412 1868411 1898110 185809 188798 178747 174726 184665 190654 184653 174642 175601 i Beispiel: Körpergewicht und Körpergröße, n=13 Bilde die Summe für die Spalten mit den Kurzbezeichnungen: x, y, x 2, usw. 524 213 42 1-21 i Beispiel: 4 Datenpunkte. 1025 24 -416 -21 4 1 1 4 Summe 6461012 0 = xy= y 2 = x 2 y x = x/ n Mittelwerte Varianzen Kovarianz = y/ n Var(x) = ( x 2 - n )/(n-1) Var(y) = ( y 2 - n )/(n-1) Cov(x,y) = ( xy- n )/(n-1) Steigung Abschnitt b = Cov(x,y)/Var(x) Det.Koeffi- zient 2. Art F y (OHNE x) ssq(total) = (n-1)Var(y) 2 xy r F y (MIT x) ssq(y.x) = ssq(total) )r1( 2 xy = 40.4166667 / 90.97436 = 0.44426437 = 184 - 0.44426437*(964/13) = 151.056 = 40.41666672/ (90.97436*45.66667) =0.39319. = 548 (1- 0.39319) = 332.532 = 12* 45.66667 = 548 = (6/3) / (10/3) = 6/10 = 3 – (6/10)*(0) =3 = ( 36/9)/ (100/9) =0.36. = 10 (1- 0.36) = 6.4 = 3*(10/3) = 10 = (6-4*0*3)/3 = 6/3=2 = (10-4*(0) 2 )/3 = 10/3 = (46-4*3 2 )/3 = 10/3 = 12/4 = 3 = 0/ 4 = 0 Beispiel: 4 Datenpunkte = (72576-13*(964/13) 2 )/12 = 90.97436 = (440676-13*184 2 )/12 = 45.66667 = (177861-13*(964/13)*184)/12 = 40.4166667 = 2392/13 = 184 = 964/13 = 74.154 Beispiel: Körpergewicht und Körpergröße, n=13

10 Modell der Regressionsanalyse Die Varianz der y-Werte sei =25 Körpergrößen-Beispiel: In der Population gilt vielleicht für eine bestimmte Menge von x-Werten(Gewicht) folgende wahre Bezie- hung für den Mittelwert der Körpergröße: Das Modell beschreibt, wie die Beobachtungspaare als Stichprobe aus einer Gesamtheit entstehen. Es wird hier zuerst das klassische Regressionsmodell betrachtet. Die wahre Regressionsgleichung in der Population gilt für den y-Mittelwert an jeder Stelle x. Die Varianz der Verteilung der y-Werte ist an jeder Stelle x ( ) gleich (Homoskedastizität). Oft wird zudem angenommen: Die y-Werte an jeder Stelle x seien normalverteilt NV( + x, ). Als Stichprobe werden n y-Werte unabhängig voneinander für bestimmte x Werte gezogen. Das sind die in der Stichprobe betrachteten (x i, Y i ) Wertepaare. Als Zufallsvariable wird nur Y betrachtet (x wird als fest gewählt angesehen). Dabei entstehen für jede Stichprobe andere Geraden. Stichprobe Der i. y-Wert in den Stichproben wird zufällig aus der Verteilung an der Stelle x i gezogen, d. h. Y i ist eine Zufallsvariable für die gilt: E(Y i ) = und Var(Y i ) = 2 e Stichprobenvariable Y i als Summe einer systematischen und einer erratisch-zufälligen Komponente : mit: E(e i )=0 und Var(e i ) = i e Störgröße 2 e Schätzung der Parameter des Modells Die Parameter des Modells sind: (Abschnitt, engl. Intercept), (=Steigung) und (=Varianz der Störgröße). 2 e Für die Berechnung von Intercept und Steigung wurde oben die KQ-Lösung gefunden: Formeln für a und b in einer realisierten Stichprobe der Größe n. Die Zufallsvariablen, deren Realisierung a bzw. b sind, heißen bzw.. Es kann gezeigt werden (Theorem von Gauß-Markoff), dass mit den so ermittelten Formeln tatsächlich bzw. geschätzt werden kann und zwar so, dass bzw. erwartungstreue ( ) und effiziente Schätzer sind. Bei bekannter Varianz der Störgröße sind die Schätzer normalverteilt, wenn die Störgrößen normalverteilt sind.(bei Verletzung dieser Voraussetzung hilft eventuell der zentrale Grenzwertsatz). 2 e Meist ist nicht bekannt; muss daher ebenfalls geschätzt werden. Der einzelne Schätzwert des erwartungstreuen Schätzers sei. ˆ 2 e 2 e s 2 e sssq(y.x) = n-2 wird auch als der Freiheitsgrad (df) für die vorliegende Problemlage bezeichnet. 2 wird von n subtrahiert, weil 2 Parameter geschätzt werden müssen, damit jedes bestimmbar ist. Kausale Interpretation der Modellgleichung: So entstehen die Werte (Versuch, die Entstehung der Werte in der Natur nachzuvollziehen). Prädiktive Interpretation. Wahrscheinlichkeits-Verteilung der beiden Schätzer Abschnitt Steigung a b Varianz der Schätzer:,. Stf(a) Stf(b) Im Beispiel: Varianz der Störgröße = 25 = 148, = 0.50. e 0 -2 e - e 2 e e xixi YiYi eiei Zufallsauswahl von y Werten zu den x-Werten Berechnen der Geraden

11 Konfidenzintervalle und Hypothesentests für und Da bei der Regressionsanalyse selten bekannt ist, wird hier nur der Fall mit geschätztem behandelt. 2 e 2 e aus der Student t-Verteilung, df = n-2 )df(t q mit )b(Stf)df(tb q für : )a(Stf)df(ta q für : q-Konfidenzintervalle Tests der Hypothesen: Standardisierte t-Testwerte H 0 ( = 0 ) : )a(Stf/)a()df(t 0 t(df) sind Realisationen der Student t-verteilten Teststatistik T(df) mit df = n-2 H 0 ( = 0 ): )b(Stf/)b()df(t 0 Einige Erweiterungen der Regressionsanalyse Die Erweiterung auf stochastische Regressoren bedeutet, dass auch die x-Variable eine Zufallsvariable sein kann (die x-Variable wird nicht nur bei festgelegten Werten wie im klassischen Modell ausgewählt). Die Modellgleichung bezieht simultan alle wichtigen Prädiktoren mit ein Y = + M Mann + A Alter + G Gewicht + e y = 170.9 + 11.08*Mann + (-0.88)*Alter + 0.268*Gewicht ^ Schätzung: Modellgleichung (Beispiel): geschätzte Varianz der Störgröße= 25.26 e 0 -2 e - e 2 e e Mann KGr. 170.9 11.08 Alter -0.88 0.268 Gewicht -0.05 0.12 0.70 e M A G Beispiel: Als Stichprobe werden die 55 Personen der Studentenuntersuchung verwendet s)1n( x n 1 s)aStf( 2 x 2 e Standardfehler für a: Abschnitt: 1ns s )bStf( x e Standardfehler für b: Steigung: Diese Erweiterung ist für Tests und Konfidenzintervalle sind auch ohne Zusatzannahmen recht unproblematisch; sie können im Sinne bedingter Tests und Konfidenzintervalle interpretiert werden. Bedingung ist die Einschränkung auf die ausgewählten x-Werte. Manche Autoren (z.B. Bortz) fordern überflüssigerweise die Annahme, dass auch das x-Merkmal normalverteilt ist (zusammen mit der Annahme der Normalverteilung der Störgrößen und der Linearität bedeutet das die Annahme der bivariaten Normalverteilung der x und y-Werte). Diese Annahme wird aber üblicherweise bei der Korrelationsanalyse gemacht. Die Erweiterung auf polynomische Regressoren ist ein Spezialfall der multiplen Regression. Zusätzlich zur Variablen kann die quadrierte Variable (=2. Potenz), die 3. Potenz usw. als Regressoren verwendet werden. So kann auch geprüft werden, ob die Linearität zur Erklärung der Beziehung ausreicht (Linearitätstest). Beispiel: Bei den 13 Studenten wird hier zusätzlich zur linearen Funktion eine quadratische Funktion y = + 1 x + 2 x 2 untersucht. x y Die Erweiterung auf mehrere Regressanden (abhängige Variablen, Prädikanden) wird in der statistischen Literatur durchwegs als multivariate Regression (im Gegensatz zu univariat) bezeichnet Zusätzlich auch: Erweiterung auf Systeme von Gleichungen, Modelle mit latenten (=nicht explizit gemessene) und manifesten (=explizit gemessene) Variablen Erweiterung auf mehrere Regressoren (Multiple Regression). In vielen Fragestellungen soll nicht nur ein einziger Prädiktor, sondern zugleich mehrere Prädiktoren berücksichtigt werden. Dabei wird der Prädiktions-Effekt jedes Prädiktors unter Berücksichtigung der andern (unter Konstanthaltung der andern) untersucht. Erweiterung der Modellgleichungen

12 P EARSON -Korrelation zweier quantitativer Merkmale Fragestellung: Positiver oder negativer Zusammenhang zwischen zwei Merkmalen x und y? Wie groß ist der Zusammenhang? P EARSON s Korrelationskoeffizient = Stichprobe: Population: rho (griech. r) Geometrische Interpretation der Kovarianz: Produkte als positiv bzw. negativ gepolte Flächen darstellbar. 524 213 42 1-21 i Beispiel: 4 Punkte. Mittel werte: = 0 = 3 4 4 63 s xy = Falls positive Flächen überwiegen, wird die Flächensumme positiv (sonst 0 bzw. negativ) Darstellung der Kovarianz als arithmetisches Mittel der Produkte (=Flächensumme /(n-1)). -s x sxsx 0 0 -s y sysy -s x sxsx 0 0 -s y sysy -s x sxsx 0 0 -s y sysy -s x sxsx 0 Wegen kann die Fläche in ein Rechteck (mit Grundlinie s x und Höhe s y ) eingeschrieben werden. Korrelationskeffizient = standardisierte Kovarianz = Dieser Koeffizient ist die Wurzel aus dem Determinationskoeffizienten 2. Art (= ) bei der linearen Regression; er untersucht daher nur, ob ein linearer Zusammenhang besteht. Da zwischen 0 und 1 liegt, liegt die Wurzel möglicherweise zwischen -1 und 1:, für die Kovarianz formuliert:. -s x sxsx 0 0 -s y s y -2sy-2sy -3sy-3sy 3sy 3sy 2sy 2sy 0 -s y sysy -s x sxsx 0 2sx2sx

13 Kontur-Darstellung Dichte f(x,y) Beispiel: Bivariate Standard-Normalverteilung ( x =0, x =0, x =1, y =1), xy ist hier =0.60. Bivariate Dichtefunktion =-0.40 = 0 = -0.99 = -0.80 Bivariate Dichtefunktion: Dichtefunktion zweier Merkmale y 155 165 175 185 195 85 45 55 65 75 95 100*54* Dichte f(x, y) x:Gewicht y:Größe Bivariates Histogramm x Streudiagramm Beispiel: Gewicht und Körpergröße für 54 Personen der Studentenuntersuchung (von den 55 Personen fehlt eine Größenangabe). Schon bei nur 54 Personen haben mehrere Personen gleiche x-y-Wertepaare. Klasseneinteilung beider Merkmale führt zu einem bivariaten Histogramm. Anwendung bei der Darstellung von Stichproben: Zusammenfassen vieler Messwertepaare zu Klassen(bivariates Histogramm). Im bivariaten Fall kann die Verteilung, die für alle Punkte (x,y) definiert wird, wiederum als Dichte dargestellt werden: f(x,y). Bei diskreten Verteilungen wird die Dichte f(x,y) als Anteil an der Stelle (x,y) definiert (die Funktionswerte können als Stäbe dargestellt werden. Die Summe aller Stäbe = 1). Bei stetigen Verteilungen werden die Anteile als Rauminhalte definiert. Die Dichte f(x,y) * Grundfläche ergibt den Anteil dieser in der Grundfläche enthaltenen (x,y)-Werte. Der Gesamtrauminhalt des dreidimensionalen Gebildes ist 1. Anwendung bei der theoretischen Beschreibung: Bivariate Dichtefunktionen. mit:. Beispiel: Bivariate Normalverteilung

14 Simulierte Wahrscheinlichkeitsverteilung des z-transformierten Korrelationskoeffizienten : E( ) =. Var( ) 1/6 z( ) = 0.50 Population: Bivariat Normal, hier: standardnormalverteilt r Stichproben (n= 9) 1. 2. 3.......... usw......... Zufallsauswahl z(r) Verteilung des Schätzers, Konfidenzintervalle und Tests Simulierte Wahrscheinlichkeitsverteilung des Korrelationskoeffizienten Verteilung des Korrelationskoeffizienten-Schätzers Population: bivariat normalverteilten mit Populationskorrelation Stichprobe mit n Messwertpaaren (x,y). Falls = 0, ist Student-t verteilt mit df = n-2 Falls 0, ist die Verteilung für schief verteilt (recht komplizierte Verteilung). Der Schätzer ist nicht erwartungstreu; seine Varianz hängt stark von ab. Erst ab sehr großem n (>500) ist seine Verteilung durch die Normalverteilung annäherbar. Korrelation berechnen Verteilung bilden z-Transformation bilden R. F ISHER hat eine Transformation des Korrelations- koeffizienten gefunden, die schon bei relativ kleinen Stichproben normalverteilt wird. F ISHER s z-Transformation: r Fishers z-Transformation z(r) Schon bei relativ kleinem n ist der Schätzer normalverteilt: Der Erwartungswert und die Varianz des z-transformierten Schätzers sind: Etwas simplifiziert (für größeres n): Der approximative Standardfehler von z(r) ist daher: Konfidenzintervall (approximativ): für z( ) Körpergrößen-Beispiel: n=13 (eigentlich zu kleines n für die Approximation). Stf(r) 0.316. 0.73645734 1.96* 0.316 ( 0.12, 1.36) 95% Konfidenzintervall für z( ): z(0.627) 1.96 für 1 z Fortsetzung: 95% Konfidenzintervall für : Das eben berechnete Konfidenzintervall ist aus dem z-Bereich rückzutransformieren in den r-Bereich. 0.876 1.36 0.119 0.12. Das Konfidenzintervall ist somit ( 0.119, 0.876) Rücktransformation (Inverse Funktion zu z(r)) r 1 z Test der Hypothese: = 0 (approximativ): Die standardisierte Teststatistik ist Standardnormal verteilt: NV(0,1). Beispiel (Fortsetzung): Die Menge der akzeptierbaren Hypothesen bei zweiseitigem Testen bei 5% sind: ( 0.119, 0.876 ) Sei H 0 : = 0 (Korrelation=0). 0 0. z(0) = 0. r= 0.627. z(0.627)= 0.73645734. Nach Formel (z(0.627)- z(0)) / Stf(r ) 0.73645734 / 0.316 2.3272. Test der Hypothese: = 0 (exakt) Unter H 0 : = 0, ist T= Student-t verteilt mit df = n-2 Beispiel (Fortsetzung): Da n hier klein ist, sollte für den Test der Hypothese = 0 der exakte Test angewandt werden. = 2.67. Anzahl Freiheitsgrade = 11. 0.119. 0.876. ) 0.12 ( 1 z ) 1.36 ( 1 z

15 Häufigkeitskreuztabelle: in den Zellen stehen die Häufigkeiten: n ij (Anzahl der UEen, die im x-Merkmal die i. und in y die j. Ausprägung haben). Die Kreuztabelle kreuzt x und y: Die Zelle ij betrifft UEen, die in x den Wert x i und in y den Wert x j haben: x=x i y=y j, bzw. (x=x i, y=y j ). Alle Häufig- keiten durch n dividieren Alle Anteile mit n multiplizieren Das x-Merkmal hat I Ausprägungen: x 1, x 2,...,x I, das y-Merkmal hat J Ausprägungen: y 1, y 2,..., y J. n n J.n j.n 1 n I n IJ.n Ij.n I1 xIxI I........ n i n iJ.n ij.n i1 xixi i........ n 1 n 1J.n 1j.n 11 x1x1 1.yJyJ.yjyj.y1y1 Jj1 y-Merkmal x Mögliche Aussage: Wer jüngere Geschwister hat, bindet sich früher. Mögliche Aussage: Wer jüngere Geschwister hat, präferiert Gleichheit. Mögliche Aussage: Höhere Ausbildung des Vaters senkt die Angst vor Prüfungen. Aussage: Die Ehemänner sind besser als bzw. gleich ausgebildet wie ihre Frauen. Beispiel: Ausbildung des Vaters und der Mutter. Vater 15258 5230 Abi u.m. 5023 höhere S. 5005 Volks-S. Abi u. m. höhere Schule Volks- schule Mutter Ausbildung Beispiel: Vaterausbildung und Angst vor Prüfungen 1037 321 Abi u.m. 312 höhere S. 404 Volks-S. neinja Angst vor Prüfungen Beispiele: Jüngere Geschwister haben und Familienstand. 16511 743 ja 918 nein nicht ledig ledig Familienstand und Gleichheit vs. Freiheit 14455 6204 ja 8251 nein F vor G egal G vor F Kreuztabellen, Anteile Der über Summieren eliminierte Index wird durch einen Punkt ersetzt. Die Randhäufigkeiten für x i sind jeweils die Summen der Häufigkeiten über die y-Ausprägungen. J 1j iji n:n 0.40 0.30 1 0 2/3 1/3 2/3 0.40 0 0.20 0.10 0.20 Angst Ausbildung Darstellung in Baumdiagramm-Form 1 p J p j p 1 p I p IJ.p Ij.p I1 xIxI...... p i p iJ.p ij.p i1 xixi...... p 1 p 1J.p 1j.p 11 x1x1 yJyJ.yjyj.y1y1 Gemeinsame Anteile und Randanteile iij pp j i p i ij p p j i p j p p j i p jij pp j i p 10.300.70 0.300.200.10Abi+ 0.300.100.20hS. 0.400 VS. neinja Gem. Anteile für Ausbildung und Angst 4/7 2/7 1/7 0 1/3 2/3 0.40 0 0.20 0.10 0.20 Angst Ausbildung 0.70 0.30 Randanteile 0.30 0.40 Abi hS VS 0.30 0.70 nein ja 0.30 0.70 nein ja 0.30 0.40 Abi hS VS Randanteile * * * * Schreibweisen: = p ij = p( x=x i, y=y j ) Anteil der Fälle mit der i. x-Ausprägung und der j. y-Ausprägung bei allen. j y i x p = p( x=x i | y= y j ) Anteil der Fälle mit i. x-Ausprägung bei jenen, die die j. y-Ausprägung haben. j i p y x j i p = 0.300.70 2/31/7Abi+ 1/32/7hS. 04/7VS. neinja Angstbedingte Ausbildungs-Anteile y-Bedingte Anteile für x p J p j p 1.. xIxI........xixi........x1x1 yJyJ.yjyj.y1y1 j 1 p J 1 p 11 p j I p J I p 1I p j i p J i p 1i p p I.. xIxI...... p i. xixi...... p 1.. x1x1 yJyJ.yjyj.y1y1 x-Bedingte Anteile für y 1 1 p j1 p J 1 p 1 I p jI p J I p 1 i p ji p J i p 0.300.670.33Abi+ 0.300.330.67hS. 0.4001.00VS. neinja Ausbildungsbedingte Angstanteile Bedingte Anteile (Bedingung x= x i bzw. y= y j )

16 Beispiel: Ausbildung des Vaters und Angst. P(X=x I ) P(X=x 1 ) P(Y=y 1 | X=x 1 ) P(Y=y J | X=x 1 ) P(Y=y J | X=x I ) P(Y=y 1 | X=x I ) bedingte Wten * * 1.00 0.33 0.67 0.33 0.67 0.40 0.20 0.10 0.20 0.10 Rand- anteile 0.30 0.40 0.700.30 0.670.33Abi+ 0.300.330.67hS. 0.4001.00VS. neinja Ausbildungs- bedingte Angstanteile Rand- anteil Strukturiertes Staffeldiagramm (in horizontaler Form) Im strukturierten Staffeldiagramm (auch Mosaic-Plot genannt) können die Randanteile, die bedingten Anteile und gemeinsamen Anteile (als Fläche) dargestellt werden. Im horizontalen Mosaic-Plot: Für jede x-Ausprägung eine Schicht in Höhe der Randanteile. In jeder Schicht Staffeln für jede y-Ausprägung in der Länge der bedingten Anteile eintragen. Die entstehenden Flächen sind die gemeinsamen Anteile.. Populationsbeschreibung Die Anteile in der Population sind die Parameter:. (statt der ps für die Stichprobe nun s ). Wahrscheinlichkeitsaussagen für das zufällige Ziehen einer U-Einheit Alle möglichen Ergebnisse können durch die beiden Zufallsvariablen X und Y beschrieben werden. Mit Hilfe der beiden Zufallsvariablen können diverse Wahrscheinlichkeitsaussagen formuliert werden können., etwa: P(X=x i, Y=y j ) P(X=x i ) P( Y=y j ) Wt, dass zufällig eine U-Einheit gezogen wird, für die gilt: (x = x i ) ( y = y j ) x = x i y = y j i j i j = 4 Erbsensorten (rund-gelb (=11), rund-grün(=12), eckig-gelb(=21), eckig-grün(=22)) im Verhältnis: 9:3:3:1 Beispiel: Mendel-Population 11 12 22 21 P(X=x 1, Y=y 1 ) P(X=x 1, Y=y J ) P(X=x 1, Y=y 1 ) P(X=x 1, Y=y J ) gemeinsame Wten P(Y=y J ) P(Y=y 1 ) P(X=x I ) P(X=x 1 ) Randwahrscheinlichkeiten Mit Hilfe der Populationsparameter formuliert: i j = i * j (Anteilsunabhängigkeit der Merkmale x und y in der Population) könnten für die Stichprobe folgende gemeinsamen Anteile erwartet werden: e i j = p i * p j und e i j p i j. In der Stichprobe: Falls in der Population Unabhängigkeit gilt, sollten in der Stichprobe alle bedingten Anteile etwa gleich groß wie die Randanteile sein * p j. j i p = ? = = = Graphische Darstellung 0.40 0.30 1 0 2/3 1/3 2/3 0.40 0 0.20 0.10 0.20 Angst Ausbildung Baumdiagramm 0.30 0.70 nein ja 0.30 0.40 Abi hS VS Rand- anteile P(X=r, Y=ge) P(X=r, Y=gr) P(X=e i, Y=ge) P(X=e, Y=gr) Wahrscheinlichkeiten für die Zufallsvariablen Form: X und Farbe: Y Zufallsauswahl Verteilung bilden Definition: (Stochastische) Unabhängigkeit der Zufallsvariablen X und Y: X und Y sind unabhängig, genau dann wenn P(Y = y j | X=x i ) P(Y= y j ) für alle y j und x i d.h. die bedingten Wten sind gleich den entsprechenden Randwahrscheinlichkeiten = P(Y=y 1 ) P(Y=y J ) P(Y=y 1 ) P(Y=y J ) * * 0.30 0.40 0.700.30 Rand- anteile 0.28 0.21 0.09 0.12 0.70 ? = d.h.: Die gemeinsamen Wten sind gleich dem Produkt von Randwahrscheinlichkeiten Unter Verwendung der Multiplikationseigenschaft der kann die Unabhängigkeit von X und Y auch so definiert werden: P(X= x i,Y= y j ) = P(X= x i )*P(Y= y j )

17 Rand- anteile 0.40 0.20 0.10 0.30 0.40 0.700.30 1 0.70 0.300.200.10Abi+ 0.30.100.20hS. 0.400 VS. neinja Reale gem. Anteile für Ausbildung und Angst 0.28 0.21 0.09 0.12 0.700.30 0.40 10.300.70 0.300.090.21Abi+ 0.30.090.21hS. 0.400.120.28VS. neinja Unter H 0 erwartete gem. Anteile für Ausbildung und Angst Rand- anteile Chi**2 Test auf Unabhängigkeit Nullhypothese : Die beiden Merkmale sind unabhängig 1 Konstruktion des Tests = ij j i für alle Zellen ij p i Teststatistik. 2 Die Randanteile der Population werden in der Stichprobe geschätzt durch und. j p p i Für jede Zelle kann der gemeinsame Anteil berechnet werden, der unter Geltung von H 0 zu erwarten wäre: e ij = (= Produkt der Randanteile) j p Der Unterschied zwischen den realen gemeinsamen Anteilen und den unter H 0 erwarteten gemeinsamen Anteilen wird nun berechnet: P EARSON Chi**2 e e p e p p Likelihood- Ratio Chi**2 Wird manchmal auch G 2 genannt. Bei Approximation für P 2 sollte gelten: n e ij 5, durchschnittliche Anzahl pro Zelle 1. Testverteilung: unter H 0 sind P 2 bzw. LR 2 approximativ (n groß) 2 (df)- verteilt mit df = (I 1)(J 1). 3 Bei Approximation für G 2 sollte gelten: durchschnittliche Anzahl pro Zelle 5. Kritischen Bereich festlegen (hier wird nur P 2 -betrachtet, gilt aber auch für G 2 ): Bedeutung der H 0 in Teststatistikwerte übersetzen: Ist H 0 exakt richtig, müsste P 2 =0 sein. 4 a Extrempositionen der Teststatistik bestimmen, bei denen H 0 auf jeden Fall abgelehnt werden soll (zugunsten von H a ): bei sehr großem P 2 -Wert. b Bei 2 Freiheitsgraden ist der kritische Bereich 5.99 Kritische Bereich: Von den Extrempositionen her nun untersuchen, wie weit sich der Ablehnungsbereich nach innen erstreckt (bis Fläche in der Testverteilung = (= 0.05) ist. c EP Kritischer Bereich = 0.05 Durchführung des Tests 1.Stichprobe ziehen Ausbildung und Angst-Beispiel, n ist hier eigentlich zu klein für. 2.Teststatistik für die Stichprobe berechnen LR 2 = 4.579. 3.Entscheidung. Wenn Teststatistik im kritischen Bereich liegt, wird H 0 abgelehnt. Nullhypothese wird nicht abgelehnt, da der Testwert nicht im KB liegt. LR 2 = -2*10(-0.2289558) = 4.579 P 2 = 10*0.36507 = 3.6507 (3 Zeilen, 2 Spalten), df = (3 1)(2 1) = 2 Einfachere Berechnung von P 2 P 2 = e p Generell: 1 p 2 p 1 p 2 p 22 p 21 x2x2 p 1 p 12 p 11 x1x1 y2y2 y1y1 Vierfelder-Tabelle Spezialfall: Vierfelder- Tabelle P 2 = p p pp pp p p Zähler: Quadrat der Kreuzprodukt-Differenzen. Nenner: Produkt aller Randanteile H0H0

18 Normierte Maßzahlen, z.B. zwischen 0 (= kein Zusammenhang) und 1 (=starker Zusammenhang) liegende Maße. Bei qualitativen Merkmalen kann i. a. keine Richtung des Zusammenhangs definiert werden (Ausnahme: Dichotome Merkmale). Gesucht: P 2 so zu normieren, dass die normierten Werte möglichst zwischen 0 und 1 liegen. Zwei Lösungsansätze: PRE-Maß-Konzepte für qualitative Merkmale. e p Direkt auf Grund der Anteile = P 2 = e p Generell: Wegen: Phi-Quadrat (= ) Die kleinere der beiden: Spalten- bzw. Zeilenanzahl K C RAMER s v 2 : K T SCHUPROW s t 2 Korrigiertes P EARSON s c 2 K K 0.300.70 0.200.10Abi+ 0.100.20hS. 00.40VS. neinja Gem. Anteile für Ausbildung und Angst R y (MIT x): Modalwerte (pro x-Ausprägung) werden prädiziert: Wenn VS, dann Angst ja; hS ja; Abi+ nein. R y (OHNE x): Modalregel: Immer (OHNE x zu berücksichtigen) y = ja. (Denn: Modalwert in der Randverteilung = ja). Der Prädiktionsfehler kann durch die Berücksichtigung von x um 33% reduziert werden. = (0.30 – 0.20) / 0.30 0.33. P EARSON s c 2 (Kontingenzkoeffizient) K K PRE-Maße für qualitative Merkmale Die Regeln prädizieren die Modalausprägung; Fehlermaß ist der Anteil (bzw. Anzahl) der Fehlprädiktionen in einem Prädiktionsscenario. G OODMAN s Lambda(= ). Erstellen einer Prädiktionsregel für y, die das x berücksichtigt. Allgemeine PRE-Maß Konstruktionsschritte: R y (MIT x) Speziell für Lambda ( ) y-Modalausprägung für jede x- Ausprägung Summe der gem. Anteile in den Fehlerzellen (das sind die Zellen, die nie prädiziert werden) F y (MIT x) Fehlerzellen sind alle Zellen, die nicht Modalzellen sind. Fehlermaß definieren. F y (MIT x) ist die Summe der gem. Anteile in den Fehlerzellen: = 0 + 0.10 + 0.10 = 0.20 Prädiktionsregel für das y, die x NICHT berücksichtigt. R y (OHNE x) y-Modalausprägung in der y-Randverteilung Fehlermaß definieren. F y (OHNE x) ist die Summe der Randanteile in den Fehlerzellen: 0.30 F y (OHNE x) Summe der Randanteile in den Fehlerzellen (das sind die Zellen, die nicht prädiziert werden).PRE,In %: Prozentuale Fehlerreduktion mit Hilfe von x. - F y (OHNE x) F y (MIT x) = bei dieser Definition der Regel und des Fehlers wird PRE lambda genannt: Normierungen von P 2 Zusammenhangsmaße für qualitative Merkmale y-Randverteilung 1 p 2 p 1 p 2 p 22 p 21 x2x2 p 1 p 12 p 11 x1x1 y2y2 y1y1 Vierfelder -Tabelle Spezialfall: zwei dichotome Merkmale Direkte Berechnung von = p p p p pp p p =1=0 =1 =0 Wenn beide Merkmale zusätzlich dummy codiert werden, gilt zudem: = P EARSON -Korrelationskoeffizient r xy. (falls die Korrelation mit den dummy codierten x bzw. y Variablen berechnet würde).

19 ) 1 i p J i p,...,max(1 : md(y) i Als Fehlermaß für GOODMANs Lambda wurde das Streuungsmaß: Modaldispersion verwendet; PRE: Proportionale Fehler- reduktion mit Hilfe von x: - F y (OHNE x) F y (MIT x) bei dieser Definition der des Fehlers wird PRE lambda genannt: x-bedingte Anteile für y yJyJ.yjyj.y1y1 p I xIxI...... p i. xixi...... p 1.. x1x1 1 1 p j1 p J 1 p 1 I p jI p J I p 1 i p ji p J i p Randanteile für die i. Bedingung Ausbildungs- bedingte Anteile für Angst 0.30 0.670.33 Abi+ 0.30 0.330.67 hS. 0.40 01.00 VS. neinja Ausbildung p J p j p 1 yJyJ. yjyj. y1y1 y Randanteile Angst Randanteile neinja 0.30 0.70 J ) p ln( j p j 1j Entropie (in nits) : )y(h i 1 2 3 Abi+ hS. VS. qv(y) i 1 i p J i p )...(1 22 : 4/9 0 qv(y) i 4/9 ji p ji p )ln( J 1 j : h(y) i i 1 2 3 Abi+ hS. VS. 0.6365 0 h(y) i 0.6365 ) p,...,pmax(1.J. 1 Modaldispersion : )y(md 0.30 * 0.40 * p i * F y (OHNE x) = 1 – 0.70 = 0.30 -( -0.361 – 0.25) = 0.611 F y (MIT x) = 0.20 0.2660.382 bei dieser Definition der des Fehlers wird PRE tau genannt: bei dieser Definition der des Fehlers wird PRE PRU genannt: PRU = (0.42 – 0.266) / 0.42 0.357. PRU= (0.611 – 0.382) / 0.611 0.37. i 1 2 3 Abi+ hS. VS. 1/3 0 md(y) i 0.30 * 0.40 * p i * i I 1i (y) qv p i I 1i i h(y) i p Berechnen von F y (MIT x) mit Hilfe der zeilen- bedingten Anteile Dieses Fehlermaß kann durch andere Streuungsmaße für qualitative Merkmale ersetzt werden: durch die Qualitative Varianz bzw. Entropie. Das PRE-Maß zur Qualitative Varianz heißt tau, das PRE-Maß zur Entropie heißt PRU (=proportionale Reduktion der Unsicherheit). PRE-Maße für qualitative Merkmale, Fortsetzung i I 1i )y ( md p i 0.30 * 0.40 * p i * = (0.30 – 0.20) / 0.30 0.33. Qualitative Varianz : )y(qv ) p... p (1 2 J. 2 1. 1 – (0.49+0.09) = 0.42

20 Ende

21 Größen/Farbtest 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 6 12 Punkt 11 Punkt 10 Punkt 9 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 6 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 6 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 6 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 6 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 6 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 6 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 6 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 6 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 6 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 6 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 6 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 6 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 6 Punkt 12 Punkt 11 Punkt 10 Punkt 9 Punkt 8 Punkt 7 Punkt 6 Punkt


Herunterladen ppt "Intervall Ordinal Nominal Mindestskalenniveau des x-Merkmals IntervallOrdinalNominal Mindestskalenniveau des y-Merkmals Pearson-Korrelation, Regressionsanalyse."

Ähnliche Präsentationen


Google-Anzeigen