Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.

Slides:

Advertisements

Ähnliche Präsentationen

T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.

Advertisements

Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.

Fachreferat in Mathematik

Gliederung Vertrauensintervalle Arten von Hypothesen

Forschungsstatistik II

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.

Heute Prüfung der Produkt-Moment Korrelation

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.

Der Binomialtest Man habe einen wahren Anteil P.

Kapitel 1 Das Schubfachprinzip

Mehrfachregressionen

Hypothesen testen: Grundidee

Nachholung der Vorlesung vom Freitag

Konfidenzintervalle Intervallschätzung

Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.

Chi-Quadrat-Test auf Unabhängigkeit I

Die Student- oder t-Verteilung

Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,

Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.

Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.

Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!

Chi-Quadrat-Test auf Unabhängigkeit I Hypothese Ablehnungsbereich.

Test auf Normalverteilung

Chi-Quadrat-Tests. Satz von Karl Pearson I X: Stichprobenvariable, die r > 2 verschieden Werte annehmen kann: Die Verteilung von X ist durch einen Wahrscheinlichkeitsvektor.

Eigenschaften der OLS-Schätzer

Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014

Chi Quadrat Test Tamara Katschnig.

Überblick Statistik Deskriptive Statistik=beschreibende Statistik

SPSS für Windows Auswertung von Marktforschungsdaten mit SPSS für Windows WINDER Thomas Porzellangasse 32, 1090 Wien.

Hartmut Klauck Universität Frankfurt SS

Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,

Wiederholung BSP 2.1.

STATISIK LV Nr.: 0028 SS Mai 2005.

Kapitel 10 Multikollinearität

Konfidenzintervall und Testen für den Mittelwert und Anteile

Mehr zum Testen von Hypothesen

Empirische Sozialforschung am Beispiel der Limburger Nordstadt

Methoden der Sozialwissenschaften

Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung

STATISIK LV Nr.: 1375 SS März 2005.

Forschungsstrategien Johannes Gutenberg Universität Mainz

1. 2 Das Grundproblem der Beurteilenden Statistik ● Wir haben uns bisher mit Problemen der Wahrscheinlichkeitsrechnung beschäftigt: – Die Wahrscheinlichkeit.

Exkurs: Chi-quadrat und Modellgüte 1. ist ein Distanzmaß, welches die Distanz zwischen Modellvorhersage und Daten misst.  Je kleiner desto besser ist.

Übersetzung: / Tradotto da:

Identifying the effects of gendered language on economic behavior

Die ersten Schritte bei der Entdeckung der Statistik

DIA – Ausgewählte Trends Dezember 2016

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

als Maß für die Machbarkeit einer neuen Methode

Analysen univariater Stichproben

Signifikanz – was ist das überhaupt?

Ökonometrie und Statistik Logistische Regression

Ökonometrie und Statistik Wiederholung

Hans-Jürgen Brummer Leiter DSiE

Ökonometrie und Statistik Mehrfachregression

Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.

Forschungsstrategien Johannes Gutenberg Universität Mainz

Ökonometrie und Statistik Wiederholung

Ökonometrie und Statistik Prüfungsthemen

Ökonometrie und Statistik Wiederholung

Konfidenzintervalle und Tests auf Normalverteilung

ANOVA für unabhängige Daten.

Ökonometrie und Statistik Logistische Regression

Hans-Jürgen Brummer Leiter DSiE

Ökonometrie und Statistik Varianzanalyse Beispiele

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.

Ökonometrie und Statistik Wiederholung

Präsentation transkript:

Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann

Übersicht I Einleitung II Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat, Unabhängigkeitstest der beiden Variablen V Weitere Beispiele

Motivation Anpassungstest , c² - Test (Chi Quadrat Test) Typische Fragestellungen, die damit behandelt werden können Meinungsforschung: Zu einem aktuellen politischen, wirtschaftlichen oder sozialen Themen wird einer repräsentative Stichprobe eine Frage gestellt (Sonntagsfrage). Man möchte klären, ob auch in der Grundgesamtheit ein solches Antwortverhalten vorherrscht, z.B. Was meint eine Mehrheit der Bevölkerung (Mehrheitsverhalten) Marketing: Zur Überprüfung von Hypothesen über Marktanteile (z.B. 6 Mobilfunkanbieter), wie: haben die 6 Anbieter wirklich unterschiedliche Markanteile? Ist A1 der Marktführer? Hat Orange weniger als 25% Marktanteil? Werbung und Marktforschung: Kampagnenbewertung: Wie wird / wurde (Prätest / Posttest) eine bestimmte Werbekampagne bewertet? Wie viel % finden sie „sehr gut“, „gut“ bzw. „weniger gut“? Wie wird die Kampagne von unterschiedlichen Kundengruppen bewertet (Männer – Frauen; Jung – Alt; A Kunden – B Kunden – C Kunden)? Fraud Detection: Benford Analyse zur Analyse der Verteilung der ersten Ziffer von einer Menge von Buchungszahlen

Anpassungstest , c² - Test (Chi Quadrat Test) Test für den Parameter Anteilswerte p1, p2 bis pm von m verschiedenen Ausprägungen. Hypothesen H0: P(Ausprägung 1 tritt ein) = p1 P(Ausprägung 2 tritt ein) = p2 P(Ausprägung m tritt ein) = pm H1: Mindestens eine Ausprägung hat eine andere Wahrscheinlichkeit. Teststatistik Beobachtete absolute Häufigkeiten hi Erwartete absolute Häufigkeiten ei =n*pi n ist der Stichprobenumfang. Entscheidung Q(c²)(.) ist die Quantile der Chi-Quadrat Verteilung

Anpassungstest , c² - Test (Chi Quadrat Test) Durchführung Die Durchführung eines Anpassungstest besteht aus zwei wesentlichen Schritten Übersetzung der sachlichen Null – Hypothese in konkrete Werte für die Wahrscheinlichkeit des Auftretens jeder Ausprägung P(Ausprägung i tritt ein) = pi a) Bestimmung der gewünschten Quantile. Dazu muss man vor allem die Freiheitsgrade des Problems wissen und natürlich auch a festlegen. b) Berechnung der Testsstatistik c) Testentscheid

Übersicht I Einleitung II Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat, Unabhängigkeitstest der beiden Variablen V Weitere Beispiele

Beispiel: Meinungsforschung 500 Personen sind befragt worden. Die meisten Befragten finden, dass die Koalition genauso oder schlechter als erwartet arbeitet. Das gilt für die Stichprobe, aber… Frage 1 Neigen die meisten Österreicher wirklich zu diesen beiden Antworten? Oder unterscheidet sich dieses Antwort-verhalten nur zufällig von eine Gleichverteilung? Frage 2 Ist die Antwort „… genau so wie erwartet“ auch unter allen Österreichern die Meistgewählte?

Beispiel: Meinungsforschung Frage 1: Bestimme pi für H0 Unterscheiden sich die Häufigkeiten pro möglicher Antwort nur zufällig, so würde je ein Viertel der Österreicher hinter einer der vier Antworten stehen. Die Wahrscheinlichkeit eine der vier Antworten zu bekommen ist für alle vier gleich groß, also: pi = ¼ = 0.25 = 25% Bestimme beobachtete und erwartete absolute Häufigkeiten für N=500 Bestimme standardisierte Differenzen Teststatistik und Chi² Wert T=20+20+16,2+24,2=80,4 Q3(c²)(0,95) = 7.81 Beobachtete Häufigkeit Erwartete Häufigkeit 15%*500 = 75 25%*500 = 125 34%*500 = 170 36%*500 = 180 (75-125)²/125 = 20 (170-125)²/125 = 16,2 (180-125)²/125 = 24,2 Null-Hypothese wird verworfen!

Übersicht I Einleitung II Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat, Unabhängigkeitstest der beiden Variablen V Weitere Beispiele

Beispiel: Meinungsforschung Frage 2: Bestimme pi für H0 „…genau so wie erwartet“ wird nur zufällig öfter genannt als „…schlechter als erwartet“, also z.B. p1 = p2 = 0.15 und p3 = p4 = 0.35 Bestimme beobachtete und erwartete absolute Häufigkeiten für N=500 Berechne in EXCEL EXCEL Funktion CHITEST(Beob_Meßwerte;Erwart_Werte) liefert p-Wert der passenden c²-Verteilung p-Werte der Chi² Verteilung p-Wert = 0,96269 Beobachtete Häufigkeit Erwartete Häufigkeit 15%*500 = 75 34%*500 = 170 35%*500 = 175 36%*500 = 180 Null-Hypothese wird nicht verworfen!

Beispiel: Marktanteile Wirtschaft: In einer Studie zum Thema Preissteigerungen im Lebensmittel-sektor werden 100 Personen unter anderem gefragt, bei welchem Händler sie hauptsächlich einkaufen. Der Zeitung entnehmen wir die Marktanteile der Lebensmittelhändler. Wenn Sie die Antworten mit den Marktanteilen vergleichen: ist die Stichprobe der Studie repräsentativ für Österreich? Die Zahlen rechts entstammen der Befragung. 7% 1% 8% 0% 17% 29% 12% 26%

Beispiel: Marktanteile Bestimme pi für H0 Das ist in diesem Fall einfach. Die erwartete relative Häufigkeit eines Lebensmittelhändlers entnehmen wir dem Zeitungsbericht. z.B.: p(Rewe Group) = 0,297 Bestimme beobachtete und erwartete absolute Häufigkeiten für N=100 Da N=100, entsprechen die Prozentzahlen den absoluten Häufigkeiten: linke Spalte erwartete Häufigkeiten rechte Spalte beobachtete Häufigkeiten Bestimme standardisierte Differenzen oder benutze EXCEL. Teststatistik und Chi² Wert T=17,3 Q7(c²)(0,95) = 14.07 Q7(c²)(0,99) = 18.48 p-Werte der Chi² Verteilung p-Wert = 0,0152 7% 1% 8% 0% 17% 29% 12% 26% Verwerfen der Null-Hypothese hängt vom gewählten a ab!

Übersicht I Einleitung II Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat, Unabhängigkeitstest der beiden Variablen V Weitere Beispiele

Beispiel: Sozial- und Gesundheitsfragen Die Daten kann man auch als Kreuztabelle darstellen Raucher Nicht - Raucher Frauen 58 142 200 Männer 61 89 150 119 231 Stichprobengröße (Frauen) 200 Stichprobengröße (Männer) 150 Raucheranteil (Frauen) 29% Raucheranteil (Männer) 41% Was tun, wenn man nur die Randsummen kennen würde? Raucher Nicht-Raucher Frauen 200 Männer 150 119 231 350 Raucher Nicht-Raucher Frauen ? 200 Männer 150 119 231 Bei einem geschätzten Raucheranteil von 34% sollte die Anzahl rauchender Frauen bei 200 Frauen in der Stichprobe 68 sein.

Beispiel: Sozial- und Gesundheitsfragen Null-Hypothese: Erwartete Häufigkeiten mittels Randsummen Vergleichswerte: Beobachtete absolute Häufigkeiten Raucher Nicht-Raucher Frauen 68 132 200 Männer 51 99 150 119 231 Raucher Nicht - Raucher Frauen 58 142 200 Männer 61 89 150 119 231 Standardisierte Differenzen (Residuen) Teststatistik (68-58)²/68+(132-142)²/132+ (51-61)²/51+ (99-89)²/99= 1.47+0.76+1.96+1.01= 5.2 Raucher Nicht - Raucher Frauen (68-58)²/68 (132-142)²/132 200 Männer (51-61)²/51 (99-89)²/99 150 119 231 Null-Hypothese wird verworfen!

Beispiel: Meinungsforschung Es wurden 2 Mal 500 Personen befragt, die erste Welle um den 12. April, die zweite Welle um den 2. Mai. (keine Person wurde beide Male befragt.) Hat sich die Bewertung des neuen ORF wirklich signifikant verändert, also für alle Österreicher und nicht nur bei die Befragten? Hängt also Meinungslage vom Zeitpunkt ab, oder sind Zeitpunkt der Befragung und Meinungslage voneinander unabhängig? Hat sie sich verbessert, verschlechtert oder was?

Beispiel: Meinungsforschung Beobachtete relative Häufigkeiten Berechne beobachtete absolute Häufigkeiten bei 2x N=500 Schätzung unter der Annahme, dass beide Stichproben aus einer gemeinsamen Grundgesamtheit kommen. Auf Basis der Null-Hypothese erwartete absolute Häufigkeiten. Residuen Vergleich mit c²-Verteilung Freiheitsgrade Vergleich Quantile mit Teststatistik gefällt gut gefällt weniger k.A. 1. Welle 40% 25% 35% 2. Welle 49% 38% 14% gefällt gut gefällt weniger k.A. gesamt 1. Welle 200 125 175 500 2. Welle 242,5 187,5 70 442,5 312,5 245 1000 0,4*500 = 200 Geschätzte gemeinsame relative Häufigkeiten 44,3% 31,3% 24,5% 100,0% 44,3% = 442,5/1000 gefällt gut gefällt weniger k.A. gesamt 1. Welle 221,25 156,25 122,5 500 2. Welle 442,5 312,5 245 1000 221,25 = 0,443*500 gefällt gut gefällt weniger k.A. gesamt 1. Welle 2,04 6,25 22,5 2. Welle 61,58 (Anzahl Zeilen-1)*(Anzahl Spalten – 1) = (2-1)*(3-1) = 2 Q2(c²)(0,95) = 5.99 T = 61,58

Beispiel: Meinungsforschung Der Vergleich macht sicher! Offene Frage Was genau hat sich verändert? Der c² Test beantwortet diese Frage nicht! Ersichtlich ist, deutlich mehr Menschen haben sich nach einem Monat eine Meinung gebildet. Im Sample haben die Kritiker stärker zugenommen als die Zufriedenen Ob das auch in der Grund-gesamtheit so ist, kann man nicht sagen. Die Null-Hypothese wird verworfen! Wir akzeptieren die Alternativhypothese: Das Meinungsprofil hat sich verändert. +13% -21% +9%