Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Kristian Reuter Geändert vor über 5 Jahren
1
Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test)
Dr. Bertram Wassermann
2
Übersicht I Einleitung II
Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat, Unabhängigkeitstest der beiden Variablen V Weitere Beispiele
3
Motivation Anpassungstest , c² - Test (Chi Quadrat Test)
Typische Fragestellungen, die damit behandelt werden können Meinungsforschung: Zu einem aktuellen politischen, wirtschaftlichen oder sozialen Themen wird einer repräsentative Stichprobe eine Frage gestellt (Sonntagsfrage). Man möchte klären, ob auch in der Grundgesamtheit ein solches Antwortverhalten vorherrscht, z.B. Was meint eine Mehrheit der Bevölkerung (Mehrheitsverhalten) Marketing: Zur Überprüfung von Hypothesen über Marktanteile (z.B. 6 Mobilfunkanbieter), wie: haben die 6 Anbieter wirklich unterschiedliche Markanteile? Ist A1 der Marktführer? Hat Orange weniger als 25% Marktanteil? Werbung und Marktforschung: Kampagnenbewertung: Wie wird / wurde (Prätest / Posttest) eine bestimmte Werbekampagne bewertet? Wie viel % finden sie „sehr gut“, „gut“ bzw. „weniger gut“? Wie wird die Kampagne von unterschiedlichen Kundengruppen bewertet (Männer – Frauen; Jung – Alt; A Kunden – B Kunden – C Kunden)? Fraud Detection: Benford Analyse zur Analyse der Verteilung der ersten Ziffer von einer Menge von Buchungszahlen
4
Anpassungstest , c² - Test (Chi Quadrat Test)
Test für den Parameter Anteilswerte p1, p2 bis pm von m verschiedenen Ausprägungen. Hypothesen H0: P(Ausprägung 1 tritt ein) = p1 P(Ausprägung 2 tritt ein) = p2 P(Ausprägung m tritt ein) = pm H1: Mindestens eine Ausprägung hat eine andere Wahrscheinlichkeit. Teststatistik Beobachtete absolute Häufigkeiten hi Erwartete absolute Häufigkeiten ei =n*pi n ist der Stichprobenumfang. Entscheidung Q(c²)(.) ist die Quantile der Chi-Quadrat Verteilung
5
Anpassungstest , c² - Test (Chi Quadrat Test)
Durchführung Die Durchführung eines Anpassungstest besteht aus zwei wesentlichen Schritten Übersetzung der sachlichen Null – Hypothese in konkrete Werte für die Wahrscheinlichkeit des Auftretens jeder Ausprägung P(Ausprägung i tritt ein) = pi a) Bestimmung der gewünschten Quantile. Dazu muss man vor allem die Freiheitsgrade des Problems wissen und natürlich auch a festlegen. b) Berechnung der Testsstatistik c) Testentscheid
6
Übersicht I Einleitung II
Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat, Unabhängigkeitstest der beiden Variablen V Weitere Beispiele
7
Beispiel: Meinungsforschung
500 Personen sind befragt worden. Die meisten Befragten finden, dass die Koalition genauso oder schlechter als erwartet arbeitet. Das gilt für die Stichprobe, aber… Frage 1 Neigen die meisten Österreicher wirklich zu diesen beiden Antworten? Oder unterscheidet sich dieses Antwort-verhalten nur zufällig von eine Gleichverteilung? Frage 2 Ist die Antwort „… genau so wie erwartet“ auch unter allen Österreichern die Meistgewählte?
8
Beispiel: Meinungsforschung
Frage 1: Bestimme pi für H0 Unterscheiden sich die Häufigkeiten pro möglicher Antwort nur zufällig, so würde je ein Viertel der Österreicher hinter einer der vier Antworten stehen. Die Wahrscheinlichkeit eine der vier Antworten zu bekommen ist für alle vier gleich groß, also: pi = ¼ = 0.25 = 25% Bestimme beobachtete und erwartete absolute Häufigkeiten für N=500 Bestimme standardisierte Differenzen Teststatistik und Chi² Wert T= ,2+24,2=80, Q3(c²)(0,95) = 7.81 Beobachtete Häufigkeit Erwartete Häufigkeit 15%*500 = 75 25%*500 = 125 34%*500 = 170 36%*500 = 180 (75-125)²/125 = 20 ( )²/125 = 16,2 ( )²/125 = 24,2 Null-Hypothese wird verworfen!
9
Übersicht I Einleitung II
Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat, Unabhängigkeitstest der beiden Variablen V Weitere Beispiele
10
Beispiel: Meinungsforschung
Frage 2: Bestimme pi für H0 „…genau so wie erwartet“ wird nur zufällig öfter genannt als „…schlechter als erwartet“, also z.B. p1 = p2 = 0.15 und p3 = p4 = 0.35 Bestimme beobachtete und erwartete absolute Häufigkeiten für N=500 Berechne in EXCEL EXCEL Funktion CHITEST(Beob_Meßwerte;Erwart_Werte) liefert p-Wert der passenden c²-Verteilung p-Werte der Chi² Verteilung p-Wert = 0,96269 Beobachtete Häufigkeit Erwartete Häufigkeit 15%*500 = 75 34%*500 = 170 35%*500 = 175 36%*500 = 180 Null-Hypothese wird nicht verworfen!
11
Beispiel: Marktanteile
Wirtschaft: In einer Studie zum Thema Preissteigerungen im Lebensmittel-sektor werden 100 Personen unter anderem gefragt, bei welchem Händler sie hauptsächlich einkaufen. Der Zeitung entnehmen wir die Marktanteile der Lebensmittelhändler. Wenn Sie die Antworten mit den Marktanteilen vergleichen: ist die Stichprobe der Studie repräsentativ für Österreich? Die Zahlen rechts entstammen der Befragung. 7% 1% 8% 0% 17% 29% 12% 26%
12
Beispiel: Marktanteile
Bestimme pi für H0 Das ist in diesem Fall einfach. Die erwartete relative Häufigkeit eines Lebensmittelhändlers entnehmen wir dem Zeitungsbericht. z.B.: p(Rewe Group) = 0,297 Bestimme beobachtete und erwartete absolute Häufigkeiten für N=100 Da N=100, entsprechen die Prozentzahlen den absoluten Häufigkeiten: linke Spalte erwartete Häufigkeiten rechte Spalte beobachtete Häufigkeiten Bestimme standardisierte Differenzen oder benutze EXCEL. Teststatistik und Chi² Wert T=17, Q7(c²)(0,95) = 14.07 Q7(c²)(0,99) = 18.48 p-Werte der Chi² Verteilung p-Wert = 0,0152 7% 1% 8% 0% 17% 29% 12% 26% Verwerfen der Null-Hypothese hängt vom gewählten a ab!
13
Übersicht I Einleitung II
Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat, Unabhängigkeitstest der beiden Variablen V Weitere Beispiele
14
Beispiel: Sozial- und Gesundheitsfragen
Die Daten kann man auch als Kreuztabelle darstellen Raucher Nicht - Raucher Frauen 58 142 200 Männer 61 89 150 119 231 Stichprobengröße (Frauen) 200 Stichprobengröße (Männer) 150 Raucheranteil (Frauen) 29% Raucheranteil (Männer) 41% Was tun, wenn man nur die Randsummen kennen würde? Raucher Nicht-Raucher Frauen 200 Männer 150 119 231 350 Raucher Nicht-Raucher Frauen ? 200 Männer 150 119 231 Bei einem geschätzten Raucheranteil von 34% sollte die Anzahl rauchender Frauen bei 200 Frauen in der Stichprobe 68 sein.
15
Beispiel: Sozial- und Gesundheitsfragen
Null-Hypothese: Erwartete Häufigkeiten mittels Randsummen Vergleichswerte: Beobachtete absolute Häufigkeiten Raucher Nicht-Raucher Frauen 68 132 200 Männer 51 99 150 119 231 Raucher Nicht - Raucher Frauen 58 142 200 Männer 61 89 150 119 231 Standardisierte Differenzen (Residuen) Teststatistik (68-58)²/68+( )²/132+ (51-61)²/51+ (99-89)²/99= = 5.2 Raucher Nicht - Raucher Frauen (68-58)²/68 ( )²/132 200 Männer (51-61)²/51 (99-89)²/99 150 119 231 Null-Hypothese wird verworfen!
16
Beispiel: Meinungsforschung
Es wurden 2 Mal 500 Personen befragt, die erste Welle um den 12. April, die zweite Welle um den 2. Mai. (keine Person wurde beide Male befragt.) Hat sich die Bewertung des neuen ORF wirklich signifikant verändert, also für alle Österreicher und nicht nur bei die Befragten? Hängt also Meinungslage vom Zeitpunkt ab, oder sind Zeitpunkt der Befragung und Meinungslage voneinander unabhängig? Hat sie sich verbessert, verschlechtert oder was?
17
Beispiel: Meinungsforschung
Beobachtete relative Häufigkeiten Berechne beobachtete absolute Häufigkeiten bei 2x N=500 Schätzung unter der Annahme, dass beide Stichproben aus einer gemeinsamen Grundgesamtheit kommen. Auf Basis der Null-Hypothese erwartete absolute Häufigkeiten. Residuen Vergleich mit c²-Verteilung Freiheitsgrade Vergleich Quantile mit Teststatistik gefällt gut gefällt weniger k.A. 1. Welle 40% 25% 35% 2. Welle 49% 38% 14% gefällt gut gefällt weniger k.A. gesamt 1. Welle 200 125 175 500 2. Welle 242,5 187,5 70 442,5 312,5 245 1000 0,4*500 = 200 Geschätzte gemeinsame relative Häufigkeiten 44,3% 31,3% 24,5% 100,0% 44,3% = 442,5/1000 gefällt gut gefällt weniger k.A. gesamt 1. Welle 221,25 156,25 122,5 500 2. Welle 442,5 312,5 245 1000 221,25 = 0,443*500 gefällt gut gefällt weniger k.A. gesamt 1. Welle 2,04 6,25 22,5 2. Welle 61,58 (Anzahl Zeilen-1)*(Anzahl Spalten – 1) = (2-1)*(3-1) = 2 Q2(c²)(0,95) = T = 61,58
18
Beispiel: Meinungsforschung
Der Vergleich macht sicher! Offene Frage Was genau hat sich verändert? Der c² Test beantwortet diese Frage nicht! Ersichtlich ist, deutlich mehr Menschen haben sich nach einem Monat eine Meinung gebildet. Im Sample haben die Kritiker stärker zugenommen als die Zufriedenen Ob das auch in der Grund-gesamtheit so ist, kann man nicht sagen. Die Null-Hypothese wird verworfen! Wir akzeptieren die Alternativhypothese: Das Meinungsprofil hat sich verändert. +13% -21% +9%
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.