Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Der F - Test Man prüft, ob sich 2 Varianzen unterscheiden, mit dem F-Quotienten: Geprüft werden stets die Schätzungen der Populationsvarianzen aufgrund.
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Gliederung Vertrauensintervalle Arten von Hypothesen
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Heute Prüfung der Produkt-Moment Korrelation
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Kapitel 1 Das Schubfachprinzip
Mehrfachregressionen
Hypothesen testen: Grundidee
Nachholung der Vorlesung vom Freitag
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
Vorlesung Die Vorlesung Statistische Methoden II in 2 Wochen vom 6. Juni ( in 2 Wochen ) wird auf den 4. Juni (Mittwoch) vorverlegt ! 14 – 16 Zeit: 14.
Chi-Quadrat-Test auf Unabhängigkeit I
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Chi-Quadrat-Test auf Anpassung
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Chi-Quadrat-Test auf Unabhängigkeit I Hypothese Ablehnungsbereich.
Chi-Quadrat-Tests. Satz von Karl Pearson I X: Stichprobenvariable, die r > 2 verschieden Werte annehmen kann: Die Verteilung von X ist durch einen Wahrscheinlichkeitsvektor.
Tutorium Willkommen zurück, in der wunderbaren Welt der Statistik Teil II.
Tutorium
Tutorium
Vorlesung: ANOVA I
Eigenschaften der OLS-Schätzer
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Chi Quadrat Test Tamara Katschnig.
Hartmut Klauck Universität Frankfurt SS
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
Wiederholung BSP 2.1.
Die Struktur von Untersuchungen
Konfidenzintervall und Testen für den Mittelwert und Anteile
Mehr zum Testen von Hypothesen
Empirische Sozialforschung am Beispiel der Limburger Nordstadt
Methoden der Sozialwissenschaften
STATISIK LV Nr.: 1375 SS März 2005.
Prüft ebenfalls die Annahme der Varianzhomogenität (exakter)
Forschungsstrategien Johannes Gutenberg Universität Mainz
1. 2 Das Grundproblem der Beurteilenden Statistik ● Wir haben uns bisher mit Problemen der Wahrscheinlichkeitsrechnung beschäftigt: – Die Wahrscheinlichkeit.
Identifying the effects of gendered language on economic behavior
Das ABC der Statistik DIE SÄULENDIAGRAMME
Die ersten Schritte bei der Entdeckung der Statistik
Die Auswirkungen des Mitarbeitergespräches im finance-Bereich Mag
DIA – Ausgewählte Trends Dezember 2016
als Maß für die Machbarkeit einer neuen Methode
Analysen univariater Stichproben
Signifikanz – was ist das überhaupt?
Grundbegriffe M. Kresken.
Ökonometrie und Statistik Logistische Regression
Ökonometrie und Statistik Wiederholung
Meinungen zu Schulleitern
Ökonometrie und Statistik Datamining und Big Data anhand von Fallbeispielen Dr. Bertram Wassermann.
Ökonometrie und Statistik Mehrfachregression
WhatsApp, Instagram und Co. – so süchtig macht Social Media
Forschungsstrategien Johannes Gutenberg Universität Mainz
Ökonometrie und Statistik Wiederholung
Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.
Ökonometrie und Statistik Prüfungsthemen
Ökonometrie und Statistik Datamining und Big Data anhand von Fallbeispielen Dr. Bertram Wassermann.
Ökonometrie und Statistik Wiederholung
Konfidenzintervalle und Tests auf Normalverteilung
ANOVA für unabhängige Daten.
Ökonometrie und Statistik Logistische Regression
Ökonometrie und Statistik Varianzanalyse Beispiele
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.
Ökonometrie und Statistik Wiederholung
 Präsentation transkript:

Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann

Übersicht I Einleitung II Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat mit der Annahme der Unabhängigkeit der beiden Variablen V Weitere Beispiele

Motivation Anpassungstest , c² - Test (Chi Quadrat Test) Typische Fragestellungen, die damit behandelt werden können Fraud Detection: Benford Analyse zur Analyse der Verteilung der ersten Ziffer von einer Menge von Buchungszahlen Meinungsforschung: Zu einem aktuellen politischen, wirtschaftlichen oder sozialen Themen wird einer repräsentative Stichprobe eine Frage gestellt (Sonntagsfrage). Man möchte klären, ob auch in der Grundgesamtheit ein solches Antwortverhalten vorherrscht, z.B. Was meint eine Mehrheit der Bevölkerung (Mehrheitsverhalten) Marketing: Zur Überprüfung von Hypothesen über Marktanteile (z.B. 6 Mobilfunkanbieter), wie: haben die 6 Anbieter wirklich unterschiedliche Markanteile? Ist A1 der Marktführer? Hat Orange weniger als 25% Marktanteil? Werbung und Marktforschung: Kampagnenbewertung: Wie wird / wurde (Prätest / Posttest) eine bestimmte Werbekampagne bewertet? Wie viel % finden sie „sehr gut“, „gut“ bzw. „weniger gut“? Wie wird die Kampagne von unterschiedlichen Kundengruppen bewertet (Männer – Frauen; Jung – Alt; A Kunden – B Kunden – C Kunden)?

Anpassungstest , c² - Test (Chi Quadrat Test) Test für den Parameter Anteilswerte p1, p2 bis pm von m verschiedenen Ausprägungen. Hypothesen H0: P(Ausprägung 1 tritt ein) = p1 P(Ausprägung 2 tritt ein) = p2 P(Ausprägung m tritt ein) = pm H1: Mindestens eine Ausprägung hat eine andere Wahrscheinlichkeit. Teststatistik Beobachtete absolute Häufigkeiten hi Erwartete absolute Häufigkeiten ei =n*pi n ist der Stichprobenumfang. Entscheidung Q(c²)(.) ist die Quantile der Chi-Quadrat Verteilung

Anpassungstest , c² - Test (Chi Quadrat Test) Durchführung Die Durchführung eines Anpassungstest besteht aus zwei wesentlichen Schritten Übersetzung der sachlichen Null – Hypothese in konkrete Werte für die Wahrscheinlichkeit des Auftretens jeder Ausprägung P(Ausprägung i tritt ein) = pi a) Bestimmung der gewünschten Quantile. Dazu muss man vor allem die Freiheitsgrade des Problems wissen und natürlich auch a festlegen. b) Berechnung der Testsstatistik c) Testentscheid

Übersicht I Einleitung II Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat mit der Annahme der Unabhängigkeit der beiden Variablen V Weitere Beispiele

Beispiel: Meinungsforschung 500 Personen sind befragt worden. Die meisten Befragten finden, dass die Koalition genauso oder schlechter als erwartet arbeitet. Das gilt für die Stichprobe, aber… Frage 1 Neigen die meisten Österreicher wirklich zu diesen beiden Antworten? Oder unterscheidet sich dieses Antwort-verhalten nur zufällig von eine Gleichverteilung? Frage 2 Ist die Antwort „… genau so wie erwartet“ auch unter allen Österreichern die Meistgewählte?

Beispiel: Meinungsforschung Frage 1: Bestimme pi für H0 Unterscheiden sich die Häufigkeiten pro möglicher Antwort nur zufällig, so würde je ein Viertel der Österreicher hinter einer der vier Antworten stehen. Die Wahrscheinlichkeit eine der vier Antworten zu bekommen ist für alle vier gleich groß, also: pi = ¼ = 0.25 = 25% Bestimme beobachtete und erwartete absolute Häufigkeiten für N=500 Bestimme standardisierte Differenzen Teststatistik und Chi² Wert T=20+20+16,2+24,2=80,4 Q3(c²)(0,95) = 7.81 Beobachtete Häufigkeit Erwartete Häufigkeit 15%*500 = 75 25%*500 = 125 34%*500 = 170 36%*500 = 180 (75-125)²/125 = 20 (170-125)²/125 = 16,2 (180-125)²/125 = 24,2 Null-Hypothese wird verworfen!

Übersicht I Einleitung II Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat mit der Annahme der Unabhängigkeit der beiden Variablen V Weitere Beispiele

Beispiel: Meinungsforschung Frage 2: Bestimme pi für H0 „…genau so wie erwartet“ wird nur zufällig öfter genannt als „…schlechter als erwartet“, also z.B. p1 = p2 = 0.15 und p3 = p4 = 0.35 Bestimme beobachtete und erwartete absolute Häufigkeiten für N=500 Berechne in EXCEL EXCEL Funktion CHITEST(Beob_Meßwerte;Erwart_Werte) liefert p-Wert der passenden c²-Verteilung p-Werte der Chi² Verteilung p-Wert = 0,96269 Beobachtete Häufigkeit Erwartete Häufigkeit 15%*500 = 75 34%*500 = 170 35%*500 = 175 36%*500 = 180 Null-Hypothese wird nicht verworfen!

Beispiel: Marktanteile Wirtschaft: In einer Studie zum Thema Preissteigerungen im Lebensmittel-sektor werden 100 Personen unter anderem gefragt, bei welchem Händler sie hauptsächlich einkaufen. Der Zeitung entnehmen wir die Marktanteile der Lebensmittelhändler. Wenn Sie die Antworten mit den Marktanteilen vergleichen: ist die Stichprobe der Studie repräsentativ für Österreich? Die Zahlen rechts entstammen der Befragung. 7% 1% 8% 0% 17% 29% 12% 26%

Beispiel: Marktanteile Bestimme pi für H0 Das ist in diesem Fall einfach. Die erwartete relative Häufigkeit eines Lebensmittelhändlers entnehmen wir dem Zeitungsbericht. z.B.: p(Rewe Group) = 0,297 Bestimme beobachtete und erwartete absolute Häufigkeiten für N=100 Da N=100, entsprechen die Prozentzahlen den absoluten Häufigkeiten: linke Spalte erwartete Häufigkeiten rechte Spalte beobachtete Häufigkeiten Bestimme standardisierte Differenzen oder benutze EXCEL. Teststatistik und Chi² Wert T=17,3 Q7(c²)(0,95) = 14.07 Q7(c²)(0,99) = 18.48 p-Werte der Chi² Verteilung p-Wert = 0,0152 7% 1% 8% 0% 17% 29% 12% 26% Verwerfen der Null-Hypothese hängt vom gewählten a ab!

Übersicht I Einleitung II Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat mit der Annahme der Unabhängigkeit der beiden Variablen V Weitere Beispiele

Beispiel: Sozial- und Gesundheitsfragen Die Daten kann man auch als Kreuztabelle darstellen Raucher Nicht - Raucher Frauen 58 142 200 Männer 61 89 150 119 231 Stichprobengröße (Frauen) 200 Stichprobengröße (Männer) 150 Raucheranteil (Frauen) 29% Raucheranteil (Männer) 41% Was tun, wenn man nur die Randsummen kennen würde? Raucher Nicht-Raucher Frauen 200 Männer 150 119 231 350 Raucher Nicht-Raucher Frauen ? 200 Männer 150 119 231

Beispiel: Sozial- und Gesundheitsfragen Null-Hypothese: Erwartete Häufigkeiten mittels Randsummen Vergleichswerte: Beobachtete absolute Häufigkeiten Raucher Nicht-Raucher Frauen 68 132 200 Männer 51 99 150 119 231 Raucher Nicht - Raucher Frauen 58 142 200 Männer 61 89 150 119 231 Standardisierte Differenzen (Residuen) Teststatistik (68-58)²/68+(132-142)²/132+ (51-61)²/51+ (99-89)²/99= 1.47+0.76+1.96+1.01= 5.2 Raucher Nicht - Raucher Frauen (68-58)²/68 (132-142)²/132 200 Männer (51-61)²/51 (99-89)²/99 150 119 231 Null-Hypothese wird verworfen!

Beispiel: Meinungsforschung Es wurden 2 Mal 500 Personen befragt, die erste Welle um den 12. April, die zweite Welle um den 2. Mai. (keine Person wurde beide Male befragt.) Hat sich die Bewertung des neuen ORF wirklich signifikant verändert, also für alle Österreicher und nicht nur bei die Befragten? Hängt also Meinungslage vom Zeitpunkt ab, oder sind Zeitpunkt der Befragung und Meinungslage voneinander unabhängig? Hat sie sich verbessert, verschlechtert oder was?

Beispiel: Meinungsforschung Beobachtete relative Häufigkeiten Berechne beobachtete absolute Häufigkeiten bei 2x N=500 Schätzung unter der Annahme, dass beide Stichproben aus einer gemeinsamen Grundgesamtheit kommen. Auf Basis der Null-Hypothese erwartete absolute Häufigkeiten. Residuen Vergleich mit c²-Verteilung Freiheitsgrade Vergleich Quantile mit Teststatistik gefällt gut gefällt weniger k.A. 1. Welle 40% 25% 35% 2. Welle 49% 38% 14% gefällt gut gefällt weniger k.A. gesamt 1. Welle 200 125 175 500 2. Welle 242,5 187,5 70 442,5 312,5 245 1000 0,4*500 = 200 Geschätzte gemeinsame relative Häufigkeiten 44,3% 31,3% 24,5% 100,0% 44,3% = 442,5/1000 gefällt gut gefällt weniger k.A. gesamt 1. Welle 221,25 156,25 122,5 500 2. Welle 442,5 312,5 245 1000 221,25 = 0,443*500 gefällt gut gefällt weniger k.A. gesamt 1. Welle 2,04 6,25 22,5 2. Welle 61,58 (Anzahl Zeilen-1)*(Anzahl Spalten – 1) = (2-1)*(3-1) = 2 Q2(c²)(0,95) = 5.99 T = 61,58

Beispiel: Meinungsforschung Der Vergleich macht sicher! Offene Frage Was genau hat sich verändert? Der c² Test beantwortet diese Frage nicht! Ersichtlich ist, deutlich mehr Menschen haben sich nach einem Monat eine Meinung gebildet. Im Sample haben die Kritiker stärker zugenommen als die Zufriedenen Ob das auch in der Grund-gesamtheit so ist, kann man nicht sagen. Die Null-Hypothese wird verworfen! Wir akzeptieren die Alternativhypothese: Das Meinungsprofil hat sich verändert. +13% -21% +9%

Übersicht I Einleitung II Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat mit der Annahme der Unabhängigkeit der beiden Variablen V Weitere Beispiele

Beispiel: Meinungsforschung War das Desinteresse für die WM 2006 nicht nur unter den Befragten größer als das Interesse? Und sahen das Männer und Frauen wirklich unterschiedlich?

Beispiel: Verkehr Unterschied sich die jährliche Kilometerleistung auch in der Österreichischen Bevölkerung im Jahr 1993 zwischen Männern und Frauen?

Beispiel: Wirtschaft Unternehmensbefragung Befragt wurden zwar Personen, die Grundgesamtheit wird aber nicht von der Bevölkerung eines Landes gestellt, sondern von … ? Ist es zulässig, diese Ergebnisse auf ihre Grundgesamtheit mittels Chi² Test hochzurechnen?

Beispiel: Fairer Würfel 1 2 3 4 5 6 Ist der Würfel fair? Beispiel 1 10 73 7 Beispiel 2 16 17 Beispiel 3 15 28 24 NEIN Sicher weiß nicht Null-Hypothese 1 2 3 4 5 6 pi= 16,7% Bei n=100 ei= 16,7 Abweich- ungen 1 2 3 4 5 6 c² Wert Beispiel 1 11,2 2,7 190,4 9,6 5,6 230,7 9,2 Beispiel 2 0,0 0,1 Beispiel 3 0,2 7,7 3,2 19,4

Motivation Unabhängigkeitstest , c² - Test (Chi Quadrat T.) Typische Fragestellungen, die damit behandelt werden können Meinungsforschung: Zu einem aktuellen politischen, wirtschaftlichen oder sozialen Themen wird einer repräsentative Stichprobe eine Frage gestellt (Sonntagsfrage). Man möchte klären, ob auch in der Grundgesamtheit ein solches Antwortverhalten vorherrscht, z.B. Was meint eine Mehrheit der Bevölkerung (Mehrheitsverhalten). Und unterscheiden sich verschiedene Gruppen (z.B. Männer / Frauen, diverse Wählergruppen) in ihrer Meinung? Werbung und Marktforschung: Kampagnenbewertung: Hat eine bestimmte Werbekampagne einen positiven Einfluss auf das Image einer Firma? Mittels Prä- und Posttest wird das Image erhoben und dann verglichen. Wie viel % finden die Firma „sehr gut“, „gut“ bzw. „weniger gut“? Welchen Einfluss hatte die Kampagne auf unterschiedliche Kundengruppen (Männer – Frauen; Jung – Alt; A Kunden – B Kunden – C Kunden)? Gesundheits- und Sozialthemen: Z.B. Wie groß ist der Raucheranteil einer gewissen Population und unterscheidet sich dieser Anteil bei Männern und Frauen?

Motivation Unabhängigkeitstest , c² - Test (Chi Quadrat T.) Was haben diese Fragestellungen statistisch gesehen gemeinsam? Es wurden zwei kategoriale Variablen erhoben. Zu jeder Beobachtungseinheit wurden zwei nominale oder ordinale Merkamle gemessen. Antwort auf die Sonntagsfrage - Wählergruppe Imagebewertung der Firma – Vor (Prä) oder nach (Post) der Kampagne Raucher (Ja / Nein) – Geschlecht Dafür sind uns schon Methoden zur Analyse bekannt: Kreuztabelle

Tabellarische und Grafische Aufbereitung Beispiel Raucheranteile nach Geschlecht Die Daten als Kreuztabelle dargestellt: Raucher Nicht - Raucher Frauen 58 142 200 Männer 61 89 150 119 231 Stichprobengröße (Frauen) 200 Stichprobengröße (Männer) 150 Raucheranteil (Frauen) 29% Raucheranteil (Männer) 41% Graphisch als gruppiertes Säulendiagramm dargestellt