Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.

Slides:

Advertisements

Ähnliche Präsentationen

Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.

Advertisements

Forschungsstatistik II

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.

Der Binomialtest Man habe einen wahren Anteil P.

Hypothesen testen: Grundidee

Chi Quadrat Test Tamara Katschnig.

Mehr zum Testen von Hypothesen

STATISIK LV Nr.: 1375 SS März 2005.

Statistik im Labor BFB-tech Workshop Eugen Lounkine.

Signifikanzprüfung Peter Wilhelm Herbstsemester 2015.

► In einem Test werden 10 norwegische Verben gezeigt, wobei bei jedem Verb anstelle einer deutschen Übersetzung ein akustisches Signal oder ein Bild steht:

Erscheinungsdatum AG RDA Schulungsunterlagen – Modul 5 B: Erscheinungsdatum| Stand: PICA-Version | CC BY-NC-SA1 Modul 5 B.

Kapitel 2: Testtheorie / Testmodelle  Multivariate (p-variate) Normalverteil- ung :  Mittelwertstruktur: p Mittelwerte  Kovarianzstruktur: p·(p+1)/2.

Ein Dozent hat mittels eines Fragebogens die Körpergröße seiner Studenten festgestellt. Anhand der erfassten Daten weiß er, dass der kleinste Student 158.

Exkurs: Chi-quadrat und Modellgüte 1. ist ein Distanzmaß, welches die Distanz zwischen Modellvorhersage und Daten misst.  Je kleiner desto besser ist.

Und zwar, ob Naruto mit Sakura oder mit Hinata ein Paar werden soll.

Sabrina May Modul: Grundlagen empirischer Forschung

Befragung im INSA-Meinungstrend zum Thema Tiere und Senioren

Hans-Jürgen Brummer Leiter DSiE

Das Wichtigste auf einen Blick

Ergebnisse der Bedarfsermittlung zur Einrichtung von Ganztaggrundsschulen in der Gemeinde Kirchlinteln Oktober 2016.

Projekt Activtiy Tracker

Inklusionsbarometer 2016 Zahlen & Fakten (beruhend auf dem vierten Inklusionsbarometer der Aktion Mensch (Komplette Studie:

7.2 Theoretische Kennwerte

Ernährung, Lebensmittel und Umwelt 2017 Präsentation zentraler Umfrageergebnisse Christoph Hofinger Christian Glantschnigg Evelyn Hacker Juni 2017.

Binomialverteilung.

Vom Stereotyp zur Diskriminierung

Einführung in die Wahrscheinlichkeitsrechnung

Signifikanz – was ist das überhaupt?

Deutschland aus Sicht polnischer Unternehmen

GENDER MAINSTREAMING Die 4-R-Methode

Gemeinsames Lernen von Kindern mit und ohne Beeinträchtigung

Ziele Crash-Übersicht

Ökonometrie und Statistik Logistische Regression

Ökonometrie und Statistik Wiederholung

Österreichische LA Med 2005 Praktiker / Internisten

Ökonometrie und Statistik Mehrfachregression

ATV Österreich.Trend Juni 2018 ATV Dr Peter Hajek

Kapitel 2: Testtheorie / Testmodelle

Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.

Wir hören immer von Regeln aus Sicht der Frauen.

3 Gesamtbeschreibung empirischer Verteilungen.

Forschungsstrategien Johannes Gutenberg Universität Mainz

Ökonometrie und Statistik Wiederholung

WERBEBAROMETER Rückblick auf 1. Quartal 2006

Ökonometrie und Statistik Varianzanalyse Beispiele

Wir hören immer von Regeln aus Sicht der Frauen.

Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.

Festnetz & Mobilfunk Marktanteile der Betriebssysteme an der Smartphone-Nutzung in Deutschland von Dezember 2011 bis Februar 2015 © Statista GmbH, Hamburg.

Heute: Mehrstufige Baumdiagramme

Ökonometrie und Statistik Prüfungsthemen

Heute: Geschichten vom Schulweg

Erwartungswerte berechnen

Wissenschaftliches Projekt

Ökonometrie und Statistik Wiederholung

Abiturprüfung Mathematik 2015 Baden-Württemberg Allgemeinbildende Gymnasien Wahlteil Analytische Geometrie / Stochastik Aufgabe B 2.1 und B Lösungen.

Übersicht Etwas Mathematik (ganz ohne geht es nicht).

Konfidenzintervalle und Tests auf Normalverteilung

Wir hören immer von Regeln aus Sicht der Frauen.

Beispiel für eine Grafik gebundene Textproduktion – DaF B1+/B2

Ökonometrie und Statistik Logistische Regression

Zusammengesetzte Ereignisse

Bevölkerungsfrage zum Thema Health

Fortgeschrittene statistische Methoden SS2020

Überprüfungen und MSA-Prüfungen Klasse 10

Der DIA Deutschland-Trend-Vorsorge Einstellungen zur Altersvorsorge

Ökonometrie und Statistik Wiederholung

Präsentation transkript:

Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann

Übersicht I Einleitung II Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat, Unabhängigkeitstest der beiden Variablen V Weitere Beispiele

Motivation Anpassungstest , c² - Test (Chi Quadrat Test) Typische Fragestellungen, die damit behandelt werden können Meinungsforschung: Zu einem aktuellen politischen, wirtschaftlichen oder sozialen Themen wird einer repräsentative Stichprobe eine Frage gestellt (Sonntagsfrage). Man möchte klären, ob auch in der Grundgesamtheit ein solches Antwortverhalten vorherrscht, z.B. Was meint eine Mehrheit der Bevölkerung (Mehrheitsverhalten) Marketing: Zur Überprüfung von Hypothesen über Marktanteile (z.B. 6 Mobilfunkanbieter), wie: haben die 6 Anbieter wirklich unterschiedliche Markanteile? Ist A1 der Marktführer? Hat Orange weniger als 25% Marktanteil? Werbung und Marktforschung: Kampagnenbewertung: Wie wird / wurde (Prätest / Posttest) eine bestimmte Werbekampagne bewertet? Wie viel % finden sie „sehr gut“, „gut“ bzw. „weniger gut“? Wie wird die Kampagne von unterschiedlichen Kundengruppen bewertet (Männer – Frauen; Jung – Alt; A Kunden – B Kunden – C Kunden)? Fraud Detection: Benford Analyse zur Analyse der Verteilung der ersten Ziffer von einer Menge von Buchungszahlen

Anpassungstest , c² - Test (Chi Quadrat Test) Test für den Parameter Anteilswerte p1, p2 bis pm von m verschiedenen Ausprägungen. Hypothesen H0: P(Ausprägung 1 tritt ein) = p1 P(Ausprägung 2 tritt ein) = p2 P(Ausprägung m tritt ein) = pm H1: Mindestens eine Ausprägung hat eine andere Wahrscheinlichkeit. Teststatistik Beobachtete absolute Häufigkeiten hi Erwartete absolute Häufigkeiten ei =n*pi n ist der Stichprobenumfang. Entscheidung Q(c²)(.) ist die Quantile der Chi-Quadrat Verteilung

Anpassungstest , c² - Test (Chi Quadrat Test) Durchführung Die Durchführung eines Anpassungstest besteht aus zwei wesentlichen Schritten Übersetzung der sachlichen Null – Hypothese in konkrete Werte für die Wahrscheinlichkeit des Auftretens jeder Ausprägung P(Ausprägung i tritt ein) = pi a) Bestimmung der gewünschten Quantile. Dazu muss man vor allem die Freiheitsgrade des Problems wissen und natürlich auch a festlegen. b) Berechnung der Testsstatistik c) Testentscheid

Übersicht I Einleitung II Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat, Unabhängigkeitstest der beiden Variablen V Weitere Beispiele

Beispiel: Meinungsforschung 500 Personen sind befragt worden. Die meisten Befragten finden, dass die Koalition genauso oder schlechter als erwartet arbeitet. Das gilt für die Stichprobe, aber… Frage 1 Neigen die meisten Österreicher wirklich zu diesen beiden Antworten? Oder unterscheidet sich dieses Antwort-verhalten nur zufällig von eine Gleichverteilung? Frage 2 Ist die Antwort „… genau so wie erwartet“ auch unter allen Österreichern die Meistgewählte?

Beispiel: Meinungsforschung Frage 1: Bestimme pi für H0 Unterscheiden sich die Häufigkeiten pro möglicher Antwort nur zufällig, so würde je ein Viertel der Österreicher hinter einer der vier Antworten stehen. Die Wahrscheinlichkeit eine der vier Antworten zu bekommen ist für alle vier gleich groß, also: pi = ¼ = 0.25 = 25% Bestimme beobachtete und erwartete absolute Häufigkeiten für N=500 Bestimme standardisierte Differenzen Teststatistik und Chi² Wert T=20+20+16,2+24,2=80,4 Q3(c²)(0,95) = 7.81 Beobachtete Häufigkeit Erwartete Häufigkeit 15%*500 = 75 25%*500 = 125 34%*500 = 170 36%*500 = 180 (75-125)²/125 = 20 (170-125)²/125 = 16,2 (180-125)²/125 = 24,2 Null-Hypothese wird verworfen!

Übersicht I Einleitung II Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat, Unabhängigkeitstest der beiden Variablen V Weitere Beispiele

Beispiel: Meinungsforschung Frage 2: Bestimme pi für H0 „…genau so wie erwartet“ wird nur zufällig öfter genannt als „…schlechter als erwartet“, also z.B. p1 = p2 = 0.15 und p3 = p4 = 0.35 Bestimme beobachtete und erwartete absolute Häufigkeiten für N=500 Berechne in EXCEL EXCEL Funktion CHITEST(Beob_Meßwerte;Erwart_Werte) liefert p-Wert der passenden c²-Verteilung p-Werte der Chi² Verteilung p-Wert = 0,96269 Beobachtete Häufigkeit Erwartete Häufigkeit 15%*500 = 75 34%*500 = 170 35%*500 = 175 36%*500 = 180 Null-Hypothese wird nicht verworfen!

Beispiel: Marktanteile Wirtschaft: In einer Studie zum Thema Preissteigerungen im Lebensmittel-sektor werden 100 Personen unter anderem gefragt, bei welchem Händler sie hauptsächlich einkaufen. Der Zeitung entnehmen wir die Marktanteile der Lebensmittelhändler. Wenn Sie die Antworten mit den Marktanteilen vergleichen: ist die Stichprobe der Studie repräsentativ für Österreich? Die Zahlen rechts entstammen der Befragung. 7% 1% 8% 0% 17% 29% 12% 26%

Beispiel: Marktanteile Bestimme pi für H0 Das ist in diesem Fall einfach. Die erwartete relative Häufigkeit eines Lebensmittelhändlers entnehmen wir dem Zeitungsbericht. z.B.: p(Rewe Group) = 0,297 Bestimme beobachtete und erwartete absolute Häufigkeiten für N=100 Da N=100, entsprechen die Prozentzahlen den absoluten Häufigkeiten: linke Spalte erwartete Häufigkeiten rechte Spalte beobachtete Häufigkeiten Bestimme standardisierte Differenzen oder benutze EXCEL. Teststatistik und Chi² Wert T=17,3 Q7(c²)(0,95) = 14.07 Q7(c²)(0,99) = 18.48 p-Werte der Chi² Verteilung p-Wert = 0,0152 7% 1% 8% 0% 17% 29% 12% 26% Verwerfen der Null-Hypothese hängt vom gewählten a ab!

Übersicht I Einleitung II Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat, Unabhängigkeitstest der beiden Variablen V Weitere Beispiele

Beispiel: Sozial- und Gesundheitsfragen Die Daten kann man auch als Kreuztabelle darstellen Raucher Nicht - Raucher Frauen 58 142 200 Männer 61 89 150 119 231 Stichprobengröße (Frauen) 200 Stichprobengröße (Männer) 150 Raucheranteil (Frauen) 29% Raucheranteil (Männer) 41% Was tun, wenn man nur die Randsummen kennen würde? Raucher Nicht-Raucher Frauen 200 Männer 150 119 231 350 Raucher Nicht-Raucher Frauen ? 200 Männer 150 119 231 Bei einem geschätzten Raucheranteil von 34% sollte die Anzahl rauchender Frauen bei 200 Frauen in der Stichprobe 68 sein.

Beispiel: Sozial- und Gesundheitsfragen Null-Hypothese: Erwartete Häufigkeiten mittels Randsummen Vergleichswerte: Beobachtete absolute Häufigkeiten Raucher Nicht-Raucher Frauen 68 132 200 Männer 51 99 150 119 231 Raucher Nicht - Raucher Frauen 58 142 200 Männer 61 89 150 119 231 Standardisierte Differenzen (Residuen) Teststatistik (68-58)²/68+(132-142)²/132+ (51-61)²/51+ (99-89)²/99= 1.47+0.76+1.96+1.01= 5.2 Raucher Nicht - Raucher Frauen (68-58)²/68 (132-142)²/132 200 Männer (51-61)²/51 (99-89)²/99 150 119 231 Null-Hypothese wird verworfen!

Beispiel: Meinungsforschung Es wurden 2 Mal 500 Personen befragt, die erste Welle um den 12. April, die zweite Welle um den 2. Mai. (keine Person wurde beide Male befragt.) Hat sich die Bewertung des neuen ORF wirklich signifikant verändert, also für alle Österreicher und nicht nur bei die Befragten? Hängt also Meinungslage vom Zeitpunkt ab, oder sind Zeitpunkt der Befragung und Meinungslage voneinander unabhängig? Hat sie sich verbessert, verschlechtert oder was?

Beispiel: Meinungsforschung Beobachtete relative Häufigkeiten Berechne beobachtete absolute Häufigkeiten bei 2x N=500 Schätzung unter der Annahme, dass beide Stichproben aus einer gemeinsamen Grundgesamtheit kommen. Auf Basis der Null-Hypothese erwartete absolute Häufigkeiten. Residuen Vergleich mit c²-Verteilung Freiheitsgrade Vergleich Quantile mit Teststatistik gefällt gut gefällt weniger k.A. 1. Welle 40% 25% 35% 2. Welle 49% 38% 14% gefällt gut gefällt weniger k.A. gesamt 1. Welle 200 125 175 500 2. Welle 242,5 187,5 70 442,5 312,5 245 1000 0,4*500 = 200 Geschätzte gemeinsame relative Häufigkeiten 44,3% 31,3% 24,5% 100,0% 44,3% = 442,5/1000 gefällt gut gefällt weniger k.A. gesamt 1. Welle 221,25 156,25 122,5 500 2. Welle 442,5 312,5 245 1000 221,25 = 0,443*500 gefällt gut gefällt weniger k.A. gesamt 1. Welle 2,04 6,25 22,5 2. Welle 61,58 (Anzahl Zeilen-1)*(Anzahl Spalten – 1) = (2-1)*(3-1) = 2 Q2(c²)(0,95) = 5.99 T = 61,58

Beispiel: Meinungsforschung Der Vergleich macht sicher! Offene Frage Was genau hat sich verändert? Der c² Test beantwortet diese Frage nicht! Ersichtlich ist, deutlich mehr Menschen haben sich nach einem Monat eine Meinung gebildet. Im Sample haben die Kritiker stärker zugenommen als die Zufriedenen Ob das auch in der Grund-gesamtheit so ist, kann man nicht sagen. Die Null-Hypothese wird verworfen! Wir akzeptieren die Alternativhypothese: Das Meinungsprofil hat sich verändert. +13% -21% +9%

Übersicht I Einleitung II Beispieldaten: univariat mit Gleichverteilung III Beispieldaten: univariat mit anderer Annahme über die Verteilung IV Beispieldaten: bivariat, Unabhängigkeitstest der beiden Variablen V Weitere Beispiele

Beispiel: Meinungsforschung War das Desinteresse für die WM 2006 nicht nur unter den Befragten größer als das Interesse? Und sahen das Männer und Frauen wirklich unterschiedlich?

Beispiel: Verkehr Unterschied sich die jährliche Kilometerleistung auch in der Österreichischen Bevölkerung im Jahr 1993 zwischen Männern und Frauen?

Beispiel: Wirtschaft Unternehmensbefragung Befragt wurden zwar Personen, die Grundgesamtheit wird aber nicht von der Bevölkerung eines Landes gestellt, sondern von … ? Ist es zulässig, diese Ergebnisse auf ihre Grundgesamtheit mittels Chi² Test hochzurechnen?

Beispiel: Fairer Würfel 1 2 3 4 5 6 Ist der Würfel fair? Beispiel 1 10 73 7 Beispiel 2 16 17 Beispiel 3 15 28 24 NEIN Sicher weiß nicht Null-Hypothese 1 2 3 4 5 6 pi= 16,7% Bei n=100 ei= 16,7 Abweich- ungen 1 2 3 4 5 6 c² Wert Beispiel 1 11,2 2,7 190,4 9,6 5,6 230,7 9,2 Beispiel 2 0,0 0,1 Beispiel 3 0,2 7,7 3,2 19,4