Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Schließende Statistik

Ähnliche Präsentationen


Präsentation zum Thema: "Schließende Statistik"—  Präsentation transkript:

1 Schließende Statistik
4 Schließende Statistik 4.1 Schätzverfahren 4.2 Fehlerrechnung 4.3 Prinzip statistischer Tests 4.4 Statistische Tests für Intervalldaten 4.5 Statistische Tests für Ordinaldaten 4.6 Statistische Tests für Nominaldaten

2 Schließende Statistik
4 Anliegen der schließenden Statistik ist es, aus vorliegenden Daten (Stichproben) auf die Eigenschaften der entsprechenden Grundgesamtheit zu schließen : - deskriptive Statistik: Beschreibung der empirischen Kennwerte und Verteilungen von Stichproben (Kapitel 2) - Wahrscheinlichkeitstheorie: Definition eines theoretischen Modells mit Merkmalsraum, Ereignisfeld und Wahrscheinlichkeiten (Kapitel 3)  schließende Statistik: Verbindung zwischen Empirie und Theorie STP GG schließende Statistik Zufallsvariable IQ: Mittelwert empirische Varianz relative Häufigkeiten Erwartungswert Varianz Wahrscheinlichkeit

3 Schließende Statistik
4 in der schließenden Statistik gibt es zwei Arten von Fragestellungen: 1.) Frage nach den Eigenschaften (Parametern) der GG gegeben eine STP (Schätzverfahren) 2.) Frage nach Zugehörigkeit einer oder mehrerer STP zu einer bzw. der gleichen GG (Prüfverfahren) da eine STP eine Zufallsauswahl aus der GG darstellt, sind die Aussagen der schließenden Statistik immer Wahrscheinlichkeitsaussagen und mit einer bestimmten Unsicherheit behaftet Schätz- und Prüfverfahren basieren auf sog. STP-Funktionen: Schätz- und Prüffunktionen (manchmal beides) Gehören die Temperatur- änderungen in A1 und B1 zur gleichen GG? Statistischer Jargon: Gibt es einen statistisch signifikanten Unterschied zwischen A1 und B1?

4 Schließende Statistik
4 Klassifikation der Prüfverfahren: - Orientierungshilfe für die Auswahl eines geeigneten Testverfahrens - Anpassungstests: gehört STP zu einer GG mit einer bestimmten vorgegebe- nen Verteilung? - Unterschiedstests: gehören zwei STP zu der gleichen oder zu unterschiedli- chen GG auf Mittelwert: Lokationstests auf Varianz: Dispersionstests auf Mittelwert und Varianz: Omnibustests - abhängige versus unabhängige STP - Skalenniveau der Daten - eine, zwei oder mehrere STP parametrische Tests: an bestimmte Verteilung gebunden; nur Parameter der Verteilung betrachtet (aussage- kräftiger, aber mehr Voraussetzun- gen zu erfüllen) nichtparametrische Tests: keine An- nahme über Verteilung; alle Werte betrachtet STP-Umfang: einfachere Näherungs- formeln bei großen STP

5 Schätzverfahren 4.1 als Schätzverfahren wird jede Methode bezeichnet, die geeignet ist, um von der STP-Information auf die unbekannte GG zu schließen: - Aussagen über Kennwerte und Wahrscheinlichkeiten der GG - Vorhersagen über die Eigenschaften zukünftiger STP aus der gleichen GG 3 Problemkreise der Schätztheorie: - Punktschätzung: Schätzung bestimmter Kennwerte der GG über Schätzformel - Intervallschätzung: Schätzung des Unsicherheitsbereiches, in dem die Parameter der GG mit einer a-priori definierten Wahrscheinlichkeit vermutet werden (Konfidenzintervalle, Mutungsbereiche) - Ereignisschätzung: erwarteter zukünftiger Wertebereich oder Wahrscheinlich- keiten von STP-Realisierungen gegeben die theoretische GG-Verteilung (Exspektanz) 99% 90% STP → GG Intervallschätzung s+=84% x=50% s-=16% STP → GG Punktschätzung 10% 1%

6 Schätzverfahren 4.1 Kriterien der Parameterschätzung (Punktschätzung):
- Frage nach geeigneten statistischen Kennwerten als Schätzwert eines Para- meters der GG - bislang z.B. arithmetisches Mittel der STP als Schätzer des Erwartungswertes der GG angenommen (Gesetz der großen Zahlen) - nach R.A. Fisher (1925) 4 Kriterien für einen geeigneten Schätzer: hinsichtlich dieser 4 Kriterien sind arithmetisches Mittel und empirische Varianz der Stichprobe die besten Punktschätzer für den Erwartungswert μ und die Varianz σ2 der Grundgesamtheit: im Hinblick auf die häufig realisierte Normalverteilung, die nur diese beiden Parameter enthält, sind und von zentraler Bedeutung in der schließenden Statistik - Erwartungstreue - Konsistenz - Effizienz - Exhaustivität - erwartungstreu - konsistent - erschöpfend - effektiver als andere statistische Kennwerte

7 Schätzverfahren 4.1 Intervallschätzung:
- arithmetisches Mittel und empirische Varianz sind zwar geeignete Schätzer für die entsprechenden Parameter der GG - aber Punktschätzung schwankt natürlich zufällig von STP zu STP - gegeben nur eine STP mit arithmetischem Mittel , dann ist die Kennwerteverteilung bei Gültigkeit des zentralen Grenzwertsatzes bekannt: - gegeben die Normalverteilung von liegt der tatsächliche Erwartungswert der GG mit einer bestimmten Wahrscheinlichkeit S in einem bestimmten Intervall [pu,po] um : Konfidenzintervall : [pu,po] Sicherheitswahrscheinlichkeit : S = P(pu  μ  p0) Irrtumswahrscheinlichkeit : α = 1 – S

8 Schätzverfahren 4.1 Konfidenzintervall kennzeichnet den Bereich eines Merkmals, in dem sich entsprechend der Wahrscheinlichkeit S ein bestimmter Anteil der möglichen GG-Parameter befindet, die den statistischen Kennwert der STP erzeugt haben könnten (hier zunächst für Erwartungswert μ) - typischerweise werden sog. Konfidenzkoeffizienten mit S=90%, S=95% oder S=99% vorgegeben - Bestimmung der Intervallgrenzen erfolgt über Quantile der standardisierten Normalverteilung: - diese Quantile lassen sich zurücktransformieren gegeben und : - allgemein gilt für das Konfidenzintervall des Erwartungswertes: S α ±z 90% 10% 1,645 95% 5% 1,960 99% 1% 2,576 - kürzestes Konfidenzintervall - symmetrisch um x

9 Schätzverfahren 4.1 Beispiel zum Konfidenzintervall für den Erwartungswert: - 250 Studenten wurden nach der Entfernung zwischen Wohnung und Uni gefragt - im Mittel 3400 m bei einer Standardabweichung von 1100 m - Konfidenzintervall der GG (alle Studenten) bei Irrtumswahrscheinlichkeit von 5% bzw. 1%? - mit einer Sicherheit von 95% (99%) liegt der Erwartungswert der GG im Bereich 3264m bis 3536m (3221m bis 3579m)

10 Schätzverfahren 4.1 Konfidenzintervall für den Erwartungswert bei kleinen STP: - Voraussetzung der Normalverteilung der Stichprobenmittelwerte nur erfüllt für hinreichend große STP (zentraler Grenzwertsatz) - bei n < 30 ist der Quotient der z-Transformation t-verteilt mit n-1 Freiheits- graden: - Beispiel: wie oben, aber mit n = 25 befragte Studenten: - mit einer Sicherheit von 95% liegt der Erwartungswert der GG im Bereich 3256m bis 3544m

11 Schätzverfahren 4.1 Konfidenzintervall für die Varianz und Standardabweichung: - gegeben sind die empirischen Varianzen s2 von Zufalls-STP der Größe n - die Kennwerteverteilung der s2 ist dann χ2-verteilt mit n – 1 Freiheitsgraden - wegen der Asymmetrie der χ2-Verteilung sind zwei unterschiedliche Quantil- werte zu bestimmen: - aus der Tabelle der Funktionswerte der χ2-Verteilung lassen sich die beiden Quantilwerte ablesen: - Konfidenzintervall für die Varianz σ2 der GG gegeben die empirische Varianz s2 einer STP der Größe n: - analog gilt für die Standardabweichung σ der GG:

12 Schätzverfahren 4.1 Beispiel zum Konfidenzintervall für die Standardabweichung: - wie oben mit n = 250 befragten Studenten und α = 5%: - mit einer Sicherheit von 95% liegt die Standardabweichung der GG im Bereich 1010m bis 1203m

13 Schätzverfahren 4.1 Exspektanz:
- gegeben eine bekannte oder vermutete Verteilungsfunktion FX(x) der GG lässt sich der Wertebereich bestimmen, in dem bei zukünftigen STP Werte mit einer bestimmten Wahrscheinlichkeit S auftreten - bei einem symmetrischen Wertebereich Δx um das arithmetische Mittel der STP mit den Grenzen xu, und xo gilt: - Wertebereich Δx heißt Exspektanz: Mutungsbereich, in dem zukünftige STP- Werte mit einer Wahrscheinlichkeit S=1-α erwartet werden (bei NV): - 2 komplementäre Fragestellungen: - die Berechnung kann entweder direkt mit einer bekannten theoretischen oder mit einer empirischen Verteilungsfunktion durchgeführt werden - bei empirischen Verteilungen ist zunächst zu überprüfen, welche Verteilung der STP-Werte realisiert ist, um die richtigen Quantile bei der Berechnung der Konfidenzintervalle zu verwenden Standardabweichung s der STP wird hier nicht mit normiert, da es nicht um die Streuung des STP-Mittels, sondern der STP-Werte geht - S gegeben und Δx gesucht - Δx gegeben und S gesucht

14 Schätzverfahren 4.1 Beispiel zur Exspektanz:
- mittlere Oktobertemperaturen in Würzburg (n = 50): - Einteilung in 7 Klassen mit absoluten, rela- tiven und akkumulierten Häufigkeiten: - graphische Schnellprüfung der klassifizierten Messwerte auf Normalverteilung: Wahrscheinlichkeitsnetz Gerade → NV(x,s) - Abzisse: Klassenobergrenzen - Ordinate: kumulative prozentuale Häufigkeiten

15 Schätzverfahren 4.1 Beispiel zur Exspektanz: - Kennwerte der STP:
- Konfidenzintervalle der GG-Parameter: - obwohl das Konfidenzintervall für σ relativ groß ist, wird zunächst auch für die GG eine Normalverteilung angenommen - Frage: in welchem Wertebereich Δx ist in S=90% der Fälle eine beobachtete Oktobertemperatur zu erwarten? - Exspektanz um Stichprobenmittel wie folgt zu berechnen: - wegen des großen Konfidenzintervalls von σ kann auch von einem zu kleinen STP-Umfang ausgegangen werden, was dann die Berechnung auf Basis der t- Verteilung impliziert:

16 Schätzverfahren 4.1 Festlegung des Stichprobenumfangs:
- STP-Umfang, Irrtumswahrscheinlichkeit und Konfidenzintervalle hängen un- mittelbar zusammen - in der Praxis wird schmales Konfidenzintervall bei hoher Sicherheit bevorzugt - gegeben eine angestrebte Genauigkeit (L = Δcrit) und eine Irrtumswahrschein- lichkeit α lässt sich der Mindestumfang der STP berechnen - STP-Umfang für Konfidenzintervall der Länge L von Erwartungswert μ mit bestimmtem Konfidenzkoeffizienten S: - Beispiele zur Bestimmung des STP-Umfangs:

17 Schätzverfahren 4.1 Festlegung des Stichprobenumfangs:
- mit kleiner werdender Konfidenzintervallbreite (KIB) wächst der benötigte STP-Umfang quadra- tisch an: für Halbierung des Konfidenzintervalls benötigt man den 4-fachen STP-Umfang - STP-Umfang ist auch Funktion der Irrtumswahr- scheinlichkleit α, aber weniger sensitiv - STP-Umfang hängt auch von der empirischen Varianz s2 innerhalb der STP ab: - Beispiel: - empirische Varianz a-priori meist nicht bekannt; dann u.U. kleine Voruntersuchung durchführen und σ2 = s2 iterativ festlegen je kleiner die empirische Varianz der STP desto kleiner der Standardfehler der STP und desto kleiner der benötigte STP-Umfang  Klumpen-STP statt Zufalls-STP

18 Fehlerrechnung 4.2 in den Geowissenschaften beruhen viele STP-Daten auf physikalischen Messungen: - begrenzte Messgenauigkeit aus technischen Gründen - Variationen des Messsystems - Variationen durch die menschliche Handhabung  Fluktuationen der Messwerte bei ansonsten gleichen Randbedingngen: 2 Arten von Messfehlern: - systematische Fehler: - bevorzugte Richtung der Abweichung vom Zielwert - potentiell erkennbar und eliminierbar - z.B. Strahlungseinfluss auf Thermometer - stochastische Fehler: - zufällige Streuung um Zielwert - prinzipiell nicht eliminierbar - z.B. Messgenauigkeit des Niederschlages  Trennung der beiden Fehlerarten entweder kausal (Ursachen: z.B. Mess- apparatur) oder empirisch( z.B. durch systematische Abweichungen vom gesetzmäßigen Verhalten der zufälligen Fehler = Fehlerverteilungsgesetze) Messwert an einem Ort zu einem Zeitpunkt Zielwert: deterministisch, beliebig genau Messfehler systematischer Messfehler (raumzeitunabh.) systematischer Messfehler (raumzeitabh.) stochastischer Messfehler (raumzeitabh.)

19 Fehlerrechnung 4.2 Ursachen für das Auftreten von systematischen Fehlern: - Apparaturfehler: Messanordnung, Eichfehler, Skalenfehler, Trägheitsfehler - Handhabungsfehler: Parallaxenfehler beim Ablesen, Körpertemperatur, Erschütterungen, Bedienfehler - Auswertungsfehler: Umrechnung, Rundung, Statistik, graphische Darstellung - Interpretationsfehler: Fehlinterpretation wegen fehlender Metadaten Fehlerverteilungsgesetze: - auch wenn keine systematischen Fehler vorliegen existieren immer zufällige Fehler - verbleibende Messwertvariationen verlaufen nach bestimmten Gesetzen: Fehlerverteilungsgesetze nach Gauß ( ): bei unendlich vielen Messungen xi stellt sich bei diskreten (metrischen) Daten die Binomialvertei- lung (Normalverteilung) exakt ein - anhand der Häufigkeitsverteilung der Messwerte lässt sich beurteilen, ob nur noch zufällige Fehler verbleiben: f f NV / b: nur εz systematischer “Bias“: εs + εz xi xi

20 Fehlerrechnung 4.2 Fehlerschätzung:
- zufällige Fehler legen die Messgenauigkeit einer Versuchsapparatur fest - Bestimmung der Messgenauigkeit mit Hilfe der Fehlerschätzung nach Gauß - gegeben eine Messreihe xi , i=1..n unter konstanten Rahmenbedingungen: einfache Fehlerschätzung - ohne stochastische Fehler sollte sich numerisch exakt der gleiche Wert für alle xi einstellen - nach Gauß ist das arithmetische Mittel der xi der sog. Bestwert der Messung, der sich im Falle εz = 0 einstellen würde - zufällige Fehler werden als Unschärfe der Messwerte definiert: Zahlenwert- intervall im Sinne eines Mutungsbereiches - theoretisch mit Sicherheitswahrscheinlichkeit S zu verbinden, in der Praxis aber meist nur Bereich zwischen ±1∙s mit S = 68,26% (bei NV) angegeben: - keine sehr konservative Schätzung für die Messgenauigkeit: besser S = 95% absoluter Standardfehler des Bestwertes relativer Standardfehler des Bestwertes

21 Fehlerrechnung 4.2 Beispiel zur Fehlerschätzung:
- Messreihe mit 8 Versuchen unter identischen Randbedingungen: - Messgenauigkeit wird bereits durch die erste Ziffer des absoluten Standard- fehlers festgelegt - Messresultat lautet somit: - bei abgeleiteten Größen sollte die Messgenauigkeit mit einer Ziffer weniger angegeben werden als bei den Originaldaten Versuch xi 1 22,6°C 2 22,8°C 3 22,7°C 4 5 23,0°C 6 7 22,5°C 8

22 Fehlerrechnung 4.2 Fehlerfortpflanzung:
- im Gegensatz zur einfachen Fehlerschätzung nun Messergebnis E betrachtet, das sich aus mehreren fehlerbehafteten Messgrößen a,b,c,... zusammensetzt: - Bestwert des zusammengesetzten Messergebnisses ist: - ferner sind die absoluten und relativen (nichtprozentualen) Standardfehler der Einzelmessgrößen und des zusammengesetzten Messergebnisses: - Fehlerfortpflanzungsgesetz nach Gauß:

23 Fehlerrechnung 4.2 Fehlerfortpflanzung:
- nach den Regeln der Differentialrechnung ergeben sich für verschiedene Rechenoperationen zwischen den Einzelmessgrößen die folgenden Fehler- abschätzungen: - in der Praxis lässt sich Fehlerfortschreibung entweder analytisch oder durch sukzessives Einbringen der individuellen Fehlergrößen in die Funktionsglei- chung von E = f(a,b,c,…) bewerkstelligen

24 Fehlerrechnung 4.2 Beispiel zur Fehlerfortpflanzung:
- gesucht ist Messgenauigkeit für das zusammengesetzte Messergebnis: - Messreihen und -fehler zu den einzelnen Messgrößen a,b,c: - sukzessives Vorgehen gemäß E = f(a,b,c): - das zusammengesetzte Messergebnis lautet E = 275±59 Versuch ai bi ci 1 7 3,5 14 2 6 3,7 17 3 8 3,6 19 4 10

25 Prinzip statistischer Tests
4.3 neue Fragestellung: zuerst Eigenschaften der GG postulieren und dann prüfen, ob diese Eigenschaften durch eine STP bestätigt werden können daran schließt sich Frage an, wie stark ein STP-Kennwert von einem GG-Parameter abweichen darf, um als Bestätigung für die Grundannahmen zur GG zu gelten Brauchbarkeit der Theorie zu einer GG lässt sich dadurch bemessen, inwiefern sich Teilaussagen dieser Theorie (Hypothesen) in der Praxis bewähren Alternativhypothesen (Gegenhypothesen): - beinhalten innovative Aussagen, die über den gegenwärtigen Kenntnisstand der Wissenschaft hinausgehen - Aufgabe der Wissenschaft besteht darin zu überprüfen, ob die Realität durch solche Alternativhypothesen besser erklärt werden kann Alternativhypothese: “Das Wertheim-Village schafft neue Arbeitsplätze.“

26 Prinzip statistischer Tests
4.3 Alternativhypothesen: - Unterschiedshypothesen: Häufigkeits- und Mittelwertvergleiche - Zusammenhanghypothesen: Korrelationsrechnung - gerichtete Hypothese: Änderung in eine bestimmte Richtung (besser/schlechter, größer/kleiner, …); negative/positive Korrelation - ungerichtete Hypothese: Änderung allgemein; Korrelation allgemein - spezifische Hypothese: Änderung um (mindestens) einen bestimmten Betrag - unspezifische Hypothese: Änderung allgemein - Hypothesenformulierung hängt von den Vorkenntnissen zum Sachverhalt ab: - Überprüfung einer Hypothese erfordert Übersetzung der wissenschaftlichen Hypothese in eine statistische Alternativhypothese H1: ungerichtete unspezifische Hypothese gerichtete spezifische Hypothese Stand der Vorkenntnisse wissenschaftliche Hypothese: “Das Wertheim-Village schafft neue Arbeitsplätze.“ statistische Alternativhypothese: “Im Mittel war die Arbeitslosenquote vorher (μo) höher als hinterher (μ1).“ Nomenklatur: H1 : μ0 > μ1 H1 : ρ > 0 Operationa- lisierung

27 Prinzip statistischer Tests
4.3 Nullhypothese: - konkurrierend zur Alternativhypothese: konservativer Standpunkt - beinhaltet keine inhaltliche Aussage außer der Negation von H1 - statistische Nullhypothese ist zwingend komplementär zur Alternativhypothe- se: - in der klassischen Prüfstatistik repräsentiert die Nullhypothese die Basis, bezüglich derer die Alternativhypothese akzeptiert werden darf oder nicht - nur wenn die Realität nicht mit der Nullhypothese vereinbar ist, darf Alternativ- hypothese akzeptiert werden (konservative Sicht in der Wissenschaft) Unterschiedshypothesen: Zusammenhanghypothesen:

28 Prinzip statistischer Tests
4.3 Entscheidung über Richtigkeit einer der beiden Hypothesen anhand der STP-Daten: - verbunden mit Unsicherheit (=Wahrscheinlichkeit) - durch zufällige STP-Auswahl könnten die beiden Hypothesen fälschlicher- weise akzeptiert bzw. verworfen werden Fehlerarten bei statistischen Entscheidungen: - α-Fehler: Nullhypothese wird fälschlicherweise verworfen - β-Fehler: Nullhypothese wird fälschlicherweise angenommen - in der Praxis können beide Fehlerarten zu Fehlentscheidungen mit teils gravierende Konsequenzen führen (z.B. Fehlinvestitionen, unzureichende Sicherheitsmaßnahmen etc.)

29 Prinzip statistischer Tests
4.3 Signifikanz: - Qualität einer statistischen Entscheidung kann verstanden werden als die Wahrscheinlichkeit, einen α- oder β-Fehler zu begehen - Wahrscheinlichkeit für einen α-Fehler heißt Irrtumswahrscheinlichkeit (Signifikanz): bedingte Wahrscheinlichkeit gegeben H0 in der GG - Bestimmung der Irrtumswahrscheinlichkeit α basiert auf der Zufallsverteilung der Stichprobenmittelwerte: nach dem zentralen Grenzwertsatz sind Stichprobenmittel einer GG normalverteilt mit μ0 und σX Mittelwert einer bestimmten STP sei x (z.B. Arbeitslosenquote hinterher) schraffierte Fläche kennzeichnet Wahr- scheinlichkeit, dass der Wert x in der GG erreicht oder überschritten wird diese Fläche kennzeichnet die Irrtums- wahrscheinlichkeit α bei einer Entschei- dung zu Ungunsten der Nullhypothese

30 Prinzip statistischer Tests
4.3 Signifikanz: - in der Praxis ist empirische Ermittlung der Zufallsverteilung der STP-Mittelwer- te meist zu aufwendig (sehr viele Befragungen/Versuche nötig) - aber diese Verteilung lässt sich schätzen aus einer oder mehreren STP der GG, die die Nullhypothese kennzeichnet: - gegeben den Mittelwert x einer spezifischen zu überprüfenden STP von hin- reichendem Umfang lässt sich die Irrtumswahrscheinlichkeit α über eine z- Transformation ermitteln: Irrtumswahrscheinlichkeit je nach Fragestellung: Überschreitungswahrscheinlichkeit: α = 1 - P(X  z) Unterschreitungswahrscheinlichkeit: α = P(X  -z) -z μ0 z

31 Prinzip statistischer Tests
4.3 Beispiel zur Signifikanz: - neues Lehrkonzept in der Statistikvorlesung besser? - bei herkömmlichem Lehrkonzept μ0 = 40 Testaufgaben gelöst mit einer Streuung von σ = 8 (Verteilung der Werte unter H0) - bei 100 Studenten wurden unter dem neuen Lehrkonzept im Mittel 42 Test- aufgaben gelöst - Standardfehler der STP-Mittelwerte in der GG: - z-Transformation des zu überprüfenden STP-Mittelwertes: - Funktionswert aus der Tabelle der Verteilungsfunktion der Standard-NV liefert: - ein STP-Mittelwert von x = 42 tritt nur in 0,62% der STP aus der GG der Nullhypothese auf - Ablehnung der Nullhypothese erfolgt mit einer Irrtumswahrscheinlichkeit von 0,62% (sehr gering) → H1 zu akzeptieren: neues Lehrkonzept besser!

32 Prinzip statistischer Tests
4.3 Signifikanzniveau: - Beitrag der Statistik endet bei der Berechnung der Irrtumswahrscheinlichkeit - darüber hinaus ist nur eine subjektive Einschätzung und Entscheidungsfin- dung möglich - zur Vergleichbarkeit statistischer Entscheidungen hat sich die Konvention etabliert, eine Nullhypothese erst bei α = 5% bzw. α = 1% abzulehnen - diese Schwellenwerte der Irrtumswahrscheinlichkeit heißen Signifikanzniveau: - Auswahl eines Signifikanzniveaus muss a-priori erfolgen je nach Ausmaß der Konsequenzen aus einer fälschlicherweise abgelehnten Nullhypothese - Beispiel zum neuen Lehrkonzept führt mit der Annahme von H1 zu einem sehr signifikanten Ergebnis - häufige Missverständnisse: Signifikanzaussage ist nicht identisch mit der: signifikantes Ergebnis: H0abgelehnt bei α = 5%  P(Ergebnis|H0)  5% sehr signifikantes Ergebnis: H0 abgelehnt bei α = 1%  P(Ergebnis|H0)  1% Wahrscheinlichkeit des Ergebnisses: P(Ergebnis|H0) ≠ P(Ergebnis) Wahrscheinlichkeit der Nullhypothese: P(Ergebnis|H0) ≠ P(H0) Wahrscheinlichkeit des Alternativhypothese: P(Ergebnis|H0) ≠ 1 - P(H0) Wahrscheinlichkeit der H0 gegeben das Ergebnis: P(Ergebnis|H0) ≠ P(H0|Ergebnis) stattdessen Verknüpfung über Bayes-Theorem:

33 Prinzip statistischer Tests
4.3 Signifikanzniveau: - die Chance auf ein signifikantes Ergebnis vergrößert sich mit dem STP- Umfang, dem Abstand x – μ0 und einer kleineren Streuung innerhalb der GG: - Annahme der Alternativhypothese einer neuen Theorie erfolgt nur indirekt durch Ablehnung der Nullhypothese - Signifikanzniveaus von 5% bzw. 1% sollen als gute wissenschaftliche Praxis verstanden werden, um neue Theorien gegenüber Spekulationen abzusichern - in der Alltagswelt begnügen wir uns bei vielen Entscheidungen bereits mit einer Irrtumswahrscheinlichkeit von 20%

34 Prinzip statistischer Tests
4.3 Ein- und zweiseitige Tests: - einseitiger Test: gerichtete Hypothesen H1 : μ1 > μ0 , μ1 < μ0 - zweiseitiger Test: ungerichtete Hypothesen: μ1 ≠ μ0 einseitiger Test: Fläche von α nur auf eine Seite der Verteilung beschränkt entsprechende Quantile liegen näher am Mittelwert μ0 = 40: zweiseitiger Test: Fläche von α auf beide Seiten der Verteilung aufgeteilt entsprechende Quantile liegen weiter entfernt vom Mittelwert μ0 = 40: “kritischer Wert“

35 Prinzip statistischer Tests
4.3 Ein- und zweiseitige Tests: - zweiseitige Hypothesenformulierung erhöht den kritischen Wert und somit die Chance, dass die Nullhypothese bei einem festen α angenommen wird - klassischer inhaltlicher Bezug: eine Alternativhypothese mit mehr Vorkenntnis wird eher bestätigt Statistische Signifikanz und praktische Bedeutung: - ein signifikantes Ergebnis ist abhängig vom STP-Umfang, also nicht auf beliebige STP unterschiedlicher Größe zu transferieren: - bei genügend großen STP ist jede Nullhypothese zu verwerfen: Wert der Signifikanzaussage? n xcrit , α = 1% 36 40 + 3,11 100 40 + 1,32 1000 40 + 0,59 10000 40 + 0,19 gleiche Differenz x – μ0 führt zu unterschiedlichen Entscheidungen über H1 in Abhängigkeit von n Frage nach praktischer Relevanz von 0,19 mehr richtigen Testaufgaben trotz statistischer Signifikanz

36 Prinzip statistischer Tests
4.3 Statistische Signifikanz und praktische Bedeutung: - es ist ein objektiver Standard gefordert, der eine statistische Entscheidung mit Kriterien der praktischen Bedeutsamkeit verbindet: Effektgröße - Effektgröße kennzeichnet den Mindestunterschied zwischen zwei GG, um von praktischer Relevanz zu sein: - Effektgröße wird mathematisch wie folgt definiert: - Festlegung der Effektgröße muss a-priori erfolgen und ist immer an inhaltli- chen Fragestellungen orientiert: - bei festgelegter Effektgröße und Irrtumswahrscheinlichkeit lässt sich der benö- tigte STP-Umfang ableiten (s.u.) - Mittelwertdifferenz x – μ0 - Mindestkorrelation - Prozentwertdifferenz Wie viele mehr gelöste Testaufgaben rechtfertigen den Aufwand eines neuen Lehrkonzeptes? Welche Reduktion der Arbeitslosenquote führt zu relevanten Impulsen beim Konsum?

37 Statistische Tests für Intervalldaten
4.4 bislang statistischen Kennwert einer STP mit dem zugehörigen Parameter einer bekannten GG verglichen in der Praxis sind GG-Parameter selten bekannt, so dass Kennwerte eher zwischen STP verglichen werden je nach Skalenart der Daten unterschiedliche Tests: im Zweifelsfall sind immer mehrere Tests durchzuführen und bei unter-schiedlichen Ergebnissen immer der Test mit den geringsten Anforderun-gen an das Skalenniveau zu bevorzugen zusätzlich noch Unterscheidung nach Zusammenhang der verglichenen STP: - Intervall-/Rationalskala - Ordinalskala - Nominalskala - unabhängige Stichproben - abhängige Stichproben

38 Statistische Tests für Intervalldaten
4.4 Vergleich STP-Mittelwert und Erwartungswert der GG: - Alternativhypothese: Zufalls-STP gehört zu einer GG mit Erwartungswert μ1, die von einer Referenz-GG mit E(X) = μ0 abweicht: - Entscheidung hängt von der Differenz ab - bei hinreichend großen STP sind STP-Mittel unter der H0 normalverteilt: - Differenz kann in Standardnormalverteilung transformiert werden: - aus Tabelle der Standardnormalverteilung wird kritischer Wert für eine vorge- gebene Irrtumswahrscheinlichkeit α bei ein- oder zweiseitigem Test abgelesen und Entscheidung getroffen: bei kleinen STP kann u.U. die Binomialverteilung unter H0 realisiert sein: Binomial-Test Prüfgröße: Prüfgröße jenseits des kritischen Wertes: Prüfgröße diesseits des kritischen Wertes:

39 Statistische Tests für Intervalldaten
4.4 Vergleich STP-Mittelwert und Erwartungswert der GG: - graphische Veranschaulichung der möglichen Fälle: H1 : μ0 < μ1 H1 : μ0 > μ1 einseitiger Test H1 : μ0 ≠ μ1 z führt zur Annahme von H0 von H1 zweiseitiger Test

40 Statistische Tests für Intervalldaten
4.4 Vergleich STP-Mittelwert und Erwartungswert der GG: - Beispiel: männliche Geographen haben einen geringeren IQ (gerichtete H1) als die GG aller Männer: - bekannte GG mit μ0 = 100 und σ = 10 - STP mit n = 36 Geographen und x = 98 - Prüfgröße: - kritischer Wert bei α = 0,05, einseitiger Test: - statistische Entscheidung: - Antwortsätzchen: “Männliche Geographen sind nicht dümmer als andere Männer“

41 Statistische Tests für Intervalldaten
4.4 Vergleich STP-Mittelwert und Erwartungswert der GG: - bei kleinen STP mit n  30 gilt der zentrale Grenzwertsatz nicht, d.h. die STP- Mittelwerte sind nicht normalverteilt - wenn trotzdem gewährleistet ist, dass die GG normalverteilt ist, verteilen sich die Differenzen x – μ entsprechend einer t-Verteilung mit n – 1 Freiheitsgraden - Prüfgröße lautet dann: - kritischer Wert dann aus Tabelle der Funktionswerte der t-Verteilung in Abhängigkeit von α und Anzahl der Freiheitsgrade Φ = n – 1 : - um 1 reduzierte Anzahl der Freiheitsgrade resultiert daraus, dass für die Berechnung des Standardfehlers der Mittelwert eingeht, so dass nur n – 1 Abweichungsquadrate frei variieren dürfen wegen: - Beispiel IQ von männlichen Geographen bei n = 29:  H0 annehmen

42 Statistische Tests für Intervalldaten
4.4 Vergleich von zwei STP-Mittelwerten aus unabhängigen STP: - Alternativhypothese: die beiden STP stammen aus unterschiedlichen GG mit Erwartungswert μ0 und μ1 - unter H0 ist Erwartungswert dieser Differenz gleich Null - gegeben sind zwei STP der Größe n1 bzw. n2 mit Mittelwert x1 bzw. x2 und Varianzen s21 und s22 - Differenz der STP-Mittelwerte ist als Linearkombination zweier unabhängiger ZVA zu verstehen mit Varianz und Standardfehler: - bei unbekannter GG-Varianz ergibt sich geschätzter Standardfehler:

43 Statistische Tests für Intervalldaten
4.4 Vergleich von zwei STP-Mittelwerten aus unabhängigen STP: - Prüfgröße (t-Test): - diese Prüfgröße ist t-verteilt mit n1 + n2 -2 Freiheitsgraden bzw. mit zunehmen- dem STP-Umfang (n1 + n2 -2  50) normalverteilt - Beispiel: weibliche Geographen sind belastbarer als männliche Geographen (gerichtete H1, einseitiger Test, α = 0,05):

44 Statistische Tests für Intervalldaten
4.4 Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - bei manchen Fragestellungen werden parallelisierte STP (matched samples) betrachtet, bei denen die Elemente in beiden STP paarweise einander zugeordnet sind (z.B. Ehepartner, wiederholte Messung vor und nach Krankheit) - solche abhängigen STP lassen sich ebenfalls mit t-Test überprüfen, aber Varianzen der beiden STP beeinflussen sich u.U. gegenseitig - zu umgehen, indem nur zusammengehörende Messwertpaare betrachtet werden in Form der ZVA D: - arithmetisches Mittel über alle n Messwertpaare: - nun interessiert die Verteilung des Mittelwertes von Differenzen statt die Verteilung der Differenz von Mittelwerten (t-Test für unabhängige STP, s.o.):

45 Statistische Tests für Intervalldaten
4.4 Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - Prüfgröße (t-Test): - wegen H0 : μd = 0 gilt für die Prüfgröße unter H0 vereinfacht: - diese Prüfgröße ist t-verteilt mit n – 1 Freiheitsgraden - gilt streng genommen nur, wenn Differenzen in der GG (STP) annähernd normalverteilt, aber t-Test relativ robust ggü. Verletzungen

46 Statistische Tests für Intervalldaten
4.4 Vergleich von zwei STP-Mittelwerten aus abhängigen STP: - Beispiel: Geographiestudenten schätzen ihre Leistungsfähigkeit in der Statistik falsch ein (ungerichtete H1, α = 0,05): - Geographiestudenten unterschätzen ihre Leistungsfähigkeit signifikant STP1 : geschätzte Anzahl gelöster Aufgaben STP2 : tatsächliche Anzahl gelöster Aufgaben Proband STP1 STP2 1 40 48 2 60 55 3 30 44 4 59 5 70 6 35 36 7 8 28 9 39 10 50 11 64 12 25 22 13 19 14 53 15

47 Statistische Tests für Intervalldaten
4.4 Vergleich STP-Varianz und GG-Varianz: - Alternativhypothese: STP gehört aufgrund der Unterschiedlichkeit ihrer Werte nicht in eine bestimmte GG mit σ02 sondern in GG mit σ12 (ungerichtete H1): - gegeben ist die Varianz σ02 der GG und eine STP der Größe n mit geschätzter Varianz: - Prüfgröße (χ2-Test): - diese Prüfgröße ist χ2-verteilt mit n – 1 Freiheitsgraden - kritischer Wert dann aus Tabelle der Funktionswerte der χ2-Verteilung - diesmal ist Voraussetzung der normalverteilten GG sehr stringent - gegebenenfalls vorab statistischen Test auf NV durchführen (s.u.)

48 Statistische Tests für Intervalldaten
4.4 Vergleich STP-Varianz und GG-Varianz: - Beispiel: Geographieprofessoren unterscheiden sich stärker in ihren Ge- stimmtheiten als andere Professoren (gerichtete H1, α = 0,05) - aus Eichstichprobe ist Referenzwert der GG bekannt mit σ0 = 15 - bei einer STP von n = 80 Geographieprofessoren wurde ein Wert von = 19 festgestellt - Annahme der NV bei Testwerten der 80 Probanden - χ2-Test: - Gestimmtheit bei Geographieprofessoren schwankt signifikant stärker als bei anderen Professoren

49 Statistische Tests für Intervalldaten
4.4 Vergleich von zwei STP-Varianzen aus unabhängigen STP: - Alternativhypothese: zwei STP stammen aus Grundgesamtheiten mit unter- schiedlicher Varianz, wobei die GG1 stärker streut als die GG2 (gerichtete H1) - gegeben sind zwei STP mit den Schätzwerten: - Prüfgröße (F-Test): - wegen H0 : σ21 = σ22 gilt für die Prüfgröße unter H0 vereinfacht:

50 Statistische Tests für Intervalldaten
4.4 Vergleich von zwei STP-Varianzen aus unabhängigen STP: - diese Prüfgröße ist F-verteilt mit: - kritischer Wert dann aus Tabelle der Funktionswerte der F-Verteilung - Annahme der normalverteilten GG ist ebenfalls stringent - Konvention: größere STP-Varianz muss im Zähler stehen, da Tabellenwerte meist nur für die rechte Seite der asymmetrischen F-Verteilung im Intervall [1 < F < ] angegeben werden - bei kleinerer STP-Varianz im Zähler wäre Intervall [0 < F < 1] gefragt - zweiseitige Tests lassen sich ebenfalls nicht durchführen - Test für Varianzen aus abhängigen STP: Wilcox-Test - Beispiel: Würzburger Geographiestudenten decken ein größeres politisches Meinungsspektrum ab als Münchner Geographiestudenten (gerichtete H1, α = 0,05), Operationalisie- rung durch Meinungsindex:

51 Statistische Tests für Ordinaldaten
4.5 statistische Tests für Ordinaldaten erfordern weniger Voraussetzungen bzgl. Skalenniveau und Verteilung der GG: - für alle ordinalskalierten Daten - für Intervall- und Rationaldaten, die nicht die Voraussetzungen für die obigen Tests erfüllen Vergleich von zwei unabhängigen STP bzgl. zentraler Tendenz: - arithmetisches Mittel bei Ordinal- daten nicht definiert - Beispiel: Medikament zur Verkür- zung der Reaktionszeit unter Alko- holeinfluss: - Reaktionszeit sei nicht normalver- teilt: verteilungsfreies Verfahren - dann U-Test von Mann-Whitney mit Alkohol mit Alkohol und Medikament Zeit Rang 85 4 96 10 106 17 105 16 118 22 104 15 81 2 108 19 138 27 86 5 90 8 84 3 112 21 99 12 119 23 101 13 107 18 78 1 95 9 124 25 88 7 121 24 103 14 97 11 129 26 87 6 109 20 Gruppe 1: n1 = 12 Gruppe 2: n2 = 15 Sortierung nach Rangplätzen über beide Gruppen

52 Statistische Tests für Nominaldaten
4.6 Tests für Nominaldaten immer dann angebracht, wenn Häufigkeitsunter-schiede im Auftreten bestimmter Merkmale oder Merkmalskombinationen untersucht werden sollen: - Prüfgrößen meist χ2-verteilt: χ2-Methoden - nicht nur für kategoriale Daten - auch bei klassifizierten Intervall- und Rationaldaten - auch bei Ordinaldaten mit vielen verbundenen Rangplätzen } Analyse von Häufigkeiten (Verteilungen) Statistische Tests für Intervall- und Ordinaldaten: Statistische Tests für Nominaldaten: Analyse von Parametern Analyse von Verteilungen Unterschiedstests Anpassungstests

53 Statistische Tests für Nominaldaten
4.6 Vergleich von Häufigkeiten eines zweifach gestuften Merkmals: - Beispiel: im Fachbereich Statistik seien 869 männliche und 576 weibliche Studenten immatrikuliert: kommt dieser Unterschied zufällig zustande? - 2 Nullhypothesen: - bei H0 mit gleichverteilten Merkmalsalternativen ergeben sich die folgenden erwarteten (theoretischen) Häufigkeiten he: - je größer die Abweichungen der beiden fb von fe desto unwahrscheinlicher H0 - da Abweichungen in der Summe Null, wird Prüfgröße über standardisierte Summe der quadrierten Abweichungen gebildet (χ2-Test): - H0 : Übereinstimmung mit ausgewogenem Geschlechterverhältnis 50:50 - H0 : Übereinstimmung mit Geschlechterverhältnis an der gesamten Universität große Abweich- ungen stärker gewichtet

54 Statistische Tests für Nominaldaten
4.6 Vergleich von Häufigkeiten eines zweifach gestuften Merkmals: - da bei zweifach gestuftem Merkmal nur ein Summand frei variieren kann, ist die Anzahl der Freiheitsgrade der χ2-verteilten Prüfgröße immer: Φ=1 - kritischer Wert χ21-α;Φ abzulesen aus Tabelle der Funktionswerte der χ2- Verteilung: - zu beachten: χ2-Funktionswerte in Tabelle sind auf ungerichtete H1 angepasst: - bei gerichteter H1 den Funktionswert für die doppelte Irrtumswahrscheinlich- keit α ablesen: - einseitiger Test kann auch über die Standardnormalverteilung durchgeführt werden mit Prüfgröße: - gerichtete Hypothesen bei χ2-Methoden nur möglich, wenn Φ = 1 H1 : es existiert keine Gleichverteilung der Geschlechter H1 : es gibt mehr männliche als weibliche Studenten

55 Statistische Tests für Nominaldaten
4.6 Vergleich von Häufigkeiten eines zweifach gestuften Merkmals: - bei H0 mit nicht gleichverteilten Merkmalsalternativen sind zunächst die theoretischen Wahrscheinlichkeiten für das Auftreten der beiden Merkmals- alternativen zu bestimmen: - unter H0 ergibt sich dann die folgende erwartete Häufigkeit für jede Merkmals- alternative gegeben eine STP der Größe n: - gleiche Prüfgröße wie oben: - Vergleich mit kritischem Wert der χ2-Verteilung χ21-α;Φ = 3,84 führt zur Annahme von H1 männliche Studenten an Uni:  p(♂) = weibliche Studenten an Uni:  p(♀) = he(♂) = 1445 • 0,87 = 1257,15 he(♀) = 1445 • 0,13 = 187,85

56 Statistische Tests für Nominaldaten
4.6 Vergleich von Häufigkeiten eines mehrfach gestuften Merkmals: - χ2-Test direkt auf k-fach gestufte Merkmale zu übertragen mit Nullhypothese bzgl. beliebiger Verteilungsform je nach Skalenniveau: - Beispiel: Unterschiede bei Verkaufszahlen von 4 alternativen Produkten: - Nullhypothese bei Gleichverteilung: die Verkaufszahlen unterscheiden sich rein zufällig - dann unter H0 erwartete Verkaufszahlen (n = STP-Umfang): - dann Prüfgröße für k Kategorien / Klassen: } - Gleichverteilung - beliebige a-oriori Verteilung - Normalverteilung - Poissonverteilung Nominalskala } Intervallskala STP Produkt A Produkt B Produkt C Produkt D Anzahl: 70 120 110 100 (a) (b) (c) (d)

57 Statistische Tests für Nominaldaten
4.6 Vergleich von Häufigkeiten eines mehrfach gestuften Merkmals: - diese Prüfgröße ist χ2-verteilt mit k – 1 Freiheitsgraden (α = 0,05): - Nullhypothese beliebiger a-priori Verteilung: die Verkaufszahlen unter- scheiden sich rein zufällig von denen anderer Warenhäuser mit: - dann sind wieder die theoretischen Wahrscheinlichkeiten und erwarteten Häufigkeiten angesichts der STP mit n = 400 umzurechnen: - Prüfgröße: - kritischer Wert (α = 0,05): - Klassenhäufigkeiten sollten immer größer als 5 sein GG Produkt A Produkt B Produkt C Produkt D Anzahl: 560 680 640 700

58 Statistische Tests für Nominaldaten
4.6 Vergleich von Häufigkeiten eines mehrfach gestuften Merkmals: - Nullhypothese bei Normalverteilung: Merkmalsverteilung ist normalverteilt (nur bei Intervalldaten möglich) (“goodness of fit test“) - erwartete Häufigkeiten werden über standardisierte Klassengrenzen und zugehörige Fläche unter der Standardnormalverteilung ermittelt: - Prüfgröße wieder: - diese Prüfgröße ist χ2-verteilt mit k – 3 Freiheitsgraden (n, x, s2)

59 Statistische Tests für Nominaldaten
4.6 Vergleich von bivariaten Häufigkeiten mehrfach gestufter Merkmale: - bivariater Fall: unabhängige Beobachtungen werden zwei Merkmalen zuge- ordnet, von denen das eine k-fach und das andere l-fach abgestuft ist - Beispiel: Rorschachdeutungen mit k = 4 Altersklassen (Merkmal A) und l = 3 Deutungsarten (Merkmal B), n = 500: - Nullhypothese geht wieder von vorgegebenen oder geschätzten Verteilungen aus (Anpassungs- bzw. Zusammenhangtest) - Prüfgröße lautet (sog. k-l-χ2): i = 1,2 : Index für Kategorien des 1. Merkmals (Geschlecht) j = 1,2 : Index für Kategorien des 2. Merkmals (Brille)

60 Statistische Tests für Nominaldaten
4.6 Vergleich von bivariaten Häufigkeiten mehrfach gestufter Merkmale: - Nullhypothese kann auf vorgegebenen Wahrscheinlichkeiten beruhen, die aus theoretischen Überlegungen hergeleitet werden können (z.B. Gleichverteilung) - dann ist Prüfgröße χ2-verteilt mit k • l – 1 Freiheitsgraden - meist basiert Nullhypothese aber auf geschätzten Wahrscheinlichkeiten, die wie oben aus den Randverteilungen und dem Multiplikationstheorem abgelei- tet werden: - dann ist Prüfgröße χ2-verteilt mit (k – 1) • (l – 1) Freiheitsgraden - im konkreten Fall (α = 0,05, zweiseitig): - inhaltliche Interpretation über Werte selbst H0 : die beiden Merkmale sind voneinander unabhängig

61 “Take-away“ 4 Das Anliegen der schließenden Statistik besteht darin, aus Stichproben-daten auf die Eigenschaften der Grundgesamtheit zu schließen. Bei den Schätzverfahren geht es darum, die Parameter der Verteilung der Grundgesamtheit in einem Konfidenzintervall zu schätzen. Arithmetisches Mittel und empirische Varianz sind erwartungstreue, konsistente, erschöpfende und effiziente Punktschätzer für den Erwartungswert und die Streuung der Grundgesamtheit. Messfehler unterliegen Gesetzmäßigkeiten und sind in Form der Mess-genauigkeit zu quantifizieren. Prüfverfahren basieren auf Null- und Alternativhypothese, über die mit einem bestimmten α- und β-Fehler entschieden wird, indem eine Prüf-größe mit einem kritischen Wert (Signifikanzniveau) verglichen wird. Über den α- und β-Fehler sowie die Effektgröße lässt sich der optimale Stichprobenumfang a-priori ermitteln. Bei den Prüfverfahren wird entschieden, ob eine vorliegende Stichprobe aus einer bestimmten Grundgesamtheit mit spezifischen Parametern (Unterschiedstests) oder Verteilungen (Anpassungstests) stammt.


Herunterladen ppt "Schließende Statistik"

Ähnliche Präsentationen


Google-Anzeigen