Induktive Statistik
Statistische Struktur (diskreter Fall) Dabei sind:
Schätzproblem Schätzer
Ω Θ Modell Beobachtung (Stichprobe) Grundgesamtheit (mögliche Beobachtungen) Schätzung
Ω Θ Modell Beobachtung (Stichprobe) Grundgesamtheit (mögliche Beobachtungen) Schätzung E g
Stichprobe (diskreter Fall)
Mathematischer Rahmen
Statistische Struktur diskret stetig
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer
Der Parameter ist die beste Erklärung für die Beobachtung
Likelihood-Funktion
Der Logharithmus ln x ist streng monoton wachsend
Beispiel Poisson-Verteilung Stichprobe vom Umfang n mit Poisson-verteilter Stich- Probenvariablen (Intensität: ) M-L-Schätzer für oder
Beispiel Bernoulli-Verteilung Stichprobe vom Umfang n mit Bernoulli- verteilter Stichprobenvariablen (p: Wahrscheinlichkeit des Ereignisses) M-L-Schätzer für p wieder gegeben durch:
Maximum-Likelihood-Schätzer (stetiger Fall) Likelihood-Funktion mit oder M-L-Schätzer
Der Parameter ist die beste Erklärung für die Beobachtung
Normalverteilte Stichprobenvariable M-L-Schätzer Erwartungswert Hier spielt es keine Rolle, ob die Varianz bekannt ist oder nicht. In jedem Fall gilt:
Normalverteilte Stichprobenvariable M-L-Schätzer Varianz bekannt
Normalverteilte Stichprobenvariable M-L-Schätzer Varianz unb ekannt
Übersicht
Erwartungstreue Schätzer Wenn der Parameter selbst geschätzt werden soll: Wenn ein allgemeines statistisches Problem vorliegt: Dabei bedeutet der Index, dass der Erwartungswert bzgl. des W.maßes zum Parameter genommen wird.
Schätzung des Erwartungswertes der Stichprobenvariablen X Statistisches Problem gegeben durch: Erwartungstreuer Schätzer:
Schätzung der Varianz der Stichprobenvariablen X Statistisches Problem gegeben durch: Erwartungstreuer Schätzer: Erwartungswert bekannt
Schätzung der Varianz der Stichprobenvariablen X Statistisches Problem gegeben durch: Erwartungstreuer Schätzer: Erwartungswert unbekannt
Normalverteilte Stichprobenvariable Erwartungstreuer Schätzer für den Erwarungswert Hier spielt es wieder keine Rolle, ob die Varianz bekannt ist oder nicht. In jedem Fall gilt: erwartungstreu ist erwartungstreu
Normalverteilte Stichprobenvariable Erwartungstreuer Schätzer für die Varianz bekannt erwartungstreu ist erwartungstreu
Normalverteilte Stichprobenvariable Erwartungstreuer Schätzer für die Varianz unb ekannt erwartungstreu ist erwartungstreu Kein M-L-Schätzer!!
Übersicht erwartungstreu erwartungstreu erwartungstreu nicht erwartungstreu
Aufgabe 1
0,5156 bzw. 0,5457 0,4879 0,5156 0,7745 In (a) ergeben sich M-L-Schätzer bzw. erwartungstreuer Schätzer des Erwartungswertes zu
0,0534 bzw. 0,06 0,00534 bzw. 0,006 0,333 bzw. 0,523 0,1234 bzw. 0,4321 In (a) ergeben sich M-L-Schätzer bzw. erwartungstreuer Schätzer der Varianz zu
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit, eine Beobachtung zu machen, für die der wahre Parameter im zugehörigen Intervall liegt, größer oder gleich 1 -
Niveau klein Das Niveau wird klein gewählt. (Wir nehmen in unseren Beispielen in den meisten Fällen = 0.05 oder = 0.1) Zusammenhang Es gibt aber einen Zusammenhang zwischen der Breite der Konfidenzintervalle und dem Niveau: Niveau kleiner Intervall breiter Die Intervallbreite soll möglichst gering sein.
Konfidenzintervall für den Erwartungswert Varianz bekannt Annahme: Konfidenzintervalle: wobei
Die Gauß- oder Normalverteilung
Dichte Verteilung Verteilungsfunktion
Erwartungswert Varianz
Approximative Konfidenzintervalle im Bernoulli-Fall I Konfidenzintervall zum Niveau
Approximative Konfidenzintervalle im Bernoulli-Fall II Vereinfachung für großes n (n 100)
Aufgabe 2
Die Punktschätzung für den Anteil der Verkehrsunfälle mit Fahrerflucht beträgt 0,9722 0,6225 0,3476 0,2628
Welchen γ–Wert legen Sie der Bestimmung des approximativen 95%-Konfidenzintervalls zu Grunde? t-Verteilung mit 1,76 t-Veretilung mit 2,96 Normalverteilung mit 1,67 Normalverteilung mit 1,96
Geben Sie das approximative 95%-Konfidenzintervall an: [0,345; 0,789] [0,25; 0,30] [0,244; 0,282] [0,264; 0,274]
Die Student- oder t-Verteilung Hängt von Parameter n ab!
Die Student- oder t-Verteilung Wahrscheinlichkeitsdichte Die Konstante d ist dabei:
Die Chi-Quadrat-Verteilung Hängt ebenfalls von Parameter n ab!
Die Chi-Quadrat-Verteilung Wahrscheinlichkeitsdichte Die Konstante c ist dabei: : Gamma-Funktion
unabhängige Für n unabhängige Zufallsvariablen mit hat man: Mathematische Bedeutung der Chi-Quadrat-Verteilung
unabhängige Für unabhängige Zufallsvariablen W und U mit hat man: Mathematische Bedeutung der t-Verteilung
Konfidenzintervall für den Erwartungswert Varianz unbekannt Student-Verteilung (oder t-Verteilung)
Übersicht Konfidenzintervalle für den Erwartungswert
Aufgabe 3
Verwendung der Tafel für die Normalvertreilung
TESTS
Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe) Entscheidung Vorgabe: Irrtumswahrscheinlichkeit Formulierung einer HypotheseNullhypothese In der Statistik kann man nie ganz sicher sein. Die Irrtumswahrscheinlichkeit sollte wenigstens klein sein.
Mathematischer Rahmen I TESTS Statistische Struktur Testproblem (Hypothese)Nullhypothese Gegeben sind: Stetiger Fall Diskreter Fall Niveau
Mathematischer Rahmen II TESTS Test Test gegeben durch: Ablehnungsbereich Teilmenge der Grundgesamtheit : Menge aller Beobachtungen, die zur Ablehnung der Hypothese führen
Mathematischer Rahmen III TESTS Beobachtung (Stichprobe) Entweder Oder Beobachtung liegt im Annahmebereich Beobachtung liegt im Ablehnungsbereich Hypothese annehmen! Hypothese ablehnen!
Fehler erster und zweiter Art
Hypotheseakzeptiert Hypothese abgelehnt Hypothesewahr Hypothese falschEntscheidungRealität Fehler 1. Art Fehler 2. Art
Niveau und Macht Obere Grenze für die Wahrscheinlichkeit, Fehler 1. Art einen Fehler 1. Art zu begehen Niveau Wahrscheinlichkeit, Fehler 2. Art keinen Fehler 2. Art zu begehen, wenn der wahre Parameterwert in dem Punkt liegt Macht Macht in einem Punkt der Alternative
Test für den Erwartungswert Varianz bekannt Fall Normalverteilung
Test für den Erwartungswert Varianz unbekannt Fall Normalverteilung
Aufgabe 4
Formulieren Sie in (a) die richtige Nullhypothese! H 0 = {µ 220} H 0 = {µ = 220} H 1 = {µ 220} H 0 = {µ > 220}
In (a) beträgt der kritische Wert für den Ablehnungsbereich: γ = 1,96 γ = 2,03 γ = 3,262 γ = 2,262
In (a) ist der zutreffende Wert der Prüfgröße T = 1,1678 T = 0,923 T = -2,546 T = 2,247
Treffen Sie die passende Testentscheidung! T > γ : Nullhypothese wird verworfen T γ : Nullhypothese wird angenommen T = γ : Nullhypothese wird angenommen T > γ : Nullhypothese wird angenommen
Aufgabe 5
1. Fall Vergleich zweier unabhängiger Stichproben 1. Fall 2 unabhängige Stichproben mit Stichprobenvariablen X und Y Annahmen: X und Y normalverteilt Varianz von X = Varianz von Y Hypothese: Erwartungswert von X = Erwartungswert von Y
1. Fall Vergleich zweier unabhängiger Stichproben 1. Fall Prüfgröße n: Umfang der Stichprobe 1 (Stichprobenvariable X) m: Umfang der Stichprobe 2 (Stichprobenvariable Y) Ablehnungsbereich bestimmt durch
Aufgabe 6
2. Fall Vergleich zweier unabhängiger Stichproben 2. Fall 2 unabhängige Stichproben mit Stichprobenvariablen X und Y Annahmen: X und Y normalverteilt n und m groß (> 30), damit Approximation der Varianzen sinnvoll Hypothese: Erwartungswert von X = Erwartungswert von Y
2. Fall Vergleich zweier unabhängiger Stichproben 2. Fall Ausgangspunkt Approximation Prüfgröße Ablehnungsbereich bestimmt durch
Aufgabe 7
Formulieren Sie die richtige Nullhypothese! H 0 : µ x µ y H 0 : µ x = µ y H 0 : µ x = 0 H 0 : µ x < µ y
Geben Sie den korrekten Ablehnungsbereich an! γ } A 1 = { |Z| < γ } γ } A 1 = { |Z| = γ } γ } A 1 = { |Z| > γ } γ } A 1 = { |Z| γ }
Der zutreffende Wert der Prüfgröße ist: |Z| = 1,22 |Z| = 3,44 |Z| = 2,11 |Z| = 1,45
Treffen Sie die passende Testentscheidung! H 0 wird abgelehnt, da |Z| < 2 H 0 wird angenommen, da |Z| γ H 0 wird abgelehnt, da |Z| = 244,8 H 0 wird angenommen, da |Z| > γ
Chi-Quadrat-Tests
Chi-Quadrat-Test auf Anpassung Hypothese Ablehnungsbereich
Fairer Würfel? Hypothese verwerfen!
Bakterielle Infektion durch Stämme I, II, III Vermutung Konkrete Stichprobe (80 Infektionen) (siehe: Gelbrich) Typ Prozentsatz IIIIII Anzahl IIIIII Typ
Mendelsche Gesetze rund und gelb runzelig runzelig und gelb rund und grün runzelig runzelig und grün Prozentsätze nach der Theorie
rund und gelb runzelig runzelig und gelb rund und grün runzelig runzelig und grün Beobachtete Häufigkeiten Summe 480
Krankmeldungen Wochentag Mo Di Mi Do Fr n Anzahl Krankmeldungen
Aufgabe 8
Die Faustregel ist erfüllt, da 0,03 x 210 = 6,3 5 0,3 x 210 = x 21 = ,2 x 21 = 4,2 1
Geben Sie den korrekten Ablehnungsbereich an! A 1 = {V 2 > 10,456} A 1 = {V 2 > 9,488} A 1 = {V 2 > 0} A 1 = {V 2 > -9,488}
Man kann hier den folgenden Test einsetzen: χ 2 -Test auf Homogenität χ 2 -Test auf Freiheitsgrade χ 2 -Test auf Unabhängigkeit χ 2 -Test auf Anpassung
Bestimmen Sie den zutreffenden Prüfgrößenwert! V 2 = 4,34 V 2 = 5,34 V 2 = 6,34 V 2 = 3,34
Zu testen ist hier die Verteilung: (0,22; 0,15; 0,5; 0,1; 0,03) (0,12; 0,25; 0,5; 0,1; 0,03) (0,12; 0,25; 0,6; 0,1; 0,03) (0,12; 0,2; 0,55; 0,1; 0,03)
Treffen Sie die korrekte Testentscheidung! V 2 γ : H 0 wird angenommen V 2 < γ : H 0 wird verworfen V 2 > γ : H 0 wird angenommen V 2 > γ : H 1 wird angenommen
Chi-Quadrat-Test auf Unabhängigkeit I
Chi-Quadrat-Test auf Unabhängigkeit II Hypothese Ablehnungsbereich
Chi-Quadrat-Test auf Unabhängigkeit III
Berufsstatus Vater - Sohn 38 X Y
Sonntagsfrage (Fahrmeir/Künstler/Pigeot/Tutz) Die Ergebnisse der Sonntagsfrage: Welche Partei würden Sie wählen, wenn am nächsten Sonntag Bundestagswahlen wären? sind für den Be- fragungszeitraum in der folgenden Tabelle wiedergegeben:
Das Untersuchungsziel ist festzustellen, ob die voneinander abweichenden Häufigkeiten für Männer und Frauen rein zufällige Schwankungen Darstellen oder ob zwischen Geschlecht und Partei- präferenz ein Zusammenhang besteht. Nullhypothese: Zwischen Geschlecht und Parteipräferenz besteht kein Zusammenhang
Chi-Quadrat-Test auf Unabhängigkeit zum Niveau = 0.05
Aufgabe 9
Chi-Quadrat-Test auf Homogenität Hypothese Ablehnungsbereich
Produktion zweier Betriebe
KREDITWÜRDIGKEIT Eine Bank steht vor dem Problem, einen potentiellen Kreditnehmer einzuschätzen und den Kredit zu vergeben, oder ihn der Klasse der Problemfälle zuzuordnen und auf das Kreditgeschäft zu verzichten bzw.eine genauere Prüfung vorzunehmen. Gesucht wird ein Prädikator für die Kreditwürdigkeit. Hierzu werden 1000 Konsumentenkredite betrachtet. Für jeden Kunden aus dieser Stichprobe ist seine Kredit- würdigkeit X bekannt. Als weiteres Merkmal Y wird notiert, ob der Kunde ein laufendes Konto bei der Bank unterhält und, wenn ja, ob es gut oder mittel geführt wird. (Fahrmeir/Künstler/Pigeot/Tutz)
Kreditwürdigkeit Merkmal X: Kreditwürdigkeit Konto Merkmal Y: Konto Wertungen kein Konto gut geführt mittel gut geführt
Chi-Quadrat-Test auf Homogenität zum Niveau = 0.05 Nullhypothese: Verteilung auf die Kategorien des Merkmals Konto ist für unproblematische Kreditnehmer und für Problemkunden gleich
Aufgabe 10
Aufgabe 11
Aufgabe 12
Chi-Quadrat-Tests Übersicht
Faustregeln Chi-Quadrat-Tests Test auf Anpassung Test auf Unabhängigkeit Test auf Homogenität
Kolmogorov-Smirnov-Test wird eingesetzt, wenn getestet werden soll, ob eine bestimmte stetige Verteilung vorliegt.
Durchführung Kolmogorov-Smirnov-Test I Berechnung Abstände berechnen ) Hypothese
Durchführung Kolmogorov-Smirnov-Test II Arbeitstabelle Maximum der Werte der letzten beiden Spalten
Durchführung Kolmogorov-Smirnov-Test III Ablehnungsbereich Niveau 0.05
Durchmesser von Schrauben
Arbeitstabelle
Durchmesser von Schrauben und nicht spezifiziert Arbeitstabelle
Einfache Varianzanalyse wird eingesetzt, wenn mehr als 2 unabhängige normalverteilte Stichproben verglichen werden sollen, deren Varianz als übereinstimmend angenommen werden kann.
Datenliste
Gewicht eines Werkstückes bei 3 Betrieben (in kg)
Mittelwerte der Klassen und Gesamtmittelwert
Mittelwert Betrieb 1 Mitttelwert Betrieb 2 Mittelwert Betrieb 3 Gesamt- Mittelwert
F-Verteilung für verschiedene Freiheitsgrade m, n
Die F-Verteilung Wahrscheinlichkeitsdichte : Gamma-Funktion
Durchführung der einfachen Varianzanalyse I Mittelwerte und Varianzen der einzelnen Betriebe Gesamtmittelwert N: Gesamtumfang der Stichproben; r: Zahl der Betriebe 1 2 Q : Maß für die Varianz innerhalb der einzelnen Betriebe Q : Maß für die Varianz zwischen den Betrieben 1 2 Berechnung von Benötigte Daten:
Durchführung der einfachen Varianzanalyse II
Durchführung der einfachen Varianzanalyse III Bestimmung von Ablehnungsbereich Berechnung von
Viel Erfolg bei der Klausur!!!