Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten.

Ähnliche Präsentationen


Präsentation zum Thema: "Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten."—  Präsentation transkript:

1

2 Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten empirischen Gesetzen. Im Gegensatz zu Einzelereignissen können diese Gesetze mathematisch erfasst werden. deskriptive (beschreibende) Statistik : Darstellung großer Datenmengen sinnvoll mit Hilfe von Tabellen, Graphiken oder Piktogrammen. Charakterisierung dieser Datenmengen durch bestimmte Parameter und Ermöglichen von Vergleichen und Aufstellen von Beziehungen mit den anderen Datensätzen. analytische (beurteilende) Statistik: Schluss von Stichprobeneigenschaften auf Eigenschaften der Grundgesamtheit

3 DARSTELLUNGEN VON DATEN Tabellen: leicht herzustellen, sehr vielfältig in der Anwendung, Daten genau dargestellt. Nachteil: Überblicke sind nicht so schnell zu erzielen. Graphiken: Geben raschen Überblick, Unterschiede (Größenvergleiche) sind ersichtlich. Nachteil: oft aufwendig zu gestalten, leicht manipulierbar. Stabdiagramme Kreis- und Streifendiagramme (zur Darstellung von Anteilen (Prozenten)) Piktogramme Liniendiagramme (Darstellung von Zeitreihen, Interpolation zwischen den gemessenen Daten nur für Bestandsdaten, nicht aber für Bewegungsdaten möglich z.B. Firmenkapital ist Bestandsdatum, jährlicher Umsatz ist Bewegungsdatum) Kombinationen von Graphiken (Bevölkerungspyramiden, Flussdiagramme)

4 Manipulationsmöglichkeiten von Graphiken farbige Gestaltung geschickte Anordnung (falls das sinnvoll möglich ist!) der Stäbe oder Sektoren – ein kleiner Stab zwischen zwei großen Stäben schaut noch kleiner aus. Abschneiden oder Unterbrechen der Stäbe Weglassen der Standlinie bzw. Verwendung von nicht waagrechten oder nicht geraden Standlinien perspektivische Verzerrungen ausnützen in Piktogrammen weiß man oft nicht, ob die dargestellten Größen als Länge, Fläche oder Volumen der entsprechenden Figuren dargestellt werden Änderung der Maßstäbe auf den Koordinatenachsen, auch in Verbindung mit Verschiebungen des Nullpunktes auf der Ordinaten- und/oder der Abszissenachse Auswahl spezieller Daten

5

6

7 Grundgesamtheit, Stichprobe, Merkmal Grundgesamtheit (Gesamtpopulation) : Menge aller möglichen Untersuchungseinheiten; real oder fiktiv gegeben; Grundgesamtheit kann endlich oder als unendlich angenommen werden. Stichprobe: Teilmenge aus der Grundgesamtheit Stichprobenumfang: Anzahl der Untersuchungseinheiten der Stichprobe; Gesamterhebung Merkmal (Variable) X: eine qualitativ oder quantitativ messbare Eigenschaft der einzelnen Untersuchungseinheiten. x 1, x 2,..., x s bezeichnen die n Ausprägungen von X (theoretisch kann X auch unendlich viele Ausprägungen haben).

8 Untersuchungsobjekt 1 UO 2 UO 3 Grundgesamtheit oder Stichprobe UO 4 UO 5 x 1 = 5,1 x 2 = 2,4 x 3 = 3 x 4 = 2,4 x 5 = 5,1 Messung Merkmalsausprägungen Stichprobenwerte

9 Skalen: Nichtmetrische Merkmale nominalqualitative UnterschiedeNationalität ordinalRangordnungNoten, Güteklassen rangskaliert Metrisch Merkmale IntervallskalaAbstände zwischen RängenTemperatur VerhältnisskalaQuotienten der AbständeLänge

10 AusprägungenHäufigkeitrelative Häufigkeit x1x1 h1h1 f1f1 x2x2 h2h2 f2f xsxs hshs fsfs n1 Achtung: Mit x 1, x 2, x 3,…,x n werden einmal die Merkmalswerte der n Untersuchungseinheiten bezeichnet (die x i müssen nicht alle verschieden sein), mit x 1, x 2, x 3,…,x s werden aber auch die untereinander verschieden Ausprägungen des Merkmals bezeichnet (also gilt insbesondere n s) fj = hj/n h j = n f j = 1

11 Beispiel Häufigkeiten

12 Häufigkeitsverteilung: Zusammenhang zwischen Ausprägung und absoluter bzw. relativer Häufigkeit Darstellung tabellarisch oder graphisch, z.B. als Stabdiagramm – x-Achse: Ausprägungen (falls Merkmal ordinal, Rangordnung beachten; falls das Merkmal metrisch, Abstände zwischen den einzelnen Ausprägungen beachten) y-Achse: absolute bzw. relative Häufigkeiten für entsprechende Ausprägung

13 Gruppierte Daten, Histogramm Messung der Merkmalsausprägungen für die einzelnen Untersuchungseinheiten zu genau! Komprimierung der Stichprobenwerte durch Gliederung in Klassen (Gruppen) Klassen sowohl für nominale als auch ordinale und metrische Merkmale Bei metrischen Daten Klassen von der Form: {x: a < x b} nach links halboffenes Intervall; a und b heißen Klassengrenzen (obere bzw. untere), die Differenz b - a heißt Klassenbreite, 1/2 ( a + b ) - Mittelpunkt des Intervalls - die Klassenmitte Achtung: Vereinbarung: untere Klassengrenze gehört nicht zur Klasse, obere aber schon. Für benachbarte Klassen gilt: obere KG der einen ist untere KG der anderen Klasse d.h. es gibt keine Zwischenräume zwischen benachbarten Klassen Histogramm als Darstellungsmittel: über den Klassenintervallen werden Rechtecke gebildet, deren Fläche gleich der absoluten Klassenhäufigkeit, d.h. der Anzahl der zur Klasse gehörigen Stichprobenwerte ist Rechteckshöhe = Klassenhäufigkeit der Klasse / Klassenbreite

14

15 Kriterien für Klassenbildung: Anhäufungen (Cluster) zu Klassen zusammenfassen, wobei die Klassengrenzen die Mitte der Lücken gelegt werden sollen. Nicht zu viele Daten in eine Klasse legen (mehr als 40% aller Daten in einer Klasse ist in der Regel ungünstig). Nicht weniger als 3 und nicht mehr als 10 Klassen bilden als Klassengrenzen möglichst runde Zahlen wählen und nicht zu viele verschiedene Klassenbreiten Klassengrenzen so legen, dass innerhalb der Klassen die Daten möglichst gleichmäßig verteilt sind Andere Autoren geben andere Kriterien (z.B. E. Kreyszig): Die Klassenbreiten wähle man gleich lang Die Klassenmitten sollen möglichst runde Zahlen darstellen In der Praxis wählt man meist 10 bis 20 Klassen

16

17 Zentralmaße, Mittelwerte Modus die am häufigst vorkommende Merkmalsausprägung; nicht eindeutig; immer ermittelbar; keine große Aussagekraft Median jener Wert, der eine geordnete Folge von Stichprobenwerten genau in zwei Hälften Merkmal mindest rangskalierte, M robust gegenüber Ausreißern

18 Arithmetisches Mittel Merkmal metrisch, hoher Informationsgehalt Eigenschaften Median: M minimiert den Ausdruck Arithmetisches Mittel: minimiert den Ausdruck Geometrisches Mittel Zuwachsraten Vorsicht bei der Ermittlung von Zentralwerten für Prozentsätze!!!

19 Klassierte Daten Bildung von Zentralmaße für klassierte Daten: Man nehme an, dass sämtliche Daten in den jeweiligen Klassenmitten konzentriert sind und verfahre in gewohnter Weise. Der bei in Klassen zusammengefassten Daten auftretende Informationsverlust bewirkt Fehler in der Berechnung von Zentralmaßen. Korrekturverfahren finden sich in der Literatur

20 Streuungs- oder Dispersionsmaße Angabe,wie sehr die Stichprobenwerte um das Zentralmaß streuen wie dicht die Daten um das Zentralmaß konzentriert liegen ZentralmaßStreuungsmaß ModusSpannweite MedianQuartilabstand QA = 5 50% der Daten liegen innerhalb von 5 Werten um M Arithm. MittelStandardabweichung x = 5 im Schnitt beträgt das Abstands- Quadrat der Daten vom arith. Mittel 5

21 Berechnung der Quartile Allgemein: p-Quantil

22 Kastenschaubild (Box-Plot-Diagramm) x min UQ M OQ x max

23 Andere Streuungsmaße: Mittlere lineare Abweichung Variationskoeffizient 3s-Regel: Im Abstand von s Einheiten um das arithmetische Mittel liegen 68% der Daten, im Abstand von 2s 95,5% und im Abstand von 3s 99,7%. Standardisierung

24 Multivariate Statistik Von den Untersuchungseinheiten werden mehrere Merkmale gleichzeitig gemessen (verbundene Merkmale). Resultat der Messung ist mehrdimensional. Univariate Statistik Darstellung der Häufigkeitsverteilung Punktwolke Stabdiagramm Kontingenztabelle

25 h ik Häufigkeit des gleichzeitigen Auftretens der Merkmalsausprägungen x i und y k h x i Häufigkeit des Auftretens der Merkmalsausprägung x i (gleich, welche Ausprägung dabei das Merkmal Y annimmt) h y k Häufigkeit des Auftretens der Merkmalsausprägung y k (gleich, welche Ausprägung dabei das Merkmal X annimmt) h x i bzw. h y k sind die Häufigkeitsverteilungen von X bzw. Y ; Randverteilungen (Marginalverteilungen) von (X,Y)

26 Zweidimensionale Häufigkeitsverteilung (Kontingenztabelle) X Y y1y1 y2y2 y3y3.....ykyk ysys x1x1 h 11 h 12 h h 1k.....h 1s hx1hx1 x2x2 h 21 h 22 h h 2k.....h 2s hx2hx2 x3x3 h 31 h 32 h h 3k.....h 3s hx3hx xixi h i1 h i2 h i3.....h ik.....h is hxihxi..... xrxr h r1 h r2 h r3.....h rk.....h rs hxrhxr hy1hy1 hy2hy2 hy3hy3.....hykhyk hyshys n

27 Lineare Regression Problem: Punktwolke optimal durch eine Gerade approximieren

28 Minimalisierung der Quadrate der Vertikalabstände 1. Regrssionsgerade Minimalisierung der Quadrate der Horizontalabstände 2. Regrssionsgerade

29 1. Regressionsgerade 2. Regressionsgerade Dabei ist s xy die Kovarianz

30 Wahrscheinlichkeit Zufallsexperiment: Stringenz der Definition (insb. alle möglichen Ausgänge bekannt) Wiederholbarkeit (potentiell unendlich oft) Unabhängigkeit des Ausgangs eines ZE von früheren Ausgängen des ZE Empirische Definition von Wahrscheinlichkeit (empirisches. Gesetz der großen Zahlen) Achtung: d.h. nicht, dass Die Differenz zwischen der Anzahl des tatsächlichen Auftretens und der des zu erwartenden Auftretens von x ( = nP(x)) kann bei wachsendem n durchaus beliebig groß werden!

31 Klassische Definition von Wahrscheinlichkeit (vorausgesetzt, die Chance für das Auftreten jedes möglichen Falles ist immer dieselbe) Beispiel: Wie groß ist die Ws, dass bei 5 Würfen genau dreimal eine 6 gewürfelt wird? Anzahl der möglichen Fälle:6x6x6x6x6 = 7776 Anzahl der günstigen Fälle: (6,6,6,*,*) (6,6,*,6,*), (6,6,*,*,6) (6,*,6,6,*), (6,*,6,*,6), (6,*,*,6,6) (*,6,6,6,*), (*,6,6,*,6), (*,6,*,6,6) (*,*,6,6,6) 10x25 = 250 P(x) = 250/7776 = 0,03

32 Axiomatische Definition von Wahrscheinlichkeit = {x 1, x 2,..., x n } sei eine endliche Menge (Menge der Elementarereignisse (ZE- Ausgänge)) P sei eine Funktion von mit Werten zwischen 0 und 1, die folgende Eigenschaft besitzt: heißt endlicher Wahrscheinlichkeitsraum und die Funktion P Wahrscheinlichkeitsmaß oder Wahrscheinlichkeitsverteilung. ACHTUNG: In der Literatur findet sich meist eine verallgemeinerungfähigere Definition, wobei auch unendlich sein kann; P ist nicht auf, sondern auf allen Teilmengen von mit Werten zwischen 0 und 1 definiert und besitzt folgende Eigenschaften: In unserer Definition müsste P eigentlich auf den Mengen {x i } statt auf den Elementen x i definiert werden. Beispiel: = {x 1, x 2 }, P(x 1 ) = P(x 2 ) = ½x 1 ist das Ereignis Münze zeigt Zahl x 2 ist das Ereignis Münze zeigt Wappen

33 Zufallsvariable (ZV) Definition: ZV X ist eine Funktion von einem Wahrscheinlichkeitsraum in die reellen Zahlen. Beispiel: = {1, 2, 3, 4, 5, 6} Augenzahl beim Wurf eines Würfels X( ) = 6 – 2 Interpretation: Falls gewürfelt wird, erhält man X( ) Geldeinheiten als Gewinn bzw. Verlust Wahrscheinlichkeitsverteilung einer ZV X Sei X: {x 1,..., x r } eine ZV auf dem Wraum mit dem Wmaß P. Dann heißt das Wmaß P X auf {x 1,..., x r } die Wverteilung von X, wobei Erwartungswert E(X) einer ZV X Beispiel: X: {1, 2, 3, 4, 5, 6} {4, 2, 0, -2, -4, -6} E(X) = 1/6 ( ) = -1, d.h. à la longue ist mit einem durchschnittlichen Gewinn von –1 Geldeinheiten zu rechnen (also kein faires Spiel)

34 Varianz Var(X) einer ZV X Beispiel: X: {1, 2, 3, 4, 5, 6} {4, 2, 0, -2, -4, -6},E(X) = -1 = Var(X) = 1/6( ) – 1 = 76/6 – 1 = 11,67

35 Zweidimensionale ZV X: R, Y: R seien ZV auf dem Wraum (, P) mit X( ) = {x i 1 < i < r} und Y( ) = {y k 1 < k < s}. X Y: R R heißt zweidimensionale ZV, deren gemeinsame Wverteilung gegeben ist durch Es gilt:

36 Kovarianz zweier ZV, stochastische Unabhängigkeit X und Y heißen (stochastisch) unabhängig genau dann, wenn für alle i und k gilt: Falls X und Y stochastisch unabhängig sind, gilt: E(XY) = E(X)E(Y) d.h. Cov(X,Y) = 0

37 Stochastische Modelle Empirische Erhebung (Realität)Stochastisches Modell GrundgesamtheitWahrscheinlichkeitsraum UntersuchungseinheitElementarereignis MerkmalZufallsvariable Relative HäufigkeitWahrscheinlichkeit HäufigkeitsverteilungWahrscheinlichkeitsverteilung Arithmetisches MittelErwartungswert Empirische VarianzVarianz Ziehen von Stichproben Zufallsstichprobe aus Grundgesamtheit (Modell ziehen von Kugeln aus einer Urne – mit Zurücklegen oder ohne Zurücklegen)

38 Urnenmodelle Urne mit N verschiedenartigen Kugeln (n 1, n 2, …, n k ) P(Kugel j-ter Sorte) = n j /N n-maliges Ziehen mit Zurücklegen (2 Sorten): n-maliges Ziehen ohne Zurücklegen Ziehungen nicht mehr unabhängig Hypergeometrische Verteilung Falls N>60, n/N<0,1, lässt sich die hypergeometrische Verteilung durch eine B(n 1 /N, n)-Verteilung ersetzen

39 Bernoulliverteilung

40

41

42

43 Normalverteilung Wenn X eine B(n,p)-binomial verteilte ZV ist, dann hat die standardisierte ZV Mittelwert 0 und Standardabweichung 1. Für große n nähert sich die Verteilung von X* immer besser der Gaußschen Glockenkurve ist die standardisierte Glockenkurve, die Dichtefunktion der Standardnormalverteilung

44 Eigenschaften der Normalverteilung ist bezüglich der x-Achse symmetrisch hat bei x=0 ein Maximum hat die x-Achse als Asymptote (für x ) ist monoton steigend erfüllt die folgende Beziehungen:

45 Zentraler Grenzwertsatz von de Moivre - Laplace: Sei X eine B(n,p)-binomial verteilte Zufallsvariable, dann gilt für 0

46

47

48 Übungen Angenommen zwei Personen A und B spielen ein faires Spiel, d.h. in jeder Spielrunde besitzen beide die gleiche Gewinnchance. Wer zuerst 6 Spielrunden gewonnen hat, erhält den gesamten Spieleinsatz von 20,-. Das Spiel muss unterbrochen werden, nachdem A 5 und B 3 Runden gewonnen haben. Man finde eine gerechte Teilung des Spieleinsatzes. Mögliche Spielverläufe: A gewinnt bei folgenden Möglichkeiten:B gewinnt nur bei: A oder BA oder BBA BBB Wahrscheinlichkeiten: P(A gewinnt) = P(A) + P(BA) + P(BBA) = ½ + ¼ + 1/8 = 7/8 P(B gewinnt) = P(BBB) = 1/8 Teilung 7:1 17,50 erhält A, B 2,50

49 Würden sie folgendes Spiel einen Abend lang spielen? Eine Münze wird 4 mal geworfen. Erscheint Adler viermal erhalten sie 20,-. Erscheint dagegen Adler genau dreimal, erhalten sie 10,-. Der Spieleinsatz pro Spiel beträgt 4,-. = {AAAA, AAAZ, AAZA, AZAA, ZAAA, AAZZ, AZAZ, AZZA, ZAAZ, ZAZA, ZZAA, AZZZ, ZAZZ, ZZAZ, ZZZA, ZZZZ} P(****) = 1/16 ZV X = Gewinn X(AAAA) = 16 X(AAAZ) = X(AAZA) = X(AZAA) = X(ZAAA) = 6 X(sonst) = -4 Erwartungswert von X E(X): E(X) = 16.1/ /16 + (-4).11/16 = ( – 44)/16 = -1/4

50 Laut offizieller Statistik sind 0,3% aller ÖsterreicherInnen mit AIDS infiziert. Ein HIV-Test zeigt mit 100% Sicherheit ein positives Resultat, falls die getestete Person tatsächlich erkrankt ist. Mit 99% Sicherheit zeigt der Test ein negatives Resultat, falls die Person nicht an AIDS erkrankt ist. Angenommen jemand wird in Kenntnis gesetzt, dass sein HIV-Test positiv ist. Wie hoch sind Chancen, dass diese Person tatsächlich an AIDS erkrankt ist? Genaue Abzählung (Annahme: Population = ) Real Testpositivnegativ infiziert gesund P(tatsächlich infiziert unter der Voraussetzung Test positiv) = / = 0,23

51 Die Fakultät für Wirtschaftswissenschaften und Informatik veranstaltet ein Fest, auf dem jede/r Teilnehmer/in die Chance hat, eine Reise zu gewinnen. Es sind 52 weibliche und 46 männliche Angehörige der Wirtschaftswissenschaften bzw. 42 weibliche und 48 männliche Angehörige der Informatik zugegen. Wie groß ist die Wahrscheinlichkeit, dass eine Informatikerin den Preis gewinnt, bzw. ein Mann gewinnt? St Gmännlichweiblich Informatik Wirtschaft P(Informatikerin) = 42/188 = 0,22 P(Mann) = 94/188 = 0,5

52 Testen Problem: Wie lassen sich Vermutungen über die Grundgesamtheit überprüfen? Lösungsprinzip: Konstruktion eines wahrscheinlichkeitstheoretischen Modells unter der Annahme, dass die Vermutung gilt - Ziehen einer Stichprobe - Unter Bezugnahme auf das Modell Bestimmung der Wahrscheinlichkeit dieser Stichprobe – Verwerfen der Annahme bei zu geringer Wahrscheinlichkeit Achtung: Beim Testen werden die Hypothesen logisch nicht bewiesen! Keine Verifizierung, sondern Falsifizierung!

53 Testen von Hypothesen über Anteile H 0 Nullhypothese H 1 Alternative Irrtumswahrscheinlichkeit, Fehler 1.Art, Signifikanz(niveau)

54 Beispiel Testen der Hypothese, dass Wähleranteil 40% beträgt, zur Alternative, dass er nur 30% beträgt. Signifikanzniveau ist 5%. Eine Stichprobe vom Umfang 100 enthält 33 WählerInnen. H 0 p = 0,4 H 1 p = 0,3 = 5% Stichprobe: n = LB überprüfen 2. Bestimmung des kritischen Bereichs (jener Bereich K, für den P 0 (K) = und K = = {v | v < k})

55 z=-1,645, also Da die Stichprobe 33 WählerInnen enthält, liegt die Anzahl der Hits, also der WählerInnen, nicht im kritischen Bereich K (31,9 < 33). Die Hypothese kann also nicht verworfen werden! Hätte die Stichprobe nur 31 oder noch weniger WählerInnen enthalten, dann hätte die Hypothese mit einer Irrtumswahrscheinlichkeit von = 0,05 (das ist die Ws unter der Annahme von H 0, dass eine Stichprobe mit einer Anzahl kleiner als 31,1 auftritt) verworfen werden müssen. Fehler 1. und 2. Art H 0 verwerfenH 0 nicht verwerfen H 0 wahr -Fehler, Fehler1.Art - H 0 falsch- -Fehler, Fehler 2. Art

56 Fehler 2. Art Fehler 2. Art: H 0 wird nicht verworfen – d.h. die Stichprobe darf nicht im kritischen Bereich liegen - obwohl sie falsch, also H 1 richtig ist. ist Ws unter der Annahme H 1, dass die Stichprobe nicht im kritischen Bereich liegt. Mit 33,72% Wahrscheinlichkeit wird die Nullhypothese nicht verworfen, obwohl sie falsch ist.

57 Weitere Parametertests für p Einseitiger Test H 0 : p p o kritischer Bereich: {X > k} H 0 : p > p o H 1 : p < p o kritischer Bereich: {X < k} Zweiseitiger Test H 0 : p = p o H 1 : p p o kritischer Bereich: {X k 2 }

58 Beispiel Von einem Produkt ist der Bekanntheitsgrad 25%. Nach einer Werbekampagne behauptet der Verkaufsleiter, sie sei erfolglos gewesen. Worauf in einer Blitzumfrage festgestellt wird, dass von 500 Personen 151 das Produkt kennen. War die Werbekampagne erfolglos? H 0 : p=0,25 H 1 : p>0,25 = 0,01 (0,05) n = 500 Kritischer Bereich: X>k LB: 500.0,25.0,75 = 93,75 > 9

59 Die Annahme, die Werbekampagne sei erfolglos gewesen, muss mit 1% Irrtumswahrscheinlichkeit verworfen werden. Der Redakteur eines Magazins behauptet, dass sich seine Leserschaft aus gleich vielen Frauen und Männern zusammensetzt. Aus einer statistischen Erhebung folgt, dass von 420 Personen, die sich als LeserInnen des Magazin deklarieren, 232 Männer (und 188 Frauen) sind. Gilt die Behauptung des Redakteurs ( =0,05)? H 0 : p=0,5 H 1 : p0,5 n = 420 = 0,05 Kritischer Bereich: {X k 2 } LB: 420.0,5.0,5 = 105

60 232 > k 2 = 230,08 (188 < k 1 <189,92) Die Aussage des Redakteurs ist mit einer Irrtumswahrscheinlichkeit von 5% abzulehnen.

61

62 2 -Verteilung Die Verteilung der Summe der Quadrate von n unabhängig standardnormalverteilten ZV heißt 2 -Verteilung mit Freiheitsgrad n.

63 Verteilungstests ( 2 -Test) Nullhypothese bezieht sich auf die Art der Verteilung (Normalverteilung, Binomialverteilung, etc.) oder auf Unabhängigkeit der Verteilung von anderen. 2 -Unabhängigkeitstest: Nullhypothese: ZV X und Y sind unabhängige ZV Alternative: X und Y sind abhängige ZV X und Y sind unabhängig P(X = x i, Y = y k ) = P(X = x i ).P(Y = y k ) Annahme X und Y unabhängig Ziehen einer Stichprobe vom Umfang n – Ergebnis: Häufigkeiten der Messwerte: X = x i Y = y k h ik Unter der Annahme X und Y unabhängig müssten die zu erwartenden Häufigkeiten e ik der Stichprobe folgende Bedingung erfüllen:

64 Abweichung der Häufigkeiten der Stichprobenwerte von den zu erwartenden Häufigkeiten: Die Prüfgröße 2 ist eine ZV, die einer speziellen Verteilung unterliegt, nämlich der 2 – Verteilung mit (r-1)(s-1) Freiheitsgraden. Falls 2 groß ist, dann Verwerfung der Nullhypothese X und Y unabhängig, wobei die Irrtumswahrscheinlichkeit = P( 2 > k) ist.

65 Beispiel Eig Aus X Y InformatikBWLMKRandv. X geeignet ungeeignet Randv. Y Falls X und Y unabhängig Eig Aus X Y InformatikBWLMKRandv. X geeignet ungeeignet Randv. Y

66 Anzahl der Freiheitsgrade: (r-1)(s-1) = (2-1)(3-1) = 2 Signifikanzniveau: = 0,05 Kritischer Bereich: 2 > k Tabelle: P( 2 > k) = 0,05 k = 5,99 (P( 2 > k) = 0,01 k = 9,21) 2 - Wert der Stichprobe: 2,937 2,937 < k Unabhängigkeit von X und Y wird nicht verworfen.

67 Erfolg Methoden GutSchlecht Methode Methode Beispiel (4-Felder-Tafel): aba+b cdc+d a+cb+d ist sehr nahe bei 0, also sind die Ergebnisse von den Methoden unabhängig


Herunterladen ppt "Was ist Statistik? Statistik die Wissenschaft von Massenerscheinungen Phänomene, die in wohldefinierter Form und Weise in Masse auftreten, gehorchen bestimmten."

Ähnliche Präsentationen


Google-Anzeigen