Erheben von Daten Kategoriale Merkmale Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale
Datenquellen Primäre Daten, aus Sekundäre Daten Vollerhebung Stichprobenerhebung Sekundäre Daten Volkszählungsdaten Daten von Statistik Austria, von der OeNB Daten aus der Hörerevidenz der WU Personal-, Lagerkartei 11.10.04 PI Statistik, WS 2004/05
Messen Messen: Ist Ergebnis eines Messprozesses mit Messinstrumenten Messverfahren messenden Personen Beispiele: gemessen werden (1) die Länge eines Tisches, (2) die Länge eines Eies, (3) die Härte von Stahl, (4) die Zufriedenheit des Käufers eines PKW 11.10.04 PI Statistik, WS 2004/05
Qualität von Messungen Kriterien für die Qualität von Messungen Genauigkeit (accuracy): bezieht sich auf einzelnen Messvorgang systematischer Fehler (Bias) Präzision, Variabilität Reproduzierbarkeit: bezieht sich auf Messsystem Stabilität: zeitlicher Aspekt des Messsystems 11.10.04 PI Statistik, WS 2004/05
Prozesse: Messen - Variabilität Beobachten (Messen) ist zentrales Element für Qualität von Produktions- und Dienstleistungsprozessen Prozessvariabilität Messvariabilität Beispiele: Qualität des Kaffees Wartezeit im Call-Center 11.10.04 PI Statistik, WS 2004/05
Datenerhebungen (surveys) Vollerhebung (census) und Stichprobe Grundgesamtheit (Umfang N; N meist sehr groß) Statistische Einheiten, Elemente Stichprobenrahmen (Liste aller Elemente der Grundgesamtheit) Stichprobe (Umfang n; n meist klein) 11.10.04 PI Statistik, WS 2004/05
Auswahl der Stichprobe Auswahl ohne Zufallsmechanismus (non-probability sample survey) Bequemlichkeits-Stichprobe (convenience sampling) Systematische Stichprobe Auswahl nach Zufallsprinzip (probability sample survey) Einfache Zufallsstichprobe (simple random sample) Geschichtete Zufallsstichprobe (stratified random sample) Systematische Zufallsstichprobe Klumpen- (Cluster)stichprobe 11.10.04 PI Statistik, WS 2004/05
Einfache Zufallsstichprobe jede mögliche Stichprobe vom Umfang n hat die gleiche Wahrscheinlichkeit, gezogen zu werden 11.10.04 PI Statistik, WS 2004/05
Beispiel: Einfache Zufalls-SP G = {a,b,c,d,e}, n=2: es gibt 10 mögliche Stichproben: (a,b), (a,c), ..., (a,e), ..., (d,e) Urne enthält 10 Zettel mit den 10 Paaren; wir wählen zufällig einen aus Urne enthält 5 Zettel mit den 5 Buchstaben; wir wählen zufällig zwei (ohne Zurücklegen) aus Zufallszahlen 11.10.04 PI Statistik, WS 2004/05
Zufallszahlen In Büchern; z.B. in Hackl & Katzenbeisser, S. 434 Statistik-Software kann Pseudozufallszahlen erzeugen, z.B. EXCEL: Analyse-Funktionen >> Zufallszahlengenerierung >> Diskrete Verteilung 11.10.04 PI Statistik, WS 2004/05
Einfache ZSP: Vor-/Nachteile Vorteile Ergebnisse haben keinen systematischen Fehler (Bias); sie sind "unverzerrt" kontrollierter Stichprobenfehler Nachteil in Praxis nicht leicht realisierbar, oft aufwendig 11.10.04 PI Statistik, WS 2004/05
Geschichtete Zufallsstichprobe Zerlegung der Grundgesamtheit in Schichten Innerhalb jeder Schicht: einfache Zufallsstichprobe Vorteil: reduzierter Stichprobenfehler 11.10.04 PI Statistik, WS 2004/05
Beispiel: Einkommen Reine ZSP Geschichtete ZSP a=2, b=3, MW=2.5 nicht möglich a=2, c=6, MW=4.0 a=2, d=7, MW=4.5 b=3, c=6, MW=4.5 b=3, d=7, MW=5.0 c=6, d=7, MW=6.5 11.10.04 PI Statistik, WS 2004/05
Klumpenstichprobe Vollerhebung in zufällig ausgewählten Teilmengen (Klumpen; Teilmengen, die die Grundgesamtheit gut repräsentieren) Geschichtete und Klumpenstichprobe: sind Beispiele für zweistufige Stichprobenverfahren 11.10.04 PI Statistik, WS 2004/05
Erhebungsfehler Reiner Stichprobenfehler (pure sampling error) Variation des Ergebnisses dadurch, dass bestimmte Elemente ausgewählt werden; quantifizierbar Stichprobenverfälschungen, z.B. Fehler im Stichprobenrahmen Nicht-Stichprobenfehler (non-sampling error): Fehlende Antwort (non-response), Fehler der beteiligten Personen (Interviewer, Interviewter), Fehler bei Verarbeitung; schlechte Fehlerkontrolle, etc.; kaum messbar 11.10.04 PI Statistik, WS 2004/05
Kategoriale Merkmale Auch qualitative und kategorielle Merkmale genannt Ordnet der Beobachtungs- oder Untersuchungseinheit eine von endlich vielen Klassen (Kategorien) zu; Dazu gehören nominale und ordinale Merkmale Ist immer diskret (die Menge der Merkmalsausprägungen ist endlich oder abzählbar) Population Merkmal M-Ausprägungen WU-Studierende Geschlecht m, w Note 1, 2, 3, 4, 5 Produktion Qualität gut, schlecht 11.10.04 PI Statistik, WS 2004/05
Kreisdiagramm Beispiel: Augenfarbe von Studierenden Augenfarbe Häuf'kt blau 15 grün 12 braun 19 grau 2 schwarz 1 11.10.04 PI Statistik, WS 2004/05
Kreisdiagramm Explodierter 3D-Kreis Augenfarbe Häuf'kt blau 15 grün 12 braun 19 grau 2 schwarz 1 11.10.04 PI Statistik, WS 2004/05
Säulen-, Stabdiagramm Augenfarbe Häuf'kt blau 15 grün 12 braun 19 grau schwarz 1 11.10.04 PI Statistik, WS 2004/05
Absolute & relative Häufigkeit (absolute) Häufigkeit: gibt an, wie oft eine bestimmte Kategorie in der Datenmenge vorkommt; typisches Symbol: H i z.B.: 15 Studierenden haben blaue Augen relative Häufigkeit (Anteil) h i n: Umfang der Datenmenge Oft als Prozente (Prozentanteil) angegeben 11.10.04 PI Statistik, WS 2004/05
Kumulierte (relative) Häufigkeiten Summe der relativen Häufigkeiten aller vorhergehenden Kategorien, einschließlich der aktuellen Nur für ordinale Merkmale sinnvoll 11.10.04 PI Statistik, WS 2004/05
Noten von 52 Studierenden abs H'kt rel H'kt kum rel H'kt 1 7 13,5% 2 22 42,3% 55,8% 3 15 28,8% 84,6% 4 6 11,5% 96,2% 5 3,8% 100,0% 52 11.10.04 PI Statistik, WS 2004/05
Pivot Table-Bericht „Ein PivotTable-Bericht ist eine interaktive Tabelle, die große Datenmengen rasch kombinieren und vergleichen kann.“ Wichtige Hilfe zum Auszählen von Datenmengen 11.10.04 PI Statistik, WS 2004/05
Fragestellungen Kommen alle Kategorien gleich häufig vor ? Entsprechen die Häufigkeiten in den Kategorien einer bestimmten Vorgabe ? Entspricht die Häufigkeit (Prozentsatz, Anteil) in einer bestimmten Kategorie einem bestimmten Wert? In welchem Bereich kann man den Anteil einer Kategorie in der Grundgesamtheit erwarten ? 11.10.04 PI Statistik, WS 2004/05