Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Beschreibende Statistik

Ähnliche Präsentationen


Präsentation zum Thema: "Beschreibende Statistik"—  Präsentation transkript:

1 Beschreibende Statistik
Betriebswirt VWA

2 Wesen der Statistik Wesen der Statistik
Statistik ist das methodische Vorgehen bei der Beschaffung von Informationen, die man braucht, um vernünftige Entscheidungen treffen zu können. Beschreibende Statistik (Deskriptive Statistik) Methoden zur Erfassung, Aufbereitung, Darstellung und Analyse fest umrissener und konkret vorliegender Daten. Schließende Statistik (Induktive Statistik) Methoden, deren Anwendung Schlüsse von Stichproben auf übergeordnete Gesamtheiten erlauben.

3 Statistische Daten verbale oder qualitative Informationen - nicht sehr präzise - wenig objektiv - Zusammenfassung schwierig quantitative, zahlenmäßige Informationen - zahlenmäßige Aussage - objektiv - einfach zusammenzufassen und zu verarbeiten Daten, die sich für eine Zusammenfassung eignen, werden als Statistische Daten bezeichnet.

4 Statistische Modell Ein Modell ist ein vereinfachtes Bild der Wirklichkeit und entsteht durch Beschränkung auf das Wesentliche. Modelle in der Statistik entstehen in der Regel durch Vereinfachung in dreifacher Weise: sachlich örtlich zeitlich Problem: Es gibt keine eindeutigen, allgemein anerkannte Grundsätze zur Bildung Statistischer Modelle.

5 Anwendungsgebiete Statistische Methoden können überall dort eingesetzt werden, wo größere Informationsmengen zu verarbeiten sind. Politik Verkehr Sozialwissenschaften Biologische Wissenschaften Naturwissenschaft und Technik Betriebstatistik Medizin

6 Statistisches Material
Untersuchungszweck: Festlegung, wozu man Informationen benötigt Grundgesamtheit: Menge von Elementen über die sich die Entscheidung, die man statistisch untermauern will, erstreckt und über die man Informationen benötigt. Die Grundgesamtheit setzt sich aus den statistischen Einheiten zusammen. Abgrenzung der Gesamtheit: sachlich örtlich zeitlich

7 Bestands- und Bewegungsmassen
Bestandsmassen: Erfassung zu einem bestimmten Zeitpunkt. Bewegungsmassen: Erfassung während eines Zeitraumes. Fortschreibung: Bestandsmassen werden durch Bewegungsmassen fortgeschrieben (Zugangsmassen und Abgangs- massen).

8 Bestands- und Bewegungsmassen
Beispiele für Bestandsmassen: Einwohner von Mannheim Studenten einer Hochschule Kraftfahrzeuge in München Unternehmen in NRW Beispiele für Bewegungsmassen: Geburten in Bayern im September 1988 Verbrauch an Bier in Hessen im Jahre 1987 Regenfälle in einem bestimmten Gebiet Umsätze von Unternehmen

9 Vollerhebung oder Totalerhebung
Erfassung aller statistischer Einheiten Vorteil: Vollständige Information Nachteil: große Gesamtheiten nicht exakt abgrenzbar Bei komplizierten Sachverhalten können Ergeb-nisse fehlerhafter werden, je mehr Einheiten berücksichtigt werden große Kosten Zeitdauer zu lang

10 Teilerhebung / Stichprobe
Beschränkt man sich nur auf einen Teil der statis- tischen Masse, so spricht man von einer Teiler- hebung. Der ausgewählte Teil heißt Stichprobe. Vorteil: Kostengünstig, da geringer Aufwand Vollerhebung eventuell unsinnig Ergebnisse liegen schneller vor Genauigkeit Nachteil: Stichprobenfehler

11 Herkunft der Daten primärstatistische Erhebung:
Daten werden eigens für die Untersuchung erhoben aus Kostengründen kaum durchführbar sekundärstatistische Erfassung: Rückgriff auf bereits vorhandene Daten Kostengünstig, da geringerer Aufwand

12 Erhebungsmethoden bei Primärstatistik
Mündliche Befragung Interview sehr Zeitaufwendig Schriftliche Befragung geringer Aufwand, Güte kann leiden Beobachtung Daten in der Regel unverfälscht Experiment Produkttest Automatische Erfassung Anwendung im tech. Bereich (z.B. Stromverbrauch)

13 Träger der amtlichen Statistik
staatliche Institutionen oder vom Staat abhängige Stellen. Sie sind staatlich finanziert. Beispiele: Statistisches Bundesamt Statistische Landesämter Statistische Ämter der Städte Ministerien des Bundes und der Länder Bundesargentur für Arbeit Veröffentlichung der amtlichen Statistik: Staatistische Jahrbuch Zeitschrift „Wirtschaft und Statistik Der Statistische Wochendienst

14 Träger der nichtamtlichen Statistik
Wirtschaftsverbände Markt- und Meinungsforschungsinstitute wissenschaftliche Institute Unternehmen Arbeitgeber- und Arbeitnehmerorganisationen Erhebungen können schneller an aktuelle Bedürfnisse angepasst werden. Ergebnisse sind weniger objektiv. Ergebnisse sind oft Mittel der Selbstdarstellung.

15 Statistische Merkmale
Eigenschaften einer statistischen Einheit, für die man sich bei einer statistischen Untersuchung interessiert. Sie sind Gegenstand der Untersuchung. Merkmalsträger: Träger der Merkmale sind die statistische Einheiten, die gezählt oder gemessen werden. Merkmalsausprägungen: Es sind die verschiedenen Ergebnisse, die bei der Beobachtung oder Messung auftreten können.

16 Beispiele für Merkmalsausprägungen
Nr Merkmalsträger Merkmal Merkmalsausprägung 1 best. Person Waschmaschi-nenbesitzer Besitzer, Nichtbesitzer 2 Anhänger einer Partei Anhänger, kein Anhänger 3 Familienstand ledig, geschieden, verheiratet, verwitwet 4 Fernsehzuschauer Meinung zur Sendung sehr gut, gut, durchsch., schlecht, sehr schlecht 5 Betriebsangehörige Alter in Jahren 16 – 65 Jahre 6 Urlaubstage 18, 19, 20, Tage

17 Beispiele für Merkmalsausprägungen
Es handelt sich um Eigenschaften. Jede Reihen- und Rangfolge ist willkürlich und zufällig. Merkmal 4: Es handelt sich um eine Bewertung. Es liegt eine eindeutige Rangfolge vor. Merkmal 5-6: Es handelt sich um Zahlen. Eine Rangfolge ist vorge-geben. Abstände zwischen Ausprägungen sind gleich lang. Festlegung der Maßeinteilung nennt man Skalierung

18 Arten von Skalierungen
Nominale Skalierung: (Unterscheidungsmerkmale) Die Merkmalsausprägungen drücken lediglich die Verschiedenartigkeit aus. Ordinale Skalierung: (Rangmerkmale) Die Merkmalsausprägungen bringen neben der Verschiedenartigkeit eine natürliche Rangfolge zum Ausdruck. Metrische Skalierung: (Abstandsmerkmale) Merkmalsausprägungen grundsätzlich Zahlen. Neben der Rangordnung werden auch die Abstände zwischen den Merkmalsausprägungen verglichen.

19 Gruppen von Skalierungen
Quantitative Ausprägungen: metrisch skalierte Merkmale Ausprägungen unterscheiden sich in ihrer Größe Qualitative Ausprägungen: ordinal und nominal skalierte Merkmale Ausprägungen unterscheiden sich in ihrer Art

20 Qualitative Daten nominal: Merkmalsausprägungen
können nicht durch Auszählen oder Messen ermittelt werden Haben keine natürliche Reihenfolge Liefern keine Abstände oder Verhältnisse ordinal: Merkmalsausprägungen können in eine natürliche Reihenfolge gebracht werden Sind keine absoluten, sondern relative Werte Liefern keine Abstände oder Verhältnisse

21 Quantitative Daten metrisch: Merkmalsausprägungen
Sind messbar oder abzählbar (reelle Zahlen) Sind somit absolute Werte Liefern Abstände oder Verhältnisse

22 Diskrete und stetige Merkmale
Diskrete Merkmale: (Beispiel Nr. 6) Merkmal kann nur endlich viele Ausprägungen annehmen Ausprägungen sind exakt bestimmbar Abgrenzungsschwierigkeiten treten nicht auf Stetige Merkmale: (Beispiel Nr. 5) Können jeden beliebigen reellen Wert in einem bestimmten Intervall annehmen Ausprägungen sind nicht abzählbar, sie werden durch messen bestimmt Sie sind genaugenommen nur Näherungswerte

23 Beispiele für Merkmalsausprägungen
Nr Merkmalsträger Merkmal Merkmalsausprägung 1 best. Person Waschmaschi-nenbesitzer Besitzer, Nichtbesitzer 2 Anhänger einer Partei Anhänger, kein Anhänger 3 Familienstand ledig, geschieden, verheiratet, verwitwet 4 Fernsehzuschauer Meinung zur Sendung sehr gut, gut, durchsch., schlecht, sehr schlecht 5 Betriebsangehörige Alter in Jahren 16 – 65 Jahre 6 Urlaubstage 18, 19, 20, Tage

24 Übersicht

25 Rechnen mit Summenzeichen
i: Index 1: Untere Summationsgrenze n: Obere Summationsgrenze ai: beliebige Werte, hier z.B. Merkmalsaus- prägungen

26 Rechenbeispiele

27 Rechenregeln mit Summen

28 Rechenregeln mit Summen

29 Gesamtsumme

30 Häufigkeitsverteilung
Urliste Ungeordnete Niederschrift der Zahlenwerte in der Reihenfolge ihres Auftretens. Häufigkeitszahl Gleiche Messwerte werden mit der Zahl ihres Auftretens versehen. Absolute Häufigkeit Anzahl der statt. Einheiten mit einer bestimmten Merkmalsausprägung. Relative Häufigkeit Absolute Häufigkeit dividiert durch Anzahl der stat. Einheiten

31 Klassenbildung Anzahl der Klassen festlegen
opt. Anzahl erfolgt nicht nach festen Regeln Problemstellung ist maßgebend Zu viele Klassen -> unübersichtlich Zu wenige Klassen -> Informationsverlust In der Regel 5-20 Klassen Klassengrenzen festlegen Es soll eine obere und untere Grenze festge-legt werden In der Regel gleichbreite Klassen Ungleiche Klassen nur, wenn viele Beobach-tungen in einem kleinen Bereich und geringer Rest in weitem Bereich

32 Aufgabe Häufigkeitsverteilung
Die nachfolgende Tabelle enthält die Gewichte von 40 männlichen Studenten auf das nächste volle Pfund gerundet. Erstellen Sie eine Häufigkeitsverteilung.

33 Lösung Strichliste

34 Stamm-Blatt Darstellung

35 Lösung Häufigkeitsdiagramm

36 Stabdiagramm

37 Rechteckdiagramm

38 Kreisdiagramm

39 Mittelwerte oder Lagerparameter
Das arithmetische Mittel Einfaches arithmetische Mittel Gewogenes arithmetisches Mittel Arithmetisches Mittel für klassierte Daten Modalwert oder häufigster Wert Zentralwert oder Meridian Quantile Das geometrische Mittel

40 Einfaches arithmetische Mittel
Arithmetische Mittel bei Einzelwerten Eigenschaften:

41 Das gewogene arithmetische Mittel
Arithmetische Mittel bei einer Häufigkeitsverteilung Anstatt gleiche Merkmalsausprägungen mehrfach zu addieren, gewichtet man sich unterscheidende Merkmalsausprägungen xi (i=1,2,...,n) mit der Häufigkeit des Auftretens hi.

42 Arithmetisches Mittel für klassierte Daten
Ist von einer Stichprobe weder die Urliste noch eine Häufigkeitsverteilung bekannt, so lässt sich der Mittelwert nicht exakt berechen. In einem solchen Fall ermittelt man einen Näher-ungswert, indem man von jeder Klasse die Klassen-mitte verwendet.

43 Modalwert Die am häufigsten vorkommende Merkmalsaus-prägung.
Der Modalwert ist um so aussagekräftiger, je stärker die entsprechende Merkmalsausprägung dominiert. Für nominal skalierte Merkmale ist der Modalwert der einzige sinnvolle Lageparameter.

44 Zentralwert oder Median
Der Zentralwert ist diejenige Merkmalsausprägung, die in der Mitte der in eine Rangfolge gebrachten Einzelausprägungen steht. D.h. die Merkmale müssen mindestens Ordinalskala besitzen. Anzahl gerade: Zentralwert an der Stelle (n+1)/2 Anzahl ungerade: Mittel der Werte an der Stelle n/2 und n/2 +1

45 Quantile Das p% Quantil ist der Wert Lp für den p % der Beobachtungen kleiner und (100-p)% größer als Lp sind. Für p = 25%, 50%, 75% nennt man die Quantile Quartile (unteres, Median, oberes); Bezeichnung ist Q1,Q2,Q3. Den Wert Q3 - Q1 nennt man Interquantilsabstand.

46 Das geometrische Mittel
Bei der Bestimmung von durchschnittlichen Wachs- tumsraten ist das arithmetische Mittel nicht brauchbar. Hier muss man auf das geometrische Mittel zurück-greifen.

47 Negatives Wachstum

48 Streuungsmaße Zur Beschreibung einer Stichprobe reicht der Mittel-wert oft nicht aus, da er keine Aussage darüber er-laubt, wie weit die einzelnen Merkmalswerte vom Mittelwert abweichen. Aus diesem Grund wird der Mittelwert oft durch einen Streuungsparameter ergänzt. Spannweite oder Variationsbreite Quartilsabstand und Boxplot Mittlere lineare Abweichung Varianz und Standardabweichung Varianzkoeffizient

49 Spannweite oder Variationsbreite
Spannweite = Differenz zwischen dem größten (xmax) und dem kleinsten (xmin) Wert Vorteil: leicht zu berechnen schneller Vergleich der Streuung zweier Merkmals-reihen rascher Überblick über die Breite der Skala Nachteil: Extremwerte verzerren die Aussagekraft Keine Aussage über Streuung zw. Extremwerten Bei großen Untersuchungen treten öfter Werte auf, die die Spannweite erhöhen

50 Quartilsabstand und Boxplot
Der Quartilsabstand ist die Differenz zwischen dem ersten und dem dritten Quartil. Er umfasst den Be-reich mit den mittleren 50% der Werte. Das Box- oder Whiskerdiagramm stellt die Häufig-keitsverteilung schematisch dar: Zwischen dem 1. und dem 3. Quartil wird ein Kasten aufgebaut. In diesen Bereich fallen 50% der Beobachtungen. Die seitlich angesetzten „Schnurrhaare“ vermitteln einen Eindruck, wie weit die restlichen 50% streuen

51 Box- und Whiskersdiagramm
Aufenthaltsdauer von Patientinnen nach Schnittentbindung (Seite 65)

52 Mittlere lineare Abweichung
Durchschnittliche lineare Abweichung der Merkmals-werte vom Mittelwert. Arithmetisches Mittel der absoluten Abweichungen der Merkmalswerte von einem Mittelwert (arith. Mittel oder Median)

53 Varianz und Standardabweichung
Varianz s2: Standardabweichung s = positve Wurzel der Varianz s2

54 Beispiel Standardabweichung

55 Variationskoeffizient
Der Variationskoeffizient ist ein relativer Streuungs-parameter. Variationskoeffizient v = Quotient aus Stabdardabw. und arithmetischem Mittel Der Variationskoeffizient gibt an, wie viel Prozent vom arithmetischen Mittel die Standardabweichung beträgt.

56 Regression und Korrelation
Beschreibung eines (tendenziellen) Zusammenhangs zwischen zwei Merkmalsausprägungen. Korrelationsanalyse: Bestimmung einer Maßzahl, die die Stärke des Zusammenhangs beschreibt. (Korrelations- bzw. Kontingenzkoeffizient) Regressionsanalyse: Bestimmung von Funktionen zur Beschreibung der Form des Zusammenhangs zwischen zwei Merk- malen. (Regressionsgerade)

57 Die drei Fragenstellungen
Besteht zwischen den Merkmalen ein Zusammenhang oder nicht? Kontingenz Korrelation Wie ausgeprägt ist ein Zusammenhang? Kontingenz-Koeffizient Korrelations-Koeffizient Durch welche Funktion kann die Tendenz eines Zusammenhangs beschrieben werden? Regressionsrechnung

58 Beispiel Kontingenztabellen

59 Beispiel Kontingenztabellen

60 Zusammenhang zwischen Körpergröße und Körpergewicht

61 Zusammenhang zwischen Körpergröße und Körpergewicht

62 Zusammenhang zwischen Körpergröße und Körpergewicht

63 Regressionsanalyse Die Regressionsanalyse verfolgt das Ziel, die Ten-denz des Zusammenhangs durch eine mathema-tische Funktion zu beschreiben. Mögliche Funktionen: Gerade: y = ax + b Parabel: y = ax2 + bx + c Potenzfunktion: y = bx2 Exponentialfunktion: y = bax

64 Kriterium der kleinsten Quadrate
Zur Ermittlung der Regressionsfunktion hat sich das Kriterium der kleinsten Quadrate bewährt. In einem Koordinatensystem werden die Beobach-tungspunkte eingezeichnet. Der Abstand zwischen den Punkten und der Funktion soll möglichst klein werden. Von allen möglichen Funktionen wird nun die ausge-wählt, für die die Quadrate der Abstände minimal sind

65 Kriterium der kleinsten Quadrate
y P1 y2 P2 y = ax + b y1 d2 d1 y2* P2* y1* P1* x1 x2 x

66 Lineare Regressionsfunktion
Forderung für Regressionsgerade y = ax + b: Für Minimum muss 1. Ableitung nach a und b ver-schwinden:

67 Lineare Regressionsfunktion
Durch Null-Setzen der 1. Ableitungen folgt: Auflösen nach a und b ergibt:

68 Lineare Regressionsfunktion
Andere Rechenmöglichkeit:

69 Einkommen - Miete

70 Einkommen - Miete

71 Lineare Regressionsfunktion
Bisher haben wir die die Abhängigkeit des Merkmals Y vom Merkmal X beschrieben. (Regression von y auf x). Wollen wir die Abhängigkeit des Merkmals X vom Merkmal Y beschreiben (Regression von x auf y), so ergeben sich folgende Formeln:

72 Miete - Einkommen

73 Miete - Einkommen

74 Werbungskosten - Umsatz

75 Werbungskosten - Umsatz

76 Alter - Wartungskosten

77 Alter - Wartungskosten

78 Korrelationsanalyse In der Korrelationsanalyse versucht man, die Stärke des Zusammenhangs zwischen zwei Merkmalen durch eine Maßzahl auszudrücken. Wir unterscheiden folgende Maßzahlen: Korrelationskoeffizient von Pearson (metrisch skalierte Merkmale) Rangkorrelationskoeffizient von Spearman (ordinalskalierte Merkmale) Kontingenzkoeffizienten (nominalskalierte Merkmale)

79 Korrelationskoeffizient von Pearson

80 Korrelationskoeffizient von Pearson
Der Korrelationskoeffizient r ist eine Zahl zwischen +1 und -1 r = 1: Alle Beobachtungswerte liegen auf einer steigenden Geraden. r = –1: Alle Beobachtungswerte liegen auf einer fallenden Geraden. r > 0: Merkmale positiv korreliert, d.h. die Regressionsgerade ist steigend. r < 0: Merkmale negativ korreliert, d.h. die Regressionsgerade ist fallend. r = 0: Die Merkmale sind unkorreliert, d.h. es besteht kein linearer Zusammenhang.

81 Korrelationskoeffizient von Pearson
Zur Berechnung des Korrelationskoeffizienten von Pearson ist die folgende Formel besser geeignet:

82 Beispiel Korrelationskoeffizient

83 Rangkorrelationskoeffizient von Spearman
Zwei Merkmale besitzen mindestens eine Ordinalskala. Merkmalswerte aufsteigend geordnet und jedem Platz eine Rangzahl zugeordnet. Für Berechnung werden nur Rangzahlen benötigt. Stimmen mehrere Merkmaleswerte überein, wird das arith. Mittel der Rangzahlen gebildet.

84 Beispiel 1

85 Beispiel 1

86 Beispiel 2

87 Beispiel 2

88 Beispiel Kontingenztabellen

89 Mittlere quadratische Kontingenz

90 Mittlere quadratische Kontingenz

91 Vierfelderkorrelation

92 Korrigierter Vierfelderkoeffizient


Herunterladen ppt "Beschreibende Statistik"

Ähnliche Präsentationen


Google-Anzeigen