Ökonometrie und Statistik Wiederholung Dr. Bertram Wassermann
Übersicht I Grundbegriffe II Verfahren für nominal - skalierte Daten III Verfahren für ordinal - skalierte Daten IV Verfahren für intervall – skalierte Daten
Was sind Daten? Daten sind eine Sammlung von Merkmalen bzw. Messungen von Informationen über eine gegebene Menge von Objekten bzw. Beobachtungseinheiten. Beobachtungseinheiten Konsumenten Kunden Firmen Patienten Versuchstiere Abteilungen Vulkane Regionen … Merkmale, Messungen Gekaufte Einheiten Qualität (Gold, Silber, Bronze) Größe Heilung (ganz, teils, gar nicht) Aufgabe erfolgreich gelöst? Produktivität letzte Aktivität Kaufkraft …
Typisches Datenformat: Tabelle Merkmale bilden die Spalten (werden auch Variablen oder Variaten genannt) Beobachtungseinheiten bilden die Zeilen M1 M2 M3 M(m-1) Mm Nr.1 Nr.2 Nr.3 Nr. n-1 Nr. n M M G K Mai 50 Jun 68 Jan 67 Dez 84 12,5 1 2 5 4 M 1,3 W 27,4 W 18,8 M Merkmalsausprägungen werden gemessen, beobachtet und in den Zellen eingetragen.
Deskriptive Statistik Der Prozess Grundgesamtheit (Population von Individuen für die eine Fragen beantwortet werden soll) Schließende Statistik Rückschlüsse auf die Grundgesamtheit mittels der durch die Stichprobe gewonnenen Informationen Ziehen einer Stichprobe. Stichprobe Daten-management Beschreibung der Stichprobe. Datensatz Nr.1 Nr.2 Nr.3 Nr. n-1 Nr. n M1 M2 M3 M(m-1) Mm M W 12,5 1,3 27,4 18,8 1 2 5 4 G K Mai 50 Jun 68 Jan 67 Dez 84 Deskriptive Statistik
Skalenniveaus Skalenniveaus Aus- prägungen Zulässige Operation Beispiel Haarfarbe, Religionsbekenntnis, Nationalität, Name einer Firma, etc. sind nur Namen Nominal = Abschlussnote, Versicherungskategorien (Hohes, mittleres, geringes Risiko); Subjektives Temperaturempfinden (,,heiß“, ,,warm“ ,,lauwarm“, ,,kalt“) etc. Skalenniveaus haben eine Reihenfolge = < > Ordinal Differenzen sind interpretierbar Temperatur (in Celsius oder Fahrenheit) Alter (in Jahren) Gewicht (in kg) Einkommen (in Euro) Telefonieminuten = + / - < > Intervall Verhältnisse sind interpretierbar = + / - < > * / : Alter (in Jahren) Gewicht (in kg) Einkommen (in Euro) Telefonieminuten Verhältnis
Skalenniveaus Informationsgehalt hoch gering Metrische Skala (Intervall- und Verhältnisskala) Ordinalskala Nominalskala Informationsgehalt hoch gering
Alternative Einteilung von Merkmalen Kategorielles Merkmal: endlich viele Ausprägungen (nach oben beschränkt); z.B. Geschlecht, Noten Spezialfall: Dichotome Variable Diskretes Merkmal: Ausprägung entspricht einer beliebigen natürlichen Zahl. Jedes kategorielle Merkmal ist auch diskret, aber nicht umgekehrt z.B. Telefonieminuten pro Monat und Kunde Stetiges Merkmal: Ausprägung entspricht einer reellen Zahl, theoretisch können alle Werte in einem bestimmten Intervall angenommen werden. z.B. Alter, Temperatur.
Unterscheidung der Methoden in der deskriptiven Statistik Anzahl der Variablen in der Analyse Beispiel Univariat Bivariat Multivariat Nominal Häufigkeiten Kreuztabelle Ordinal Ranking Etc. Intervall Mittelwert Regression Verhältnis Skalenniveaus Bei Bivariaten und Multivariaten Analysen kommt es in der Regel zu einer Mischung der Skalenniveaus
Übersicht I Grundbegriffe II Verfahren für nominal - skalierte Daten III Verfahren für ordinal - skalierte Daten IV Verfahren für intervall – skalierte Daten
Maßzahlen für eine nominale Variable Für jede Ausprägung: absolute Häufigkeit relative Häufigkeit und prozentuelle Häufigkeit. Für das Merkmal insgesamt: Der Modus, die häufigste Ausprägung.
Maßzahlen für zwei nominale Variable Für jede Ausprägung: zusätzlich … Kreuztabelle Zeilenprozent Spaltenprozent
Übersicht I Grundbegriffe II Verfahren für nominal - skalierte Daten III Verfahren für ordinal - skalierte Daten IV Verfahren für intervall – skalierte Daten
Maßzahlen für eine ordinale Variable Für jede Ausprägung: Alle Maßzahlen wie für nominal skalierte Daten und zusätzlich kumulierte absolute Häufigkeit kumulierte relative Häufigkeit
Weitere Maßzahlen für eine ordinale Variable Für das Merkmal insgesamt: Alle Maßzahlen wie für nominal skalierte Daten und zusätzlich kleinster Wert oder Minimum größter Wert oder Maximum q – Quantil oder q*100% – Perzentil Spezialfälle 0.25 – Quantil = 1. Quartil 0.50 – Quantil = 2. Quartil = der Median 0.75 – Quantil = 3. Quartil
Übersicht I Grundbegriffe II Verfahren für nominal - skalierte Daten III Verfahren für ordinal - skalierte Daten IV Verfahren für intervall – skalierte Daten
Maßzahlen für eine metrische Variable Für das Merkmal insgesamt: Alle Maßzahlen für nominal oder ordinal skalierte Daten und zusätzlich Lagemaße wie arithmetisches, geometrisches oder harmonisches Mittel, gewichtet oder ungewichtet. Streuungsmaße wie Varianz, Standardabweichung, Variationskoeffizient, Spannweite oder Quartilsabstand Schiefemaße
Mittelwert und Varianz Größe der Stichprobe = n Daten der Stichprobe: x1, x2, …, xn Arithmetisches Mittel: Varianz: Standardabweichung: Variationskoeffizient: Spannweite: Maximum - Minimum Quartilsabstand: 3. Quartil - 1. Quartil
Die Schiefe Verteilung symmetrisch: α3= 0 rechts schief: α3> 0 links schief: α3< 0 Verteilung symmetrisch: Mittelwert = Median rechts schief: Mittelwert rechts von Median links schief: Mittelwert links von Median
Zusammenfassung Kennzahlen Univariat Bivariat Nominal absolute Häufigkeit Kreuztabelle relative Häufigkeit Spaltenprozent prozentuelle Häufigkeit Zeilenprozent Modus Ordinal kumulierte absolute Häufigkeit kumulierte relative Häufigkeit kumulierte prozentuelle Häufigkeit Minimum, Maximum, (Nicht die Spannweite!) Lage Streuung Schiefe Median Quartile, Perzentile Metrisch Mittelwert Standartabweichung 3.tes Moment Spannweite Quartilsabstand Mittelwert - Median Skalenniveaus
Zusammenfassung Grafik Univariat Bivariat Nominal Säulendiagramm gruppiertes Balkendiagramm Balkendiagramm Kreisdiagramm gestapeltes Balkendiagramm Ordinal Summenpolygone Metrisch Säulendiagramm von gruppierten Daten Mittelwertsplots Box-Whiskers - Plot Skalenniveaus