Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Kurzeinführung in SPSS und Regressionsanalyse

Ähnliche Präsentationen


Präsentation zum Thema: "Kurzeinführung in SPSS und Regressionsanalyse"—  Präsentation transkript:

1 Kurzeinführung in SPSS und Regressionsanalyse

2 Inhalt 1. Grundlagen 2. Deskriptive Statistiken 3. OLS-Regression
4. WLS-Regression 5. Multiple Regressionsmodelle 6. Dummy-Variablen 7. Homo-/Heteroskedastie 8. Zeitreihen 9. Ergebnispräsentation

3 Grundsätzliche Vorgehensweise bei einer Analyse
am Anfang steht eine Grundfrage (hier z.B. „welche Faktoren beeinflussen die Entwicklung der Ernährungsqualität?“) sofern vorhanden, sollten bereits existierende ökonomische Theorien zu dieser Frage berücksichtigt werden, um herauszufinden, welche Einflußfaktoren zuvor als wichtig erkannt wurden eventuell Ergänzung dieser durch weitere, plausibel oder interessant erscheinende Determinanten Daten werden gesammelt und in einer großen Tabelle (jeder Fall eine Zeile) aufgelistet

4 Allgemeine Vorteile der Regressionsanalyse
Möglichkeit Einfluß einer bzw. verschiedener „erklärender“ Variablen (auch: „unabhängige Variable“, UV, „exogene“) auf eine zu erklärende Variable (AV, „abhängige“, „endogene“) abzuschätzen zudem feststellbar (vereinfachend): wie systematisch („signifikant“) ist der Einfluß? gilt er auch für andere Daten? um wieviel ändert sich die AV, wenn die UV um eine Einheit höher ist? wie hoch wäre die AV, wenn alle UV Null wären? Hinweise auf Richtung der Kausalität, Interaktionen zwischen UV wieviel erklärt ein Modell (ein Kombination aus 1 AV und 1 oder mehr UV)? Repräsentativität von Ergebnissen: quantitative Einschätzung von Unterschieden verschiedener Datensätze möglich mit Hilfe statistischer Graphik und Kartographie entwickeln sich neue Fragestellungen

5 Grundlagen: Literaturhinweise
Auer, L.: Ökonometrie, eine Einführung, Berlin 1999. Eckstein, P.: Angewandte Statistik mit SPSS, Praktische Einführung für Wirtschaftswissenschaftler, Wiesbaden 2000. Mukherjee, Ch. et al. : Econometrics and Data Analysis for Developing Countries, New York 1998. Woolbridge, J.: Introductory Econometrics, A Modern Approach, Thomson Learning 2000.

6 Grundlagen: Dateitypen in SPSS
Datendateien .sav: enthalten die zu bearbeitenden Daten als Datentabelle; es kann nur eine Datendatei geöffnet werden Ausgabe-Navigator .spo: Ergebnisse der SPSS-Prozeduren werden in diesem zusätzlichen Fenster bereitgestellt Syntax-Dateien .sps: enthalten in der Kommandosprache beschriebene Rechenaufträge Öffnen mit („Datei, Öffnen Daten/ Syntax oder Ausgabe) Speicherung der Dateitypen mit Datei/ Speichern  Dokumentation zwar lästig aber sehr wichtig! Kodierungen und Vorgehens-weise immer direkt im Ausgabenavigator oder in einem Textverarbeitungsprogramm notieren

7 Grundlagen: Variablenansicht
als Karteikarte neben Datenansicht, enthält Informationen über die Variablen in der Datendatei Name: Name der Variablen (Kleinbuchstaben, max. 8) Typ: Numerisch (Zahlen) und String (Buchstaben) Dezimalstellen: Anzahl der Stellen hinter dem Komma Variablenlabel: nähere, inhaltliche Beschreibung der Variable Wertelabel: welche Werte die Variable annehmen kann und was diese dann bedeuten Fehlende Werte: der Variablenwert ist nicht ermittelbar; für die Kodierung sollte ein Wert verwendet werden, den die Variable nicht annehmen kann, der ganze Fall wird dann bei Prozeduren, die auf diese Variable zurückgreifen, ignoriert

8 Grundlagen: Datensätze
Datensätze: (zufällige) Stichprobe von Individuen, Haushalten, Firmen, Staaten etc. oder Vollerhebung Cross-Sectional Data: Querschnitt zu einem bestimmten Zeitpunkt (z.B. verschiedene Länder: Index i) Time Series Data: enthält Ausprägungen der Variablen über die Zeit hinweg (gekennzeichnet mit t) Pooled Cross Sections: Mischung aus Querschnitt und Zeitreihe, wobei die Querschnitte unabhängig voneinander „gezogen“ werden Panel/ Longitudinal: Mischung aus Querschnitt und Zeitreihe, wobei die Querschnitte immer dieselben Mitglieder umfasst

9 Deskriptive Statistiken

10 Deskriptive Statistiken: Allgemeines
Def.: Werkzeuge, die der Beschreibung von Daten dienen Startpunkt einer jeden Analyse, um Daten besser einschätzen zu können eine „schiefe“ oder unsymmetrische Verteilung kann zu täuschender Insignifikanz und anderen Schätzproblemen führen untypische Extremfälle („Ausreißer“) können das Gesamtergebnis verzerren bei nichtlinearen Zusammenhängen müssen spezielle Maßnahmen ge-troffen werden deshalb: vor Anwendung der Regressionsanalyse auf (halbwegs) normalverteilte Variablen achten! denn: wenn Originalvariablen normal oder zumindest symmetrisch verteilt sind, dann besteht eine relativ hohe Wahrscheinlichkeit, daß auch die Residuen normalverteilt sind

11 Voranalyse: Überprüfung der Häufigkeiten
absolute Häufigkeit: mit welcher Anzahl ein bestimmter Wert vorkommt relative Häufigkeiten: Anzahl bestimmter Werte bezogen auf die Grundgesamtheit der Werte graphische Darstellung einer Verteilung: Histogramme kumulierte Häufigkeiten: Wahrscheinlichkeit, dass die Variable unter oder über einem bestimmten Wert liegt

12 Voranalyse: Histogramm
1. Schritt bei der Betrachtung der Verteilung: Erzeugung eines Histogramms, daßß die Häufigkeit der Fälle in Abhängigkeit der Variable (in Intervallen) anzeigt Variable nach Größe geordnet, Angabe von deren absoluten oder relativen Häufigkeit in ökonometrischen Studien abstrakte (und stetige) Darstellung der Verteilungen als Liniendiagramm mit Grafiken/ Histogramm/ Variable xy (& Kreuz bei Normalverteilungskurve anzeigen/ OK) Öffnen des Graphikeditors: durch doppelklicken auf die Graphik z.B. Klicken Sie zwei Mal auf die horizontale Achse. Unter Intervalle/ Anpassen/ Definieren/ Intervallbreite den Wert 0,5 eingeben/ Weiter. Dann Beschriftungen/ Dezimalstellen: 1/ Weiter / OK

13 Weitere Aufgaben der Voranalyse
Überprüfung von „Ausreißern“ Notwendig, da Regressionsgerade sehr sensibel auf Ausreißer (Beobachtungen, die weit von der Regressions-gerade entfernt liegen) reagiert Ausreißer erkennbar, z.B. wenn es bei den Variablen (v.a. der zu erklärenden) einen oder wenige extreme Werte gibt genauere Analyse der wichtigsten erklärenden Variablen insbesondere mittels Streudiagramm ermöglicht genauere Betrachtung des Einflusses einer besonders wichtigen und interessanten erklärenden Variable auf diese Weise können auch nichtlineare Zusammenhänge betrachtet werden: z.B. hat eine Variable erst ab einem gewissen Schwellenwert einen Einfluß? Fehlerbalkendiagramm nützlich bei Betrachtung vieler Kategorien sehr hoher Fallzahl

14 Deskriptive Statistiken: Durchschnitte
1. Arithmetisches Mittel oder Mittelwert: Summe der Messwerte dividiert durch ihre Anzahl: E(y)=(ni=1 yi)/n 2. Median (Zentralwert): gibt zentrales Mittel: Variable nach Größe ordnen, Wert auf mittlerer Position (Anzahl der Einzelbeobachtungen in Stichprobe + 1) / 2 falls gerade: Median  Wert auf dieser Position falls ungerade: Median  Mittelwert zwischen den Werten auf den umliegenden Positionen 3. Modus oder Modalwert (häufigster Wert): gibt die Spitze der Verteilung an SPSS: Analysieren/ Deskriptive Statistiken/ Häufigkeiten, unter Statistik/ Lagemaße zu berechnende Durchschnitte ankreuzen

15 Deskriptive Statistiken: Durchschnitte II
Beispiel: Zufallsstichprobe Median, Modus und Mittelwert ? Veränderungen bei Hinzufügen von x8?

16 Durchschnitte und Verteilung
bi-/multimodale Verteilung => Median oder Mittelwert uninteressant => wichtig: Modalwerte unimodale Verteilung: wenn symmetrisch => leichter zu analysieren

17 Deskriptive Statistiken: Normalverteilung
eine symmetrische stetige, glockenförmige Verteilung um das arithmetische Mittel, die allein durch das arithmetische Mittel und die Standardabweichung vollständig beschrieben ist Modus, Median und Mittelwert sind identisch Kennzahlen zur Schiefe und Kurtosis der Normalverteilung entsprechen 0  zentrale Bedeutung in der induktiven Statistik Annahme der Normalverteilung: in der Regel als Basis für Modellierung eines Populationsdurchschnitts je geringer die Varianz, desto repräsentativer der Mittelwert für den gesamten Datensatz

18 Standardnormalverteilung
95% der Fälle =1 2,5% der Fälle 2,5% der Fälle -1,96 +1,96 Ablehnungsbereich Annahmebereich Ablehnungsbereich Transformation mittels:

19 Mittelwertschätzung der errechnete Mittelwert hängt von den Werten der zufällig gezogenen Stichprobe ab man kann nicht mit Genauigkeit sagen, inwieweit der errechnete Mittelwert mit dem tatsächlich wahren Mittelwert übereinstimmt aber: aus der Standardnormalverteilung Bildung eines Konfidenzintervalls (Intervall, in dem mit 95%iger Wahrscheinlichkeit der Mittelwert liegt) möglich

20 Deskriptive Statistiken: Test auf Normalverteilung
Kolmogorov-Smirnov-Anpassungstest: ist die tatsächliche Abweichung größer als die errechnete maximale Abweichung, dann wird die Normalverteilung abgelehnt Analysieren/ Nichtparametrische Tests/ K-S bei einer Stichprobe/ unter Testverteilung Normal ankreuzen/ OK Ausgabe „assymptotische Signifikanz“ Werte unter 0,05: Normalverteilung kann zu einem Signifikanzniveau von 5% abgelehnt werden, Werte > 0,05 => Normalverteilung grafisch: Histogramm: Grafiken/ Histogramm/ Variable/ OK

21 Schiefe Werte müssen nicht symmetrisch um den Mittelwert liegen: schiefe Verteilung => Standardabweichung und Mittelwert reichen nicht aus, um die Verteilung ausreichend zu beschreiben z.B. bei rechtsschiefer bzw.linkssteiler Verteilung: Modus < Median < Mittelwert a3 > 0 : rechtsschief a3 < 0 : linksschief

22 Deskriptive Statistiken: Folgen einer deutlich schiefen Verteilung
vor allem bei sozioökonomischen Daten sind schiefe Verteilungen häufig bei Regressionen kann Schiefe zu nichtnormalverteilten Residuen führen verzerrten Schätzung von Teststatistiken sowie Konfidenzintervallen bzw. des Signifikanzniveaus (d.h. zu täuschender Signifikanz oder täuschender Insignifikanz) Gefahr von Heteroskedastie Autokorrelation bei Zeitreihen deshalb: vor Anwendung der Regressionsanalyse auf (halbwegs) normalverteilte Variablen achten!

23 Möglichkeit der Reduzierung der Schiefe
„Ladder of Powers“ (bei Mukherjee et al.): nichtlineare Transformation  Wirkung auf Schiefe Y³  reduziert extreme Linksschiefe Y²  reduziert Linksschiefe Y1  beläßt Variable unverändert ln(Y)  reduziert Rechtsschiefe Y-1  reduziert extreme Rechtsschiefe Mittelwert der transformierten Variable entspricht Median der Originalvariable auch viele andere Schätzprobleme verschwinden oft bei korrekt transformierten Variablen (z.B. Heteroskedastie)

24 Vorteile der logarithmischen Transformation
wenn alle Variablen (außer den Dummies) logarithmiert werden, hat dies zudem den Vorteil, daß die Koeffizienten als prozentuale Veränderungen gelesen werden dürfen (aufgrund der mathematischen Eigenschaft des Logarithmus) d.h. der Koeffizient sagt uns, wieviel % sich die zu erklärende Variable ändert, wenn die erklärende um 1% steigt bei Dummies: wieviel % Unterschied besteht zwischen der Konstanten und dem Fall, der durch die Dummy repräsentiert wird auf diese Weise lassen sich auch leichter Modellrechnungen und Simulationen durchführen

25 Probleme der logarithmischen Transformation
mögliche Folge der logarithmische Transformation: einzelne erklärende Variablen nicht exakt normalverteilt (unproblematisch wenn nur kleine Abweichungen) bei vielen Transformationen ergeben sich negativen Zahlen oder Nullwerte Ausweg: Konstruktion eines Indexes: niedrigster Wert gleich 0 (wenn er selten aufritt, sonst z.B. 1, oder 0,01), höchster gleich 100, und Werte dazwischen werden linear zu positiven Indexwerten transformiert: Index=100*(x - min)/(max-min) dieser Index kann dann logarithmiert werden, ohne das Beobachtungen entfallen

26 Deskriptive Statistiken: weitere Momente einer Verteilung
Varianz einer Verteilung: Distanz einer Variable zum Durchschnitt; Maß für die Streuung einer Variablen Standardabweichung einer Verteilung: Distanz zwischen arithmetischen Mittel und Wendepunkt (Punkt an dem die Rechtskrümmung zu einer Linkskrümmung wird) Kurtosis einer Verteilung: Wölbung

27 Varianz einer Verteilung
zwei Variablen mit demselben arithmetischen Mittel, allerdings unterschiedlicher Streuung: z.B. Variable x liegt dichter um den Mittelwert m verteilt als Variable y Interpretation der Varianz: erwartete Distanz der Variable x zum Durchschnitt; Maß für die Streuung einer Variablen

28 Standardabweichung einer Verteilung
f(x) f(x) sx sx m x Interpretation der Standardabweichung: Distanz zwischen arithmetischen Mittel und Wendepunkt (Punkt an dem die Rechtskrümmung zu einer Linkskrümmung wird) der Verteilung

29 Deskriptive Statistiken: Kurtosis einer Verteilung
Variablen mit identischem Mittelwert/ Standardabweichung und symmetrischer Verteilung, allerdings unterschiedlicher Wölbung im Vergleich zur Normalverteilung a4 > 0 : höhere Wölbung a4 < 0 : kleinere Wölbung

30 OLS-Regression: Streudiagramm
nur für univariate Regression rechtwinkliges Koordinatensystem: Streudiagramm – linearer, nichtlinearer oder kein Zusammenhang abhängige (=zu erklärende, endogene) Variable: wird auf der y- Achse abgetragen (z. B.: Körpergröße) erklärende (=exogene, unabhängige) Variable: wird auf der x-Achse abgetragen (z. B.: Zeit) Graphiken/ Streudiagramm/ Einfach Definieren/ erklärende Variable in x-Achse & zu erklärende Variable in y-Achse/ (Fallbeschriftung) / OK Einfügen der Regressionsgeraden 2X auf Streudiagramm klicken, führt zum Grafikeditor; darin auf Diagramme/ Optionen/ Kreuz bei Anpassungslinie gesamt/ OK Veranschaulichung der Zusammenhänge zwischen UV & AV

31 OLS-Regression: Einflußreiche Ausreißer
Verteilung der Beobachtungen: Berücksichtigung möglicher Ausreißer => verschiedene Streudiagramme identifizieren einflußreiche Ausreißer Def.: Beobachtungen, die von den mittleren 50% der Werte mehr als drei mal dieser Distanz entfernt liegen (Daumenregel) Regressionsgerade reagiert möglicherweise sehr sensitiv auf Ausreißer Lösung: Regression mit und eine ohne Ausreißer durchführen und Veränderung der Regressionskoeffizienten betrachten Ergebnisse, die auf Ausreißern basieren, sind unglaubwürdig Ausreißer raus!


Herunterladen ppt "Kurzeinführung in SPSS und Regressionsanalyse"

Ähnliche Präsentationen


Google-Anzeigen