Lineare Regressionsanalyse mit SPSS von Susanne Konrath

Slides:

Advertisements

Ähnliche Präsentationen

Statistik-Tutorat SS 2009 Christina

Advertisements

Modellprämissen der linearen Regression

Induktive Statistik: Regressionsanalyse

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.

Regression und Korrelation

Diese Fragen sollten Sie beantworten können

Numerik partieller Differentialgleichungen

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.

Forschungsstatistik II

Forschungsstatistik I

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

Mehrfachregressionen

Quantitative Methoden I

Hypothesen testen: Grundidee

2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell

K. Desch - Statistik und Datenanalyse SS05

Tutorat II Multiple Korrelation Mediator- Moderatoranalyse

Strukturgleichungsmodelle

Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.

Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.

Univariate Statistik M. Kresken.

Tutorium Aufgabe 1 a) E(eIX)= 0 E(eIX)= E(Y-E(YIX)IX) = E(YIX)- E (E(YIX)IX) = E(YIX)- E(YIX) = 0 Im Mittel macht man mit seiner Schätzung keinen.

Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.

(Gini-Koeffizient, Lorenz-Kurve)

Vorlesung: ANOVA I

Eigenschaften der OLS-Schätzer

Einfache Regressionsgleichung

Multikollinearität Wann spricht man von Multikollinearität?

Wiederholung: Einfache Regressionsgleichung

Histogramm/empirische Verteilung Verteilungen

Partielle Autokorrelation

Seminar: Datenerhebung

Überblick Statistik Deskriptive Statistik=beschreibende Statistik

Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/

Seminar: Datenerhebung

Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) 3. Ausgaben ( ) Wiederholung Tabellen,

Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,

STATISIK LV Nr.: 0028 SS Mai 2005.

Statistik: Mehr zur Regression.

Kapitel 10 Multikollinearität

Kapitel 2 Das klassische Regressionsmodell

Kapitel 18 Dynamische Modelle: Schätzen der Parameter

Kapitel 16 Ökonometrische Modelle

Kapitel 18 Dynamische Modelle: Schätzen der Parameter.

STATISIK LV Nr.: 0021 WS 2005/ November 2005.

Ganzheitliches Projekt-, Ressourcen- und Qualitätsmanagement 1 Reports und AddOns Auf den folgenden Seiten wird Ihnen die Funktionsweise der Reports und.

Strategie der Modellbildung

1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.

Statistische Methoden in der Wirtschafts- und Sozialgeographie

Regression Maria Morozova Lisa Ochsenhofer. Einführung Francis Galton 1886 Größe von Vater und Sohn Regression zum Mittelwert.

Statistik Statistik I Seminar + Blockveranstaltung Statistik I

Übung zur Vorlesung Theorien Psychometrischer Tests I

Statistik – Regression - Korrelation

Veranstaltung 4.

Die einfache/multiple lineare Regression

setzt Linearität des Zusammenhangs voraus

Die einfache/multiple lineare Regression

Varianzanalyse und Eta²

Lineare Gleichungen Allgemeine Einführung Äquivalenzumformungen

 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.

Grafische Darstellung von Gruppenunterschieden.

Präsentation transkript:

Lineare Regressionsanalyse mit SPSS von Susanne Konrath Inhaltsverzeichnis Bestehenden Datensatz importieren Neue Daten eingeben Start der linearen Regression Dialogbox lineare Regression Festlegen der Regressionsgleichung Festlegen von Blöcken und der Variablenselektionsmethode Zu der Variablebselektionsmethoden Mögliche Bedingungen Gewichtete Regression Statistiken Diagramme Speichern Optionen Anpassungslinien in Streudiagramm zeichnen Anhang: Mehr zur Regression

Bestehenden Datensatz importieren Nach dem Start von SPSS öffnet sich automatisch der Daten-Editor Es können hier bestehende Daten mit Hilfe der Menüwahl Datei>Öffnen>Daten geladen werden. Es können verschiedene Dateitypen geladen werden. Der Import wird durch eine Dialogbox gesteuert.

Neue Daten eingeben Neue Variablen können mit der Registerkarte „Variablenansicht“ am unteren Rand des Spreadsheets definiert werden. Die neuen Daten können dann in der „Datenansicht“ eingegeben werden. Variablendefinition Dateneingabe

Start der linearen Regression Auswahl des Menüpunktes „Linear...“ unter Analysieren Regression Linear...

Dialogbox lineare Regression Es öffnet sich die Dialogbox „Lineare Regression“ Alle zur Verfügung stehenden Variablen befinden sich im linken Feld Zur Variablenselektion ist die Methode Einschlußverfahren voreingestellt

Festlegen der Regressionsgleichung Die abhängige Variable (hier: y) und die unabhängigen Variablen (hier: x1, x2) werden durch ziehen mit der Maus in die dafür vorgesehenen Felder eingefügt Der Intercept (hier: x0) muß nicht extra mit in die Modellgleichung aufgenommen werden

Festlegen von Blöcken und der Variablenselektionsmethode Bestimmung von Variablenblöcken Einstellung des Verfahrens zur Variablenselektion pro Block Durch die Auswahl der Methode kann festgelegt werden, wie unabhängige Variablen in die Analyse eingeschlossenen werden. Die verfügbaren Methoden sind: Einschluß Auschluß Vorwärts Rückwärts Schrittweise Es besteht die Möglichkeit die unabhängigen Variablen in Blöcke zusammenzufassen. Es können dann verschiedene Methoden für unterschiedliche Untergruppen von Variablen angegeben werden. Beispielsweise kann man einen Block von Variablen durch schrittweises Auswählen und einen zweiten Block durch Vorwärtsselektion in das Regressionsmodell einschließen.

Zu den Variablenselektionsmethoden Einschluß Alle unabhängigen Variablen des Blockes werden auf einmal in die Analyse einbezogen. Auschluß Um die Variablen in einem einzigen Schritt aus dem Block zu entfernen Schrittweise Methoden Vorwärts Es werden nacheinander die Variablen des Blockes mit dem höchsten partiellen Korrelationskoeffizienten mit der abhängigen Variablen in die Gleichung aufgenommen Rückwärts Zunächst werden alle unabhängige Variablen des Blockes in einem einzigen Schritt in die Gleichung eingeschlossen und anschließend diejenigen Variablen mit dem kleinsten partiellen Korrelationskoeffizienten mit der abhängigen Variablen nacheinander entfernt soweit der zugehörige Regressionskoeffizient nicht signifikant ist (Signifikanzniveau: 0,1) Schrittweise Funktioniert ähnlich wie die Vorwärtsmethode. Allerdings werden nach jedem Schritt die jeweils aufgenommenen Variablen nach der Rückwärtsmethode untersucht.

Mögliche Bedingungen (optional) Es kann eine Auswahlvariable zum Begrenzen der Analyse auf eine Untergruppe von Fällen mit einem bestimmten Wert oder bestimmten Werten für diese Variable angegeben werden. Es können Variablen zur Fallunterscheidung unter Fallbeschriftungen ausgewählt werden, um Punkte in Diagrammen zu identifizieren.

Gewichtete Regression (optional) Gewichtete kleinste Quadrate (WLS) geben Beobachtungen verschiedene Gewichtungen, zum Beispiel zum Ausgleich unterschiedlicher Meßgenauigkeit. Als Gewicht kann nur eine numerische Variable verwendet werden Die effektive Stichprobengröße wird nicht geändert.

Statistiken Regressionskoeffizienten Mit Schätzer werden die Regressionskoeffizienten B = Betadach, die Standardfehler von B, das Beta des standardisierten Koeffizienten?, die t-Werte für B und das zweiseitige Signifikanzniveau von t angezeigt. ->Viewer: Koeffizienten Mit Konfidenzintervalle werden die individuellen 95%-Konfidenzintervalle für jeden Regressionskoeffizienten angezeigt. ->Viewer: Koeffizienten Mit Kovarianzmatrix wird eine Varianz-Kovarianz-Matrix und die Korrelationsmatrix der Regressionskoeffizienten angezeigt ->Viewer: Korrelation der Koeffizienten

Statistiken Anpassungsgüte des Modells Änderung in R-Quadrat Die aufgenommenen und entfernten Variablen aus dem Modell werden aufgelistet ->Viewer: Aufgenommene/Entfernte Variable Die folgenden Statistiken der Anpassungsgüte werden angezeigt: multiples R, R-Quadrat und korrigiertes R-Quadrat, Standardfehler des Schätzers ->Viewer: Modellzusammenfassung Und die Tabelle zur Varianzanalyse. ->Viewer: ANOVA Änderung in R-Quadrat Hier werden Änderung in R-Quadrat, Änderung in F und die Signifikanz der Änderung in F angezeigt. (siehe z.B. Toutenburg, LINEARE MODELLE, 2. Auflage, 2003, S147f.) ->Viewer: Modellzusammenfassung, Änderungsstatistiken Deskriptive Statistik Liefert die Anzahl gültiger Fälle, Mittelwert und Standardabweichung für jede Variable in der Analyse. ->Viewer: Deskriptive Statistiken Außerdem wird eine Korrelationsmatrix der Variablen nach Pearson mit einem einseitigen Signifikanzniveau und die Anzahl der Fälle für jede Korrelation angezeigt. ->Viewer: Korrelationen

Statistiken Teil- und partielle Korrelationen Hiermit werden Korrelationen nullter Ordnung, Teil- und partielle Korrelationen ? angezeigt. ->Viewer: Koeffizienten, Korrelationen Kollinearitätsdiagnose Eigenwerte der skalierten und unzentrierten Kreuzproduktmatrix, Konditionsindex, Proportionen der Varianzzerlegung ->Viewer: Kollinearitätsdiagnose Varianzfaktoren (VIF), Toleranzen für einzelne Variablen ->Viewer: Koeffizienten Residuen Durbin-Watson-Test für Reihenkorrelationen der Residuen ->Viewer: Modellzusammenfassung Fallweise Diagnose für die Fälle, die das Auswahlkriterium (Ausreißer über n Standardabweichungen) erfüllen werden standardisierte, nichtstandardisierte Residuen, nichtstandardisierter Vorhersagewert ausgegeben. ->Viewer: Fallweise Diagnose

Diagramme Streudiagramme Es können je zwei der folgenden Elemente aufgetragen werden: DEPENDENT die abhängige Variable Y *ZPRED standardisierte vorhergesagte Werte für Y *ZRESID standardisierte Residuen *DRESID ausgeschlossene Residuen *ADJPRED korrigierte vorhergesagte Werte *SRESID studentisierte Residuen *SDRESID studentisierte ausgeschlossene Residuen Es können mehrere Streudiagramme im Feld „Streudiagramm 1 von 1“ über die Schaltfläche Weiter erzeugt werden.

Diagramme Alle partiellen Diagramme erzeugen. Erzeugt Streudiagramme der Residuen aller unabhängigen Variablen und der Residuen der abhängigen Variablen, wenn für den Rest der unabhängigen Variablen beide Variablen einer getrennten Regression unterzogen werden. Zum Erzeugen eines partiellen Diagramms müssen mindestens zwei unabhängige Variablen in der Gleichung enthalten sein. Diagramme der standardisierten Residuen. Histogramme standardisierter Residuen Normalverteilungsdiagramme, welche die Verteilung standardisierter Residuen mit einer Normalverteilung vergleichen. Bemerkung: Beim Anfordern von Diagrammen werden Auswertungsstatistiken für standardisierte vorhergesagte Werte und standardisierte Residuen (*ZPRED und *ZRESID) angezeigt.

Speichern Mit jedem Auswahlvorgang werden der Datendatei die ausgewählten Größen als neue Variablen hinzugefügt. Vorhergesagte Werte. Dies sind die nach dem Regressionsmodell für die abhängige Variable vorhersagten Werte. Nicht standardisiert (pre*) Standardisiert (zpr*) Korrigiert (adj*) Standardfehler des Mittelwerts (sep*) ->Viewer: Residuenstatistik

Speichern Distanzen Dies sind Maße zum Auffinden von Fällen mit ungewöhnlichen Wertekombinationen bei der unabhängigen Variablen und von Fällen, die einen großen Einfluß auf das Modell haben könnten. Mahalanobis (mah*) Nach Cook (coo*) Hebelwerte (lev*) ->Viewer: Residuenstatistik Vorhersageintervalle Die oberen und unteren Grenzen sowohl für Mittelwert als auch für einzelne Vorhersageintervalle. Mittelwert (lmci*,umci*) Individuell (lici*,uici*) Konfidenzintervall

Speichern Residuen Der tatsächliche Wert der abhängigen Variablen minus dem vorhergesagten Wert aus der Regressionsgleichung. Nicht standardisiert (res*) Standardisiert (zre*) Studentisiert (sre*) Ausgeschlossen (dre*) Studentisiert, ausgeschlossen (sdr*) ->Viewer: Residuenstatistik Einflußstatistiken Die Änderung in den Regressionskoeffizienten und vorhergesagten Werten, die sich aus dem Ausschluß eines bestimmten Falls ergibt. DfBeta: (dfb0*,dfb1*, ...) Regressionskoeffizienten Standardisierte(s) DfBeta: (sdb0*,sdb1*, ...) DfFit: (dff*) vorhergesagten Werten Standardisiertes DfFit (sdf*) Kovarianzverhältnis: (cov*) Dies ist das Verhältnis der Determinante der Kovarianzmatrix für einen bestimmten ausgeschlossenen Fall zur Determinante der Kovarianzmatrix für alle Fälle.

Speichern In neuer Datei speichern Hiermit werden Regressionskoeffizienten in einer anzugebenen Datei gespeichert. Modellinformation in XML-Datei exportieren Hiermit werden Modellinformationen in die angegebene Datei exportiert. Diese Datei kann von SPSS-Zusatzprodukten wie SmartScore und zukünftigen Versionen von WhatIf? verwendet werden.

Optionen Kriterien für schrittweise Methode. Diese Optionen eignen sich für den Fall, daß die Vorwärts-, Rückwärts- oder schrittweise Methode der Variablenauswahl angegeben wurde. Variablen im Modell werden eingeschlossen/entfernt in Abhängigkeit von F-Wahrscheinlichkeit, d.h. der Signifikanz (Wahrscheinlichkeit) des F-Werts F-Wert

Optionen Konstante in Gleichung einschließen Als Voreinstellung enthält das Regressionsmodell einen konstanten Term (intercept). Wenn diese Option deaktiviert ist, wird die Regression durch den Ursprung gezwungen. Achtung: Manche Resultate einer durch den Ursprung verlaufenden Regression lassen sich nicht mit denen einer Regression vergleichen, die eine Konstante aufweist. Beispielsweise kann R-Quadrat nicht in der üblichen Weise interpretiert werden. Tip: Option deaktivieren und Intercept eigenhändig als Variable einfügen. Dies führt zur vollständigen Ausgabe der Kovarianzmatrix und der Korrelationsmatrix Fehlende Werte Listenweiser Fallausschluß. Nur Fälle mit gültigen Werten für alle Variablen werden in die Analyse einbezogen. Paarweiser Fallausschluß. Fälle mit vollständigen Daten für das korrelierte Variablenpaar werden zum Berechnen des Korrelationskoeffizienten verwendet, auf dem die Regressionsanalyse basiert. Durch Mittelwert ersetzen. Alle Fälle werden für Berechnungen verwendet, wobei der Mittelwert der Variablen die fehlenden Beobachtungen ersetzt.

Anpassungslinien in Streudiagramm zeichnen Doppelklick auf das Streudiagramm, dann Diagramme Optionen...

Anhang: Mehr zur Regression Folgende Menüpunkte stehen zur Verfügung unter Analysieren Regression Linear... Abhängige Variable: intervallskaliert / ordinalskaliert. Unabhängige Variablen: beliebiges Skalenniveau

Anhang: Mehr zur Regression Kurvenanpassung... Mit der Prozedur "Kurvenanpassung" werden Regressionsstatistiken zur Kurvenanpassung und zugehörige Diagramme für 11 verschiedene Regressionsmodelle zur Kurvenanpassung erstellt. Binär logistisch... Binär logistisch... Abhängige Variable: dichotom, d.h. 2 Kategorien Unabhängige Variablen: beliebiges Skalenniveau Multinomial logistisch... Abhängige Variable: mehr als 2 Kategorien, nominal Unabhängige Variablen: nominal / ordinal Ordinal... (ab V.10.0) Abhängige Variable: mehr als 2 Kategorien, ordinal Probit... Dosis-Wirkungskurven-Analyse. Diese Prozedur mißt die Beziehung zwischen der Stärke eines Stimulus und dem Anteil der Fälle, die eine bestimmte Response auf den Stimulus zeigen.

Anhang: Mehr zur Regression Nichtlinear... Mit der nichtlinearen Regression können Modelle mit willkürlichen Beziehungen zwischen den abhängigen und unabhängigen Variablen geschätzt werden. Dies wird durch den Einsatz eines iterativen Schätzungsalgorithmus erreicht. Gewichtungsschätzung... Bei Verletzung der Varianzhomogenität liefert die lineare Regression unter Verwendung der gewöhnlichen kleinsten Quadrate keine optimalen Modellschätzungen. Wenn die Differenzen in der Variabilität von einer anderen Variablen vorhergesagt werden können, dann können die Koeffizienten eines linearen Regressionsmodells mit der Prozedur "Gewichtungsschätzung" unter Verwendung von gewichteten kleinsten Quadraten (WLS) berechnet werden. Dabei wird den genaueren Beobachtungen (jene mit kleinerer Variabilität) ein größeres Gewicht beim Bestimmen der Regressionskoeffizienten zugewiesen. Mit der Prozedur "Gewichtungsschätzung" werden eine Reihe von Gewichtungstransformationen getestet, und es wird angezeigt, welche die beste Anpassung an die Daten ergibt. Zweistufige kleinste Quadrate... Standardmodelle für die lineare Regression gehen davon aus, daß Fehler in der abhängigen Variablen nicht mit den unabhängigen Variablen korrelieren. Ist dies nicht der Fall (zum Beispiel, wenn zwischen den Variablen eine Wechselwirkung besteht), dann liefert die lineare Regression unter Verwendung von gewöhnlichen kleinsten Quadraten keine optimalen Modellschätzungen mehr. Man verwendet die zweistufige Regressionsmethode der kleinsten Quadrate.

Anhang: Mehr zur Regression Optimale Skalierung... Durch die kategoriale Regression werden kategoriale Daten quantifiziert, indem den Kategorien numerische Werte zugewiesen werden. Dadurch ergibt sich für die transformierten Variablen eine optimale lineare Regressionsgleichung. Das Standardverfahren der linearen Regressionsanalyse beinhaltet die Minimierung der Summe von quadrierten Differenzen zwischen einer Antwortvariablen (abhängig) und einer gewichteten Kombination von Einflußvariablen (unabhängig). Variablen sind in der Regel quantitativ, wobei (nominale) kategoriale Daten in Binär- oder Kontrastvariablen umkodiert werden. Infolgedessen dienen kategoriale Variablen einer Aufteilung in verschiedene Gruppen von Fällen, so daß jeweils separate Parametersätze für jede Gruppe geschätzt werden. Die geschätzten Koeffizienten geben die Auswirkung einer Änderung in den Einflußvariablen auf die Antwortvariable wider. Die Antwort kann für jede beliebige Kombination von Einflußwerten vorhergesagt werden. Eine andere Methode besteht darin, daß die Antwort auf die kategorialen Einflußwerte selbst einer Regression unterzogen wird. Folglich wird für jede Variable ein Koeffizient geschätzt. Bei kategorialen Variablen sind die Kategoriewerte jedoch willkürlich. Durch verschiedene Kodierungsarten der Kategorien ergeben sich jeweils unterschiedliche Koeffizienten, wodurch ein analysenübergreifender Vergleich gleicher Variablen erschwert wird. CATREG erweitert die Standardmethode durch eine gleichzeitige Skalierung nominaler, ordinaler und numerischer Variablen. Die Prozedur quantifiziert kategoriale Variablen, so daß in den Quantifikationen die Merkmale der ursprünglichen Kategorien zum Ausdruck kommen. Dadurch werden quantifizierte kategoriale Variablen auf dieselbe Weise wie numerische Variablen behandelt. Durch die Verwendung nichtlinearer Transformationen können Variablen auf einer Vielzahl von Ebenen analysiert und somit das jeweils geeignetste Modell gefunden werden.