Seminar: Datenerhebung

Slides:



Advertisements
Ähnliche Präsentationen
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Advertisements

Aufgabe Analyse (Friedman-Test) von letzter Stunde wiederholen
Theorie psychometrischer Tests, III
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Einfaktorielle Varianzanalyse
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Heute Prüfung der Produkt-Moment Korrelation
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Quantitative Methoden I
Hypothesen testen: Grundidee
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Fragen Was wird mit der Alphafehler-Kumulierung bzw. –inflation bezeichnet? Wie hoch ist die Wahrscheinlichkeit bei einer Untersuchung mit 4 Gruppen einen.
Strukturgleichungsmodelle
Statistische Methoden II
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.
Vorlesung Die Vorlesung Statistische Methoden II in 2 Wochen vom 6. Juni ( in 2 Wochen ) wird auf den 4. Juni (Mittwoch) vorverlegt ! 14 – 16 Zeit: 14.
Chi-Quadrat-Test auf Unabhängigkeit I
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Datenmatrix.
Extra-SPSS-Kurse Durchführung: Birte Holtfreter Termine Di Mi Mi Ort PC-Pool Loefflerstarße.
Datentabelle für 2 Merkmale
Chi-Quadrat-Tests. Satz von Karl Pearson I X: Stichprobenvariable, die r > 2 verschieden Werte annehmen kann: Die Verteilung von X ist durch einen Wahrscheinlichkeitsvektor.
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Tutorium
Tutorium
Vorlesung: ANOVA I
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Mittelwertvergleiche (T-Test)
Ausgleichungsrechnung II
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Chi Quadrat Test Tamara Katschnig.
Seminar: Datenerhebung
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
SPSS für Windows Auswertung von Marktforschungsdaten mit SPSS für Windows WINDER Thomas Porzellangasse 32, 1090 Wien.
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Regionalisierte Variablen und Kriging
Seminar: Datenerhebung
Seminar: Datenerhebung
Seminar: Datenerhebung
Seminar: Datenerhebung
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) 3. Ausgaben ( ) Wiederholung Tabellen,
Seminar: Datenerhebung
Seminar: Datenerhebung
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
STATISIK LV Nr.: 1375 SS März 2005.
Statistik: Mehr zur Regression.
SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Forschungsmethodik II, SS 2010 Vesna Pavlovski & Julia Pichlhöfer
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Veranstaltung 4.
Deskriptive Statistik, Korrelationen, Mittelwertvergleiche, Graphiken
STATISIK LV Nr.: 1852 WS 2005/ Jänner 2006.
setzt Linearität des Zusammenhangs voraus
Die einfache/multiple lineare Regression
 Präsentation transkript:

Seminar: Datenerhebung Einführung in SPSS/PASW Prof. Dr. Evans Seminar: Datenerhebung

Inhaltsübersicht Intro (02.11.2010) Deskriptive Statistik (09.11.2010) Ausgaben (16.11.2010) Grafik und Übungen (23.11.2010) Wiederholung (30.11.2010) Datentyp Datum (07.12.2010) Theorie 1 (14.12.2010) Theorie 2 (11.01.2011) Korrelationskoeffizient (18.01.2011) Regression & Tests (25.01.2011)

Zu letzter Woche Spearman vs. Pearson Fälle gewichten bei Chi² Nicht-Parametrisch vs. Parametrisch Annahme linearer Beziehung der Variablen: Nein vs. Ja Ordinalskala vs. Intervalskala Fälle gewichten bei Chi² Bei Häufigkeiten – wird benötigt, um einzuordnen, was die Werte relativ ‚wert‘ sind. Übungsbesprechung 2.) Der sozio-ökonomische Status (socioeconomic status, SES) einer Person werde auf einer Skala von 11 (niedrig) bis 77 (hoch) gemessen. SES ist dabei ein (nicht weiter definierter) Index für schulische und berufliche Qualifikation. Untersuchen Sie für die fiktiven (!) Daten aus der Arbeitsdatei ses.sav, inwieweit der SES von Vätern im Alter von 45 Jahren (vater) mit dem SES ihrer Söhne (sohn) korreliert, wobei der SES der Söhne ebenfalls im Alter von 45 Jahren ermittelt wird (also eine Generation später). Interpretieren Sie Ihr Ergebnis auch unter Zuhilfenahme eines Streudiagramms von sohn (y-Achse) und vater (x-Achse) Hinweise: Unterscheiden Sie zwischen Familien mit niedrigem, mittlerem und hohem SES. Beachten Sie, daß SES nach oben und unten beschränkt ist.

Lineare Regression Durch eine Menge von x-y- Beobachtungspunkte (z.B. die Werte 2er Zufallsvariablen) wird eine „möglichst optimale“ Gerade gelegt

Untersuchung eines möglichen linearen Zusammenhangs Lineare Regression ist genauer als der reine Korrelationskoeffizient, da man ein Model (ein simples, nämlich eine Gerade) des vermuteten linearen Zusammenhangs liefert. Es wird die Nullhypothese H untersucht, ob sich die Variablen Y und X in Form einer Geradengleichung darstellen lassen. m – Steigungsparameter b – y-Achsenabschnittsparameter Z – zufälliger Fehler

Gauß‘sche Methode der kleinsten Quadrate Terminologie der linearen Regression

Durchführung der linearen Regression in SPSS 1/2 Öffnet buecher.sav Wählt Analysieren > Regression > Linear Variablen anzahl, jahr Einstellungen Statistiken > Schätzer, Anpassung des Modells

Kochrezept 10_1 Titel: Führen Sie eine lineare Regression von Y nach X durch

Ergebnis der linearen Regression standardkoeffizient lineare regression Was der ‚Beta’ Koeffizient bedeutet: "Standardisierter Regressionskoeffizient". Um wieviel Standardabweichungen erhöht sich/ sinkt (je nach Vorzeichen des Beta-Koeffizienten) die abhängige Variable (y), wenn sich die unabhängige Variable (x) um eine Standardabweichung erhöht.   Diese Beta-Koeffizienten werden zum Vergleich der Einflußstärke unterschiedlicher Variablen in einem Modell verwendet. Allerdings gibt es hier einige Ausnahmen bei der Verwendbarkeit, die zu beachten sind. 1. Bei Dummies und Interaktionstermen (Multiplikation zweier exogener Variablen, siehe Abschnitt 6.) sind diese nicht interpretierbar. (Bei Dummies ist eine Erhöhung der Standardabweichung nicht sinnvoll interpretierbar, weil eine Erhöhung nur von 0 auf 1 möglich ist. Nur diese beide Werte kann ein Dummy annehmen. Mehr dazu in Abschnitt 6.) 2. Auch kein Vergleichbarkeit zwischen Regressionen, die auf verschiedenen Datensätzen basieren, da die Standardabweichung (Streuung) der Variablen in den Datensätzen variieren können.

Visualisieren der linearen Regression Wählt Diagramme > Veraltete Dialoge > Streu-/Punktdiagramm Doppelklick aufs Diagramm > Elemente > Anpassungslinie bei Gesamtwert > Linear Besser als die Regression in dem Fall: Zeitreihenanalyse

Bewerten der Güte eines Regressionsmodells Was haben wir bei der LinReg gemacht? Ausgehend von den Messpunktpaaren (Pn=(xn,yn)) haben wir Schätzwerte m und b einer Geraden berechnet, die „möglichst optimal“ durch diese Punkte verläuft. Der Fehler bei dieser Methode läßt sich wie folgt beschreiben Minimierungsaufgabe von ‚least-squares‘ Varianz des Modells (SSM, Sum of Squares Model) beschreibt die Abweichung des Mittelwertes y- von der Regressionsgeraden Quadratsumme der Abweichungen der abhängigen Variablen Y F beschreibt die emp. Varianz zwischen Modell SSM und Fehler SSE. Je größer F, desto „mehr“ Varianzanteil wird durch das lineare Model „erklärt“ Ähnliches beschreibt R². Für R² „nahe 1“ erklärt das lineare Modell einen Großteil der gesamten empirischen Varianz von Y Sie können die Testgröße F auch für einen formalen Hypothesentest verwenden, da die Verteilung von F bekannt ist.

Übungen Führen Sie für das Datenmaterial aus der SPSS Arbeitsdatei „umwelt.sav.“ eine lineare Regression von Umweltstraftaten nach deren zeitlichem Ablauf durch. Verwenden Sie hierzu für die y-Achse (abhängige Variable) jeweils die Variablen ua (umweltgefährdende Abfallbeseitigung) und gv (Gewässerverunreinigung) und für die x-Achse (unabhängige Variable) die Variable jahr. Erzeugen Sie für die SPSS Arbeitsdatei „buecher.sav“ auf Grundlage der Variablen anzahl und der neuen Variablen pre_1 (erwarteter Wert) überlagerte Streudiagramme mit den Beobachtungspunkten und der Regressionsgeraden und verbinden Sie die Punkte durch eine Spline-Interpolation. Welche Prognosen können Sie aus den linearen Modellen aus Aufgabe (1) für das Jahr 2000 ablesen (forecasting) und inwieweit würden Sie den Prognosen vertrauen? Hinweise: g(x)=mx+b, x=2000

T-Test Vergleichen von 2 Gruppenmittelwerten Verfahren um die beobachteten arithmetischen Mittelwerte zweier Gruppen miteinander zu vergleichen und zu entscheiden, ob ein Unterschied zwischen den beiden Gruppen zufällig zu erklären ist oder als signifikant einzustufen ist.

T-Test: Beispiel Variable: „Behandlungserfolg“ eines Bluthochdruckmedikaments für 2 Gruppen Null-Hypothese H: Die Grundgesamtheiten aus denen die Gruppen stammen, haben den selben Erwartungswert, so dass der Unterschied zwischen den beobachteten Gruppenmittelwerten zufällig entstanden ist. Die Alternative A besagt, dass der Unterschied zwischen den Gruppenmittelwerten zu groß i (signifikant) ist, um sich zufällig aus den Unterschieden zwischen den Individuen erklären zu lassen, sondern nur systematisch durch unterschiedliche Erwartungswerte erklärt werden kann

Durchführung eines T-Tests in SPSS Öffnet hypertonie-01.sav (Termin 8.) Neue Variable definieren Variable Berechnen > diff=rrs1-rrs0 Wählt Analysieren > Mittelwerte vergleichen > t-Test für unabhängige Stichproben Variablen Testvariable: diff Gruppenvariable: med 1 und 2

Ergebnis des t-Tests Ihre Null-Hypothese H lautet, dass der Erfolg der Medikamente in Hinblick auf Blutdrucksenkung gleich ist. Der t-Test liefert Ihnen den Wert der Teststatistik (t-value) und die zugehörige Irrtumswahrscheinlichkeit p. Die Irrtumswahrscheinlichkeit a, die Null-Hypothese H fälschlicherweise abzulehnen, obwohl sie wahr ist, können Sie bis zum Wert p=0.006 wählen. Die Null-Hypothese H sollte dementsprechend abgelehnt werden. Der Unterschied zwischen den beobachteten Mittelwerten ist also zu signifikant, um nur allein auf zufällige Schwankungen zurückgeführt werden zu können.

Kochrezept 10_2 Titel: Ziel: T-Test: Vergleichen Sie 2 Mittelwerte für die Variablen X,Y Ziel: Herausfinden, ob sich ein Unterschied in 2 Mittelwerten allein auf einen Messfehler zurückzuführen ist, oder auf einem systematischen Unterschied zwischen 2 Gruppen beruht.

Übungen Führen Sie einen t-Test durch für die Variable physik (Abiturnote einer Klasse in Physik) aus der SPSS Arbeitsdatei „schueler.sav“, wobei Sie nach sex (Geschlecht) unterscheiden. Vergleichen Sie mit einem nicht-parametrischen Test wie z.B. dem Mann-Whitney U-Test, der nicht die arithmetischen Mittelwerte, sondern die Ränge der Gruppen, miteinander vergleicht. Hinweise: Der U-Test sollte eingesetzt werden, wenn die Voraussetzungen für den t-Test – welche? - nicht erfüllt sind. Welchen Einfluß haben jeweils Ausreißer auf das Testergebnis (Stichwort: Robustheit)?

Vorraussetzungen für den t-Test Intervallskalierte Daten Normalverteilte Messwertdifferenzen der Messpaare (positive Korrelation der Messwertreihen)

Referenzen Übungen und Datensätze adaptiert aus: Statistische Datenanalyse mit SPSS für Windows: Grundlegende Konzepte und Techniken, Universität Osnabrück. Rechenzentrum, Dipl.-Math. Frank Elsner

Vielen Dank für Eure Aufmerksamkeit