Analyse kategorialer Variablen

Slides:

Advertisements

Ähnliche Präsentationen

Quanti Tutorium

Advertisements

Tutorat Statistik II im SS 09 Mediator- & Moderatoranalyse

Auswertung der Befragung

Induktive Statistik: Regressionsanalyse

Multivariate Datenanalyse Datum: Betreuer: Dr. Bellmann Quellen: Multivariate Statistik, Hartung/Elpelt 1989 Stochastik für Ingenieure und Naturwissenschaftler,

Thema der Stunde I. Einführung in die Varianzanalyse:

Regression und Korrelation

Gliederung Allgemeine Arten von Zusammenhängen Kovarianzen

Mixed Models Jonathan Harrington library(ez) library(lme4)

Mehrstufige Zufallsexperimente

Der Zusammenhang metrischer Merkmale

Patrick Rössler Methoden der Datenerhebung und -auswertung Vorlesung BA Kommunikationswissenschaft (G21) 1.

Ein frohes und erfolgreiches Jahr

Anwendungsseminar: Kausale Modellbildung

Quantitative Methoden I

Hypothesen testen: Grundidee

2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell

Herzlich willkommen beim 1. Workshop der AG Methodik

Mehrdeutigkeit eines positiven Effekts bei Querschnittsdaten

Statistiktutorat: Datenkontrolle

Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.

Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.

Korrelationskoeffizient nach Bravais-Pearson Eigenschaften X und Y unabhängig.

Datentabelle für 2 Merkmale

Kodiersysteme und erste Umrechnungen

Tutorium Aufgabe 1 a) E(eIX)= 0 E(eIX)= E(Y-E(YIX)IX) = E(YIX)- E (E(YIX)IX) = E(YIX)- E(YIX) = 0 Im Mittel macht man mit seiner Schätzung keinen.

Unser sechstes Tutorium Materialien unter:

(Gini-Koeffizient, Lorenz-Kurve)

Clusteranalyse von Maria Eickhold und Tobias Töpfer.

Vorlesung: Biometrie für Studierende der Veterinärmedizin

Quantitative Methoden in der klinischen Epidemiologie

Multikollinearität Wann spricht man von Multikollinearität?

Wiederholung: Einfache Regressionsgleichung

Chi Quadrat Test Tamara Katschnig.

SPSS für Windows Auswertung von Marktforschungsdaten mit SPSS für Windows WINDER Thomas Porzellangasse 32, 1090 Wien.

VERKEHRSMITTEL.

Globale Interpolations- und Prädiktionsverfahren

Logistische Regression

Das Allgemeine Lineare Modell (ALM)

Seminar: Datenerhebung

Seminar: Datenerhebung

Statistik: Mehr zur Regression.

Kann man Originalität trainieren ?

Kapitel 4 Annahmen des linearen Regressionsmodells

STATISIK LV Nr.: 0021 WS 2005/ November 2005.

Regression und Kollokation

Multivariate Statistische Verfahren

Multivariate Statistische Verfahren

Forschungsmethodik II, SS 2010 Vesna Pavlovski & Julia Pichlhöfer

Statistik Statistik I Seminar + Blockveranstaltung Statistik I

Statistik Typen statistischer Zusammenhänge: Statistik I

Veranstaltung 4.

Die einfache/multiple lineare Regression

Zusammenhänge von Variablen ab Nominalskalenniveau

Variogramme und Kriging

setzt Linearität des Zusammenhangs voraus

Die einfache/multiple lineare Regression

Statistiken je nach Messniveau

Probleme empirischer Forschung

1)Inwieweit können die Werte in Y auf der Basis zweier unabhängiger Variablen X1 und x2 „erklärt“ werden? 2)Kann auf der Basis der vorliegenden Stichprobenergebnisse.

Umzüge versus Pendeln Referat 4. Oktober 2010 Dominique Braun.

Grafische Darstellung von Gruppenunterschieden.

Jennifer Staubmann 5 AK 2012/2013 Regressionsanalyse.

Verkehrsmittel 2.

Die einfache/multiple lineare Regression

Präsentation transkript:

Analyse kategorialer Variablen Katrin Oehlkers Helke Neuendorff Tobias Schiller

Gliederung 1. Einführung 2. Das lineare Logit-Modell 3. Anwendungsbeispiel 4. Zum loglinearen Modell

Einführung

Skalenniveaus

Skalenniveaus

Skalenniveaus

Skalenniveaus

Skalenniveaus

Skalenniveaus

Skalenniveaus

Skalenniveaus

Skalenniveaus

Skalenniveaus

Merkmale kategorialer Variablen: • dichotome Variablen • polytome Variablen Zwei Ausprägungen z.B. Variable „Geschlecht“ = männlich/weiblich Mehrere Ausprägungen z.B. Variable „Verkehrsmittel“ = Bus/Bahn/Auto/Fahrrad/Fußgänger • können nur endlich viele Werte annehmen

Typen statistischer Zusammenhänge:

Typen statistischer Zusammenhänge:

Typen statistischer Zusammenhänge:

Typen statistischer Zusammenhänge:

Typen statistischer Zusammenhänge:

Typen statistischer Zusammenhänge:

Typen statistischer Zusammenhänge:

Typen statistischer Zusammenhänge:

Typen statistischer Zusammenhänge:

Typen statistischer Zusammenhänge:

2. Das lineare Logit-Modell (A als Ausprägungen der unabhängigen Variable Y)

2.1 Lineare Regressionsgleichung

Lineare Regressionsgerade (nach Rosner 2001: S. 59)

Lineare Regressionsgerade (nach Rosner 2001: S. 59)

Lineare Regressionsgerade (nach Rosner 2001: S. 59)

Lineare Regression Die Regressionsgerade ist nur in einem beschränkten Bereich sinnvoll interpretierbar.

Wahrscheinlichkeitsmodell 2.2 Lineares Wahrscheinlichkeitsmodell p1j = Wahrscheinlichkeit mit der Y für X = xj den Wert 1 annimmt. p0j = 1 - p1j = Wahrscheinlichkeit mit der Y für X = xj den Wert 0 annimmt.

Lineares Wahrscheinlichkeitsmodell (nach Rosner 2001: S. 59)

Lineares Wahrscheinlichkeitsmodell (nach Rosner 2001: S. 59)

Nachteile: Schätzung in der Nähe der Extremwerte ungenau Nicht erweiterbar auf den Fall, dass Y eine polytome Variable ist Erfahrungsgemäß eher s-förmiger Kurvenverlauf

2.3 Logistisches Modell

2.3 Logistisches Modell

p1j kann nur noch Werte zwischen 1 und 0 annehmen! 2.3 Logistisches Modell • Geht xj gegen oo, geht p1j gegen 1 • Geht xj gegen –oo, geht p1j gegen 0 p1j kann nur noch Werte zwischen 1 und 0 annehmen!

Logistisches Modell (nach Rosner 2001: S. 60)

Umformung:

Umformung:

Umformung:

Umformung:

Umformung:

Logit

„Gelangen Sie motorisiert oder zu Fuß an Ihren Arbeitsplatz?“ 3. Anwendungsbeispiel: Pendlerverhalten von Angestellten STP: 12 Angestellte „Gelangen Sie motorisiert oder zu Fuß an Ihren Arbeitsplatz?“

Fragestellung: Welchen Einfluss übt die Entfernung zum Arbeitsplatz auf die Wahl des Verkehrsmittels aus? Unabhängige Variable (X): Entfernung zum Arbeitsplatz • in km Abhängige Variable (Y): Wahl des Verkehrsmittels „zu Fuß“: 0 „motorisiert“: 1

Ergebnistabelle:

(nach Hartung 1995)

Lineare Regression: (nach Hartung 1995)

Logit-Modell: Für die Ausprägungen p=0 und p=1 gibt es keine Lösung. Deshalb Berechnung der Logits!

Berechnung der Logits:

Berechnung der Logits:

Berechnung der Logits:

Berechnung der Logits:

Regressionsgerade der Logits (1/-1,0986) (3/1,0986) (2/0) (nach Hartung 1995)

Berechnung der Regressionsgerade der Logits

Berechnung der Regressionsgerade der Logits

Berechnung der Regressionsgerade der Logits

Berechnung der Regressionsgerade der Logits

Ergebnisse einsetzen in Formel des Logit-Modells Lösung: Ergebnisse einsetzen in Formel des Logit-Modells

Fragestellung: 90% benutzen ein Auto! Wieviele Pendler benutzen bei einer Distanz von 4km zum Arbeitsplatz ein motorisiertes Verkehrsmittel? 90% benutzen ein Auto!

4. Das Loglineare Modell

Stichworte zum loglinearen Modell • bei mehr als zwei kategorialen Variablen • Lösung mehrdimensionale Kontingenztabellen • Fragestellung: Besteht überhaupt ein Zusammenhang zwischen Variablen? Wie stark ist dieser?

• Binnenwanderungssaldo Beispiel: Zusammenhang von • Binnenwanderungssaldo • Verstädterungsgrad • Arbeitsplatzentwicklung negativ / schwach positiv / stark niedrig / hoch negativ / positiv

Logit-Modell und Loglineares Modell Logit-Modell etwa vergleichbar mit Regressionsanalyse Loglineares Modell etwa vergleichbar mit Korrelationsanalyse

Ende.