setzt Linearität des Zusammenhangs voraus

Slides:



Advertisements
Ähnliche Präsentationen
Lineare Funktionen mit der Gleichung y = mx
Advertisements

Berechnung des Korrelationskoeffizienten Vorbemerkung. Der Korrelationskoeffizient ist im Grunde ein Bruch aus 3 unvollständig berechneten statistischen.
Streuungsmaß 3: absolute Abweichung vom Mittelwert
Induktive Statistik: Regressionsanalyse
Die Beschreibung von Bewegungen
Physikalische Messgrößen
Theorie psychometrischer Tests, III
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Regression und Korrelation
Forschungsstatistik I
Forschungsstatistik I
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Der Zusammenhang metrischer Merkmale
Optimale Kombination mehrerer Datenquellen durch Kriging
Mehrfachregressionen
Hypothesen testen: Grundidee
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
K. Desch - Statistik und Datenanalyse SS05
Effektgrößen, Kontraste & Post-hoc-Tests
Strukturgleichungsmodelle
Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.
Konfidenzintervalle Intervallschätzung
Mögliche Funktionenklassen
Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Rechenregeln für Mittelwert, Varianz und Streuung.
Datenmatrix.
Korrelationskoeffizient nach Bravais-Pearson Eigenschaften X und Y unabhängig.
Datentabelle für 2 Merkmale
Tutorium
Tutorium
Tutorium
Unser letztes Tutorium
Tutorium
Unser letztes Tutorium Output – das Modell gut11 gut12 gut21 gut22 gut31 gut32 state1 state2 state3 XI MF
Unser siebentes Tutorium
(Gini-Koeffizient, Lorenz-Kurve)
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Ausgleichungsrechnung I
Zeichnen linearer Funktionen
Seminar: Datenerhebung
Statistik: Mehr zur Regression.
Kapitel 10 Multikollinearität
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Regression und Kollokation
Was ist eine Funktion? Eine Zuordnung,
Lineare Funktionen und ihre Schaubilder, die Geraden
Bivariate Statistik M. Kresken.
1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Steigung und lineare Funktionen
Forschungsmethodik II, SS 2010 Vesna Pavlovski & Julia Pichlhöfer
Steigung und lineare Funktionen
Statistik – Regression - Korrelation
Veranstaltung 4.
Vom graphischen Differenzieren
Einführung zur Fehlerrechnung
Die einfache/multiple lineare Regression
STATISIK LV Nr.: 1852 WS 2005/ Jänner 2006.
Zusammenhänge von Variablen ab Nominalskalenniveau
Mathematik für BiologInnen WS 05
Die einfache/multiple lineare Regression
Varianzanalyse und Eta²
Statistiken je nach Messniveau
Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung
Die einfache/multiple lineare Regression
 Präsentation transkript:

setzt Linearität des Zusammenhangs voraus Korrelation (Benninghaus S 304-344) Korrelation: Maß für den Zusammenhang zweier metrischer Variablen (intervall- oder verhältnisskaliert) setzt Linearität des Zusammenhangs voraus ist ein Maß für symmetrische Hypothesen: es wird nicht zwischen unabhängiger und abhängiger Variable unterschieden zur Veranschaulichung wird der Zusammenhang in einem Streudiagramm dargestellt

Lineare (a,b) und nicht lineare Zusammenhänge

fast perfekte positive Korrelation

fast perfekte negative Korrelation

keine Korrelation

positive Korrelation mittlerer Höhe

Beispiel nach Gehring und Weins Es soll die Annahme überprüft werden, dass in Orten mit hohem Katholikenanteil der Anteil der CDU-Wähler besonders groß ist. Die Annahme muss bestätigt werden, wenn in Orten mit überdurchschnittlichem Katholikenanteil auch der CDU-Wähler-Anteil überdurchschnittlich ist und wenn in Orten mit unterdurchschnittlichem K-Anteil auch der Anteil der CDU-Wähler unterdurchschnittlich ist. Was über/unterdurchschnittlich ist, erkennen wir am Vergleich mit dem Mittelwert.

Beispiel Wenn der Zusammenhang hoch ist, variieren beide Variablen gemeinsam, haben also eine hohe Kovarianz:

Beispiel Da die Kovarianz sich mit der Maßeinheit ändert, sind Kovarianzen nicht vergleichbar, daher standardisiert man sie, indem man durch die Standardabweichungen beider Variablen teilt (Korrelation ist Kovarianz durch Standardabweichungen)

Formeln für Korrelation Korrelation = Kovarianz durch Standardabweichungen, reicht von -1 bis 1

Formel nach Benninghaus

Formel zum einfacheren Rechnen im Glossar von Andreß SAP Summe der Abweichungsprodukte SAQ Summe der Abweichungsquadrate

Praktisches Vorgehen: Arbeitstabelle

setzt Linearität des Zusammenhangs voraus Regression Regression: auch hier geht es um den Zusammenhang zweier metrischer Variablen (intervall- oder verhältnisskaliert) setzt Linearität des Zusammenhangs voraus ist geeignet für asymmetrische Hypothesen: es wird zwischen unabhängiger (x) und abhängiger Variable (y) unterschieden man spricht von der Regression von y auf x (d.h. auf Grund von x), man will die Varianz von y durch x erklären

es läßt sich ein PRE-Maß formulieren (Determinationskoeffizient R²) Wichtige Begriffe Regressionsgerade: y = a + b x Wird so in die Punktwolke eingefügt, dass die Summe der quadrierten Abweichungen jedes Meßwerts von der Regressionsgerade ein Minimum erreicht aus dieser Vorgabe ergeben sich die Werte der Regressionskoeffizienten a und b (Achsenabschnitt und Steigung) es läßt sich ein PRE-Maß formulieren (Determinationskoeffizient R²)

Formeln für die Regressionskoeffizienten (auch als b1 und b0 bezeichnet)

am obigen Beispiel

Interpretation der Regressionsgeraden b: Wenn x um eine Einheit steigt, steigt y um b Einheiten (hier 0.19). a: Wenn x Null wäre, läge y bei a. a ist nur sinnvoll zu interpretieren, wenn x den Wert Null annehmen kann und wenn y bei x=0 sinnvoll hochzurechnen ist. Beim Zusammenhang zwischen Alter und Einkommen macht es keinen Sinn, das Einkommen beim Alter von 0 Jahren hochzurechnen.

Lineare Einfachregression: Annahmen und OLS-Schätzung (1) Fragen zur Vorlesung Frage: Warum betrachtet man die quadrierten Abweichungen von der Regressionsgeraden und nicht die einfachen Abweichungen? Antwort: Weil die Summe der einfachen Abweichungen für jede Regressionsgerade, die durch den Schwerpunkt (x-quer, y-quer) der Punktwolke verläuft, gleich Null ist. Frage: Gibt es einen Punkt, durch den jede Regressionsgerade laufen muß? Antwort: Ja, der Schwerpunkt der Punktwolke. Der Schwerpunkt entspricht dem Punkt mit den Koordinaten x=x-quer und y=y-quer.

Lineare Einfachregression: Annahmen und OLS-Schätzung (2) Frage: Gibt es statt Probieren eine mathematische Methode, wie man die Gerade (genauer: die Parameter der Geradengleichung) bestimmen kann, die die Summe der quadrierten Abweichungen minimiert? Antwort: Die Minimierung einer Funktion, hier die Summe der Abweichungsquadrate als Funktion der Parameter b0 und b1, SAQ = f(b0, b1), ist ein Problem der Differentialrechnung. Bildet man die ersten Ableitungen der Funktion SAQ = f(b0, b1) und setzt diese Null, ergeben sich die Formeln für b0 und b1 in der Formelsammlung.

Erläuterung der proportionalen Fehlerreduktion (PRE) Ohne Kenntnis der UV sagen wir für jede Untersuchungseinheit bei der Variable y den Mittelwert y quer vorher. Der Fehler, den wir dabei machen, ist die Summe aller quadrierten Abweichungen der Meßwerte aller Untersuchungseinheiten vom Mittelwert y quer (Gesamtvariation) y i å - 2 ) (

Erläuterung der proportionalen Fehlerreduktion (PRE) Mit Kenntnis der UV sagen wir für jede Untersuchungseinheit bei der Variable y den Wert vorher, der sich aus der Regressionsgeraden ergibt: y´i = a + b xi Der Fehler, den wir dabei machen, ist die Summe aller quadrierten Abweichungen der Meßwerte aller Untersuchungseinheiten von den geschätzten Werten y´i (nicht erklärte Variation)

Erläuterung der proportionalen Fehlerreduktion (PRE) Erklärte Variation dagegen sind die quadrierten Abweichungen der geschätzten Werte y ´i vom Mittelwert y quer

Erläuterung der proportionalen Fehlerreduktion (PRE) Varianzzerlegung: Die Gesamtvariation ist die Summe der erklärten und nicht erklärten Variation. Die Gesamtvarianz ist die Summe der erklärten und der nicht erklärten Varianz:

Erläuterung der proportionalen Fehlerreduktion (PRE) Fehlerreduktion (E1-E2) / E1 (Gesamtvariarion – nicht erklärte Variation) geteilt durch Gesamtvariation identisch mit: erklärte Variation durch Gesamtvariation man erhält die gleichen Werte, wenn man statt der Variation die Varianz verwendet das Maß für die Fehlerreduktion heißt R² oder Determinationskoeffizient, er bezeichnet den Teil der erklärten Varianz an der Gesamtvarianz. R² ist ein symmetrisches Maß, ergibt sich also genauso bei der Regression von x auf y.

Zusammenhang zwischen Korrelation und Regression Das Bestimmtheitsmaß R2 entspricht dem Quadrat des Korrelationskoeffizienten. Korrelation ist identisch mit dem Regressionskoeffizienten b bei der Regression der z-transformierten Variable y auf die z-transformierte Variable x. Interpretation r: das Maß, in dem eine Steigung einer Variablen mit der Steigung (oder dem Absinken bei negativen Korrelationen) einer anderen Variablen einhergeht. Interpretation R²: der Anteil der erklärten Varianz von y durch x (damit ist aber noch keine kausale Aussage verknüpft)