Bivariate Statistik M. Kresken.

Slides:



Advertisements
Ähnliche Präsentationen
Fast Fourier Transformation
Advertisements

Statistik-Tutorat SS 2009 Christina
Univariate Statistik M. Kresken.
Filterung der räumlichen Frequenzen
Vom graphischen Differenzieren
Lineare Funktionen mit der Gleichung y = mx
Berechnung des Korrelationskoeffizienten Vorbemerkung. Der Korrelationskoeffizient ist im Grunde ein Bruch aus 3 unvollständig berechneten statistischen.
Streuungsmaß 3: absolute Abweichung vom Mittelwert
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Multivariate Datenanalyse Datum: Betreuer: Dr. Bellmann Quellen: Multivariate Statistik, Hartung/Elpelt 1989 Stochastik für Ingenieure und Naturwissenschaftler,
Theorie psychometrischer Tests, III
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Regression und Korrelation
Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.
Forschungsstatistik I
Forschungsstatistik I
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Der Produkt-Moment- Korrelationskoeffizient Der Produkt-Moment Korrelationskoeffizient gibt Stärke und Richtung des linearen Zusammenhanges zweier Variablen.
Kapitel 5 Stetigkeit.
Kapitel 6 Differenzierbarkeit. Kapitel 6: Differenzierbarkeit © Beutelspacher Juni 2005 Seite 2 Inhalt 6.1 Die Definition 6.2 Die Eigenschaften 6.3 Extremwerte.
Produktform der Inversen 1
Quantitative Methoden I
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Willkommen zum Plenum.
Regression und Korrelation
Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.
Mögliche Funktionenklassen
Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.
Rechenregeln für Mittelwert, Varianz und Streuung.
Datenmatrix.
Korrelationskoeffizient nach Bravais-Pearson Eigenschaften X und Y unabhängig.
Datentabelle für 2 Merkmale
Univariate Statistik M. Kresken.
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Tutorium
Das wars!.
(Gini-Koeffizient, Lorenz-Kurve)
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Einfache Regressionsgleichung
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
§24 Affine Koordinatensysteme
Die Welt der Fraktale Eine Kurzeinführung.
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Polynome und schnelle Fourier-Transformation
Seminar: Datenerhebung
Auslegung eines Vorschubantriebes
STATISIK LV Nr.: 0028 SS Mai 2005.
Statistik: Mehr zur Regression.
Ökonometrie I Modellvergleich (Übersicht) Ökonometrie I2 Vergleich von Modellen Fragestellungen für Modellvergleich 1.Fehlende Regressoren.
Referat über das Thema STOCHASTIK.
Lineare Funktionen und ihre Schaubilder, die Geraden
Managemententscheidungsunterstützungssysteme (Ausgewählte Methoden und Fallstudien) ( Die Thesen zur Vorlesung 3) Thema der Vorlesung Lösung der linearen.
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Analyseprodukte numerischer Modelle
Der Zentralwert.
Regression Maria Morozova Lisa Ochsenhofer. Einführung Francis Galton 1886 Größe von Vater und Sohn Regression zum Mittelwert.
Forschungsmethodik II, SS 2010 Vesna Pavlovski & Julia Pichlhöfer
Physik für Mediziner und Zahmediziner
Der Erotik Kalender 2005.
16. Zweidimensionale quadratische Formen.
6-Baum-Stichprobe PLAWA Semester T1EN.
Statistik – Regression - Korrelation
Die einfache/multiple lineare Regression
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
setzt Linearität des Zusammenhangs voraus
Die einfache/multiple lineare Regression
Varianzanalyse und Eta²
 Präsentation transkript:

Bivariate Statistik M. Kresken

Wertepaare, Punktwolke M. Kresken

Wertepaare, Punktwolke Werden an mehreren Beobachtungseinheiten je zwei stetige Merkmale gemessen, so lässt sich jedes Wertepaar durch einen Punkt in einem Koordinatensystem darstellen (Punktwolke) Messwerte Merkmal 1 Messwerte Merkmal 2 M. Kresken

Regression von y auf x M. Kresken

Zusammenhang zwischen n Wertepaaren (xj,yj) M. Kresken

Regression von y auf x Das Problem einer Regression von y auf x liegt vor, wenn für das Merkmal x fest vorgegebene Werte xj (z.B. Dosen oder Zeitpunkte) und für das Merkmal y zugehörige yj (z.B. Serumkonzentration eines Arzneistoffes) erhoben werden. Häufig kann eine graphisch erkennbare Beziehung zwischen zwei Merkmalen (x und y) näherungsweise durch eine Gerade „gut“ beschrieben werden. Aber was bedeutet „gut“ ? M. Kresken

Regression von y auf x Berechnung einer Geraden, die sich aus der Summe der quadrierten Abstände ermittelt wird Methode der kleinsten Quadrate x y M. Kresken

Regression von y auf x Die so aus den Abständen der einzelnen Messpunkte (xj,yj) zu der Geraden parallel zur y-Achse eindeutig bestimmte Gerade heißt Regressionsgerade von y auf x: byx wird Regressionskoeffizient genannt und beschreibt den Anstieg der Regressionsgeraden. Der Regressionskoeffizient gibt an, um wie viel sich y im Durchschnitt ändert, wenn x um eine Einheit erhöht wird. Der Parameter ayx bezeichnet den Schnittpunkt mit der y-Achse. y = byxx + ayx M. Kresken

    ( ) (  Regression von y auf x ( ) ( ) ( ) ( ) ( ) ) byx und ayx ergeben sich aus folgenden Formeln: byx = syx sxx , falls sxx = 0 _ y – byx x ayx =  n j=1 _ ( yj - y ) _ 1 n - 1 syx = sxy = ( ) xj - x  n j=1  n j=1 ( xj )  n j=1 ( yj ) 1 ( _ 1 n ) = ( xjyj ) n - 1 = 1 n - 1 (  n j=1 xjyj ) _ n x y M. Kresken

  Regression von y auf x ( ) ( ) 1 n - 1 sxx = sx = xj - x _ _ 1 2 2 _ 1 n - 1  n j=1 = ( xj ) - n x 2 M. Kresken

Regression von y auf x _ _ Die Größe sxy heißt Kovarianz und beschreibt die gemeinsame Streuung der x- und y-Werte, d.h. die Ausdehnung der Punktwolke. Der Punkt (x, y) heißt Schwerpunkt der Punktwolke und ist ein Lagemaß für das Zentrum der Wertepaare. In manschen Situationen lässt sich eine lineare Beziehung erst nach Transformation der x- oder y-Werte erkennen. Folgen z.B. die (x,y)-Werte einem exponentiellen Verlauf (y = ex), so wird sich nach Logarithmierung der y-Werte ein linearer Zusammenhang ergeben. Mit den transformierten Werten wird dann eine Regressionsrechnung durchgeführt. _ _ M. Kresken

Abbau der Adrenalinkonzentration in der Leber Nr. Zeit nach Adrenalingabe [min] Adrenalin [mg/l] 1 6 30,2 2 18 9,8 3 30 4,7 4 42 1,8 5 54 0,8 M. Kresken

Zusammenhang des Abbaus der Adrenalinkonzentration in der Leber über die Zeit Adrenalin (mg/100ml) Zeit [min] M. Kresken

Regression von y auf x Es liegt die Vermutung nahe, dass die Adrenalinwerte mit der Zeit exponentiell abfallen. Wegen der graphisch erkennbaren Beziehung werden deshalb statt der Werte selbst die Logarithmen für die Regressionsrechnung verwendet, wobei die logarithmierten Werte mit y bezeichnet werden. Bei der Berechnung werden also nicht die ursprünglichen Messwerte (Zeit, Adrenalin), sondern die transformierten Messwerte (Zeit, log(Adrenalin)) = (x,y) benutzt. M. Kresken

Zeit nach Adrenalingabe Abbau der Adrenalinkonzentration in der Leber (Originalmesswerte und logarithmierte Adrenalinwerte) Nr. Zeit nach Adrenalingabe [min] Adrenalin [mg/l] log (Adrenalin) 1 6 30,2 2 18 9,8 3 30 4,7 4 42 1,8 5 54 0,8 M. Kresken

Zeit nach Adrenalingabe Abbau der Adrenalinkonzentration in der Leber (Originalmesswerte und logarithmierte Adrenalinwerte) Nr. Zeit nach Adrenalingabe [min] Adrenalin [mg/l] log (Adrenalin) 1 6 30,2 1,48 2 18 9,8 0,99 3 30 4,7 0,67 4 42 1,8 0,26 5 54 0,8 -0,10 M. Kresken

Punktwolke und Regressionsgerade für den Abbau der logarithmischen Adrenalinkonzentration über die Zeit log Adrenalin (mg/100ml) Zeit [min] y = byxx + ayx M. Kresken

Punktwolke und Regressionsgerade für den Abbau der logarithmischen Adrenalinkonzentration über die Zeit y = byxx + ayx Benötigte Formeln M. Kresken

Abbau der Adrenalinkonzentration in der Leber (Originalmesswerte und logarithmierte Adrenalinwerte) Nr. Zeit x Adrenalin [mg/l] log (Adrenalin) y xy x2 y2 1 6 30,2 1,48 2 18 9,8 0,99 3 30 4,7 0,67 4 42 1,8 0,26 5 54 0,8 -0,10  M. Kresken

Abbau der Adrenalinkonzentration in der Leber (Originalmesswerte und logarithmierte Adrenalinwerte) Nr. Zeit x Adrenalin [mg/l] log (Adrenalin) y xy x2 y2 1 6 30,2 1,48 8,88 36 2,1904 2 18 9,8 0,99 17,82 324 0,9801 3 30 4,7 0,67 20,10 900 0,4489 4 42 1,8 0,26 10,92 1764 0,0676 5 54 0,8 -0,10 -5,40 2916 0,0100  150 3,30 52,32 5940 3,6970 M. Kresken

Zusammenhangsmaße M. Kresken

Zusammenhangsmaße Maßzahlen, mit deren Hilfe sich der Zusammenhang zwischen zwei Merkmalen beschreiben lässt. Keines der Maße dient dazu, einen sachlogischen oder kausalen Zusammenhang nachzuweisen. M. Kresken

Korrelationskoeffizient Der Korrelationskoeffizient r nach Pearson ist ein quantitatives Maß für die Beziehung zwischen zwei stetigen Merkmalen und beschreibt die lineare Komponente des Zusammenhangs. r = syx sxx · syy , falls sxx = 0 und syy = 0 Der Korrelationskoeffizient r kann nur Werte von –1 bis +1 annehmen. Der Korrelationskoeffizient ist eine einheitslose Größe. M. Kresken

Zusammenhang zwischen Punktwolken und Korrelationskoeffizienten M. Kresken

Berechnung des Korrelationskoeffizienten r Korrelationskoeffizient zwischen der logarithmischen Adrenalinkonzentration und der Zeit Berechnung des Korrelationskoeffizienten r M. Kresken

Bestimmtheitsmaß Im Zusammenhang mit der Regressionsrechnung gibt man häufig statt des Korrelationskoeffizienten das so genannte Bestimmtheitsmaß an. Das Bestimmtheitsmaß ist gleich dem Quadrat des Korrelationskoeffizienten. Es beschreibt, welcher Anteil an der Gesamtvarianz durch das Regressionsmodell bzw. die Regressionsgerade erklärt wird. M. Kresken

Rang-Korrelationskoeffizient Ist ein alternatives Maß, um Zusammenhänge zwischen Merkmalen zu beschreiben (Spearman Rang-Korrelationskoeffizient). Wird auf der Basis der Ränge der Messwerte berechnet: (R (x1), R (y1)), (R (x2), R (y2)),....., (R (xn), R (yn)). Der kleinste Messwert erhält den Rang 1, der größte Wert den Rang „n“. Mit den mittleren Rangzahlen lässt sich analog zum Korrelationskoeffizienten nach Pearson der Rang-Korrelationskoeffizient berechnen. R(X) = 1 n  j=1 R(xj) R(Y) = 1 n  j=1 R(yj) M. Kresken

Rang-Korrelationskoeffizient Die Berechnung erfolgt analog zum Korrelationskoeffizienten nach Pearson unter Verwendung der Rangzahlen. syx r = sxx syy M. Kresken

Rang-Korrelationskoeffizient Bei ordinalen Merkmalen beobachtet man häufig die Übereinstimmung der Messergebnisse mehrerer Beobachtungseinheiten. In solchen Fällen werden den übereinstimmenden Messergebnissen mittlere Ränge zugeordnet. Dass die Originalmessergebnisse nur über ihre Position in den jeweiligen Ranglisten, d.h. indirekt in die Berechnung des Rang-Korrelationskoeffizienten einfließen, bedeutet eine Informationsreduktion. Auf der anderen Seite können dadurch nichtlineare Zusammenhänge beschrieben werden. Der Rang-Korrelationskoeffizient liefert Werte von –1 bis +1. M. Kresken

Abbau der Adrenalinkonzentration in der Leber (Originalmesswerte und logarithmierte Adrenalinwerte) Nr. Zeit x Ränge R(x) Adrenalin [mg/l] R(y) R(x) R(y) R(x)2 R(y)2 1 6 30,2 2 18 9,8 3 30 4,7 4 42 1,8 5 54 0,8  M. Kresken

Abbau der Adrenalinkonzentration in der Leber (Originalmesswerte und logarithmierte Adrenalinwerte) Nr. Zeit x Ränge R(x) Adrenalin [mg/l] R(y) R(x) R(y) R(x)2 R(y)2 1 6 30,2 5 25 2 18 9,8 4 8 16 3 30 4,7 9 42 1,8 54 0,8  15 35 55 M. Kresken

Interpretation der Ergebnisse der Regressions- bzw Interpretation der Ergebnisse der Regressions- bzw. Korrelationsrechnung Eine Extrapolierung der Regressionsgleichung über den Bereich der Punktwolke hinaus ist nicht zulässig. Ein Korrelationskoeffizient nahe null bedeutet nicht, dass kein Zusammenhang zwischen den betrachteten Merkmalen besteht. Einzelne extreme Wertepaare können sowohl den Korrelationskoeffizienten als auch die Regressionsgleichung erheblich beeinflussen. Eine beobachtete Korrelation bedeutet nicht ohne weiteres einen sachlogischen Zusammenhang zwischen diesen beiden Merkmalen. M. Kresken