Mehrfache und polynomiale Regression

Slides:



Advertisements
Ähnliche Präsentationen
Spektrale Analysen in EMU-R: eine Einführung
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Quellen-Filter Theorie der Sprachproduktion
EF: Standards + H2O red = H2O.
Logistic Regression Jonathan Harrington Befehle: logistic.txt.
Logistic Regression Jonathan Harrington Bitte lost.txt und lost2.txt laden – siehe Befehle in logistic.txt.
Generalised linear mixed models (GLMM) und die logistische Regression
Die Varianzanalyse Jonathan Harrington.
Mehrfache und polynomiale Regression Jonathan Harrington Kriteria für die Durchführung einer Regression pfad = "Das Verzeichnis, wo die Daten gespeichert.
Mixed Models Jonathan Harrington library(ez) library(lme4)
Die t-Verteilung Jonathan Harrington.
Mixed models Jonathan Harrington
Logistische Regression und die Analyse von Proportionen Jonathan Harrington library(lme4) library(lattice) library(multcomp) source(file.path(pfadu, "phoc.txt"))
Kovarianz, Korrelation, (lineare) Regression
Kovarianz, Korrelation, (lineare) Regression
Logistic Regression Jonathan Harrington Befehle: logistic.txt.
Logistische Regression und die Analyse von Proportionen Jonathan Harrington library(lme4) library(lattice) library(multcomp) source(file.path(pfadu, "phoc.txt"))
Logistische Regression und die Analyse von Proportionen
Vokale und die Quantaltheorie
Logistische Regression und psychometrische Kurven
Die t-Verteilung (fortgesetzt)
Wann ist eine Regression zulässig? siehe siehe auch: UCLA Statistics Dept. Denise.
Parametrisierung von Spektra
Mehrfache und polynomiale Regression
Mehrfache und polynomiale Regression Jonathan Harrington Kriteria für die Durchführung einer Regression library(MASS) # ydata.txt und epg.txt in einem.
2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt Bitte lvoc.txt und lost.txt laden (siehe proportion.txt)
Artikulationsstelle, F2-Locus, Locusgleichungen Jonathan Harrington.
4. Anwendung der logistic Regression auf die Berechung einer perzeptiven Grenzen zwischen Kategorien Experiment. Anhand der Sprachsynthese wurde ein F2-
Kovarianz, Korrelation, (lineare) Regression
Kovarianz, Korrelation, (lineare) Regression Jonathan Harrington BITTE NOCH EINMAL dframes.zip (Webseite 4.1) herunterladen und in pfad auspacken.
Die Varianzanalyse ohne Messwiederholung Jonathan Harrington.
Logistische Regression und die Analyse von Proportionen Jonathan Harrington.
Modellvergleich.
Potenzfunktionen.
Prof. Dr. Bernhard Wasmayr
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Unser letztes Tutorium Output – das Modell gut11 gut12 gut21 gut22 gut31 gut32 state1 state2 state3 XI MF
Zusammenhang zwischen x und P(y=1)
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
20:00.
Eine Einführung in die CD-ROM
Logistische Regression
Die t-Verteilung und die Prüfstatistik
Bewohnerumfrage 2009 durchgeführt vom
Varianzanalyse mit Messwiederholungen
Varianzanalyse mit Messwiederholungen
Die t-Verteilung Jonathan Harrington. Standard error of the mean (SE) ist die Standardabweichung von Mittelwerten Ich werfe 5 Würfel und berechne den.
Die t-Verteilung und die Prüfstatistik
Einige Kriterien für die Durchführung einer Varianzanalyse Jonathan Harrington.
Varianzanalyse mit Messwiederholungen
Statistik: Mehr zur Regression.
Kapitel 2 Das klassische Regressionsmodell
Kapitel 5 Statistische Bewertung von Regressionsbezie-hungen
Kapitel 3 Lineare Regression: Schätzverfahren
Bewertung von Regressionsbeziehungen
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Symmetrische Blockchiffren DES – der Data Encryption Standard
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Zusammengestellt von OE3DSB
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Folie Einzelauswertung der Gemeindedaten
Kovarianz, Korrelation, (lineare) Regression
Schwimmen : Die Anzahl 2: Die Bestzeit.
Regression (zweiter Teil)
Kovarianz, Korrelation, (lineare) Regression
Kovarianz, Korrelation, (lineare) Regression
Kovarianz, Korrelation, (lineare) Regression
 Präsentation transkript:

Mehrfache und polynomiale Regression Jonathan Harrington

^ Einfache Regression ^ Mehrfache Regression In diesem Fall: 2 Regressoren (x1, x2) , 2 Neigungen (b1, b2), ein Intercept, k und eine Ebene im 3D-Raum

Mehrfache Regression Es können auch mehrere Regressoren sein… ^ Eine Hyper-Ebene in einem n-dimensionalen Raum n verschiedene Neigungen, ein Intercept

Einige Daten ydata = read.table(file.path(pfadu, "ydata.txt")) names(ydata) Zungendorsum Untere Lippe [1] "F2" "DORSY" "DORSX" "LIPY" "LIPX" [y] Vokale, alle Werte zum zeitlichen Mittelpunkt DORSX, DORSY (horizontale und vertikale Position des Zungendorsums) LIPX, LIPY (horizontale Verlagerung und vertikale Position der Unterlippe)

Ein mehrfaches Regressionsmodell F2 = b1DORSX +b2DORSY + b3LIPX + b4 LIPY + k ^ hat die Bedeutung F2 = ein Gewicht Mal die horizontale Position der Zunge + ein anderes Gewicht Mal die vertikale Position der Zunge + …. + ein Intercept ^ Mehrfache Regression in R Festlegung von b1, b2, b3, b4, k Sind alle diese Parameter notwendig? Wenn nicht, welches Parameter oder Parameterkombination hat die deutlichste lineare Beziehung zu F2?

pairs(ydata) hoch tief hinten* vorne oben unten hinten vorne * Richtung Glottis

F2 = b1DORSX +b2DORSY + b3LIPX + b4 LIPY + k ^ regm = lm(F2 ~ DORSX+DORSY+LIPX+LIPY, data=ydata) Koeffiziente coef(regm)

summary(regm) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1355.05 822.63 1.647 0.113 DORSX -38.33 157.21 -0.244 0.810 DORSY 63.08 254.27 0.248 0.806 LIPX -67.36 110.90 -0.607 0.550 LIPY -164.08 205.04 -0.800 0.432 Residual standard error: 83 on 23 degrees of freedom Multiple R-Squared: 0.3939, Adjusted R-squared: 0.2884 F-statistic: 3.736 on 4 and 23 DF, p-value: 0.01747 F2 kann mit einer multidimensionalen Regression aus diesen artikulatorischen Parametern modelliert werden: Adjusted R2 = 0.29, F[4, 23] = 3.7, p < 0.05. (In mehrfacher Regression Adjusted R2 nehmen, weil ajdusted R2 für die Anzahl der Regressoren kompensiert)

Modell-Prüfung durch AIC (Akaike's Information Criterion) Mit der stepAIC() Funktion in library(MASS) wird geprüft, ob für die Regression wirklich alle (in diesem Fall 4) Regressoren benötigt werden. Je kleiner AIC, umso nützlicher die Kombination für die Regression (umso höher adjusted R2) library(MASS) stepAIC(regm)

Start: AIC= 251.95 F2 ~ DORSX + DORSY + LIPX + LIPY Df Sum of Sq RSS AIC - DORSX 1 410 158861 250 - DORSY 1 424 158875 250 - LIPX 1 2541 160993 250 - LIPY 1 4412 162863 251 <none> 158451 252 sortiert nach AIC. Dies ist der AIC-Wert, wenn aus diesem Modell DORSX weggelassen wäre. Daher wird im nächsten Modell DORSX weggelassen. Vor allem ist dieser AIC Wert weniger als AIC mit allen Parametern (= 251.95).

Step: AIC= 250.02 F2 ~ LIPX + LIPY + DORSY Df Sum of Sq RSS AIC - DORSY 1 1311 160172 248 - LIPY 1 4241 163102 249 <none> 158861 250 - LIPX 1 16377 175238 251 AIC ist am kleinsten, wenn aus diesem Modell DORSY weggelassen wird. Und dieser Wert ohne DORSY ist kleiner als derjenige mit LIPX+LIPY+DORSY zusammen. Daher wird DORSY weggelassen…

Step: AIC= 248.25 F2 ~ LIPX + LIPY Df Sum of Sq RSS AIC <none> 160172 248 - LIPX 1 25225 185397 250 - LIPY 1 50955 211127 254 Wenn wir entweder LIPX oder LIPY weggelassen, dann wird AIC höher im Vergleich zu AIC mit beiden Parametern zusammen. Daher bleiben wir bei F2 ~ LIPX + LIPY

Dieses Modell F2 ~ LIPX + LIPY müsste auch den höchsten adjusted R2 haben. Prüfen, zB: lip.lm = lm(F2 ~ LIPX+ LIPY, data= ydata) summary(regm) summary(lip.lm) Adjusted R-squared: 0.3383 Adjusted R-squared: 0.2884 Also wird die Variation in F2 in [y] am meisten durch die horizontale und vertikale Position der Unterlippe erklärt.

Polynomiale Regression ein Regressor ein Koeffizient ^ ein Regressor, 2 Koeffiziente ^ bestimmt die Krümmung; b2 ist näher an 0 b2 ist positiv b2 ist negativ

ein Regressor, n Koeffiziente ^ In allen Fällen handelt es sich um Abbildung/Beziehungen im 2D-Raum (da wir mit einem Regressor zu tun haben).

epg = read.table(paste(pfadu, "epg.txt", sep="/")) plot(F2 ~ COG, data = epg)

^ regp = lm(F2 ~ COG + I(COG^2), data = epg) k = coef(regp) (Intercept) COG I(COG^2) -294.3732 2047.8403 -393.5154 ^ plot(F2 ~ COG, data = epg) Die Parabel überlagern curve(k[1] + k[2]*x + k[3]*x^2, add=T)

summary(regp) Beide Komponente, COG und COG2 der Parabel scheinen notwendig zu sein, um die F2-COG Beziehungen zu modellieren. Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -294.37 139.95 -2.103 0.0415 * COG 2047.84 192.83 10.620 1.81e-13 *** I(COG^2) -393.52 54.17 -7.264 6.10e-09 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 202.1 on 42 degrees of freedom Multiple R-Squared: 0.9092, Adjusted R-squared: 0.9049 F-statistic: 210.4 on 2 and 42 DF, p-value: < 2.2e-16

mit stepAIC() kann wieder festgestellt werden, ob wir den COG2 Parameter wirklich benötigen: stepAIC(regp) Scheinbar ja (da AIC höher wird, wenn entweder COG oder COG2 aus dem Modell weggelassen werden). Start: AIC= 480.69 F2 ~ COG + I(COG^2) Df Sum of Sq RSS AIC <none> 1715550 481 - I(COG^2) 1 2155469 3871019 515 - COG 1 4606873 6322423 537 Call: lm(formula = F2 ~ COG + I(COG^2)) Coefficients: (Intercept) COG I(COG^2) -294.4 2047.8 -393.5