Mixed models Jonathan Harrington

Slides:



Advertisements
Ähnliche Präsentationen
Mixed Models Jonathan Harrington library(ez) library(lme4)
Advertisements

EmPra Der Einfluss und die Verarbeitung von emotionalen Reizen
Einfaktorielle Varianzanalyse
Logistic Regression Jonathan Harrington Befehle: logistic.txt.
Logistic Regression Jonathan Harrington Bitte lost.txt und lost2.txt laden – siehe Befehle in logistic.txt.
Generalised linear mixed models (GLMM) und die logistische Regression
Die Varianzanalyse ohne Messwiederholung
Mixed models Jonathan Harrington Die R-Befehle: mixed.txt
Die Varianzanalyse Jonathan Harrington.
Mixed Models Jonathan Harrington library(ez) library(lme4)
Die t-Verteilung Jonathan Harrington.
Mehrfache und polynomiale Regression
Logistische Regression und die Analyse von Proportionen Jonathan Harrington library(lme4) library(lattice) library(multcomp) source(file.path(pfadu, "phoc.txt"))
Kovarianz, Korrelation, (lineare) Regression
Wahrscheinlichkeit und die Normalverteilung
Kovarianz, Korrelation, (lineare) Regression
Logistic Regression Jonathan Harrington Befehle: logistic.txt.
Logistische Regression und die Analyse von Proportionen Jonathan Harrington library(lme4) library(lattice) library(multcomp) source(file.path(pfadu, "phoc.txt"))
Logistische Regression und die Analyse von Proportionen
Logistische Regression und psychometrische Kurven
Die t-Verteilung (fortgesetzt)
Parametrisierung von Spektra
4. Anwendung der logistic Regression auf die Berechung einer perzeptiven Grenzen zwischen Kategorien Experiment. Anhand der Sprachsynthese wurde ein F2-
Kovarianz, Korrelation, (lineare) Regression
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Kovarianz, Korrelation, (lineare) Regression Jonathan Harrington BITTE NOCH EINMAL dframes.zip (Webseite 4.1) herunterladen und in pfad auspacken.
Die Varianzanalyse ohne Messwiederholung Jonathan Harrington.
Logistische Regression und die Analyse von Proportionen Jonathan Harrington.
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Konfidenzintervalle für Parameter
Hypothesen testen: Grundidee
Experimentelles Design
Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,
Nachholung der Vorlesung vom Freitag
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Probeklausur Die Probeklausur findet am anstelle der Vorlesung statt. 13. Juni 2003 Nächste Woche!!
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Tutorium
Tutorium
Tutorium Aufgabe 1 a) E(eIX)= 0 E(eIX)= E(Y-E(YIX)IX) = E(YIX)- E (E(YIX)IX) = E(YIX)- E(YIX) = 0 Im Mittel macht man mit seiner Schätzung keinen.
Unser zehntes Tutorium Materialien unter:
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Vorlesung: ANOVA I
Varianzanalyse mit Messwiederholungen (fortgesetzt) Jonathan Harrington Befehle: anova3.txt path = "Verzeichnis wo Sie anova1 gespeichert haben" attach(paste(path,
Varianzanalyse IV: Messwiederholung
Logistische Regression
Die t-Verteilung und die Prüfstatistik
Varianzanalyse mit Messwiederholungen
Varianzanalyse mit Messwiederholungen
Die t-Verteilung Jonathan Harrington. Standard error of the mean (SE) ist die Standardabweichung von Mittelwerten Ich werfe 5 Würfel und berechne den.
Varianzanalyse mit Messwiederholungen. (fortgesetzt) Jonathan Harrington Befehle: anova3.txt pfad = "Verzeichnis wo Sie anovaobjekte gespeichert haben"
Die t-Verteilung und die Prüfstatistik
Einige Kriterien für die Durchführung einer Varianzanalyse Jonathan Harrington.
Das Allgemeine Lineare Modell (ALM)
Seminar: Datenerhebung
Varianzanalyse mit Messwiederholungen
Modul Statistische Datenanalyse
SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig
Kovarianz, Korrelation, (lineare) Regression
Mixed models Jonathan Harrington Die R-Befehle: mixed.txt pfad = "Das Verzeichnis, wo die Daten gespeichert sind" attach(paste(pfad, "anova1"), sep="")
Die einfache/multiple lineare Regression
Thema der Stunde Varianzanalyse mit Messwiederholung
Varianzanalyse mit Messwiederholungen (Repeated-measures (M)ANOVA) Varianzanalyse mit Messwiederholungen (Repeated-measures (M)ANOVA) Jonathan Harrington.
Die Varianzanalyse Jonathan Harrington library(ggplot2) library(ez)
Einige Kriterien für die Durchführung einer Varianzanalyse
Die Varianzanalyse II Jonathan Harrington library(ggplot2) library(ez)
Die Varianzanalyse II Jonathan Harrington library(ggplot2)
Die Varianzanalyse Jonathan Harrington library(lattice) library(ez)
Die Varianzanalyse Jonathan Harrington library(ggplot2) library(dplyr)
 Präsentation transkript:

Mixed models Jonathan Harrington datasets.zip noch einmal laden, wenn asp.txt, lex.txt nicht vorhanden sind library(lme4) library(multcomp)

Mixed model (MM) Ein MM ist eine Art von Regression in dem ein Response (abhängige Variable) aus einer Kombinationen von gewichteten Faktoren eingeschätzt wird. Lineares Modell, Minimierung vom Abstand zwischen tatsächlichen und eingeschätzten Werten. (Das Verfahren um dies zu tun, ist nicht least-squares wie in Regression sondern maximum-likelihood)

Mixed Model und Faktoren Im MM-Verfahren wird prinzipiell zwischen 2 verschiedene Sorten von Faktoren differenziert Fixed = Faktoren die vorhanden sind, unabhängig von dem experimentellen Design (z.B. Geschlecht, Sprache, Alter) Random: Faktoren, die randomisierte Stichproben aus einer Bevölkerung enthalten (z.B. Versuchspersonen, Wörter).

Vergleich: MM und RM-ANOVA Die Kieferposition wurde in 3 Vokalen /i, e, a/ und jeweils zu 2 Sprechtempi (langsam, schnell) gemessen. Die Messungen sind von 8 mit Muttersprache spanisch, 8 mit Muttersprache englisch aufgenommen worden. RM-Anova MM Fixed: Sprache, Sprechtempo, Vokal soll geprüft werden Random: Sprecher soll ausgeklammert werden

Vergleich: MM und RM-ANOVA F1 von /a:/ wurde in 100 verschiedenen Wörtern gemessen (Bart, Pfad, mager, maßgebend, erstarrt...). Die Wörter wurden von 10 Vpn produziert sowohl phrasenmedial als auch phrasenfinal. Inwiefern wird F1 von Phrasenposition beeinflusst (N.B. F1 variiert sehr stark wegen Kontext, also von Wort zu Wort). (a) Wir wollen die Sprechervariation ausklammern (Random Factor) (b) Wir wollen aber auch die Wortvariation ausklammern (dass F1 unterschiedliche Werte hat in Bart vs. mager usw. interessiert uns nicht). (a) und (b) gleichzeitig ausklammern in einem RM-Anova geht nicht. MM fixed: Phrasenposition random: Sprecher, Wort

(b) Wir wollen auch die Wortvariation ausklammern (dass F1 unterschiedliche Werte hat in Bart vs. mager usw. interessiert uns nicht). final initial final initial final initial Bart Pfad Start

Vergleich: MM und RM-ANOVA In einem MM: müssen die Zellen nicht vollständig sein es muss nicht über Wiederholungen gemittelt werden

Wann soll der MM verwendet werden? 1. Wenn ein RM-Anova nicht/kaum einsetzbar ist: Einige unabhängige Variablen sind kontinuierlich mehr als ein Random Faktor. unvollständige Daten ('fehlende Zellen') man will nicht über Wiederholungen mitteln 2. Ein MM ist nur robust bei einer großen Anzahl von Stichproben – mindestens insgesamt 200-300, je mehr umso besser.

Die Reaktionszeiten wurde von 21 Vpn in der Erkennung von 79 englischen Wörtern unterschiedlicher Längen gemessen. Es gab zwei Gruppen von Vpn: diejenigen mit Englisch als Muttersprache und diejenigen mit Englisch als Zweitsprache. Inwiefern wird die Reaktionszeit von der Wortlänge und/oder Sprachgruppe beeinflusst (Daten aus Baayen, 2009)? head(lex) names(lex) str(lex) Abhängige Variable (response) rt Lang, Length Fixed Random Word, Subj

Abbildungen boxplot(rt ~ Lang, ylab = "Reaktionszeit", data = lex)with(lex, interaction.plot(Lang, Length, rt)) Lang signifikant? Length sig? (= liegt ein Trend vor?) Lang * Length Interaktion? (bedeutet...?)

MM Anwendung in R keine Interaktion + + lmer(response ~ fixed1 * fixed2 * ... + (1|Random1) +(1|Random2)+ ... mm = lmer(rt ~ Lang * Length + (1|Subj) + (1|Word), data = lex) rt = b1Lang + b2Length + b3(Lang x Length) + k + kSubj + kWord ^ by-subject intercept adjustment by-word intercept adjustment eingeschätzer RT fitted(mm) Hier werden 3 Neigungen und 3 Intercepts (also 6 Parameter) berechnet, sodass der Abstand zwischen rt und rt minimiert wird.

Beitrag vom Random Faktor Berechne wieder das gleiche wie für mm berechnet wurde, aber lass (1|Word) weg: Benötigen wir Word als Random Factor? entweder mm2 = update(mm, ~ . -(1|Word)) # oder mm2 = lmer(rt ~ Lang * Length + (1|Subj), data = lex) anova(mm, mm2) mm2: rt ~ Lang * Length + (1 | Subj) mm: rt ~ Lang * Length + (1 | Subj) + (1 | Word) Df AIC BIC logLik Chisq Chi Df Pr(>Chisq) mm2 6 -1199.04 -1166.94 605.52 mm 7 -1295.61 -1258.15 654.80 98.568 1 < 2.2e-16 *** mm (mit (1|Word)) wird bevorzugt, da AIC niedriger ist (Daher benötigen wird (1|Word)

Beitrag der Fixed-Faktoren anova(mm) Analysis of Variance Table Df Sum Sq Mean Sq F value Lang 1 0.13993 0.13993 6.2512 Length 1 0.47000 0.47000 20.9972 Lang:Length 1 0.36477 0.36477 16.2961 Je größer der F-Wert, umso wichtiger ist der Faktor. Es werden aber keine Wahrscheinlichkeiten berechnet, da die Freiheitsgrade in einem MM-Modell im Nenner nicht festgestellt werden können.

(a) Lang* Length Interaktion Die Frage = ?

(a) Lang* Length Interaktion Lang:Length weglassen und Modelle vergleichen. mm3 = lmer(rt ~ Lang + Length + (1|Subj) + (1|Word), data = lex) oder mm3 = update(mm, ~ . -(Lang:Length)) anova(mm, mm3) Df AIC BIC logLik Chisq Chi Df Pr(>Chisq) mm3 6 -1281.43 -1249.32 646.71 mm 7 -1295.61 -1258.15 654.80 16.181 1 5.756e-05 *** Die Interaktion zwischen den Faktoren hatte einen signifikanten Einfluss auf die Reaktionzeiten (c2[1] = 16.2, p < 0.001)

(b) Lang Die Frage?

(b) Lang mm4 = update(mm3, ~ . - Lang) anova(mm3, mm4) mm4: rt ~ Length + (1 | Subj) + (1 | Word) mm3: rt ~ Lang + Length + (1 | Subj) + (1 | Word) Df AIC BIC logLik Chisq Chi Df Pr(>Chisq) mm4 5 -1277.55 -1250.79 643.77 mm3 6 -1281.43 -1249.32 646.71 5.8803 1 0.01531 * Reaktionszeiten wurden signifikant von Language beeinflusst (c2[1] = 5.9, p < 0.05)

(c) Length Die Frage? m = with(lex, aggregate(rt, list(Length), mean)) plot(m[,1], m[,2], type="l", xlab="Length", ylab="rt")

mm5 = update(mm3, ~ . - Length) anova(mm3, mm5) (c) Length mm5 = update(mm3, ~ . - Length) anova(mm3, mm5) Data: lex Models: mm5: rt ~ Lang + (1 | Subj) + (1 | Word) mm3: rt ~ Lang + Length + (1 | Subj) + (1 | Word) Df AIC BIC logLik Chisq Chi Df Pr(>Chisq) mm5 5 -1264.41 -1237.66 637.20 mm3 6 -1281.43 -1249.32 646.71 19.017 1 1.295e-05 *** Reaktionszeiten wurden signifikant von Length beeinflusst (c2[1] = 19.0, p < 0.001)

Der Data-Frame asp enthält Werte der Aspirationsdauer von silbeninitialem /t/ und /k/ aus gelesenen Sätzen in dem Kielcorpus. Diese Dauern sind für 55 Versuchspersonen und 287 Wörter erhoben worden. (Die Versuchspersonen produzierten nicht alle dieselben Wörter). Inwiefern wird die Aspirationsdauer von der Artikulationsstelle (/k/, /t/) oder von der Silbenbetonung ("betont", "unbetont") beeinflusst?

Vorgang 1. Abbildungen: boxplot(), interaction.plot() 2. lmer(), Festlegung von fixed und random factors 3. Prüfen ob (a) wir die random factors benötigen (b) die Interaktion signifikant ist (c) es für die fixed factors Haupteffekte gibt 4. ggf. Die Kombinationen der Factor-Stufen prüfen

1. Abbildungen

lmer(), fixed factors, random factors a = lmer(...) F-Werte für fixed-factors anschauen

Interaktion signifikant? Mit Interaktion a = lmer(...) Ohne Interaktion b = update(a, ~ . , etwas) Unterscheiden sich a und b?

Haupteffekte signifikant? Ohne Interaktion b = update(a, ~ . etwas) Ohne Interaktion und ohne fixed factor d = update(b, ~ . etwas) Unterscheiden sich b und d?

beide = factor(with(asp, paste(Kons, Bet, sep="."))) Post-hoc Tukey Tests Faktoren, die post-hoc getestet werden sollen, zu einem neuen Faktor verbinden beide = factor(with(asp, paste(Kons, Bet, sep="."))) e = lmer(d ~ beide + (1|Wort) + (1|Vpn), data = asp) library(multcomp) summary(glht(e, linfct = mcp(beide = "Tukey"))) Fit: lmer(formula = d ~ beide + (1 | Wort) + (1 | Vpn), data = asp) Linear Hypotheses: Estimate Std. Error z value Pr(>|z|) k.un - k.be == 0 -14.427 1.852 -7.791 <0.001 *** t.be - k.be == 0 -4.553 1.659 -2.745 0.0304 * t.un - k.be == 0 -32.794 1.406 -23.326 <0.001 *** t.be - k.un == 0 9.874 1.852 5.332 <0.001 *** t.un - k.un == 0 -18.367 1.773 -10.359 <0.001 *** t.un - t.be == 0 -28.241 1.590 -17.765 <0.001 ***