Mixed models Jonathan Harrington Die R-Befehle: mixed.txt pfad = "Das Verzeichnis, wo die Daten gespeichert sind" attach(paste(pfad, "anova1"), sep="")

Slides:



Advertisements
Ähnliche Präsentationen
Spektrale Analysen in EMU-R: eine Einführung
Advertisements

Vom graphischen Differenzieren
Mixed Models Jonathan Harrington library(ez) library(lme4)
Thema der Stunde I. Einführung in die Varianzanalyse:
Einfaktorielle Varianzanalyse
Logistic Regression Jonathan Harrington Befehle: logistic.txt.
Generalised linear mixed models (GLMM) und die logistische Regression
Mixed models Jonathan Harrington Die R-Befehle: mixed.txt
Die Varianzanalyse Jonathan Harrington.
Mixed Models Jonathan Harrington library(ez) library(lme4)
Die t-Verteilung Jonathan Harrington.
Mixed models Jonathan Harrington
Logistische Regression und die Analyse von Proportionen Jonathan Harrington library(lme4) library(lattice) library(multcomp) source(file.path(pfadu, "phoc.txt"))
Kovarianz, Korrelation, (lineare) Regression
Kovarianz, Korrelation, (lineare) Regression
Logistische Regression und die Analyse von Proportionen Jonathan Harrington library(lme4) library(lattice) library(multcomp) source(file.path(pfadu, "phoc.txt"))
Logistische Regression und die Analyse von Proportionen
Logistische Regression und psychometrische Kurven
Die t-Verteilung (fortgesetzt)
Etikettierungsebenen Jonathan Harrington. Das Ziel Etikettierungen verschiedener Ebenen aufzubauen, und miteinander zu verlinken.
Kovarianz, Korrelation, (lineare) Regression
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Kovarianz, Korrelation, (lineare) Regression Jonathan Harrington BITTE NOCH EINMAL dframes.zip (Webseite 4.1) herunterladen und in pfad auspacken.
Logistische Regression und die Analyse von Proportionen Jonathan Harrington.
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Konfidenzintervalle für Parameter
Mixture Regression Modelle
Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,
Tutorium
Tutorium
Unser zehntes Tutorium Materialien unter:
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Vorlesung: ANOVA I
Multikollinearität Wann spricht man von Multikollinearität?
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Varianzanalyse IV: Messwiederholung
Die t-Verteilung und die Prüfstatistik
Varianzanalyse mit Messwiederholungen
Varianzanalyse mit Messwiederholungen
Varianzanalyse mit Messwiederholungen. (fortgesetzt) Jonathan Harrington Befehle: anova3.txt pfad = "Verzeichnis wo Sie anova1 gespeichert haben" attach(paste(pfad,
Die t-Verteilung Jonathan Harrington. Standard error of the mean (SE) ist die Standardabweichung von Mittelwerten Ich werfe 5 Würfel und berechne den.
Varianzanalyse mit Messwiederholungen. (fortgesetzt) Jonathan Harrington Befehle: anova3.txt pfad = "Verzeichnis wo Sie anovaobjekte gespeichert haben"
Die t-Verteilung und die Prüfstatistik
Einige Kriterien für die Durchführung einer Varianzanalyse Jonathan Harrington.
Varianzanalyse mit Messwiederholungen
Modul Statistische Datenanalyse
SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig
Zusammenfassung von Hombert et al (1979) und Löfqvist (1989)
Kovarianz, Korrelation, (lineare) Regression
Vom graphischen Differenzieren
Die einfache/multiple lineare Regression
Die einfache/multiple lineare Regression
Thema der Stunde Varianzanalyse mit Messwiederholung
Varianzanalyse mit Messwiederholungen (Repeated-measures (M)ANOVA) Varianzanalyse mit Messwiederholungen (Repeated-measures (M)ANOVA) Jonathan Harrington.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
► In einem Test werden 10 norwegische Verben gezeigt, wobei bei jedem Verb anstelle einer deutschen Übersetzung ein akustisches Signal oder ein Bild steht:
Die Varianzanalyse Jonathan Harrington library(ggplot2) library(ez)
Einige Kriterien für die Durchführung einer Varianzanalyse
Die Varianzanalyse II Jonathan Harrington library(ggplot2) library(ez)
Die einfache/multiple lineare Regression
Kovarianz, Korrelation, (lineare) Regression
Die Varianzanalyse II Jonathan Harrington library(ggplot2)
Die Varianzanalyse Jonathan Harrington library(lattice) library(ez)
Die Varianzanalyse Jonathan Harrington library(ggplot2) library(dplyr)
Kovarianz, Korrelation, (lineare) Regression
Logistische Regression und psychometrische Kurven
Kovarianz, Korrelation, (lineare) Regression
 Präsentation transkript:

Mixed models Jonathan Harrington Die R-Befehle: mixed.txt pfad = "Das Verzeichnis, wo die Daten gespeichert sind" attach(paste(pfad, "anova1"), sep="") library(car) library(languageR) soa = read.table(paste(pfad, "soa.txt", sep="")) vot = read.table(paste(pfad, "vot.txt", sep="")) library(multcomp) alc = read.table(paste(pfad, "alcdata.txt", sep=""))

Mixed models Baayen, R.H. (in press) Analyzing Linguistic Data: A practical introduction to Statistics. Kapitel 7http:// Artikel in einem Special Issue im Journal of Memory and Language, Vol. 59. insbesondere: Baayen, Davidson & Bates (2008); Quene & van den Bergh (2008); Jaeger (2008). Frank & Jaeger (April, 2009) Post hoc comparisons Additional Issues: Random effects diagnostics, multiple comparisons Levy & Jaeger (2009) A Brief and Friendly Introduction to Mixed-Effects Models in Psycholinguistics 2 Präsentationen hier vorhanden Erste Veröffentlichung: Pinheiro & Bates (2000).

soa: eine modifizierte Datei von Baayen et al (2008) (selbe Werte, andere Namen) Subject und Items als Random Factors F1 (F1-Werte im Vokal); Vpn (s1, s2, s3), W (Bart, Pfad, Start), Pfinal (medial, final) 3 Vpn ( produzierten 3 Wörter (Bart, Pfad, Start) jeweils 2 Mal: einmal phrasenmedial, einmal phrasenfinal. Unterscheiden sich phrasenmedial und –final in F1? Faktor W: between/within: Faktor Pfinal: between/within: Zuerst eine Abbildung within

Signifikanter Unterschied in Pfinal (zwischen long und short)? Wort * Pfinal Interaktion? Zuerst eine Abbildung attach(soa) boxplot(F1 ~ Pfinal * W)

soa.t = Anova.prepare(soa, c("s", "w", "w", "d")) soa.lm = lm(soa.t$d ~ 1) Anova(soa.lm, idata=soa.t$w, idesign = ~ W * Pfinal) Type III Repeated Measures MANOVA Tests: Pillai test statistic Df test stat approx F num Df den Df Pr(>F) (Intercept) *** W Pfinal W:Pfinal

Jedoch hat Pfinal eindeutig denselben Einfluss pro Wort. d.h. wir sollten hier die Variation zwischen den Wörtern ausklammern. (Dass der Mittelwert von Bart kleiner ist im Vgl. zu Pfad oder Start ist für diese Fragestellung uninteressant - genauso uninteressant wie die Variation zwischen Sprechern). Subject und Items als Random Factors

Wir wollen also 2 Sorten von Variation gleichzeitig ausklammern: wegen der Sprecher (Subject as a random factor) wegen der Wörter (Item as a random factor) Subject und Items als Random Factors Dadurch lösen wir gleichzeitig ein großes Problem in der Statistik (Clark, 1973): 'language as fixed effect fallacy'.

Subject und Items als Random Factors soa.t = Anova.prepare(soa, c("s", "w", "w", "d")) soa.lm = lm(soa.t$d ~ 1) Anova(soa.lm, idata=soa.t$w, idesign = ~ W * Pfinal) Fixed: W, Pfinal (beide within) Random: Subject bedeutet: signifikante Ergebnisse sind nicht nur für diese Vpn sondern allgemein für ähnliche Sprecher gültig. signifikante Ergebnisse in Pfinal sind nur für W gültig (Bart, Pfad, Start): d.h. damit die Ergebnisse allgemein für ähnliche Wörter gültig sind, müsste noch einen RM-Manova durchgeführt werden mit Wort als Random Faktor.

Subject und Items als Random Factors ein by-subject RM-Manova (Subject als Random Faktor) ein by-item RM-Manova (Wort als Random Faktor) Die Ergebnisse werden kombiniert in einer Statistik minF' Keine solchen Komplikationen in einem Mixed-Model Das Verfahren ist schrecklich (siehe Johnson, 2008)

Weitere Vorteile von einem Mixed-Model Vpn iea lang.schnellSprechtempo Vokal Spracheengl. oder span. iea w 1.1 w2w2 w3w3 w4w4 w5w5 w6w6 between within w 1.2 w 1.3 w Mittelwert Es muss nicht gemittelt werden pro Stufen-Kombinationen Die Zellen müssen nicht vollständig pro Vpn sein.

Nachteile von einem Mixed-Model library(lme4) und mixed modelling (MM) überhaupt sind noch in der Entwicklungsphase. Daher bugs, häufige code Änderungen und einige Teile des Verfahrens sind in R noch nicht ganz vollständig. Siehe: Mit MM können zwar Werte aus der t- und F-Verteilung berechnet werden, aber diese lassen sich nur schwierig und vielleicht sogar ungenau in Wahrscheinlichkeiten umsetzen – weil die Freiheitsgrade nicht eindeutig berechnet werden können.

lmer() lmer() ist die Funktion für mixed modelling. 3. by-subject intercept adjustment 4. by-item intercept adjustment 1. Neigung 2. Intercept y = bx + k + e Vpn + e W ^ Eingeschätzte Werte berechnet ein lineares Modell, in dem der Abstand zwischen eingeschätzen und tatsächlichen Werten minimiert wird minimiert den Abstand durch REML (restricted maximum likelihood) muss mindestens einen Random-Faktor enthalten vereinheitlicht RM-Anova und logistische Regression x ist ein Faktor-Code* (zB 0 oder 1 für 2 Stufen) *siehe:

F1.lmer = lmer(F1 ~ Pfinal + (1 | Vpn) + (1 | W)) abhängige Variable unabhängige Variable(n) Vpn und W als Random Factors lmer() 1. by-subject and by-item intercept adjustment = Sprecher- und Wortvariationen werden für Pfinal (ohne zwischen den Stufen zu differenzieren) ausgeklammert. F1.lmer = lmer(F1 ~ Pfinal + (1 + Pfinal | Vpn) + (1 +Pfinal | W)) 2. by-subject and by-item intercept and slope adjustment = Sprecher- und Wortvariationen werden getrennt für die Stufen (long, short) von Pfinal berechnet und ausgeklammert.

lmer() Linear mixed model fit by REML Fixed effects: Estimate Std. Error t value (Intercept) Pfinalshort print(F1.lmer, corr=F) Fixed effects (bezieht sich daher auf Pfinal ) ranef(F1.lmer) Random effects (bezieht sich daher auf Vpn und W) $Vpn (Intercept) s s s $W (Intercept) Bart Pfad Start summieren auf 0. auch BLUPS genannt (best linear unbiased predictor). Ein BLUP pro Vpn und pro Wort y = bx + k + e Vpn + e W ^ fitted(F1.lmer) [1] Eingeschätzte Werte

lmer() Linear mixed model fit by REML Fixed effects: Estimate Std. Error t value (Intercept) Pfinalshort $Vpn (Intercept) s $W (Intercept) Bart fitted(F1.lmer)[4] [1] Fixed Random y = bx + k + e Vpn + e W ^ Eingeschätzer Wert für phrasenmedialer (Stufe, short ) Bart, Vpn. s1 contrast(Pfinal) short long 0 short * [ 1]

lmer(), t-Werte und Basis-Kodierung Linear mixed model fit by REML Fixed effects: Estimate Std. Error t value (Intercept) Pfinalshort Die Stufe short vom Faktor Pfinal ist Standard- Abweichung von der Basis-Stufe desselben Faktors entfernt. Basis-Stufelevels(Pfinal) [1] "long" "short" Die Basis-Stufe kann man mit relevel() auswählen. (Also: der absolute Abstand zwischen long und short ist Standard-Abweichungen).

lmer(), t-Werte und Basis-Kodierung Die Basis-Stufe kann man mit relevel() auswählen. Pfinal2 = relevel(Pfinal, "short") F1b.lmer = lmer(F1 ~ Pfinal2 + (1 | Vpn) + (1 | W)) Fixed effects: Estimate Std. Error t value (Intercept) Pfinal2long print(F1b.lmer, corr=F) Linear mixed model fit by REML Fixed effects: Estimate Std. Error t value (Intercept) Pfinalshort Kein Freiheitsgrad, keine p-Werte

lmer(), t-Werte, p-Werte Linear mixed model fit by REML Fixed effects: Estimate Std. Error t value (Intercept) Pfinalshort Die Wahrscheinlichkeit könnte mit der höchst möglichen Anzahl der Freiheitsgrade von der t-Verteilung berechnet werden. Freiheistgradanzahl = Anzahl der Werte - (Anzahl der Stufen) = 16 2 * ( 1 - pt(3.419, 16)) [1] Aber der p-Wert ist anti-konservativ (ggf. zu niedrig) und daher nicht zuverlässig.

lmer() und MCMC sampling Um genauere Wahrscheinlichkeiten der im lmer() entstandenen t-Werte zu berechnen, gibt es Markov Chain Monte Carlo sampling (MCMC). kann zZt. für solche Modelle angewandt werden F1.lmer = lmer(F1 ~ Pfinal + (1 | Vpn) + (1 | W)) nicht für diese F1.lmer = lmer(F1 ~ Pfinal + (1 + Pfinal | Vpn) + (1 +Pfinal | W))

lmer(), t-Werte und Basis-Kodierung Bitte beachten: es gibt einen Bug in pvals.fnc(), sodass die Werte von F1.lmer (!!) nach der Durchführung der Funktion geändert werden. Daher bitte immer gleich nach pvals.fnc() nochmal die lmer() Funktion duchführen! F1.lmer = lmer(F1 ~ Pfinal + (1 | Vpn) + (1 | W)) F1.fnc = pvals.fnc(F1.lmer) F1.lmer = lmer(F1 ~ Pfinal + (1 | Vpn) + (1 | W))

lmer() und MCMC sampling Estimate MCMCmean HPD95lower HPD95upper pMCMC Pr(>|t|) (Intercept) Pfinalshort F1.fnc = pvals.fnc(F1.lmer) F1.fnc$fixed Highest Posterior Density 2 * ( 1 - pt(3.419, 16)) Die Daten wurden mit einem Mixed Model mit Subject und Word als Random Faktoren und phrasenfinale Längung als unabhängige Variable analysiert. Alle Wahrscheinlichkeiten wurden mit Markov- Chain-Monte-Carlo sampling (MCMC) berechnet (Baayen et al, 2008). Die phrasenfinale Längung hatte einen signifikanten Einfluss auf F1 (t = 3.42, MCMC: p < 0.05).