Mixed models Jonathan Harrington Die R-Befehle: mixed.txt

Slides:



Advertisements
Ähnliche Präsentationen
Mixed Models Jonathan Harrington library(ez) library(lme4)
Advertisements

Logistic Regression Jonathan Harrington Befehle: logistic.txt.
Logistic Regression Jonathan Harrington Bitte lost.txt und lost2.txt laden – siehe Befehle in logistic.txt.
Generalised linear mixed models (GLMM) und die logistische Regression
Die Varianzanalyse ohne Messwiederholung
Die Varianzanalyse Jonathan Harrington.
Mixed Models Jonathan Harrington library(ez) library(lme4)
Die t-Verteilung Jonathan Harrington.
Mehrfache und polynomiale Regression
Mixed models Jonathan Harrington
Logistische Regression und die Analyse von Proportionen Jonathan Harrington library(lme4) library(lattice) library(multcomp) source(file.path(pfadu, "phoc.txt"))
Kovarianz, Korrelation, (lineare) Regression
Kovarianz, Korrelation, (lineare) Regression
Logistische Regression und die Analyse von Proportionen Jonathan Harrington library(lme4) library(lattice) library(multcomp) source(file.path(pfadu, "phoc.txt"))
Logistische Regression und die Analyse von Proportionen
Logistische Regression und psychometrische Kurven
Die t-Verteilung (fortgesetzt)
Wann ist eine Regression zulässig? siehe siehe auch: UCLA Statistics Dept. Denise.
Kovarianz, Korrelation, (lineare) Regression
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Kovarianz, Korrelation, (lineare) Regression Jonathan Harrington BITTE NOCH EINMAL dframes.zip (Webseite 4.1) herunterladen und in pfad auspacken.
Die Varianzanalyse ohne Messwiederholung Jonathan Harrington.
Logistische Regression und die Analyse von Proportionen Jonathan Harrington.
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Das Allgemeine lineare Modell (ALM) - Varianz als Schlüsselkonzept
Nicht-Lineare Regression
Konfidenzintervalle für Parameter
Modellvergleich.
Mixture Regression Modelle
Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Tutorium
Tutorium Aufgabe 1 a) E(eIX)= 0 E(eIX)= E(Y-E(YIX)IX) = E(YIX)- E (E(YIX)IX) = E(YIX)- E(YIX) = 0 Im Mittel macht man mit seiner Schätzung keinen.
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Vorlesung: ANOVA I
Vorlesung: ANOVA II.
Chi Quadrat Test Tamara Katschnig.
Logistische Regression
Die t-Verteilung und die Prüfstatistik
Varianzanalyse mit Messwiederholungen
Varianzanalyse mit Messwiederholungen
Die t-Verteilung Jonathan Harrington. Standard error of the mean (SE) ist die Standardabweichung von Mittelwerten Ich werfe 5 Würfel und berechne den.
Die t-Verteilung und die Prüfstatistik
Einige Kriterien für die Durchführung einer Varianzanalyse Jonathan Harrington.
Die synchronen Grundlagen des Lautwandels Jonathan Harrington.
Das Allgemeine Lineare Modell (ALM)
Varianzanalyse mit Messwiederholungen
Modul Statistische Datenanalyse
SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig
Kovarianz, Korrelation, (lineare) Regression
Der formelle Imperativ – the Imperative
Statistical Parametric Mapping
Die einfache/multiple lineare Regression
Mixed models Jonathan Harrington Die R-Befehle: mixed.txt pfad = "Das Verzeichnis, wo die Daten gespeichert sind" attach(paste(pfad, "anova1"), sep="")
Die einfache/multiple lineare Regression
One way ANOVA. ParametricNon-parametric Between subjectsIndependent ANOVA Kruskal Wallis within subjectsRepeated measures ANOVA Friedman’s ANOVA.
Varianzanalyse mit Messwiederholungen (Repeated-measures (M)ANOVA) Varianzanalyse mit Messwiederholungen (Repeated-measures (M)ANOVA) Jonathan Harrington.
Kapitel 2 Grammar INDEX 1.Subjects & Verbs 2.Conjugation of Verbs 3.Subject Verb Agreement 4.Person and Number 5.Present Tense 6.Word Order: Position of.
Kapitel 7 Grammar INDEX 1.Comparison 2.Adjectives 3.Adjective Endings Following Ein-Words.
Interrogatives and Verbs
Die Varianzanalyse Jonathan Harrington library(ggplot2) library(ez)
Einige Kriterien für die Durchführung einer Varianzanalyse
Die Varianzanalyse II Jonathan Harrington library(ggplot2) library(ez)
Kovarianz, Korrelation, (lineare) Regression
Die Varianzanalyse II Jonathan Harrington library(ggplot2)
Die Varianzanalyse Jonathan Harrington library(lattice) library(ez)
Die Varianzanalyse Jonathan Harrington library(ggplot2) library(dplyr)
Kovarianz, Korrelation, (lineare) Regression
Kovarianz, Korrelation, (lineare) Regression
 Präsentation transkript:

Mixed models Jonathan Harrington Die R-Befehle: mixed.txt library(lme4) lex = read.table(paste(pfad, "lex.txt", sep="/"))

Mixed models Baayen, R.H. (2009) Analyzing Linguistic Data: A practical introduction to Statistics. Kapitel 7http://www.ualberta.ca/~baayen/publications/baayenCUPstats.pdf Artikel in einem Special Issue im Journal of Memory and Language, Vol. 59. insbesondere: Baayen, Davidson & Bates (2008); Quene & van den Bergh (2008); Jaeger (2008). 2 Präsentationen hier vorhanden http://hlplab.wordpress.com/2009/05/03/multilevel-model-tutorial/ Levy & Jaeger (2009) A Brief and Friendly Introduction to Mixed-Effects Models in Psycholinguistics Frank & Jaeger (April, 2009) Post hoc comparisons Additional Issues: Random effects diagnostics, multiple comparisons Erste Veröffentlichung: Pinheiro & Bates (2000). http://www.amazon.com/Mixed-Effects-Models-S-S-Plus/dp/0387989579

Mixed model (MM) Ein MM ist eine Art von Regression in dem ein Response (abhängige Variable) aus einer Kombinationen von gewichteten Faktoren eingeschätzt wird. Lineares Modell, Minimierung vom Abstand zwischen tatsächlichen und eingeschätzten Werten. (Das Verfahren um dies zu tun, ist nicht least-squares wie in Regression sondern maximum-likelihood)

Mixed Model und Faktoren Im MM-Verfahren wird prinzipiell zwischen 2 verschiedene Sorten von Faktoren differenziert Fixed: Faktoren, die geprüft werden sollen Random: Faktoren, die ausgeklammert werden sollen

Vergleich: MM und RM-ANOVA Die Kieferposition wurde in 3 Vokalen /i, e, a/ und jeweils zu 2 Sprechtempi (langsam, schnell) gemessen. Die Messungen sind von 8 mit Muttersprache spanisch, 8 mit Muttersprache englisch aufgenommen worden. RM-Anova MM Fixed: Sprache, Sprechtempo, Vokal soll geprüft werden Random: Sprecher soll ausgeklammert werden

Mixed model (MM) und RM-ANOVA F1 und die Dauer wurden in 3 Vokalen /i, e, a/ und jeweils in betonten und unbetonten Silben gemessen. Die Messungen sind von 10 Vpn aufgenommen worden. Inwiefern wird F1 von der Dauer, Vokal und Betonung beeinflusst? RM-Anova MM Fixed: Dauer, Vokal, Sprechtempo Random: Sprecher

Vergleich: MM und RM-ANOVA F1 von /a:/ wurde in 100 verschiedenen Wörtern gemessen (Bart, Pfad, mager, maßgebend, erstarrt...). Die Wörter wurden von 10 Vpn produziert sowohl phrasenmedial als auch phrasenfinal. Inwiefern wird F1 von Phrasenposition beeinflusst (N.B. F1 variiert sehr stark wegen Kontext, also von Wort zu Wort). (a) Wir wollen die Sprechervariation ausklammern (interessiert uns nicht). (b) Wir wollen aber auch die Wortvariation ausklammern (dass F1 unterschiedliche Werte hat in Bart vs. mager usw. interessiert uns nicht). (a) und (b) gleichzeitig ausklammern in einem RM-Anova geht nicht. MM fixed: Phrasenposition random: Sprecher, Wort

(b) Wir wollen auch die Wortvariation ausklammern (dass F1 unterschiedliche Werte hat in Bart vs. mager usw. interessiert uns nicht). final initial final initial final initial Bart Pfad Start

Vergleich: MM und RM-ANOVA In einem MM: müssen die Zellen nicht vollständig sein es muss nicht über Wiederholungen gemittelt werden MM basiert auf maximum likelihood – dass die Werte normalverteilt sind, wird nicht vorausgesetzt

Nachteile von einem Mixed-Model library(lme4) und mixed modelling (MM) überhaupt sind noch in der Entwicklungsphase. Daher bugs, häufige code Änderungen und einige Teile des Verfahrens sind in R noch nicht ganz vollständig. Mit MM können zwar Werte aus der t- und F-Verteilung berechnet werden, aber diese lassen sich nur schwierig und vielleicht sogar ungenau in Wahrscheinlichkeiten umsetzen – weil die Freiheitsgrade nicht eindeutig berechnet werden können.

Wann soll der MM verwendet werden? 1. Wenn ein RM-Anova nicht/kaum einsetzbar ist: Ein oder mehrere Faktoren sind kontinuierlich mehr als ein Random Faktor vorhanden sind. unvollständige Daten ('fehlende Zellen') man will nicht über Wiederholungen mitteln der Response ist kategorial (0 vs 1; ja vs nein) – also eine Form logistischer Regression 2. Ein MM ist nur robust bei einer großen Anzahl von Stichproben – mindestens insgesamt 200-300, je mehr umso besser.

Die Reaktionszeiten wurde von 21 Vpn in der Erkennung von 79 englischen Wörtern unterschiedlicher Längen gemessen. Es gab zwei Gruppen von Vpn: diejenigen mit Englisch als Muttersprache und diejenigen mit Englisch als Zweitsprache. Inwiefern wird die Reaktionszeit von der Wortlänge und/oder Sprachgruppe beeinflusst (Daten aus Baayen, 2009)? head(lex) names(lex) Abhängige Variable (response) rt Lang, Length Fixed Random Word, Subj

Abbildungen boxplot() (oder bwplot()) wenn der Fixed-Factor kategorial ist, sonst durch interaction.plot() einschätzen with(lex, boxplot(rt ~ Lang, ylab = "Reaktionszeit")) with(lex, interaction.plot(Lang, Length, rt)) Lang signifikant? Length sig? (= liegt ein Trend vor?) Lang * Length Interaktion? (bedeutet...?)

MM Anwendung in R keine Interaktion + + lmer(response ~ fixed1 * fixed2 * ... + (1|Random1) +(1|Random2)+ ... lex.lmer = lmer(rt ~ Lang * Length + (1|Subj) + (1|Word), data = lex) rt = b1Lang + b2Length + b3(Lang x Length) + k + kSubj + kWord ^ by-subject intercept adjustment by-word intercept adjustment eingeschätzer RT fitted(lex.lmer) Hier werden 3 Neigungen und 3 Intercepts (also 6 Parameter) berechnet, sodass der Abstand zwischen rt und rt minimiert wird.

Beitrag der Fixed Factors Haben Lang und/oder Length einen Einfluss auf die Reaktionszeiten? anova(lex.lmer) Analysis of Variance Table Df Sum Sq Mean Sq F value Lang 1 0.13993 0.13993 6.2512 Length 1 0.47000 0.47000 20.9972 Lang:Length 1 0.36477 0.36477 16.2961 Je größer der F-Wert, umso wichtiger ist der Faktor. Es werden aber keine Wahrscheinlichkeiten berechnet, da die Freiheitsgrade in einem MM-Modell im Nenner nicht festgestellt werden können.

MM und Wahrscheinlichkeiten Reubold, Harrington & Kleber, 2010, Speech Communication "One of the difficulties with mixed models is in determining the number of degrees of freedom in the denominator. An anti-conservative estimate can be obtained from df = n - k - 1 where n is the number of observations and k the number of degrees of freedom (Baayen, 2008). Instead of using this anti-conservative estimate, we set df to be equal to the more conservative value of 60 and chose an alpha level of 0.01. Part of the motivation for choosing a somewhat arbitrary value of 60 is that for df > 60 there is a fairly small change to the F-value for which significance is obtained. For example, the F values at a = 0.01 are F[1, 60] = 8.49 and F[1, 600] = 7.94, i.e., an F-value change of 0.55 for a change in df from 60 to 600." also: so lange man genügend Stichproben hat, sagen wir dass alles über ca. F = 8.49 "signifikant" ist.

Analysis of Variance Table Df Sum Sq Mean Sq F value Lang 1 0.13993 0.13993 6.2512 Length 1 0.47000 0.47000 20.9972 Lang:Length 1 0.36477 0.36477 16.2961 Length hatte einen signifikanten Einfluss auf die Reaktionszeiten (F = 21.0, p < 0.01) und es gab eine signifikante Length x Language Interaktion (F = 16.3, p < 0.01). Der Einfluss von Language auf die Reaktionszeiten war nicht signifikant.

temp = with(lex, Lang) == "English" Interaktionen prüfen Es gibt keine robuste Methodik, um post-hoc Tests nach einem MM anzuwenden. Daher einfach den MM noch einmal getrennt für die Faktoren durchführen. d.h. hat Length einen Einfluss auf die Reaktionszeiten (a) für englisch; (b) für andere Sprachen? temp = with(lex, Lang) == "English" other = lex[!temp,] other.lmer = lmer(rt ~ Length + (1|Subj) + (1|Word), data = other) Df Sum Sq Mean Sq F value Length 1 0.62451 0.62451 29.523 anova(other.lmer) Sig, p < 0.01 engl = lex[temp,] engl.lmer = lmer(rt ~ Length + (1|Subj) + (1|Word), data = engl) anova(engl.lmer) Df Sum Sq Mean Sq F value Length 1 0.188 0.188 8.1661 NS

Der Data-Frame asp enthält Werte der Aspirationsdauer von silbeninitialem /t/ und /k/ aus gelesenen Sätzen in dem Kielcorpus. Diese Dauern sind für 55 Versuchspersonen und 287 Wörter erhoben worden. (Die Versuchspersonen produzierten nicht alle dieselben Wörter). Inwiefern wird die Aspirationsdauer von der Artikulationsstelle (/k/, /t/) oder von der Silbenbetonung ("betont", "unbetont") beeinflusst?