4. Anwendung der logistic Regression auf die Berechung einer perzeptiven Grenzen zwischen Kategorien Experiment. Anhand der Sprachsynthese wurde ein F2-

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Spektrale Analysen in EMU-R: eine Einführung
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Telefonnummer.
= = = = 47 = 47 = 48 = =
Statistiken und Tabellen
Formant-Analysen von Vokalen
Logistic Regression Jonathan Harrington Befehle: logistic.txt.
Logistic Regression Jonathan Harrington Bitte lost.txt und lost2.txt laden – siehe Befehle in logistic.txt.
Generalised linear mixed models (GLMM) und die logistische Regression
Die Varianzanalyse Jonathan Harrington.
Mehrfache und polynomiale Regression Jonathan Harrington Kriteria für die Durchführung einer Regression pfad = "Das Verzeichnis, wo die Daten gespeichert.
Mixed Models Jonathan Harrington library(ez) library(lme4)
Mehrfache und polynomiale Regression
Mixed models Jonathan Harrington
Grundlagen der R Programmiersprache
Logistische Regression und die Analyse von Proportionen Jonathan Harrington library(lme4) library(lattice) library(multcomp) source(file.path(pfadu, "phoc.txt"))
Kovarianz, Korrelation, (lineare) Regression
Kovarianz, Korrelation, (lineare) Regression
Logistic Regression Jonathan Harrington Befehle: logistic.txt.
Logistische Regression und die Analyse von Proportionen Jonathan Harrington library(lme4) library(lattice) library(multcomp) source(file.path(pfadu, "phoc.txt"))
Logistische Regression und die Analyse von Proportionen
Spektrale Analysen in EMU-R: eine Einführung
Logistische Regression und psychometrische Kurven
Die t-Verteilung (fortgesetzt)
Wann ist eine Regression zulässig? siehe siehe auch: UCLA Statistics Dept. Denise.
Parametrisierung von Spektra
Mehrfache und polynomiale Regression
Mehrfache und polynomiale Regression Jonathan Harrington Kriteria für die Durchführung einer Regression library(MASS) # ydata.txt und epg.txt in einem.
2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt Bitte lvoc.txt und lost.txt laden (siehe proportion.txt)
Die Analyse von Proportionen: c2 und Logistic Regression
Kovarianz, Korrelation, (lineare) Regression
Kovarianz, Korrelation, (lineare) Regression Jonathan Harrington BITTE NOCH EINMAL dframes.zip (Webseite 4.1) herunterladen und in pfad auspacken.
Logistische Regression und die Analyse von Proportionen Jonathan Harrington.
Forschungsstatistik II
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Ein frohes und erfolgreiches Jahr
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Hypothesen testen: Grundidee
Differentielles Paar UIN rds gm UIN
Prof. Dr. Bernhard Wasmayr
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
Tutorium
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Dummy-Variablen Gleicher Lohn bei gleicher Qualifikation: Frauen verdienen im Durchschnitt zwar weniger als Männer, aber ist die Ursache dafür in der Diskriminierung.
20:00.
Histogramm/empirische Verteilung Verteilungen
Im Zuge unserer Befragung gaben uns 260 Personen über ihr Leseverhalten Auskunft.
Eine Einführung in die CD-ROM
Chi Quadrat Test Tamara Katschnig.
Logistische Regression
Die t-Verteilung und die Prüfstatistik
Wir üben die Malsätzchen
Varianzanalyse mit Messwiederholungen
Die t-Verteilung und die Prüfstatistik
Einige Kriterien für die Durchführung einer Varianzanalyse Jonathan Harrington.
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Symmetrische Blockchiffren DES – der Data Encryption Standard
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Folie Einzelauswertung der Gemeindedaten
Kovarianz, Korrelation, (lineare) Regression
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Die Varianzanalyse Jonathan Harrington library(lattice) library(ez)
Logistische Regression und psychometrische Kurven
 Präsentation transkript:

4. Anwendung der logistic Regression auf die Berechung einer perzeptiven Grenzen zwischen Kategorien Experiment. Anhand der Sprachsynthese wurde ein F2- Kontinuum in 11 Schritten synthetisiert. 5 Vpn. (L1- Englisch) mussten zu jedem Stimulus mit "I" oder "U" antworten. Bei welchem F2-Wert liegt die Grenze zwischen den Vokalen? Die Anzahle der Bewertungen ist hier: u i Bei F2 = 1437 Hz gab es 4 Urteil für "U", ein Urteil für "I" ui

Ein Vektor von Proportionen p = ui[,1]/apply(ui, 1, sum) p Bei 1437 Hz waren 80% der Urteile "U" (und daher 20% "I") Eine Abbildung von F2 als Funktion dieser Proportionen f2werte = as.numeric(rownames(ui)) plot(f2werte, p, ylab="Proportion /u/ Urteile", xlab="F2 (Hz)")

Eine logistische Regression an diese Werte anpassen logui = glm(ui ~ f2werte, family=binomial) Die Urteile aus den F2-Werten vorhersagen Mit der Methode auf S die logistische Regressionskurve überlagern m = coef(logui)[2] k = coef(logui)[1] curve(exp(m*x + k)/(1+ exp(m*x+k)), xlim=c(1200, 2400), add=T, col=2) Die Koeffiziente Die logistische Regressionskurve

Die 50% Grenze (Umkipppunkt) = zu welchem F2-Wert, ist ein Urteil für "I" genauso wahrscheinlich wie ein Urteil für "U"? Es kann bewiesen werden, dass dies mit -k/min dieser Formel gegeben wird (in diesem Beispiel ist y die Proportion, p, und x ist F2werte) -k/m abline(v=-k/m, lty=2, col="blue")

6. Zwei unabhängige Variablen. Hier sind genau dieselben Daten aber zusätzlich nach männlich-weiblich aufgeteilt. femalelost nn yn ny yy lost high low In 1971 waren 26 Tokens [lost] und 15 [lo:st] von diesen 26 waren 10 von Männern und 16 von Frauen erzeugt. 8M, 7F (a) Gibt es einen Trend? Also weniger [lo:st] in späteren Jahren? (b) Ist die Proportion [lost]/[lo:st] in M und F unterschiedlich verteilt?

femalelost nn yn ny yy Dies ist ein Problem der mehrfachen Logistic Regression: logodds (lo:st) = b 0 + b 1 year + b 2 Geschlecht (also in diesem Fall eine Linie im 3D-Raum) Geschlecht Year logodds(lo:st) Und eine gerade Linie in einem 3D-Raum (b 0 ist das Intercept, b 1 und b 2 die Neigungen)

pfad = "das Verzeichnis wo ich lost2.txt gespeichert habe" lost2 = as.matrix(read.table(paste(pfad, "lost2.txt", sep="/"))) high low M W } } high = Spalte 1 = /lo:st/ low = Spalte 2 = /lOst/ Daten-Vorbereitung J = c(jahr, jahr) G = c(rep(0, 6), rep(1, 6)) J G [1] [1]

Zuerst eine Abbildung… p = lost2[,1]/apply(lost2, 1, sum) interaction.plot(J, G, p) J mean of p G m f Nimmt die Proportion von /lo:st/ in späteren Jahren ab? (Die Unterschiede zwischen m und f ignorieren). Ja Nein Vielleicht Unterscheiden sich m und f in der Proportion von /lo:st/? (Die Unterschiede in den Jahrgängen ignorieren). Ja Nein Vielleicht

Modell berechnen… mehrg = glm(lost2 ~ J + G, binomial) g2 = glm(lost2 ~ J, binomial) anova(g2, test="Chisq") Analysis of Deviance Table Df Deviance Resid. Df Resid. Dev P(>|Chi|) NULL year e-15 Wenn wir übrigens G weglassen, dann müssten wir trotz der anderen Aufteilung der Daten das gleiche Ergebnis wir vorhin bekommen:

Coefficients: (Intercept) J Gm Degrees of Freedom: 11 Total (i.e. Null); 9 Residual Null Deviance: Residual Deviance: AIC: logodds(lo:st) = J G mehrg = glm(lost2 ~ J + G, binomial) anova(mehrg, test="Chisq") Df Deviance Resid.Df Resid. Dev P(>|Chi|) NULL J e-15 G e-04 M und F unterscheiden sich in der Proportion von lo:st/lOst, 2 (1) = 12.82, p < Die Proportion von 'lo:st' nimmt in späteren Jahren ab, 2 (1) = 61.12, p < mehrg

Mit 2 oder mehr Variablen soll auch geprüft werden, ob sie miteinander interagieren. Eine Interaktion zwischen den unabhängigen Variablen – in diesem Fall Geschlecht und Jahrgang – liegt vor, wenn sie eine unterschiedliche Wirkung auf die abhängige Variable ausüben wie in 1 und 2, aber nicht in 3 und 4 7. Die Interaktion zwischen 2 Variablen prop(lo:st) prop(lo:st) 1234 m f

Wenn eine Interaktion vorliegt, dann können signifikante Ergebnisse in einer der unabhängigen Variablen nicht uneingeschränkt akzeptiert werden. zB wenn eine Interaktion vorkommt, gibt es vielleicht eine Wirkung von Jahrgang auf die Proportion von /lo:st/ nur in Männern aber nicht in Frauen usw. Die Interaktion zwischen 2 Variablen dies scheint aber hier nicht der Fall zu sein.

Die Interaktion zwischen 2 unabhängigen Variablen, A und B, kann in R mit A:B geprüft werden. Daher in diesem Fall g = glm(lost2 ~ J + G + J:G, binomial) Eine Abkürzung dafür (und mit genau demselben Ergebnis) g = glm(lost2 ~ J * G, binomial) Die Interaktion zwischen 2 Variablen anova(g, test="Chisq") Df Deviance Resid. Df Resid. Dev P(>|Chi|) NULL J e-15 G e-04 J:G d.h. die Interaktion ist nicht signifikant und J:G kann aus dem Regressionsmodell weggelassen werden.

Start: AIC= lost2 ~ J * G Df Deviance AIC - J:G Df Deviance AIC G J Wir bleiben also bei Call: glm(formula = lost2 ~ J + G, family = binomial) Residual Deviance: AIC: library(MASS) stepAIC(g) Dies wird auch durch stepAIC() bestätigt: AIC wird kleiner wenn wir J:G weglassen

Weitere Folien zum Durchlesen...

Aus dem vorigen Beispiel wird auch klar, dass ähnlich wie 2 Logistic Regression angewandt werden kann, auch wenn die Gruppe nur aus 2 Ebenen besteht. Gibt es einen signifikanten Unterschied zwischen M und F? gmf = glm(lost2 ~ G, "binomial") anova(gmf, test="Chisq") Df Deviance Resid. Df Resid. Dev P(>|Chi|) NULL G M und F unterscheiden sich in der Proportion von lo:st/lOst ( 2 (1) = 9.5, p < 0.002). 8. Logistic Regression und zwei Ebenen

high low m = apply(lost2[1:6,], 2, sum) f = apply(lost2[7:12,], 2, sum) mf = rbind(m, f) rownames(mf) = c(0, 1) colnames(mf) = c("high", "low") mf Wir bekommen dasselbe Ergebnis wenn Logistic Regression auf die entsprechende Tabelle angewandt wird: lost2 l.mf = c(0,1) gmf2 = glm(mf ~ l.mf, "binomial") anova(gmf2, test="Chisq") high low = (kodiert nur nach M und F)

und man bekommt dann fast das gleiche Ergebnis mit einem 2 -Test, der direkt auf die Tabelle angewandt wird: chisq.test(mf) Pearson's Chi-squared test with Yates' continuity correction data: mf X-squared = , df = 1, p-value = Ein 2-Test kann jedoch nicht verwendet werden, bei einer Gruppenanzahl von > 2 …

Haben (a) Alter und (b) Geschlecht einen Einfluss auf die Proportion von /lo:st/? Hier sind dieselben Daten aufgeteilt in 2 Altersgruppen sowie M/F Gruppe 1 = Vokal = high/low Gruppe 2 = Geschl = M/F (=0/1) Gruppe 3 = Alter = alt/jung 3 Gruppen jeweils 2 Ebenen high low alt alt jung jung lost3

Zuerst eine Abbildung high low alt alt jung jung # Alter kodieren A = c(0, 0, 1, 1) # Geschlecht kodieren G = c(0, 1, 0, 1) prop = lost3[,1]/apply(lost3, 1, sum) interaction.plot(A, G, prop)

im Geschlecht? janein Signifikanter Einfluss auf lo:st/lOst? im Alter? vielleicht janeinvielleicht Interaktion zwischen A und G? janeinvielleicht A mean of prop 0 1 G 0 1

g = glm(lost3 ~ A * G, binomial) anova(g, test="Chisq") Df Deviance Resid. Df Resid. Dev P(>|Chi|) NULL A e-16 G A:G e Es gab einen signifikanten Einfluss vom Alter ( 2 (1)=64.2, p 0.05).