2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt Bitte lvoc.txt und lost.txt laden (siehe proportion.txt)

Slides:



Advertisements
Ähnliche Präsentationen
Spektrale Analysen in EMU-R: eine Einführung
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Die akustische Analyse von Sprachlauten.
Quellen-Filter Theorie der Sprachproduktion
Formant-Analysen von Vokalen
Logistic Regression Jonathan Harrington Befehle: logistic.txt.
Logische Vektoren in R Jonathan Harrington.
Logistic Regression Jonathan Harrington Bitte lost.txt und lost2.txt laden – siehe Befehle in logistic.txt.
Die Varianzanalyse Jonathan Harrington.
Mixed Models Jonathan Harrington library(ez) library(lme4)
Die t-Verteilung Jonathan Harrington.
Mixed models Jonathan Harrington
Grundlagen der R Programmiersprache
Logistische Regression und die Analyse von Proportionen Jonathan Harrington library(lme4) library(lattice) library(multcomp) source(file.path(pfadu, "phoc.txt"))
Formant-Analysen von Vokalen (2) Jonathan Harrington 1, 2 Struktur und Abbildung einer Trackdatei 3, 4. Anwendung von vorhandenen und eigenen Funktionen.
Kovarianz, Korrelation, (lineare) Regression
Wahrscheinlichkeit und die Normalverteilung
Kovarianz, Korrelation, (lineare) Regression
Logistic Regression Jonathan Harrington Befehle: logistic.txt.
Logistische Regression und die Analyse von Proportionen Jonathan Harrington library(lme4) library(lattice) library(multcomp) source(file.path(pfadu, "phoc.txt"))
Logistische Regression und die Analyse von Proportionen
Vokale und die Quantaltheorie
Logistische Regression und psychometrische Kurven
Die Prosodie Jonathan Harrington Felicitas Kleber.
Die t-Verteilung (fortgesetzt)
Die Analyse von Proportionen: c2 und Logistic Regression
4. Anwendung der logistic Regression auf die Berechung einer perzeptiven Grenzen zwischen Kategorien Experiment. Anhand der Sprachsynthese wurde ein F2-
Kovarianz, Korrelation, (lineare) Regression
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Kovarianz, Korrelation, (lineare) Regression Jonathan Harrington BITTE NOCH EINMAL dframes.zip (Webseite 4.1) herunterladen und in pfad auspacken.
Logistische Regression und die Analyse von Proportionen Jonathan Harrington.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-23.
Hypothesen testen: Grundidee
Prof. Dr. Bernhard Wasmayr
Nachholung der Vorlesung vom Freitag
Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.
Chi-Quadrat-Test auf Unabhängigkeit I
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Vorlesung: ANOVA I
Daten auswerten Boxplots
20:00.
Histogramm/empirische Verteilung Verteilungen
Chi Quadrat Test Tamara Katschnig.
Die t-Verteilung und die Prüfstatistik
SPSS für Windows Auswertung von Marktforschungsdaten mit SPSS für Windows WINDER Thomas Porzellangasse 32, 1090 Wien.
Varianzanalyse mit Messwiederholungen
Varianzanalyse mit Messwiederholungen
Die t-Verteilung Jonathan Harrington. Standard error of the mean (SE) ist die Standardabweichung von Mittelwerten Ich werfe 5 Würfel und berechne den.
Die t-Verteilung und die Prüfstatistik
Einige Kriterien für die Durchführung einer Varianzanalyse Jonathan Harrington.
Die synchronen Grundlagen des Lautwandels Jonathan Harrington.
Varianzanalyse mit Messwiederholungen
Wiederholung BSP 2.1.
Modul Statistische Datenanalyse
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Symmetrische Blockchiffren DES – der Data Encryption Standard
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Folie Einzelauswertung der Gemeindedaten
Kovarianz, Korrelation, (lineare) Regression
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Die Varianzanalyse Jonathan Harrington library(ggplot2) library(ez)
Einige Kriterien für die Durchführung einer Varianzanalyse
Die Varianzanalyse Jonathan Harrington library(lattice) library(ez)
Die Varianzanalyse Jonathan Harrington library(ggplot2) library(dplyr)
 Präsentation transkript:

2 und Logistic Regression Jonathan Harrington Die Analyse von Proportionen: Befehle: proportion.txt Bitte lvoc.txt und lost.txt laden (siehe proportion.txt)

Kontinuierlich Kontinuierlich und kategorial Kategorial Was ist die Wahrscheinlichkeit, dass: F2 von [i:] höher ist als von [ I ] (t-test) F1 und Dauer von [a] miteinander korreliert sind (Regression)? Eine steigende Melodie in Aussagen von jugendlichen im Vergleich zu älteren Personen verwendet wird? Ein [r] statt [R] in Bayern im Vergleich zu Schleswig-Holstein verwendet wird? Was ist die Wahrscheinlichkeit, dass:

In einer kategorialen Analyse werden meistens 2 Proportionen miteinander verglichen. Die tests dafür: 2 und Logistic Regression. zB wir zählen wie oft steigende Melodien in Aussagen bei jugendlichen (35%) und älteren Leuten (11%) vorkommen. Sind diese Proportionen (35%, 11%) signifikant unterschiedlich?

Solche Methoden haben insbesondere in der Soziolinguistik/phonetik eine Anwendung, in der sehr oft auditiv die Proportionen wahrgenommener Allophone miteinander als Funktion von Alter, Dialekt usw. verglichen werden, ohne unbedingt die kontinuierlichen akustischen (oder artikulatorischen) Parameter (Dauer, Formanten usw.) zu analysieren. (In der Soziolinguistik: Logistic Regression = VARBRUL)

Terminologie: Faktoren und Stufen (levels) Was ist die Wahrscheinlichkeit, dass ein silbenfinaler /t/ gelöst wird? Faktor = silbenfinaler /t/ mit 2 Stufen: gelöst oder nicht gelöst. Was ist die Wahrscheinlichkeit, dass ein silbenfinaler /t/ gelöst, nicht-gelöst oder lenisiert wird? Faktor = silbenfinaler /t/ mit 3 Stufen (gelöst, nicht-gelöst, lenisiert) Ein Faktor

Zwei Faktoren Wird ein silbenfinaler /t/ häufiger in Bayern als in Hessen gelöst? F1: /t/ mit 2 Stufen (gelöst, nicht-gelöst) F2: Dialekt mit 2 Stufen (bayerisch, hessisch). Ist die Verteilung der /t/ Realisierungen – ob sie gelöst, lenisiert oder nicht-gelöst werden – dieselbe in Bayern, Hessen, und Sachsen? Zwei Faktoren ( /t/ und Dialekt) jeweils mit 3 Stufen.

Drei Faktoren Unterscheidet sich die Häufigkeit der L-Vokalisierungen zwischen Männern und Frauen in Bayern und Hessen? F1: L mit 2 Stufen (vokalisiert oder nicht) F2: Geschlecht mit 2 Stufen: (M, F) F3: Dialekt mit 2 Stufen (Bayern, Hessen).

Die statistische Analyse von Proportionen Mehr als 2 Faktoren** Logistic Regression (kann auch bei 2 Faktoren eingesetzt werden**, und gibt fast das gleiche Ergebnis wie ein 2 -test). glm() = generalized linear model (der Name soll an lm() erinnern – da sie miteinander viele Ähnlichkeiten haben) **Ein Faktor muss 2 Stufen haben Eine oder zwei Faktoren Analyse von Proportionen 2 -test = prop.test() chisq.test() (aber prop.test() kann nicht eingesetzt werden, wenn beide Faktoren mehr als 2 Stufen haben)

1. Ein Faktor, zwei Stufen Ich werfe eine Münze 20 Mal und bekomme 5 Mal Kopf. Ist die Münze gezinkt? d.h. weicht die Proportion 5/20 = ¼ signifikant von 10/20 = ½ ab? prop.test(5, 20,.5) data: 5 out of 20, null probability 0.5 X-squared = 4.05, df = 1, p-value = alternative hypothesis: true p is not equal to percent confidence interval: sample estimates: p 0.25 Die Münze ist gezinkt ( 2 [1] = 4.05, p < 0.05) (Faktor = Münze, Stufen = Kopf, Zahl)

2 Faktoren jeweils 2 Stufen Die Anzahl der glottalisierten silbenfinalen /t/s ist in einer englischen Varietät getrennt für Männer und Frauen gemessen worden. Männer glottalisiertnicht-glottalisiert Frauen Kommt die Glottalisierung häufiger bei Männern vor? n Genauer: sind 110/200 und 82/190 voneinander signifikant unterschiedlich? Silbenfinaler /t/ Geschlecht Die Frage in eine Proportion umsetzen: unterscheiden sich die Proportionen der Glottalisierungen zwischen M und F?

prop.test(c(110, 82), c(200, 190)) data: c(110, 82) out of c(200, 190) X-squared = , df = 1, p-value = alternative hypothesis: two.sided 95 percent confidence interval: sample estimates: prop 1 prop Männer und Frauen dieser Varietät unterscheiden sich in der Häufigkeit der silbenfinalen /t/- Glottalisierung ( 2 [1] = 5.00, p < 0.05). Männer glottalisiertnicht-glottalisiert Frauen n Silbenfinaler /t/ Geschlecht

Diese Daten zeigen, inwiefern in der Erzeugungen einiger Sätze H* im Gegensatz zu L*+H in akzentuierten Wörtern von Versuchspersonen aus München und Hamburg erzeugt wurden. Gibt es zwischen München und Hamburg einen signifikanten Unterschied in der Verteilung dieser Tonakzente? München Hamburg L*+HH*

Die Verteilung der / l / Vokalisierungen in einer Varietät in 4 Altersgruppen ist wie folgt: 2 Faktoren, ein Faktor mit 2 Stufen, die andere mit mehr als 2 Stufen A20min A20bis30 A31bis40 A41plus vok nicht-vok Hat Alter einen signifikanten Einfluss auf / l /-Vokalisierung? Alter /l//l/ barplot(lvoc, beside=T, legend=T) = ist die Verteilung der / l /s in den Alterstufen unterschiedlich?

In Proportionen umwandeln – und dazu brauchen wir die jeweiligen Gruppensummen A20min A20bis30 A31bis40 A41plus vok nicht-vok lvoc A20min A20bis30 A31bis40 A41plus und vergleichen dann miteinander 58/92, 55/104, 62/146, 38/97 apply(lvoc, 2, sum) prop.test(c(58, 55, 62, 38), c(92, 104, 146, 97))

data: c(58, 55, 62, 38) out of c(92, 104, 146, 97) X-squared = , df = 3, p-value = alternative hypothesis: two.sided sample estimates: prop 1 prop 2 prop 3 prop Alter hat einen signifikanten Einfluss auf / l /- Vokalisierung ( 2 [3] = 14.10, p < 0.01) Das gleiche mit chisq.test() chisq.test(lvoc) Pearson's Chi-squared test data: lvoc X-squared = , df = 3, p-value =

Wie wird 2 berechnet? 2 ist die Abweichung der tatsächlich vorkommenden (Observed) von den zu erwartenden (Expected) Verteilungen, unter der Annahme (Null Hypothese) dass die Verteilungen pro Gruppe gleich sind. A20min A20bis30 A31bis40 A41plus vok nicht-vok Null Hypothese: die Proportion der vokalisierten /l/s ist in allen 4 Gruppen gleich. d.h. unter der Null-Hypothese müssten der /l/s in jeder Altersgruppe vokalisiert sein. zB für A20min: * sum(lvoc[,1])[1] [1] Proportion der vok /l/s unabhängig vom Alter = sum(lvoc[1,])/sum(lvoc) Anzahl der vokalisierten /l/s dividiert durch Anzahl aller /l/s.

A20min A20bis30 A31bis40 A41plus vok nicht-vok A20min A20bis30 A31bis40 A41plus vok nicht-vok Observed Expected * sum(lvoc[,1]) r = chisq.test(lvoc) r$expected A20min A20bis30 A31bis40 A41plus vok nicht-vok ( ) * sum(lvoc[,1]) oder sum(lvoc[,1])

O = lvoc E = r$expected d = (O - E)^2/E 41 mitvok ohnevok Je größer die Abweichung von 0 (Null) umso mehr trägt eine Zelle zum signifikanten Ergebnis bei. Wie wird 2 berechnet? Wir wollen die Größe der Abweichung, d, zwischen Observed und Expected prüfen (die Null Hypothese: d = 0). 2 ist dann einfach die Summe der Abweichungen: sum(d) d

2 -Test für einen Trend In der Standardaussprache von England, RP, wurde von einer vornehmeren Schichte der Gesellschaft vor 50 Jahren lost mit einem hohen Vokal gesprochenen (auch often). Hier ist die Häufigkeit der Verwendung von /lo:st/ (Vokal = high) oder /l ɔ st/ (Vokal = low) in Sprechern, die in 6 verschiedenen Jahren aufgenommen wurden (hypothetische Daten). high low Gibt es einen Trend? d.h. nimmt die Proportion der /l ɔ st/ Erzeugungen zu? In 1950 produzierten 30 Sprecher /lo:st/ und 5 /l ɔ st/.

Abbildung Wir standardisieren die Jahre, sodass 0 = jahr = as.numeric(rownames(lost)) jahr = jahr # Proportion von /lo:st/ berechnen p = lost[,1]/apply(lost, 1, sum) plot(jahr, p, type="b") Test: prop.trend.test(x, n, score) x: die Anzahl von /lo:st/ n: Gesamtanzahl pro Jahr score: die x-Achsen Werte, für die wir einen linearen Trend berechnen wollen. Proportionen von /lo:st/ über 55 Jahre jahr Proportion

prop.trend.test(lost[,1], n, jahr) # Spalte 1 hat die Anzahl von /lo:st/ x = lost[,1] # Summe lo:st + l ɔ st getrennt pro Jahr n = apply(lost, 1, sum) data: lost[, 1] out of n, using scores: X-squared = , df = 1, p-value = 1.550e-13 Die Proportion von /lo:st/ nimmt in späteren Jahren signifikant ab ( 2 [1] = 54.5, p < 0.001)