Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Mixture modeling Holger Steinmetz and Peter Schmidt

Ähnliche Präsentationen


Präsentation zum Thema: "Mixture modeling Holger Steinmetz and Peter Schmidt"—  Präsentation transkript:

1 Mixture modeling Holger Steinmetz and Peter Schmidt
University of Giessen / Germany

2 Überblick Beobachtete vs. unbeobachtete Populationsheterogenität
Konzept der „kategorialen latenten Variable“ Latent class analyse (LCA) und finite mixtures Anwendungsmöglichkeiten Ein empirisches Beispiel: latent profile Analyse der 10 Werthaltungen (Schwartz, 1992) und Zusammenhänge mit demografischen Variablen

3 Beobachtete vs. unbeobachtete Populationsheterogenität
Gibt es Subpopulationen mit unterschiedlichen Parametern? Parameter: Antwortwahrscheinlichkeiten Verteilungsmittelwerte und –varianzen Modellparameter (Faktorladungen, Regressionskoeffizienten etc.) Beobachtete Heterogenität Gruppenzugehörigkeit ist bekannt Analysen: t-Test, ANOVA, multigroup-Analysen

4 Beobachtete vs. unbeobachtete Populationsheterogenität
Unbeobachtete Heterogenität: Gruppenzugehörigkeit ist unbekannt Ziele des mixture modeling: Wieviele Subpopulationen („latent classes“) gibt es? Welche Parameter gelten in ihnen? Zuordnungswahrscheinlichkeiten für die Individuen der Stichprobe Anwendungsgebiete: Klinische Psychologie: Psychische Störungen als latente Klassen Marktforschung: Marktsegmentierung Pädagogische Psychologie: Mastery-Typen in der Schule

5 Latent Class Analyse (LCA)
Begründet durch Lazarsfeld und Henry (1968), Goodman (1974), Clogg (1995) u.a. Dichotome / binäre items (uj) C U C = latente kategoriale Variable mit 1, 2, …k Kategorien Ziele / Ergebnis: Klassenspezifische Wahrscheinlichkeiten: P(u=1 | c=k) Beispiel zwei Klassen (k = 2): Pc=1(u = 1) = .85 Pc=2(u = 1) = .40 Wahrscheinlichkeit der Klassenzugehörigkeit: P(c = k) Posterior-Wahrscheinlichkeit: P(c=k | u=1) Im folgenden möchte ich ein wichtiges Konzept einführen – nämlich das der latenten kategorialen Variable. Dies werde ich am Beispiel der klassischen latent class-Analyse machen Eingeführt wurde die LCA von Lazarsfeld und anderen bereits Ende der 60er Jahre Wesentliches Merkmal der LCA ist, [KLICK], dass die Items dichotom bzw. binär sind Hier sieht man eine grafische Darstellung einer simplen LCA. U ist ein dichotomes Item, c eine latente Variable. ABER: Im Gegensatz zu üblichen latenten Faktoren ist dies eine kategoriale latente Variable. Die Kategorien stellen die latenten Klassen da Das von der latenten Klassenvariable ein Pfeil ausgeht, bedeutet, dass die Antwortwahrscheinlichkeit im Item U von der Klassenzugehörigkeit abhängt. Insgesamt liefert die LCA damit 3 Arten von Ergebnissen: Einmal die eben angsprochenen bedingten Wahrscheinlichkeiten für die Itembeantwortung (Beispiel zwei Klassen, C1 hat p von .85 , C2 eine von .40. Möglichst große Trennschärfe gut) Zweitens kommt man die W für die K-zugehörigkeit – dies ist äquivalent zur Prävalenz der Klassen in der Gesamtpopulation Und schließlich bekommt man eine andere bedingte Wahrscheinlichkeit – nämlich die posterior Wahrscheinlichkeit, in einer der Klassen zu sein aufgrund der Antwort auf das Item

6 Latent Class Analyse (LCA)
Erweiterung: Die latente Klassenvariable erklärt die Kovarianz mehrerer Items (lokale stochastische Unabhängigkeit) U1 C U2 Ein weiterer Aspekt der LCA kommt ins Spiel, wenn man mehr als dichotomes Item habe Hier ist – ähnlich wie in einer Faktorenanalyse mit einer kontinuierlichen latenten Variable – das Ziel, die Kovarianz der Items aufzuklären Schauen wir uns mal folgendes Beispiel an

7 Latent Class Analyse (LCA)
U1: „Kontollverlust beim Trinken von Alkohol?“ ja nein 5% 8% 9% 78% ja U2: „Blackout nach dem Trinken?“ nein Angenommen, es wurden zwei dichotome Items vorgegeben Item U1 fragt, ob die Person im letzten halben Jahr einen Kontrollverlust beim Trinken erlebt hat – Item U2 fragt, ob sie nach dem Trinken einen blackout hatte Daraus ergibt sich folgende Kontingenztabelle (ich bitte dabei zu bedenken, dass dies fiktive Zahlen sind) Dann lässt sich das im Rahmen der LCA folgendermaßen darstellen

8 Latent Class Analyse (LCA)
78% 9% 8% 5% ja nein Kontrollverlust Blackout Kontrollverlust C Blackout Klasse 1: Normale Trinker Klasse 2: Problemtrinker Hier besteht nun die Annahme, dass sich die Gesamtstichprobe aus zwei Subpopulationen stammt Einer der Normaltrinker – einer der Problemtrinker

9 Latent Class Analyse (LCA)
78% 9% 8% 5% ja nein Kontrollverlust Blackout C Kontrollverlust Blackout Normale Trinker Problemtrinker 86% 5% 10% 1% ja nein Kontrollverlust Blackout 1% 9% 11% 79% ja nein Kontrollverlust Blackout Erstes Ergebnis sind die klassenbedingten Antwortwahrscheinlichkeiten Hier sind sie für die kombinierten Antworten enthalten Wie man sieht, ist der bedeutsamste Unterschied in der Zelle links oben und rechts unten Als Wahrscheinlichkeit der Klassenzugehörigkeit ergeben sich .85 für die Normaltrinker und .15 für die Problemtrinker D.h. 85% der Stichprobe entstammt der Pop der Normaltrinker. Ich werde gleich im Rahmen der mixture Modelle den Begriff der mixing proportion erwähnen – dies ist das Äquivalent dazu. P(c=k) : .15

10 Latent Class Analyse (LCA)
78% 9% 8% 5% ja nein Kontrollverlust Blackout C Kontrollverlust Blackout Posterior-Wahrscheinlichkeiten P(c=k | u=1) Normale Trinker Problem-trinker S Kontrollverlust .24 .76 1.0 Blackout .39 .61 Schließlich erhält man, wie wahrscheinlich die Zugehörigkeit zu einer Klasse aufgrund der Beantwortung der Items ist So zeigt sich, dass eine Antwort auf das Kontrollverlust-item eine höhere Wahrscheinlichkeit impliziert, dass die entsprechende Person zur Klasse der Problemtrinker gehört Aus dem Modell mit seinen Wahrscheinlichkeiten lässt sich eine allgemeine Kontingenztabelle zurückrechnen, die mit der empirischen Kontingenztabelle verglichen werden kann. Somit kann man feststellen, ob dieses 2-Klassenmodell die Daten fitted. Zu den Evaluationskriterien sag ich später noch was

11 Latent Profile Analyse (LPA)
LCA mit kontinuierlich verteilten Items Die Klassen unterscheiden sich in ihren Mittelwerten Die LPA wurde Gibson 1959 als Alternative zu Thurstones common factor model eingeführt Diesen Kontrast stell ich mal dar (s. Abb.: scatterplott – ein zugrundeliegender Faktor erklärt die Kovarianz zwischen den Items Common factor model Quelle: Bauer, D. J., & Curran, P. J. (2004). The integration of continuous and discrete latent variable models: Potential problems and promising opportunities. Psychological Methods, 9 (1), 3-29.

12 Latent Profile Analyse (LPA)
LCA mit kontinuierlich verteilten Items Die Klassen unterscheiden sich in ihren Mittelwerten Schlussfolgerung: Was die Analyse betrifft, sind beide Alternativen. Grund ist, dass beide die Kovarianz zwischen verschiedenen Items erklären. CFM macht das mit dem Posulat eines den Items zugrundeliegenden kontinuierlichen Faktors – die LPA mit der Aufdeckung von zwei Klassen Dennoch müssen beide keine inhaltlichen Widersprüche sein Common factor model LPA Quelle: Bauer, D. J., & Curran, P. J. (2004). The integration of continuous and discrete latent variable models: Potential problems and promising opportunities. Psychological Methods, 9 (1), 3-29.

13 Mixture modeling s2 Mit der LPA und der Verwendung kontinuierlicher Indikatoren sind wir schon mittendring im eigentlichen Mixture modeling Thema. Ausgangslage für das Mixture modeling ist im simpelsten Fall eine Verteilung eines kontinuierlichen Merkmals Und wie man sieht, ist die nicht so ideal, wie man sie sich vorstellen würde Also stellt sich hier die Frage: Stammen dieses Daten aus einer einzigen Population, die sich durch eine Verteilung beschreiben lässt und damit durch einen Mittelwert und eine Varianz m

14 Mixture modeling s22 s21 ....Oder stammen die Daten vielleicht aus 2 oder mehr Subpopulationen, die jede durch ihre eigene Verteilung beschrieben werden Und wie man sieht, passen diese beiden Verteilungen sich der beobachteten Verteilung etwas besser an, als die Ein-Populationsverteilung Im folgenden will ich nun kurz das Prinzip erläutern, was es genau heißt, dass sich die beiden Verteilungen besser an die beobachteten anpassen. Wie gesagt, es handelt sich hierbei um das Beispiel nur einer Variable m1 m2

15 Mixture modeling Gehen wir zur Ein-Populationsbeispiel zurück: Hier sehen sie die Funktionsgleichung für die Wahrscheinlichkeitsdichtefunktion – wie man sieht ist die Verteilung durch den Mittelwert und die Varianz eindeutig bestimmt. Daraus ergibt sich auch die Auftretenswahrscheinlichkeit aller beobachteten Werte – unter der Bedingung, dass diese Verteilung – und auch der Mittelwert und die Varianz korrekt ist Es lässt sich damit also eine sog. joint log-likelihood bestimmen, mit der die Daten dieser Verteilung entstammen können. Und diese log-likelihood kann dann mit jener des 2-Populationsmodells verglichen werden. Und die ergibt sich folgendermaßen

16 Mixture modeling s22 s21 Zwei verschiedene Populationsverteilungen implizieren zwei Funktionsgleichungen D.h. beide haben ihren eigenen Mittelwert und ihre eigene Varianz Da die Gesamtverteilung der beobachteten Werte eine Mischung beider Populationen ist, ist die Wahrscheinlichkeit eines beliebigen Falles eine gewichtete Summe beider Funktionen m1 m2

17 Mixture modeling Likelihood für Person i = p1*f1(x) + p2*f2(x) s22 s21 Zwei verschiedene Populationsverteilungen implizieren zwei Funktionsgleichungen D.h. beide haben ihren eigenen Mittelwert und ihre eigene Varianz Da die Gesamtverteilung der beobachteten Werte eine Mischung beider Populationen ist, ist die Wahrscheinlichkeit eines beliebigen Falles eine gewichtete Summe beider Funktionen Pi ist die sog. mixing proportion also das Größenverhältnis beider Subpopulationen. Dies haben wir vorhin unter dem Begriff Klassenwahrscheinlichkeit kennengelernt. Wenn das also hier das Alkoholbeispiel wäre, wäre pi1 .85 und pi2 .15 Und wenn ich das ganze aufsummiere für alle Personen, bekomme ich schließlich ich die Gesamtwahrscheinlichkeit, mit der die Kombination dieser beiden Verteilungsfunktionen die beobachtete Gesamtverteilung erklären kann. Das Programm versucht dabei solange die Parameter innerhalb der beiden Funktionsgleichungen – d.h. heißt, beide Mittelwerte und Varianzen und die mixing proportion solange zu variieren, bis die daraus folgende Gesamtwahrscheinlichkeit maximiert wird. D.h. [nun die Folien durchskippen: erst werden exemplarisch die Mittelwerte variiert, dann die Varianzen, dann die mixing proportion] m1 m2

18 Mixture modeling Likelihood für Person i = p1*f1(x) + p2*f2(x) s22 s21 m1 m2

19 Mixture modeling Likelihood für Person i = p1*f1(x) + p2*f2(x) s22 s21 m1 m2

20 Mixture modeling Likelihood für Person i = p1*f1(x) + p2*f2(x) s22 s21 m1 m2

21 Mixture modeling Likelihood für Person i = p1*f1(x) + p2*f2(x) s22 s21 m1 m2

22 Mixture modeling Likelihood für Person i = p1*f1(x) + p2*f2(x) s22 s21 m1 m2

23 Mixture modeling Likelihood für Person i = p1*f1(x) + p2*f2(x) s22 s21 Je mehr Subpopulationen ich zulasse, desto höher ist die Gesamtwahrscheinlichkeit, weil ich natürlich für jede noch so kleine Lücke in der beobachteten Verteilung eine zusätzliche wenn auch klitztekleine Verteilung fitten kann – daher muss der Nutzen – d.h. die Erhöhung der Wahrscheinlichkeit gegenüber einer Vorversion mit einer Subpopulation weniger gegenübergestellt werden mit den Kosten – nämlich dass ich weitere Parameter schätzen muss. Aber zu den Evaluationskriterien sag ich später noch etwas Dies ist wie gesagt, das einfachst mögliche Beispiel. Komplexere Anwendungen ergeben sich dadurch, dass die Mittelwerte und die Varianzen in den Funktionsgleichungen selbst wieder bedingt werden durch Parameter eines Modells m1 m2

24 Mixture modeling s22 s21 Beispielsweise könnte ich testen, ob es in beiden Subpopulationen unterschiedliche Regressionskoeffizienten gibt. Da aus der Regressionsgleichung Mittelwerte und Varianz folgen, geht damit die Regressionsgleichung selbst in die Funktionsgleichung ein m1 m2

25 Erweiterungen der finite mixtures
C x u3 u4 Im folgenden zeige ich ein paar Erweiterungen der finite mixture und latent class modelle, wie sie z.B. in Mplus spezifiziert werden können Hier sehen sie das schon eingeführte latent class oder latent profile Modell (je nachdem, ob die Indikatoren dichotom oder metrisch sind Dieses Modell lässt sich noch etweitern, in dem sogn. Kovariate spezifiziert werden, die die Klassenzugehörigkeit der latenten Klassenvariable vorhersgen. Dies können z.B. demografische Merkmale sein

26 Erweiterungen der finite mixtures
Y X1 C=1 C=2 y x1 C u1 u2 u3 u4 x2 Hier sehen sie die Abbildung eines mixture Regressionsmodells Hier hat die latent class variable einen Effekt auf den Effekt von X1, was einer Moderierung des Zusammenhangs entspricht Das lässt sich grafisch so veranschaulichen, dass eine Klasse z.B. eine steilere slope hat als die andere. Der direkte Effekt auf Y implieziert einen Mittelwertsunterschied in den Klassen Dieses Modell lässt sich natülrich durch weitere Variablen erweitern Mixture Regressionsanalyse

27 Erweiterungen der finite mixtures
C Mixture CFA x1 x2 x3 x4 x Ein weiteres Anwendungsgebiet sind mixtures CFAs Hier hat man einen latenten Faktor, auf dem 4 Indikatoren laden Und nun kann man pruefen, ob sich die latenten Mittel in den Klassen unterscheiden, ober ein oder mehrere Ladungen – dies ist der Pfeil der auf

28 Erweiterungen der finite mixtures
C x1 x2 x3 x4 x y1 y2 h y3 y4 Und dieses Modell lässt sich natürlich erweitern zu einem Mixture Strukturgleichungsmodell, bei dem über die Messmodellparameter hinaus dann auch die Beziehungen zwischen den latenten Variablen über die Klassen hinaus variieren können Mixture SEM

29 Erweiterungen der finite mixtures
Slp2 Intcpt. Slp Und schließlich ist eine weitere spannende Anwendung das mixture growth curve modell, bei dem die durchschnittlichen intercepts in den Veränderungslinien von Personen und deren Veränderungsraten über Klassen variieren können Auch dieses Modell lässt sich erweitern, in dem man einen z.B. einen quadratischen slope-Faktor einfügt und der ebenfalls über die Klassen variieren kann So kann es z.B. sein, dass eine Klasse einen linearen Veränderung zeigt und eine andere eine kurvenlineare C Mixture Growth curve model

30 Evaluation der Klassenanzahl
Fitmaße Likelihood-ratio test: Nicht anwendbar Vuong-Lo-Mendell-Rubin LR-Test BIC = -2 logL + Anzahl der Parameter * ln(n) Güte der Klassifikation: Entropie Zu Evaluation der Klassenanzahl gibt es einige Fitmaße Den LRT-Test – also Vergleich zweier likelihood-Werte kann man zur Entscheidung ob k=n vs. k=n-1 nicht nehmen, da die Differenz nicht c2-verteilt ist. Vuong-Lo-Mendell-Rubin-Test haben dagegen eine korrigierte Teststatistik entwickelt, mit der getestet werden kann, ob ein Modell mit n Klassen gegen eines n-1 Klassen besser fitted Der BIC ist das Bayesian Information Criterion. Der gibt an, wie das Verhältnis zwischen dem Fit und der dafür notwendigen Anzahl der Parameter ist Das Entropiemaß gibt an, wie eindeutig die Personen in der Stichprobe im Schnitt den Klassen zugeordnet werden können. Und zwar wird für jede Person eine posterior Wahrscheinlichkeit. So gibt es in Mplus die Möglichkeit, für jede Person die Wahrscheinlichkeit, mit der sie zu den verschiedenen Klassen gehört in die Daten schreiben zu lassen

31 Evaluation der Klassenanzahl
Hier sehen sie das Ergebnis einer 4 – Klassenlösung. Daher hat jede Person eine Wahrscheinlichkeit für jede der 4 Klassen. Mplus ordnet darauf hin die person der klasse zu, für die sie die höchste Wahrscheinlichkeit hat. z.B. hat Person 1 eine Wahrscheinlihckeit von .92 zu Klasse 2 zu gehören und nur eine von .085 zu Klasse 3 zu gehören. Demnach wird sie Klasse 2 zugeordnet Bei Person 2 hingegen ist die Situation nicht so eindeutig. Sie hat zwar eine P von .579 für Klasse 2 , aber auch eine von .42 für klasse 3 – d.h. hie rist die Zuordnung nicht mehr so eindeutig

32 Evaluation der Klassenanzahl
Fitmaße Likelihood-ratio test: Nicht anwendbar Vuong-Lo-Mendell-Rubin LR-Test BIC = -2 logL + Anzahl der Parameter * ln(n) Güte der Klassifikation: Entropie Plausbilität Das Entropiemaß gibt die durchschnittliche Eindeutigkeit der Zuordnung an Schließlich sollt jede Lösung und die darin enthalten Klassen und die in ihnen enthaltenen Parameter inhaltlich sinnvoll interpretierbar sein

33 Ein empirisches Beispiel: Latent profile analyse von Werthaltungen
Stichprobe: N = 1677 Personen aus der allgemeinen erwerbstätigen Bevölkerkung Messinstrument Portraits Values Questionnaire (Schwartz, 2001) Demografische Merkmale (Geschlecht, Alter, Bildung)

34 Ein empirisches Beispiel: Latent profile analyse von Werthaltungen
Openness to Change Self-transcendence Self-direction Universalism Stimulation Benevolence Hedonism Conformity Achievement Tradition Power Security Conservation Self-enhancement

35 Ein empirisches Beispiel: Latent profile analyse von Werthaltungen
Pow Ach SD Hed Stim Ben Uni Trad Sec Con Bildung dummy2 Geschlecht Alter Bildung dummy1 C

36 Ein empirisches Beispiel: Latent profile analyse von Werthaltungen
-1.5 -1 -0.5 0.5 1 1.5 ACH SD HED BEN UNI STIM SEC TRAD POW CON Latent Class 1 Latent Class 2 Latent Class 3 Latent Class 4 LC1 12% Wichtig: Spaß, Stimulation, Selbstbestimmung Unwichtig: Sicherheit, Tradition und Konformität, Benevolenz, Universalismus “Hedonisten” LC2 34% Alles unwichtig “Nihilisten” LC3 29% Wichtig: Benevolenz, Universalismus, Sicherheit Unwichtig: Leistung, Stimulation, Selbstbestimmung und Macht “Altruisten” LC4 25% Alles wichtig “Ja-Sager”

37 Ein empirisches Beispiel: Latent profile analyse von Werthaltungen

38 Ein empirisches Beispiel: Latent profile analyse von Werthaltungen

39 Ein empirisches Beispiel: Latent profile analyse von Werthaltungen


Herunterladen ppt "Mixture modeling Holger Steinmetz and Peter Schmidt"

Ähnliche Präsentationen


Google-Anzeigen