Wiederholung Faktorenanalyse

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Faktorenanalyse.
Tutorat Statistik II im SS 09 ANCOVA & Faktorenanalyse
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Vorlesung Programmieren II
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Grundlagen, zentrale Begriffe & Einführung in die Faktorenanalyse
Theorie psychometrischer Tests, III
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Gliederung Vertrauensintervalle Arten von Hypothesen
Forschungsstatistik II
Forschungsstatistik II
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Seminar Lehrevaluation
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
Beispiele für Gleichungssysteme
Quantitative Methoden I
Hypothesen testen: Grundidee
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Das Cranking Modell Drehungen senkrecht zur Symmetrieachse
Explorative und Konfirmatorische Faktorenanalyse
Effektgrößen, Kontraste & Post-hoc-Tests
Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,
Strukturgleichungsmodelle
Univariate Statistik M. Kresken.
Emotionale Intelligenz
Heute: Scherenzange zeichnen
Tutorium
Tutorium
Unser letztes Tutorium
Unser letztes Tutorium Output – das Modell gut11 gut12 gut21 gut22 gut31 gut32 state1 state2 state3 XI MF
Unser schönstes Tutorium Materialien unter:
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Kakuro Regeln und Strategien
Multikollinearität Wann spricht man von Multikollinearität?
Gebäudeverschneidung 4
20:00.
Chi Quadrat Test Tamara Katschnig.
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
§3 Allgemeine lineare Gleichungssysteme
Faktorenanalyse Einführung Hauptachsen Voraussetzungen Berechnung
Lineare Gleichungen Beispiel: 7x – 2 = 40 Eine Gleichung muss man sich so vorstellen wie eine Waage. Legt man auf die eine Seite Äpfel, so muss man auf.
Kapitel 10 Multikollinearität
Analyse von Ablaufdiagrammen
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
„Postmaterielle Werte“
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.
Multivariate Statistische Verfahren
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Multivariate Statistische Verfahren
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Forschungsmethodik II, SS 2010 Vesna Pavlovski & Julia Pichlhöfer
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Es war einmal ein Haus
Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
setzt Linearität des Zusammenhangs voraus
Die Faktorenanalyse.
Faktorenanalyse Tamara Katschnig.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
 Präsentation transkript:

Wiederholung Faktorenanalyse 7.07.2009 Tutorat 8 Wiederholung Faktorenanalyse 7.07.2009

Wiederholung Die Kovarianzanalyse ist eine ……………… der …………………… Ziel: Statistische Kontrolle einer potentiellen …………… Reduktion der ………………… Berechnung: Zerlegung der Quadratsummen von Kovariate und AV Zerlegung der Produktsummen Berechnung der Modifizierten Quadratsummen F-Test Kontrolle der Fehlervarianzreduktion

Was muss gegeben sein, damit es sinnvoll ist die Kovariate bei der statistischen Auswertung zu berücksichtigen?

Faktorenanalyse

Faktorenanalyse- Fragen Was ist Ziel der FA? Nenne ein Beispiel für ihren Einsatz Was beschreiben die Eigenwerte? Was ist Kommunalität? Welche Gruppen von Rotationsarten gibt es und worin besteht der Unterschied zwischen beiden Verfahren? Welche Methoden gibt es im Umgang mit dem Extraktionsproblem? Voraussetzungen der FA? Zusatzfrage: Gibt es einen Zusammenhang zwischen der multiplen Regression und der FA?

Die Faktorenanalyse gehört zum Bereich der multivariaten Verfahren Ziel: Die Faktorenanalyse versucht, eine Vielzahl von korrelierender Variablen auf einen kleinen Satz unabhängiger latenter Variablen (Faktoren) zu reduzieren, die einen möglichst großen Teil der Varianz der Ausgangsvariablen aufklären. Hierbei geht es um die Reduktion von Information und um die Reduktion von Redundanzen (Interkorrelationen) zwischen den Variablen. Anwendung: primär bei der Konstruktion von Fragebögen Faktorenanalyse

Beispiel: Entwicklung eines Fragebogens zum Thema Gesellschaftliche Akzeptanz von psychischen Störungen explorativ werden Items formuliert (z.B.über Literaturrecherche) Hierbei kann es zu Unterskalen kommen, welche einzelne Merkmale abbilden Akkzeptanz in der Öffentlichkeit Akkzeptanz am Arbeitsplatz Persönlicher Kontakt zu psychisch Kranken

Faktorenanalyse Faktorenanalyse 8

Multikollinearität Durchführung einer FA generell nur dann sinnvoll, wenn die einem Faktor zugeordneten Variablen hoch miteinander korrelieren Nur wenn dies vorliegt können sinnvolle Faktoren bestimmt werden, welche die Informationen aus den Variablen zusammnfassen

Zwei Subgruppen: EFA und CFA explorativen Faktorenanalyse (EFA) Dient dem Auffinden von Faktoren innerhalb eines Variabensatzes (Subskalen) Zusammenhänge zwischen Variablengruppen werden gesucht Keine theoretische Grundlagen zur Anzahl der Faktoren oder der Zuordnung der Variablen 2. konfirmatorischen Faktorenanalyse (CFA) Es wird überprüft, ob die in der Emperie gefundenen Daten zu einem zuvor definierten theoretischen Modell (Bestätigung eines Modells) Alternative Zuordnugen können nicht getestet werden Variablen werden a priori bestimmten Skalen zugeordnet

Ablauf einer Faktorenanalyse Ein Datensatz mit n Variablen kann als eine Punktewolke im „n-dimensionalen Raum“ dargestellt werden: 2 Variablen (x, y)  2 Dimensionen 3 Variablen (x, y, z):  3 Dimensionen Faktorenanalyse 11

Ablauf einer Faktorenanalyse Bei einem echten Fragebogen gibt es natürlich sehr viel mehr als 3 Items. Dies ist dann jedoch nicht mehr graphisch darstellbar. Daher wird das Vorgehen im folgenden mit einer 3-dimensionalen Darstellung veranschaulicht. Faktorenanalyse 12

Ablauf einer Faktorenanalyse Als Faktoren werden neue Achsen gesucht, „die die Punktewolke möglichst gut beschreiben.“ Die Achsen werden jeweils so gewählt, dass sie möglicht viel Varianz aufklären. Die Varianz ist in der Richtung am größten, in der die Punktewolke ihre größte Ausdehnung hat. Faktorenanalyse 13

Erste Hauptachse Die erste Hauptachse wird so gelegt, dass sie die Punktewolke in „der größten Breite“ durchschneidet. λ1 +1 -1 Faktorenanalyse 14

Zweite Hauptachse Die zweite Hauptachse muss von der ersten Achse unabhängig sein. Dies ist dann der Fall, wenn die Achsen senkrecht aufeinander stehen. Dabei wird die Achse wieder so gelegt, dass die maximale restliche Varianz aufgeklärt wird. λ2 λ1 Faktorenanalyse 15

Dritte Hauptachse Die dritte Hauptachse muss von der ersten und der zweiten Achse unabhängig sein. Die Achse muss also einen rechten Winkel zu beiden anderen Achsen bilden. Im 3-dimensionalen Raum ist die Lage dieser Achse durch die der beiden anderen Achsen festgelegt. λ2 λ1 λ3 Faktorenanalyse 16

Anzahl der Hauptachsen Für jede Punktewolke gibt es theoretisch so viele unabhängige Achsen, wie es Variablen gibt. Nach der Achsenbildung wird eine Person durch die Koordinaten auf den neuen Achsen dargestellt. Ziel ist eine Datenreduktion Es ist nichts gewonnen, wenn die Information einer Person durch die gleiche Anzahl neuer Koordinaten dargestellt wird, wie vorher Variablenwerte bekannt waren. Es werden also weniger Faktoren gebildet, als Variablen vorhanden sind. Die Anzahl der Achsen (Faktoren) kann dabei entweder aufgrund von theoretischen Überlegungen erfolgen, oder aber sie wird nach einem empirischen Kriterium bestimmt (über den Anteil der aufgeklärten Varianz). Faktorenanalyse 17

Voraussetzung der Faktorenanalyse Für die Faktorenanalyse werden mehrere (p) Variablen (z.B. Items eines Fragebogens) benötigt, wobei für jede Person der Wert auf jeder Variable bekannt sein muss (Messwiederholung). Dabei muss gelten: Intervallskalenniveau der Variablen Normalverteilung der Variablen Anzahl Vpn: N ≥ 3·p (Richtwert) Es werden nur lineare Zusammenhänge abgebildet!

Mathematisches Vorgehen Matrix der Variablenwerte: XNxp Matrix der standardisierten Werte: ZNxp Korrelationsmatrix: Rpxp  Kommunalitätsproblem  Reduzierte Korrelationsmatrix: hRpxp  Extraktionsproblem Faktorenladungsmatrix: Apxq  Rotationsproblem  Rotierte Faktorenladungmatrix: A`pxq  Faktorwerteproblem Faktorenwertematrix: A`Nxq N: Vpn p Variablen q Faktoren  Iterative Abschätzung Faktorenanalyse 19

Matrix der Variablenwerte In einer Zeile stehen jeweils die Werte einer Vpn für alle p Variablen. In einer Spalte stehen die Werte aller Vpn für eine Variable. Faktorenanalyse 20

Matrix der standardisierten Werte Alle Variablen („Spalten“) werden z-standardisiert, d.h. die Werte einer Spalte haben nun einen Mittelwert von M = 0 und eine Standardabweichung von SD = 1. Faktorenanalyse 21

Korrelationsmatrix Die Korrelationsmatrix R beinhaltet die bivariaten (paar-weisen) Korrelationen aller Variablen. Auf der Hauptdiagonale steht immer der Wert 1, da jede Variable mit sich selbst „perfekt“ korreliert (rii=1). Faktorenanalyse 22

Korrelationsmatrix Eine Faktorenanalyse ist nur dann sinnvoll, wenn der Datensatz substantielle Korrelationen aufweist. Dies ist dann der Fall, wenn sich die Korrelationsmatrix (R) signifikant von der Einheitsmatrix (E) unterscheidet. Eine statistische Überprüfung ist mit dem Bartlett-Test möglich. Faktorenanalyse 23

Das Fundamentaltheorem Das Fundamentaltheorem der Faktorenanalyse besagt, dass sich jeder der standardisierten Werte als Linearkombination der Faktorwerte und der Faktorladungen beschreiben lässt: mit: ZNxp: standardisierte Ausgangsmatrix FNxp: Faktorwertematrix Apxp: Faktorladungsmatrix zij: standardisierter Wert der Person i auf der Variable j p: Anzahle der Variablen = Anzahl der Faktoren (nur am Anfang!) Faktorenanalyse 24

Faktorladungen Die Faktorladungen sind die Korrelationen der Faktorwerte mit den Ausgangswerten der Variablen. Personen, die hohe Werte auf dem Faktor haben, haben auch hohe Werte auf x (und umgekehrt) Hohe Korrelation von x und λ. Die Korrelation eines Faktors und einer Variablen hängt vom Winkel ab Faktorenanalyse 25

Das Faktorladungsmatrix Die Faktorladungsmatrix enthält die Faktorladungen (Korrel-ationen) aller Variablen auf allen Faktoren: p: Variablen q: Faktoren Faktorenanalyse 26

Aufgeklärte Varianz Quadriert man die Faktorladungen, ergeben sich Determinationskoeffizienten, die den Anteil der durch einen Faktor aufgeklärter Varianz der Gesamtvarianz einer Variablen angeben. p: Variablen q: Faktoren Faktorenanalyse 27

Kommunalität Die Kommunalität (h²) einer Variablen ist die insgesamt durch alle Faktoren aufgeklärte Varianz dieser Variablen. Die Kommunalität wird als „Zeilensumme“ in der Matrix der Determinationskoeffizienten berechnet. Die Kommunalität nimmt immer Werte zwischen 0 (0% aufgeklärte Varianz) und 1 (100% aufgeklärte Varianz) an. p: Variablen q: Faktoren „Kommunalität der Variablen j“ Faktorenanalyse 28

Eigenwert Der Eigenwert (λ) eines Faktors gibt an, wie viel Varianz dieser Faktor an allen Variablen aufklärt. Der Eigenwert wird als „Spaltensumme“ in der Matrix der Determinationskoeffizienten berechnet. Der Wertebereich des Eigenwerts hängt von der Anzahl der Variablen ab: 0 < λ < p. Ein Eigenwert von 1 bedeutet, dass ein Faktor insgesamt soviel Varianz aufklärt, wie eine (jede) der standardisierten Variablen aufweist. Je größer der Eigenwert eines Faktors, desto „besser“ ist ein Faktor. Eine Selektionsstrategie zur Bestimmung der Anzahl der Faktoren besteht darin, alle Faktoren mit λ>1 zu akzeptieren. Faktorenanalyse 29

Formen der FA „Kommunalitätsproblem“: Wie viel Varianz von jeder Variablen wird zu Beginn der FA aufgeklärt, also bevor die endgültige Lage der Faktoren bekannt ist? Wenn die Variable selbst als Faktor berücksichtigt wird: 100% h² = 1 Wenn nur die anderen Variablen berücksichtigt werden: weniger h² < 1 Bei der Hauptkomponentenanalyse (PCA = Principal Component Analysis) wird zu Beginn des Optimierungsprozesses eine Kommunalität von 1 angenommen. Bei der Hauptachsenanalyse wird zu Beginn des Optimierungsprozesses die Kommunalität für jede Variable geschäzt Faktorenanalyse 30

Formen der FA Inhaltlicher Unterschied: Hauptkomponentenanalyse: Die insgesamt aufgeklärte Varianz wird maximiert. Es kann Faktoren geben, auf denen nur eine einzige Variable hoch lädt. Dieses Verfahren wird von Bortz empfohlen Haupachsenanalyse: Es werden Faktoren bevorzugt, auf denen viele Variablen laden. Dieses Verfahren wird von Leonhart empfohlen. Faktorenanalyse 31

Das „Extraktionsproblem“ Zur Berechnung der FA, werden genau so viele Faktoren wie Variablen gebildet Datenreduktion?? Später: Faktoren weggelassen, die wenig Varianz aufklären. Unterschiedliche Kriterien: Kaiser-Gutman-Regel Kriterium der extrahierten Varianz Screetest Theoriegeleitetes Vorgehen Faktorenanalyse 32

Kaiser-Gutman-Regel Nach der Kaiser-Gutman-Regel werden nur Faktoren mit einem Eigenwert > 1 berücksichtigt. Nach diesem Kriterium werden also alle Faktoren berücksichtigt, die zumindest den Varianzanteil einer Variablen aufklären. Vorraussetzungen: N > 5·p Faktorenzahl zwischen p/5 und p/3 Faktorenanalyse 33

Kriterium der extrahierten Varianz Es wird festgelegt, wie viel Varianz aufgeklärt werden soll. Problem: Es kann kaum begründet werden, welcher Varianzanteil hier gewählt wird (z.B. 50%, 90%) Vorgehen: Die Faktoren werden nach ihren Eigenwerten sortiert: Alle Eigenwerte werden aufsummiert  Sum(λ) = p Für jeden Eigenwert wird der Anteil aufgeklärter Varianz als λ / p berechnet. Es werden alle Faktoren berücksichtigt, bis die kumulierte Varianz das Kriterium übertrifft: Faktorenanalyse 34

Kriterium der extrahierten Varianz 3 Faktoren klären über 50% der Merkmals-varianz auf. Kaiser-Gutman Kriterium 10 Faktoren klären über 90% der Merkmalsvarianz auf. Eigenwerte Faktorenanalyse 35

Screetest Der Scree-Test (Geröll-Test) ist eine graphische Methode um eine sinnvolle Anzahl von Faktoren zu bestimmen. Dazu werden die Eigenwerte der Faktoren als Graphik dargestellt. Es werden nur Faktoren ausgewählt, bevor der Graph eine „Ebene“ erreicht. Problem: Oft ist dieses Kriterium nicht eindeutig! Faktorenanalyse 36

Screetest Faktorenanalyse 37

Theoriegeleitetes Vorgehen SPSS erlaubt es auch, direkt die Anzahl der erwünschten Faktoren einzugeben. So ist es möglich, verschiedene Lösungen auszuprobieren, und jeweils zu überprüfen, ob sich eine inhaltlich sinnvolle Lösung ergibt. Beispiel: Es wird aufgrund theoretischer Überlegungen erwartet, dass sich die Aufgaben eines Intelligenztests drei Faktoren zuordnen lässt: Räumliches Vorstellungsvermögen Mathematische Intelligenz Sprachliches Intelligenz Es wird eine Lösung mit 3 Faktoren berechnet, und überprüft, ob die Items wie erwartet auf den Faktoren laden. Faktorenanalyse 38

Das „Rotationsproblem“ Oftmals ist für eine inhaltlich sinnvolle Interpretation nach der Exraktion eine Rotation erforderlich Jede Variable soll nach der Rotation auf einen Faktor sehr hoch und auf alle anderen Faktoren sehr niedrig laden Ziel der Rotation: Einfachstruktur, d.h. jeder Faktor soll auf einigen Variablen sehr hoch und auf anderen Variablen sehr gering laden. Dann sind Faktoren leichter inhaltlich zu interpretieren Faktorenanalyse 39

Das „Rotationsproblem“ Unterschiedliche Rotationsverfahren: Bei der orthogonalen Rotation bleiben die Faktoren unabhängig, d.h. sie stehen senkrecht aufeinander. Bei der obliquen Rotation sind „schwiefwinklinge“ Zusammenhänge zwischen den Faktoren erlaubt. Faktorenanalyse 40

Orthogonale Rotation Vorteil: Unabhängigkeit der Faktoren, d.h. es kommt zu einer maximalen Vereinfachung der Daten Informationen ist nicht mehrfach abgebildet Faktoren korrelieren nicht miteinander Das bekannteste Verfahren der orthogonalen Rotation ist die „Varimax“-Methode. Bei dieser Methode werden die Spaltensummen der quadrierten Faktorladungsmatrix maximiert. Faktorenanalyse 41

Oblique Rotation Das bekannteste Verfahren der obliquen Rotation ist die „Oblimin“-Methode. Vorteil: Möglichkeit, Faktoren höherer Ordnung zu bestimmen. Dazu werden die Faktorwerte jeder Person erneut faktorisiert. Beispiel:  100 Items eines Intelligenztests lassen sich auf 8 Aufgabentypen reduzieren.  Diese 8 Aufgaben laden auf drei Faktoren: Räumliches Vorstellungsvermögen; Mathematische Intelligenz; Sprachliches Intelligenz  Die drei Faktoren 2. Ordnung laden auf einem „Generalfaktor“ Faktorenanalyse 42

Faktorenanalyse 43

Faktorenanalyse - Zusammenfassung Entscheidungen für die Berechnung: Berechnungsverfahren Hauptkomponenten - Analyse Hauptachsen - Analyse Anzahl der Faktoren: Kaiser-Gutman-Kriterium (λ<1) Screetest Hypothesengeleitetes Vorgehen Art der Rotation orthogonal (Varimax) oblique (Oblimin) Faktorenanalyse 44