Statistiktutorat: Datenkontrolle christian_langrock@web.de
Gliederung Ausreisser-Analyse Analyse von fehlenden Werten MCAR MAR NRM
Ausreisseranalyse Ausreisser- und Extremwerte nach Tukey-Kriterium identifizieren Grafisches Ergebnis: Boxplot Ersetzungsmöglichkeit „Windsorisieren“ Problem: Werte können sowohl durch Fehler/bewusst falsche Angaben sein, als auch real bestehen.
Missing-Data Diagnose Fehlende Werte sind besonders in tendenziell „intrusiven“ Fächern wie der Psychologie ein verbreitetes Problem Erfassung von fehlenden Werten pro Variable und pro Person Insbesondere bei mehr als 5% fehlenden Werte sollte genau hingesehen werden
Missing Completely at Randon (MCAR) Kein Zusammenhang zwischen Fehlen ja/nein und Ausprägung in der analysierten Variablen Kein Zusammenhang zwischen Fehlen ja/nein und weiteren erhobenen Variablen Fehlende Werte stellen kein Problem dar, da die vorhandenen Werte eine repräsentative Stichprobe aller Werte darstellen
Beispiel MCAR Ich untersuche die Wirkung einer Diät (abhängige Variable Gewicht) anhand der Gewichtsdifferenz zwischen Beginn und Abschluss. Neben dem Gewicht erhebe ich die Variablen Geschlecht, Körpergröße und Alter. MCAR liegt vor, wenn unter den Probanden, die die Diät nicht abschließen weder eine bestimmten Gewichtsklasse, noch eine bestimmte Altersgruppe, noch eine bestimmte Größe noch eine bestimmtes Geschlecht überrepräsentiert ist.
Missing at Random (MAR) Kein Zusammenhang zwischen Fehlen ja/nein und Ausprägung in der analysierten Variablen Zusammenhang zwischen Fehlen ja/nein und weiteren erhobenen Variablen Fehlende Werte können prinzipiell durch statistische Methoden (überzufällig gut) geschätzt werden
Beispiel MAR MAR liegt vor, wenn unter den Probanden, die die Diät nicht abschließen, zwar keine bestimmte Gewichtsklasse aber mindestens eine der Variablen Alter, Größe und Geschlecht überrepräsentiert ist.
Nonrandom Missing (NRM) Zusammenhang zwischen Fehlen ja/nein und Ausprägung in der analysierten Variablen. Kein Zusammenhang zwischen Fehlen ja/nein und weiteren erhobenen Variablen. Eine optimale statistische Lösung dieses Problems ist derzeit nicht verfügbar.
Beispiel NRM NRM liegt vor, wenn eine bestimmte Gewichtsklasse bei denjenigen, die die Diät nicht abschließen, überrepräsentiert ist.