Einführung in Permutations-Test & Bootstrap-Test

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Der F - Test Man prüft, ob sich 2 Varianzen unterscheiden, mit dem F-Quotienten: Geprüft werden stets die Schätzungen der Populationsvarianzen aufgrund.
Daten - Sicherung Begriffsdefinition Arten der Datensicherung
Nora Fenske Bernd Fellinghauer In Kooperation mit Birgit Seebacher
Der F - Test Man prüft, ob sich 2 Varianzen unterscheiden, mit dem F-Quotienten: Geprüft werden stets die Schätzungen der Populationsvarianzen aufgrund.
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Simulated Annealing Marco Block & Miguel Domingo Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.
Verschiedene Statistik- Programme - verschiedene Ergebnisse bei gleichen Analysen, kann das sein? Autor: Patrick Arnold.
Stochastik in der Sek. II Sabrina Schultze.
Forschungsstatistik II
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Konfidenzintervalle für Parameter
Patrick Rössler Einführung in die Methoden der empirischen Kommunikationsforschung Vorlesung BA Kommunikationswissenschaft (123) Grundlagen-LVG.
Statistische Methoden II
Die Vorlesung Statistische Methoden II findet am (nächste Woche) wegen der Projektwoche nicht wegen der Projektwoche nicht statt.
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur - statt Vorlesungen -
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
II. Wahrscheinlichkeitstheorie
III. Induktive Statistik
Extra-SPSS-Kurse Durchführung: Birte Holtfreter Termine Di Mi Mi Ort PC-Pool Loefflerstarße.
Approximative Konfidenzintervalle im Bernoulli-Fall II
Statistische Methoden II SS 2010 Vorlesung:Prof. Dr. Michael Schürmann Zeit: Freitag 13:15 -15:45 (Pause 14:45) Ort:HS Makarenkostraße (Kiste) Übungen.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Vorlesung: ANOVA I
Einführung in die Metaanalyse
Vorstellung Ateliers Permutationstests Nachmittagsateliers.
Vergleich der 3 Arten des t-Tests Testergebnisse berichten
Chi Quadrat Test Tamara Katschnig.
Seminar: Datenerhebung
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
K-SAT: Ein heuristischer Algorithmen- Vergleich Kann man den Brute Force Search Algorithmus schlagen?
STATISIK LV Nr.: 1375 SS März 2005.
Wiederholung BSP 2.1.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 1852 WS 2005/ Dezember 2005.
Konfidenzintervall und Testen für den Mittelwert und Anteile
Kapitel 14 Trends und Unit-root-Tests
Ökonometrie I Modellvergleich (Übersicht) Ökonometrie I2 Vergleich von Modellen Fragestellungen für Modellvergleich 1.Fehlende Regressoren.
Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 Empirische Softwaretechnik.
2.4 Residualkomponente und Korrelogramm
Möglichkeiten der statistischen Analyse der beobachteten Bonituren
Was ist Office 365 ?.
2.4 Residualkomponente und Korrelogramm
Testtheorie (Vorlesung 7: ) Rekapitulation: Modellierungsansatz
Mikrocomputertechnik 1 Einführung Prof. J. Walter Stand Januar Mikrocomputertechnik Jürgen Walter „Configuration-Quickie“ Hardware konfigurieren.
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
Die Binomialverteilung
STATISIK LV Nr.: 1375 SS März 2005.
K. Desch - Statistik und Datenanalyse SS05
Prüft ebenfalls die Annahme der Varianzhomogenität (exakter)
Forschungsstrategien Johannes Gutenberg Universität Mainz
Ergebnisunsicherheit und Statistische Testverfahren
Test 1 Test 2 Test 3. Test 4 Test 5 Test 6 Test 7 Test 8 Test 9.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Statistik im Labor BFB-tech Workshop Eugen Lounkine.
Signifikanzprüfung Peter Wilhelm Herbstsemester 2015.
SPSS – Kurs Lösungen. Lösung 1 2) z.B. über Transformieren  Werte in Fällen zählen dann noch bei der Schalt- fläche „Werte definieren“ die „1“ angeben.
Test.
 Präsentation transkript:

Einführung in Permutations-Test & Bootstrap-Test Resamplingverfahren * Permutation -> ohne zurücklegen - exakt - simulation based * Bootstrap -> mit zurücklegen * Monte Carlo - Simulation auf Basis vorgegebener Verteilungen Tobias Schrag

Motivation Üblich: modellgebundene, asymptotische Verfahren Verteilungen sind Hilfskonstrukte Gebunden an Voraussetzungen Häufige Situation bei gartenbaulichen Fragestellungen Kleine Fallzahlen (z.B. 4 Wiederholungen) Nicht-stetige Daten (Bonituren, Zähldaten), Bindungen Varianzheterogenität Keine Aussagen zur Verteilung möglich Die Folgen Falsch-positiv Fehlerrate (a=5%) wird nicht eingehalten Ein Ausweg Resampling-Verfahren

Probleme verteilungsgebundener Tests t-Test Anova c² Pearson Nicht-Gaußverteilt, diskret, Bindungen! Nicht-Gaußverteilt, diskret, Bindungen! Fallzahlen < 60 U-Test (WMW) Kruskal-Wallis c² Yates Kleine Fallzahlen, Varianzheterogenität! Kleine Fallzahlen! Fallzahlen < 20 Resampling Resampling Resampling

Resampling - was steckt dahinter? Idee: Bei m1 = m2 gilt Austauschbarkeit Wenn in Wahrheit kein Unterschied vorliegt, dann wird als Hypothese die „Exchangeability“ angenommen Verfahren: empirische Verteilung erzeugen Aus vorliegenden Daten wird empirische Verteilung erzeugt Daten neu zusammengesetzt („Resampling“) Für jede Permutation wird die Teststatistik berechnet Beliebige Teststatistik nutzbar (Mw-Diff, t-Stat, Ranksum, ...) Entscheidung: p-Wert oder Konfidenzintervalle Anteil der Permutation, bei denen Teststatistik der Ausgangsdaten größer ist als die der Permutation

Exchangeability m1=m2 (H0) m1¹m2 (HA) Originaldaten Permutation Teststatistik: Mittelwertsdifferenz m1=m2 (H0) m1¹m2 (HA) Originaldaten 4 4 5 2 3 4 4 3,33 3,67 Permutation -0,33 -1 4 4 3 4 Permutation ...

Permutation Bootstrap Ziehen ohne Zurücklegen Ziehen mit Zurücklegen 1 alle möglichen Kombinationen werden erzeugt mögliche Kombinationen werden zufällig erzeugt 1 2 3 2 1 2 3 2 1 2 3 2 2 1 2 3 2 3 1 3 2 2 3 1 2 3 2 3 1 Permutation ohne Zurücklegen alle möglichen Kombinationen werden erzeugt Bootstrap („Monte-Carlo“) mit Zurücklegen mögliche Kombinationen werden zufällig erzeugt #Elemente #Permutationen 1 1 2 2 3 6 4 24 5 120 6 720 7 5.040 8 40.320 9 362.880 10 3.628.800 11 39.916.800 12 479.001.600 13 6.227.020.800 14 87.178.291.200 15 1,31E+12 16 2,09E+13 17 3,56E+14 18 6,40E+15 19 1,22E+17 20 2,43E+18 21 5,11E+19 22 1,12E+21 23 2,59E+22 24 6,20E+23 1 2 2 3 1 1 2 3 2 3 1 3 2 2 3 1 2 1 2 3 2 3 1 3 3

Beispiel: U-Test (SAS) Gruppe 1 Gruppe 2 --------- --------- 3 5 6 2 3 5 1 SAS: Wilcoxon Two-Sample Test Statistic (S) 16.0000 Normal Approximation One-Sided Pr > Z 0.1038 Exact Test One-Sided Pr >= S 0.1429

Beispiel: U-Test (Excel) 1) Originaldaten Teststatistik (Rangsumme) errechnen 2) Permutationen erzeugen 3) Permutationen 4) Vergleich TeststatistikOriginaldaten > TeststatistikPermutationen Häufigkeit 85.71% d.h. p-Wert = 0.1429

Beispiel: U-Test (Excel) 1) Originaldaten Teststatistik (Rangsumme) errechnen 2) Permutationen erzeugen 3) Permutationen 4) Vergleich TeststatistikOriginaldaten > TeststatistikPermutationen Häufigkeit 85.71% d.h. p-Wert = 0.1429

Beispiel: U-Test (Excel) 1) Originaldaten Teststatistik (Rangsumme) errechnen 2) Permutationen erzeugen 3) Permutationen 4) Vergleich TeststatistikOriginaldaten > TeststatistikPermutationen Häufigkeit 85.71% d.h. p-Wert = 0.1429

Beispiel: U-Test (Excel) 1) Originaldaten Teststatistik (Rangsumme) errechnen 2) Permutationen erzeugen 3) Permutationen 4) Vergleich TeststatistikOriginaldaten > TeststatistikPermutationen Häufigkeit 85.71% d.h. p-Wert = 0.1429

Beispiel: U-Test (Excel) 1) Originaldaten Teststatistik (Rangsumme) errechnen 2) Permutationen erzeugen 3) Permutationen 4) Vergleich TeststatistikOriginaldaten > TeststatistikPermutationen Häufigkeit 85.71% d.h. p-Wert = 0.1429

Nachteile von Permutationsverfahren Verfügbarkeit umständlich: 2-faktorielle Anlage bisher nicht möglich: 3-faktorielle Anlagen und mehr Rechenzeit v.a. bei K-Stichproben kritisch Abhilfe: Monte-Carlo Simulation (Zufallsauswahl) #Elemente #Permutationen 1 1 2 2 3 6 4 24 5 120 6 720 7 5040 8 40320 9 362880 10 3628800 11 39916800 12 479001600 13 6227020800 14 87178291200

Vorteile von Permutationsverfahren Anwendung Ohne Verteilungsannahmen (eher biologisch adäquat) Kleine Fallzahlen Diskrete Daten Bindungen Verfügbar für Zweistichprobenproblem 2 x 2 Tafeln und 2 x K Tafeln Einweganlage, Blockanlage, (Zweiweganlage) Trendtests Software SAS (proc multtest, proc npar1way) StatXact

Software: StatXact