5. Abbildende versus erklärende Modelle –

Slides:



Advertisements
Ähnliche Präsentationen
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Advertisements

Vorlesung Programmieren II
Modellprämissen der linearen Regression
Berechnung des Korrelationskoeffizienten Vorbemerkung. Der Korrelationskoeffizient ist im Grunde ein Bruch aus 3 unvollständig berechneten statistischen.
3. Kapitel: Komplexität und Komplexitätsklassen
1 1. Splineglättung 1.1 Motivation 1.2 Notation 1.3 Splineglättung
Zeitreihen Gliederung Allgemeines zu Zeitreihen
Thema der Stunde I. Einführung in die Varianzanalyse:
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Regression und Korrelation
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Kapitel 5 Stetigkeit.
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Kapitel 6 Differenzierbarkeit. Kapitel 6: Differenzierbarkeit © Beutelspacher Juni 2005 Seite 2 Inhalt 6.1 Die Definition 6.2 Die Eigenschaften 6.3 Extremwerte.
Mehrfachregressionen
Hypothesen testen: Grundidee
Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,
III. Induktive Statistik
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Tutorium
Tutorium
Tutorium
Unser letztes Tutorium
Tutorium
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie
Vorlesung: ANOVA I
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Probleme der Modellspezifikation
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Einführung in die beurteilende Statistik
Ausgleichungsrechnung I
Partielle Autokorrelation
Ausgleichungsrechnung II
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Chi Quadrat Test Tamara Katschnig.
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Effiziente Algorithmen
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Statistik: Mehr zur Regression.
Kapitel 10 Multikollinearität
SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig
Kapitel 18 Dynamische Modelle: Schätzen der Parameter
Kapitel 19 Kointegration
Kapitel 16 Ökonometrische Modelle
Kapitel 4 Annahmen des linearen Regressionsmodells
Kapitel 18 Dynamische Modelle: Schätzen der Parameter.
Wahrscheinlichkeitsrechnung
Theorie psychometrischer Tests, II
Statistik – Regression - Korrelation
Beachten Sie die Temperaturen von Locarno und Altdorf.
Vom graphischen Differenzieren
Einführung zur Fehlerrechnung
Die einfache/multiple lineare Regression
Deskriptive Statistik, Korrelationen, Mittelwertvergleiche, Graphiken
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
setzt Linearität des Zusammenhangs voraus
Die einfache/multiple lineare Regression
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Aufgabenstellung  gegeben ist die zeitliche Entwicklung der global gemittelten bodennahen Temperatur im Zeitraum (Dateiname= ytemp2m.obs, ascii-
 Präsentation transkript:

5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten unabhängigen Modellparametern

Gesucht sei ein lineares multiples Regressionsmodell : (5.1) für eine bestmögliche Abbildung von y, wobei aber die einzelnen erklärenden Modellvariablen (x1,…,xp) dann auch ein statistisch signifikantes Erklärungspotential für die abhängige Variable (y) besitzen sollen. Achtung: Das bedeutet dann nicht, dass jeder Parameter xi für sich (allein!) ein Erklärungspotential besitzen muss! Nur in der Kombination des (linearen) Modellansatzes aller (!) erklärenden Parameter x1,…,xp soll dann aber jeder einzelne Parameter xi ein von den (restlichen) Parametern xj (für j<>i) jeweils unabhängiges Erklärungspotential besitzen!!

PF(%) = 104.4 – 0.152*Fe – 0.095*SO2 R=0.723 (10%IW) Beispiel : Modelliert wurden tägliche Messungen des forcierten Ausatemvolumen (PF) eines Kindes mit chronischer Atemwegserkrankung während einer 4-wöchigen (Winter) Kur in Zingst mit Hilfe von Messdaten der UBA-MST Zingst: PF(%) = 104.4 – 0.152*Fe – 0.095*SO2 R=0.723 (10%IW) mit: PF: Peak - Flow in % des Maximalwertes der Messwertreihe Fe: Relative Luftfeuchte (%) SO2: Schwefeldioxidkonzentration der Luft (µg/m3) PF = f(Fe) und PF = f(SO2) nicht signifikant , ! ! Interpretation der Modellgleichung: In der winterlichen Jahreszeit, bei nebligem Wetter (Fe~100%) und gleichzeitig hohen SO2-Werten (~150 µg/m3), muss dieser Patient mit einer Abnahme seiner PF - Werte um ca. 30% und bei ~100 µg/m3 SO2 dann noch um ca. 20% rechnen.

Iterative Verfahren der Modellentwicklung -Vorwärtsselektion: Beginn mit „bester“ Einzelkorrelation, schrittweise Erhöhung der erklärenden Parameter im Modell nach „Vorauswahl“, gemessen nach ihrer jeweiligen Einzelbedeutung für y, z.B. durch den Einzelkorrelationskoeffizienten. -Rückwärtselimination: Start mit allen zur Verfügung stehenden erklärenden Variablen bei schrittweiser Elimination von nicht signifikanten Parametern. -schrittweise Regression: Kombination der Rückwärtselimination mit der Vorwärtsselektion.

(siehe dazu auch das obige Beispiel !) Da nun mögliche Kombinationswirkungen von (Mess)Parametern evtl. für den zu beschreibenden Prozess bedeutende, nicht gemessene Parameter widerspiegeln könnten (Stellvertretereffekt), soll hier dem Verfahren der Rückwärtselimination mit Elementen der schrittweisen Regression der Vorrang gegeben werden (siehe dazu auch das obige Beispiel !)

Verfahren (Vorschlag) 

Kontrolle der Modelldimension …. dass die Anzahl der Modellparameter (p) in einem „vernünftigen“ Verhältnis zur Größe der Stichprobe (n) steht, so dass nach den Regeln der statistischen Lerntheorie kein „Überlerneffekt“ (Overfitting) zu erwarten ist. Hierzu wird ein „adjusted R^2“ definiert [16]: (5.2) im Gegensatz zu R^2 geht Ra^2 nicht gegen 1, wenn die Anzahl der erklärenden Parameter: p sich der Anzahl der Messungen: n nähert !

Ra^2 geht nicht gegen 1, wenn die Anzahl der erklärenden Parameter: p sich der Anzahl der Messungen: n nähert ! Im Maximum des Ra^2 ist: ,so dass dort für dn=0 (d.h. für eine konstante Datenmenge ) gelten muss: (5.3)

Somit folgt für den Test zur Modelldimension : Ist die Anzahl der erklärenden Parameter: p bzgl. n so gewählt worden, dass Ra^2 noch vor dem Maximum zu liegen kommt, so ist mit keinem Overfitting- Effekt zu rechnen. Das Modell ist dann mit hoher Wahrscheinlichkeit nicht „überdimensioniert“! Für die linke Seite von (5.3) gilt in erster Näherung: Somit folgt für den Test zur Modelldimension : Ist die Anzahl der erklärenden Parameter (p) geteilt durch den (multiplen) Korrelationskoeffizienten (R^2) größer als die rechte Seite von Gleichung (5.3): so ist dass Modell überdimensioniert und die Anzahl der erklärenden Parameter: p muss reduziert werden !

Signifikanztest des multiplen Korrelationskoeffizienten: R^2 F-Test (Fisher- Test): (5.4) Nullhypothese: R^2 ist nur zufällig verschieden von Null, die p Variablen haben also keinen Einfluss auf y. Tabellenwerte für F mit den entsprechenden Irrtumswahrscheinlichkeiten (IW) findet man z.B.: bei Schuchard- Ficher[14]. Überschreitet der nach (5.4) berechnete F- Wert den Tabellenwert, so ist der multiple Korrelationskoeffizient R^2 mit der dazugehörenden Irrtumswahrscheinlichkeit signifikant verschieden von Null, d.h. y kann durch die p Parameter (statistisch) erklärt werden.

Achtung: Die Aussagekraft des F- Test setzt „Unabhängigkeit in den Daten“ und Linearität voraus, so dass bei jedem Schritt der Modellreduktion die folgenden weiteren Tests durchzuführen sind auf: (- Linearität) - Multikollinarität („Querkorrelationen“) - Autokorrelation („Erhaltungsneigung“) (- Heteroskedastizität) Streng genommen werden normalverteilte Daten verlangt. Nur dann kann R^2 die „volle stochastische“ Abhängigkeit zwischen den Daten auch beschreiben!

Zur Linearität: Entsprechend Modellansatz (5.1) muss die abhängige Größe y zu den unabhängigen Parametern: x1,...,xp in einem linearen Zusammenhang stehen! Lässt sich eine bessere Angleichung als eine Gerade finden (z.B. eine Exponentialfunktion (EXP)), so wird die Güte des Zusammenhangs durch R^2 in der Regel unterschätzt. Führt der Signifikanztest für R^2 dann zu keinem signifikanten Wert, so kann er evtl. nach einer Linearisierung der Daten (indem z.B. x := EXP(x) in (5.1) gesetzt wird) zu einem signifikanten Ergebnis führen.

Zur Autokorrelation: Die durch das Modell nicht erklärten Restschwankungen (Residuen) müssen untereinander unabhängig sein. Dies ist vor allem ein Problem bei Zeitreihen von Messwerten (Erhaltungsneigung). Zur Abschätzung der Autokorrelation kann der Durbin/Watson-Test (d-Test) benutzt werden, da eine Verletzung dieser Bedingungen zu erheblichen Fehlern bei der Abschätzung der Signifikanz des multiplen R^2 führen kann (Schuchard-Ficher[14]).

Durbin / Watson Test: (5.7) mit : Restschwankung (Residuum) der i- ten Beobachtung (i=1,2,...,n)  Indexwert: d zur Prüfung der Autokorrelation (Schuchard-Ficher[14]) d- Werte von etwa 2.0 bedeuten keine Autokorrelation (genaue Tabellen- werte z.B. in Schuchard-Ficher [14]) Ist eine Autokorrelation vorhanden, so kann durch Reduktion der Daten (z.B. durch Streichen jedes 2. oder 3. Wertes der Datenreihe) versucht werden, die Erhaltungsneigung zu beseitigen.

Zur Multikollinarität: Die unabhängigen Parameter x1,...,xp müssen untereinander unabhängig sein! Test: Ist die Summe der R^2 für jede einzelne Beziehung: y = f(x1) ,..., y =f(xp) (wesentlich) größer als das R^2 der multiplen Regression, so muss Multikollinarität vermutet werden. Mit Hilfe des Programms: mlregr_mk.exe werden durch Vorgabe eines F-Grenzwertes (Fu) mit dem obigen F-Test die Parameter: xi aus: x1...xp selektiert, für die sämtliche (paarweise) Einzelregressionen einen F- Wert (nach Gleichung(5.4)) kleiner als dieser Grenzwert Fu besitzen, für die also insgesamt keine Korrelation untereinander nachgewiesen werden kann! Diese Parameter werden dann in erster Näherung(!) als untereinander (linear) unabhängig definiert. Sie bilden dann in erster Näherung mathematisch ein sogenanntes Orthogonalsystem.

Zur Heteroskedastizität: Diese liegt vor wenn die Varianz der Restschwankungen nicht unabhängig ist vom Betrag der abhängigen Größe y, bzw. von deren Reihenfolge, z.B. durch einen zunehmenden Messfehler dieser Größe, d.h. also wenn : Zumindest die Tests zur Autokorrelation und Multikollinarität müssen bei der Modellreduktion immer durchgeführt werden, da diese Effekte besonders häufig in den Daten beobachtet werden und einen großen Einfluss auf die Aussagekraft der Testverfahren haben !

Test auf Signifikanz der Koeffizienten: cj t- Test (z.B.: in Schuchard- Ficher[14]): (5.5) mit: (5.6) - Varianzen der xj, cj und y Der t-Test lautet dann: Ist nun t nach Gleichung (5.5): mit : - Tabellenwert für 5%- IW (Tabellenwerte z.B. in [14]) so muss die Nullhypothese verworfen werden, dass cj nur zufällig verschieden von Null ist !

Mit diesen so ermittelten (signifikanten) Parametern wird nun erneut ein (reduziertes) multiples Regressionsmodell aufgestellt und nun analog zum vorhergehenden Schritt die entsprechenden Tests für dieses Modell wiederholt…. 

 Dieses Verfahren wird nun solange wiederholt, bis sich nach der jeweiligen Modellreduktion NUR noch signifikante Parameter im Modell befinden, d.h. KEIN Parameter mehr „herausfällt“!! 

 Das Modell: liefert mit einem R^2 (4. Schritt) mit der entsprechenden IW (des F- Tests) eine signifikante Abbildung der y- Werte in der die x1,x4 und x6 – Parameter ein mit der entsprechenden IW (des t- Tests) signifikantes Erklärungspotential besitzen !