Regressionsmethoden.

Slides:



Advertisements
Ähnliche Präsentationen
Theorie psychometrischer Tests, III
Advertisements

Forschungsstrategien Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Regression und Korrelation
Kovarianz, Korrelation, (lineare) Regression
Kovarianz, Korrelation, (lineare) Regression Jonathan Harrington BITTE NOCH EINMAL dframes.zip (Webseite 4.1) herunterladen und in pfad auspacken.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Konfidenzintervalle für Parameter
Modellvergleich.
Ein frohes und erfolgreiches Jahr
Beispiele für Gleichungssysteme
Hypothesen testen: Grundidee
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
K. Desch - Statistik und Datenanalyse SS05
Latente Variablen – Kennwerte zur Beurteilung von Modellen
Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.
Nachholung der Vorlesung vom Freitag
M-L-Schätzer Erwartungswert
Statistische Methoden I SS 2005
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Univariate Statistik M. Kresken.
Tutorium
Tutorium
Tutorium
Vorlesung: ANOVA II.
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Matrix-Algebra Grundlagen 1. Matrizen und Vektoren
Bestimmung der Regressionsgewichte in der multiplen Regression
Ausgleichungsrechnung I
Chi Quadrat Test Tamara Katschnig.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Gleichungen und Gleichungssysteme
Statistik: Mehr zur Regression.
Kapitel 10 Multikollinearität
Modul Statistische Datenanalyse
Kapitel 2 Das klassische Regressionsmodell
Kapitel 18 Dynamische Modelle: Schätzen der Parameter
Kapitel 5 Statistische Bewertung von Regressionsbezie-hungen
Kapitel 3 Lineare Regression: Schätzverfahren
Ökonometrie I Variablenauswahl.
OLS-Schätzer und seine Eigenschaften
Einfache und multiple Regression
Annahmen des lineare Regressionsmodells
Kapitel 18 Dynamische Modelle: Schätzen der Parameter.
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Regression und Kollokation
Strategie der Modellbildung
Multivariate Statistische Verfahren
1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Multivariate Statistische Verfahren
Statistik – Regression - Korrelation
Einführung zur Fehlerrechnung
Die einfache/multiple lineare Regression
STATISIK LV Nr.: 1852 WS 2005/ Jänner 2006.
setzt Linearität des Zusammenhangs voraus
Die einfache/multiple lineare Regression
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
Ausgleich nach der Methode der kleinsten Quadrate
 Präsentation transkript:

Regressionsmethoden

Inhalt 1. Problemstellung 2. Univariate lineare Regression 3. Multiple lineare Regression 4. Hauptkomponenten Regression (PCR) 5. Partielle kleinste Quadrate (PLS) 6. Zusammenfassung

1. Problemstellung Quantitative Bestimmung der 3 isomeren Nitrophenole in wäßriger Lösung o-Nitrophenol m-Nitrophenol p-Nitrophenol

1.1 Kalibrierproben Wie stellt man die Kalibrierproben zusammen? 1. Forderung: möglichst wenige Kalibrierproben (in der Praxis max.10  Bequemlichkeit) 2. Forderung: die Kalibration muß den zu erwartenden Konzentrationsbereich abdecken 3. Forderung: Randomisierung hinsichtlich Konzentration und zeitlicher Reihenfolge mögliche Herangehensweise: Konzentrationsbereich: 10-6 mol/l  C  10-4 mol/l low = l = 10-6 mol/l medium = m = 10-5 mol/l high = h = 10-4 mol/l

1.1 Kalibrierproben l m h o-Nitrophenol m-Nitrophenol p-Nitrophenol l l l m l h m l m m m h h l h m h h l l l l l m l l h l m l l m m l m h l h l l h m l h h m l l m l m m l h m m l m m m m m h m h l m h m m h h h l l h l m h l h h m l h m m h m h h h l h h m h h h 3 Konzentrationen 27 x y z 10

Inhalt 1. Problemstellung 2. Univariate lineare Regression 3. Multiple lineare Regression 4. Hauptkomponenten Regression (PCR) 5. Partielle kleinste Quadrate (PLS) 6. Zusammenfassung

2.1 ULR - Grundlagen berechnetes Modell wahres Modell y y x x Annahmen: x = unabhängige Variable (z.B. Konzentration), fehlerfrei (sonst orthogonale Regression) y = abhängige Variable (z.B. Extinktion), Meßwert  fehlerbehaftet berechnetes Modell wahres Modell y y x x

Die meisten Regressionsmethoden arbeiten nach dieser Methode!!! 2.1 Least-Squares Methode (Gauss) Zielstellung: berechnete Regressionsgerade soll sich der Punktwolke möglichst gut anpassen Berechnung der Residuen: Minimierung der Fehlerquadratsumme: Minimierung bedeutet Bilden der partiellen 1. Ableitung und Nullsetzen der Gleichungen Die meisten Regressionsmethoden arbeiten nach dieser Methode!!!

Schätzwert für den reinen Experimentalfehler 2 wenn Modell korrekt 2.1 Least-Squares Methode (Gauss) Berechnung der Modellparameter: Eine bedeutsame statistische Größe für eine solche Regression ist die Varianz der Residuen: Zurück zum Beispiel: Schätzwert für den reinen Experimentalfehler 2 wenn Modell korrekt Welche Wellenlänge soll ich zur Regression verwenden?

2.2 Auswahl der Wellenlänge Annahme: Diejenige Wellenlänge deren Absorptionswerte am besten mit den entsprechenden Konzentrationswerten korrelieren Pearsonscher Korrelationskoeffizient R als Maßzahl für einen linearen Zusammenhang E = Vektor der Extinktionen der Proben 1 - 10 C = Vektor der Konzentrationen des Nitrophenols in den Proben 1 - 10

2.3 ULR - Ergebnis Ergebnis: Regressionsgerade Konfidenzintervall Meßpunkte

2.3 ULR - Ergebnis Was bedeutet das Konfidenzintervall? Intervall, in dem der wahre Wert 0 bei einem bestimmten Wert von x0 mit einer Wahrscheinlichkeit von 95% liegt m-Messungen einer unbekannten Probe und Vorhersage der Konzentration Angabe des Ergebnisses immer in der Form: n = Zahl der Kalibrierproben t = Parameter der t-Verteilung (tabelliert)

2.3 ULR - Ergebnis Wie gut funktioniert das Modell zur Vorhersage unbekannter Proben? Test: Vorhersage der Konzentration von 115 „unbekannten“ Proben Maßzahlen für die Güte des Kalibrationsmodells: Zur graphischen Beurteilung dient der Wiederfindungsplot x-Achse: bekannte Konzentration der 115 Proben y-Achse: nach dem Kalibrationsmodell berechnete Konzentrationen der 115 Proben PRESS = Predicted Residual Error Sum of Squares RMSPE = Root Mean Squared Prediction Error

Modell: [O-NPh]= [-7.2710-6 + 9.9010-4E485nm]mol/l 2.3 ULR - Ergebnis PRESS=8.4010-9 mol2/l2 RMSPE=8.5510-6 mol/l Modell: [O-NPh]= [-7.2710-6 + 9.9010-4E485nm]mol/l

Inhalt 1. Problemstellung 2. Univariate lineare Regression 3. Multiple lineare Regression 4. Hauptkomponenten Regression (PCR) 5. Partielle kleinste Quadrate (PLS) 6. Zusammenfassung

3.1 MLR - Grundlagen Muß man sich bei der Auswertung auf eine Wellenlänge beschränken? Bisher folgendes Modell: Erweiterung auf m-Variablen: n-Kalibrierproben mit unterschiedlicher Zusammensetzung (im Bsp. n=10) Messung der Extinktionsspektrums jeder Probe an m-Wellenlängen (im.Bsp. 280nm - 500nm) Wichtig: n > m yi = die i-te Beobachtung (i. Bsp. die Konzentration der i-ten Probe) xik = Wert der k-ten unabhängigen Variablen (i. Bsp. Extinktion bei der k-ten Wellenlänge) bei Messung der i-ten Probe

3.1 MLR - Grundlagen Damit ergibt sich folgendes Modell: Es gilt also, die p = m + 1 Schätzungen (b0, b1,...,bm) der unbekannten Regressionskoeffizienten (0, 1,...,m) zu finden !!! Matrixschreibweise des Gleichungssystems:

3.1 MLR - Grundlagen In Matrixschreibweise sieht das Modell folgendermaßen aus: Die „least-squares“-Lösung für b lautet dann: Kleinbuchstabe fettgedruckt = Vektor Großbuchstabe fettgedruckt = Matrix XT bedeutet: X transponieren -1 bedeutet: Matrix invertieren Inversion einer quadratischen Matrix bedeutet immer Division durch die Determinante dieser Matrix !!!

3.1 MLR - Grundlagen det X´X = 0 1. Probelm: Wie groß ist die Determinante wenn X die Kalibrierdatenmatrix ist ? 2. Problem: Ich kann nicht 222 Regressionskoeffizienten berechnen wenn ich nur 10 Kalibrierproben gemessen habe !!! Lösung: Methode zur Modellfindung  schrittweise vorwärts Varianzanalyse: „Sum of Squares“ die auf die Regression zurückzuführen sind mit p-1 „degrees of freedom“ det X´X = 0

3.1 MLR - Grundlagen Modell 1: SSReg(1) Modell 2: SSReg(2) Berechnung der „Sum of Squares“ der Residuen mit n-p „degrees of freedom“: Berechnung der „Mean Sum of Squares“ der Regression und der Residuen Bestimmen des geeigneten Modells: Modell 1: SSReg(1) Modell 2: SSReg(2)

Modell 2 nicht signifikant besser 3.1 MLR - Grundlagen Ist Modell 2 wirklich besser geeignet als das einfachere Modell 1 ? Überprüfung mit einem F-Test: wenn F < F0.05,df(2)-df(1),n-p Modell 2 nicht signifikant besser (Modell 1 verwenden) wenn F > F0.05,df(2)-df(1),n-p Modell 2 signifikant besser höhere Modelle prüfen

Modell: [O-NPh]= [-7.2710-6 + 9.9010-4E485nm]mol/l 3.2 MLR - Ergebnisse Modell: [O-NPh] = [2.5710-7 + 2.0110-3E485nm - 8.7910-5E314nm - 1.6810-3E500nm] mol/l PRESS=1.0510-10 mol2/l2 RMSPE=9.5610-7 mol/l PRESS=8.4010-9 mol2/l2 RMSPE=8.5510-6 mol/l Modell: [O-NPh]= [-7.2710-6 + 9.9010-4E485nm]mol/l

Inhalt 1. Problemstellung 2. Univariate lineare Regression 3. Multiple lineare Regression 4. Hauptkomponenten Regression (PCR) 5. Partielle kleinste Quadrate (PLS) 6. Zusammenfassung

4.1 PCR - Grundlagen Loading Matrix P mm Daten Matrix X nm Was bedeutet Hauptkomponentenanalyse? Datenzerlegung in eine Score- und eine Loadingmatrix Loading Matrix P mm j=1 . m p=1 . . k . . . . . . . . . . . m Daten Matrix X nm j=1 . . . . . . . . . . . . . . . m i=1 . n X = S PT Score Matrix S nm i=1 . n p=1 . . k . . . . . . . . . . . m Und was bringt mir das ?

standardisierte Daten 4.2 Datenvorbehandlung Welche Möglichkeiten der Datenvorbehandlung gibt es? Rohdaten MW=? Std=? zentrierte Daten MW=0 Std=? standardisierte Daten MW=0 Std=1

4.2 Datenvorbehandlung vor der Zentrierung nach der Zentrierung Wie kann ich mir die PCA veranschaulichen ? Beispieldaten aus dem Nitrophenoldatensatz: vor der Zentrierung nach der Zentrierung

4.3 Der NIPALS-Algorithmus

4.3 Der NIPALS-Algorithmus Nonlinear Iterative Partial Least Squares t0 kann willkürlich gewählt werden X t 1 3 = Spaltensingulärvektor = Zeilensingulärvektor wT 2

4.3 Der NIPALS-Algorithmus Berechnung des zugehörigen Singulärwerts: Geometrische Interpretation der PCR-Hauptkomponenten Residual-Datenmatrix: NIPALS

4.4 Durchführung der PCR Wie führe ich die Hauptkomponentenregression durch? 1. Datenvorbehandlung durch Zentrierung: 2. Singulärwertzerlegung der zentrierten Datenmatrix Z 3. Berechnung der Scores- und der Loadings X = Kalibrierdatenmatrix 1 = 101 Vektor aus 1en m = Vektor der Spaltenmittelwerte U = Matrix der Zeilensingulärvektoren  = Matrix der Singulärwerte V = Matrix der Spaltensingulärvektoren S = Scorematrix P = Loadingmatirx

4.4 Durchführung der PCR Was bedeuten diese beiden Matrizen? Score-Matrix: Koordinaten der n-Objekte im Raum der durch die m-Hauptkomponenten aufgespannt wird Loadingmatrix: enthält die Faktoren für die Linearkombination der ursprünglichen Variablen zur Berechnung der Scores (wenn p normiert  Richtungskosinus) (Vorsicht: NIPALS  Drehrichtung uneinheitl.) Komponenten Rauschen

4.4 Durchführung der PCR Wie führe ich die Hauptkomponentenregression durch? 4. Aufstellen der Regressionsgleichung für die Kalibrierdaten 5. Least-Squares-Schätzung der Regressionskoeffizienten 6. Vorhersage der unbekannten Proben c = Konzentrationsvektor cT = c = Mittelwert von c S* = Scorematrix mit den 3 PC‘s q* = Vektor der Regressionskoeff.

Modell: [O-NPh]= [-7.2710-6 + 9.9010-4E485nm]mol/l 4.5 PCR - Ergebnisse Modell: [O-NPh] = [2.5710-7 + 2.0110-3E485nm - 8.7910-5E314nm - 1.6810-3E500nm] mol/l PRESS=1.0510-10 mol2/l2 RMSPE=9.5610-7 mol/l Modell: [O-NPh] = [6.0310-5 + 0.0360 10-4Score1 - 0.232 10-4Score2 + 0.602 10-4Score3] mol/l PRESS = 4.4410-10 mol2l-2 RMSP = 1.9710-6 moll-1 PRESS=8.4010-9 mol2/l2 RMSPE=8.5510-6 mol/l Modell: [O-NPh]= [-7.2710-6 + 9.9010-4E485nm]mol/l

Inhalt 1. Problemstellung 2. Univariate lineare Regression 3. Multiple lineare Regression 4. Hauptkomponenten Regression (PCR) 5. Partielle kleinste Quadrate (PLS) 6. Zusammenfassung

5.1 PLS - Grundlagen w 1 6 X 2 Y t u 3 5 4 q Kann man Scores finden die viel Varianz ausschöpfen und Vorhersagekraft für y haben? Der NIPALS-PLS Algorithmus versucht beide Forderungen zu erfüllen Als u0 wird die eine Spalte von Y gewählt: w 1 X Y 6 2 t u 3 5 4 q

5.1 PLS - Grundlagen Mit dem konvergenten Scorevektor t erhält man die enstprechen Faktorladungen zu: Berechnung der Residualmatrizen Wiederholung des Zyklus Berechnung aller Faktoren Bestimmung der Zahl relevanter Faktoren (z.B. durch Kreuzvalidation) Matrix der Regressionskoeffizienten Vorhersage der Konzentration von o-Nitrophenol in den 115 unbekannten Proben

5.1 PLS - Grundlagen NIPALS-PCR NIPALS-PLS Geometrische Interpretation der PLS-Hauptkomponenten Was bedeutet das im Vergleich zur PCR ? Der NIPALS-Algorithmus erlaubt die iterative Berechnung von Eigenvektoren quadratischer Matrizen NIPALS-PCR NIPALS-PLS

5.1 PLS - Grundlagen jedes Vektorpaar t und u erfüllt folgende Eigenschaften: Die Hauptkomponenten Regression maximiert ausschließlich var(t) PLS maximiert die Kovarianz zwischen t und u Die Zahl der zu verwendenden Faktoren wird über Kreuzvalidation bestimmt: Kreuzvalidation („leave one out“-Methode): Man entfernt das 1. Objekt aus dem Kalibrierdatensatz Mit den restlichen (n-1) Objekten wird das Kalibrationsmodell berechnet Mit diesem Kalibrationsmodell wird das 1. Objekt vorausgesagt Diese Prozedur wiederholt man für alle n-Objekte Die günstige Anzahl von Faktoren für das Modell bestimmt man über den folgenden Plot

Kreuzvalidation für o-Nitrophenol

5.3 Ergebnis bei 7 Faktoren im Modell PRESS=1.0110-10 mol2/l2 RMSPE=9.410-7 mol/l

Inhalt 1. Problemstellung 2. Univariate lineare Regression 3. Multiple lineare Regression 4. Hauptkomponenten Regression (PCR) 5. Partielle kleinste Quadrate (PLS) 6. Zusammenfassung

6. Zusammenfassung Wann braucht man multivariate Regressionsmethoden? Im Labor hat man normalerweise wenige Kalibrierproben zur Verfügung An jeder Kalibrierprobe können viele Variablen gemessen werden (z.B. Spektren) Beschränkung auf eine Variable = univariate Arbeitsweise  wertvolle Informationen werden verschenkt Vorteile multivariater Arbeitsweise? Maximale Ausnutzung der Information des Datensatzes Bei dimensionsreduzierenden Methoden (z.B. PCR, PLS) - sachlogische Interpretation des Modells möglich Hohe Vorhersagekraft des Modells Nachteile multivariater Arbeitsweise? Erhöhter Rechenaufwand Algorithmen zum Teil etwas undurchsichtig  „Black Box“ - Anwendung gefährlich Verfahrenskenngrößen wie Nachweisgrenze, Erfassungsgrenze etc. noch nicht definiert

Vielen Dank für die Aufmerksamkeit