Regressionsmethoden.

Regressionsmethoden

Inhalt 1. Problemstellung 2. Univariate lineare Regression
3. Multiple lineare Regression 4. Hauptkomponenten Regression (PCR) 5. Partielle kleinste Quadrate (PLS) 6. Zusammenfassung

1. Problemstellung Quantitative Bestimmung der 3 isomeren Nitrophenole in wäßriger Lösung o-Nitrophenol m-Nitrophenol p-Nitrophenol

1.1 Kalibrierproben Wie stellt man die Kalibrierproben zusammen?
1. Forderung: möglichst wenige Kalibrierproben (in der Praxis max.10  Bequemlichkeit) 2. Forderung: die Kalibration muß den zu erwartenden Konzentrationsbereich abdecken 3. Forderung: Randomisierung hinsichtlich Konzentration und zeitlicher Reihenfolge mögliche Herangehensweise: Konzentrationsbereich: 10-6 mol/l  C  10-4 mol/l low = l = 10-6 mol/l medium = m = 10-5 mol/l high = h = 10-4 mol/l

1.1 Kalibrierproben l m h o-Nitrophenol m-Nitrophenol p-Nitrophenol
l l l m l h m l m m m h h l h m h h l l l l l m l l h l m l l m m l m h l h l l h m l h h m l l m l m m l h m m l m m m m m h m h l m h m m h h h l l h l m h l h h m l h m m h m h h h l h h m h h h 3 Konzentrationen 27 x y z 10

2.1 ULR - Grundlagen berechnetes Modell wahres Modell y y x x
Annahmen: x = unabhängige Variable (z.B. Konzentration), fehlerfrei (sonst orthogonale Regression) y = abhängige Variable (z.B. Extinktion), Meßwert  fehlerbehaftet berechnetes Modell wahres Modell y y x x

Die meisten Regressionsmethoden arbeiten nach dieser Methode!!!
2.1 Least-Squares Methode (Gauss) Zielstellung: berechnete Regressionsgerade soll sich der Punktwolke möglichst gut anpassen Berechnung der Residuen: Minimierung der Fehlerquadratsumme: Minimierung bedeutet Bilden der partiellen 1. Ableitung und Nullsetzen der Gleichungen Die meisten Regressionsmethoden arbeiten nach dieser Methode!!!

Schätzwert für den reinen Experimentalfehler 2 wenn Modell korrekt
2.1 Least-Squares Methode (Gauss) Berechnung der Modellparameter: Eine bedeutsame statistische Größe für eine solche Regression ist die Varianz der Residuen: Zurück zum Beispiel: Schätzwert für den reinen Experimentalfehler 2 wenn Modell korrekt Welche Wellenlänge soll ich zur Regression verwenden?

2.2 Auswahl der Wellenlänge
Annahme: Diejenige Wellenlänge deren Absorptionswerte am besten mit den entsprechenden Konzentrationswerten korrelieren Pearsonscher Korrelationskoeffizient R als Maßzahl für einen linearen Zusammenhang E = Vektor der Extinktionen der Proben C = Vektor der Konzentrationen des Nitrophenols in den Proben

2.3 ULR - Ergebnis Ergebnis: Regressionsgerade Konfidenzintervall
Meßpunkte

2.3 ULR - Ergebnis Was bedeutet das Konfidenzintervall?
Intervall, in dem der wahre Wert 0 bei einem bestimmten Wert von x0 mit einer Wahrscheinlichkeit von 95% liegt m-Messungen einer unbekannten Probe und Vorhersage der Konzentration Angabe des Ergebnisses immer in der Form: n = Zahl der Kalibrierproben t = Parameter der t-Verteilung (tabelliert)

2.3 ULR - Ergebnis Wie gut funktioniert das Modell zur Vorhersage unbekannter Proben? Test: Vorhersage der Konzentration von 115 „unbekannten“ Proben Maßzahlen für die Güte des Kalibrationsmodells: Zur graphischen Beurteilung dient der Wiederfindungsplot x-Achse: bekannte Konzentration der 115 Proben y-Achse: nach dem Kalibrationsmodell berechnete Konzentrationen der 115 Proben PRESS = Predicted Residual Error Sum of Squares RMSPE = Root Mean Squared Prediction Error

Modell: [O-NPh]= [-7.2710-6 + 9.9010-4E485nm]mol/l
2.3 ULR - Ergebnis PRESS=8.4010-9 mol2/l2 RMSPE=8.5510-6 mol/l Modell: [O-NPh]= [-7.27 10-4E485nm]mol/l

3.1 MLR - Grundlagen Muß man sich bei der Auswertung auf eine Wellenlänge beschränken? Bisher folgendes Modell: Erweiterung auf m-Variablen: n-Kalibrierproben mit unterschiedlicher Zusammensetzung (im Bsp. n=10) Messung der Extinktionsspektrums jeder Probe an m-Wellenlängen (im.Bsp. 280nm - 500nm) Wichtig: n > m yi = die i-te Beobachtung (i. Bsp. die Konzentration der i-ten Probe) xik = Wert der k-ten unabhängigen Variablen (i. Bsp. Extinktion bei der k-ten Wellenlänge) bei Messung der i-ten Probe

3.1 MLR - Grundlagen Damit ergibt sich folgendes Modell:
Es gilt also, die p = m + 1 Schätzungen (b0, b1,...,bm) der unbekannten Regressionskoeffizienten (0, 1,...,m) zu finden !!! Matrixschreibweise des Gleichungssystems:

3.1 MLR - Grundlagen In Matrixschreibweise sieht das Modell folgendermaßen aus: Die „least-squares“-Lösung für b lautet dann: Kleinbuchstabe fettgedruckt = Vektor Großbuchstabe fettgedruckt = Matrix XT bedeutet: X transponieren -1 bedeutet: Matrix invertieren Inversion einer quadratischen Matrix bedeutet immer Division durch die Determinante dieser Matrix !!!

3.1 MLR - Grundlagen det X´X = 0
1. Probelm: Wie groß ist die Determinante wenn X die Kalibrierdatenmatrix ist ? 2. Problem: Ich kann nicht 222 Regressionskoeffizienten berechnen wenn ich nur Kalibrierproben gemessen habe !!! Lösung: Methode zur Modellfindung  schrittweise vorwärts Varianzanalyse: „Sum of Squares“ die auf die Regression zurückzuführen sind mit p-1 „degrees of freedom“ det X´X = 0

3.1 MLR - Grundlagen Modell 1: SSReg(1) Modell 2: SSReg(2)
Berechnung der „Sum of Squares“ der Residuen mit n-p „degrees of freedom“: Berechnung der „Mean Sum of Squares“ der Regression und der Residuen Bestimmen des geeigneten Modells: Modell 1: SSReg(1) Modell 2: SSReg(2)

Modell 2 nicht signifikant besser
3.1 MLR - Grundlagen Ist Modell 2 wirklich besser geeignet als das einfachere Modell 1 ? Überprüfung mit einem F-Test: wenn F < F0.05,df(2)-df(1),n-p Modell 2 nicht signifikant besser (Modell 1 verwenden) wenn F > F0.05,df(2)-df(1),n-p Modell 2 signifikant besser höhere Modelle prüfen

3.2 MLR - Ergebnisse Modell: [O-NPh] = [2.57 10-3E485nm 10-5E314nm 10-3E500nm] mol/l PRESS=1.0510-10 mol2/l2 RMSPE=9.5610-7 mol/l PRESS=8.4010-9 mol2/l2 RMSPE=8.5510-6 mol/l Modell: [O-NPh]= [-7.27 10-4E485nm]mol/l

4.1 PCR - Grundlagen Loading Matrix P mm Daten Matrix X nm
Was bedeutet Hauptkomponentenanalyse? Datenzerlegung in eine Score- und eine Loadingmatrix Loading Matrix P mm j=1 . m p=1 . . k m Daten Matrix X nm j= m i=1 . n X = S PT Score Matrix S nm i=1 . n p=1 . . k m Und was bringt mir das ?

standardisierte Daten
4.2 Datenvorbehandlung Welche Möglichkeiten der Datenvorbehandlung gibt es? Rohdaten MW=? Std=? zentrierte Daten MW=0 Std=? standardisierte Daten MW=0 Std=1

4.2 Datenvorbehandlung vor der Zentrierung nach der Zentrierung
Wie kann ich mir die PCA veranschaulichen ? Beispieldaten aus dem Nitrophenoldatensatz: vor der Zentrierung nach der Zentrierung

4.3 Der NIPALS-Algorithmus

Nonlinear Iterative Partial Least Squares t0 kann willkürlich gewählt werden X t 1 3 = Spaltensingulärvektor = Zeilensingulärvektor wT 2

Berechnung des zugehörigen Singulärwerts: Geometrische Interpretation der PCR-Hauptkomponenten Residual-Datenmatrix: NIPALS

4.4 Durchführung der PCR Wie führe ich die Hauptkomponentenregression durch? 1. Datenvorbehandlung durch Zentrierung: 2. Singulärwertzerlegung der zentrierten Datenmatrix Z 3. Berechnung der Scores- und der Loadings X = Kalibrierdatenmatrix 1 = 101 Vektor aus 1en m = Vektor der Spaltenmittelwerte U = Matrix der Zeilensingulärvektoren  = Matrix der Singulärwerte V = Matrix der Spaltensingulärvektoren S = Scorematrix P = Loadingmatirx

4.4 Durchführung der PCR Was bedeuten diese beiden Matrizen?
Score-Matrix: Koordinaten der n-Objekte im Raum der durch die m-Hauptkomponenten aufgespannt wird Loadingmatrix: enthält die Faktoren für die Linearkombination der ursprünglichen Variablen zur Berechnung der Scores (wenn p normiert  Richtungskosinus) (Vorsicht: NIPALS  Drehrichtung uneinheitl.) Komponenten Rauschen

4.4 Durchführung der PCR Wie führe ich die Hauptkomponentenregression durch? 4. Aufstellen der Regressionsgleichung für die Kalibrierdaten 5. Least-Squares-Schätzung der Regressionskoeffizienten 6. Vorhersage der unbekannten Proben c = Konzentrationsvektor cT = c = Mittelwert von c S* = Scorematrix mit den 3 PC‘s q* = Vektor der Regressionskoeff.

4.5 PCR - Ergebnisse Modell: [O-NPh] = [2.57 10-3E485nm 10-5E314nm 10-3E500nm] mol/l PRESS=1.0510-10 mol2/l2 RMSPE=9.5610-7 mol/l Modell: [O-NPh] = [6.03 10-4Score1 10-4Score2 10-4Score3] mol/l PRESS = 4.4410-10 mol2l-2 RMSP = 1.9710-6 moll-1 PRESS=8.4010-9 mol2/l2 RMSPE=8.5510-6 mol/l Modell: [O-NPh]= [-7.27 10-4E485nm]mol/l

5.1 PLS - Grundlagen w 1 6 X 2 Y t u 3 5 4 q
Kann man Scores finden die viel Varianz ausschöpfen und Vorhersagekraft für y haben? Der NIPALS-PLS Algorithmus versucht beide Forderungen zu erfüllen Als u0 wird die eine Spalte von Y gewählt: w 1 X Y 6 2 t u 3 5 4 q

5.1 PLS - Grundlagen Mit dem konvergenten Scorevektor t
erhält man die enstprechen Faktorladungen zu: Berechnung der Residualmatrizen Wiederholung des Zyklus Berechnung aller Faktoren Bestimmung der Zahl relevanter Faktoren (z.B. durch Kreuzvalidation) Matrix der Regressionskoeffizienten Vorhersage der Konzentration von o-Nitrophenol in den 115 unbekannten Proben

5.1 PLS - Grundlagen NIPALS-PCR NIPALS-PLS
Geometrische Interpretation der PLS-Hauptkomponenten Was bedeutet das im Vergleich zur PCR ? Der NIPALS-Algorithmus erlaubt die iterative Berechnung von Eigenvektoren quadratischer Matrizen NIPALS-PCR NIPALS-PLS

5.1 PLS - Grundlagen jedes Vektorpaar t und u erfüllt folgende Eigenschaften: Die Hauptkomponenten Regression maximiert ausschließlich var(t) PLS maximiert die Kovarianz zwischen t und u Die Zahl der zu verwendenden Faktoren wird über Kreuzvalidation bestimmt: Kreuzvalidation („leave one out“-Methode): Man entfernt das 1. Objekt aus dem Kalibrierdatensatz Mit den restlichen (n-1) Objekten wird das Kalibrationsmodell berechnet Mit diesem Kalibrationsmodell wird das 1. Objekt vorausgesagt Diese Prozedur wiederholt man für alle n-Objekte Die günstige Anzahl von Faktoren für das Modell bestimmt man über den folgenden Plot

Kreuzvalidation für o-Nitrophenol

5.3 Ergebnis bei 7 Faktoren im Modell PRESS=1.0110-10 mol2/l2
RMSPE=9.410-7 mol/l

6. Zusammenfassung Wann braucht man multivariate Regressionsmethoden?
Im Labor hat man normalerweise wenige Kalibrierproben zur Verfügung An jeder Kalibrierprobe können viele Variablen gemessen werden (z.B. Spektren) Beschränkung auf eine Variable = univariate Arbeitsweise  wertvolle Informationen werden verschenkt Vorteile multivariater Arbeitsweise? Maximale Ausnutzung der Information des Datensatzes Bei dimensionsreduzierenden Methoden (z.B. PCR, PLS) - sachlogische Interpretation des Modells möglich Hohe Vorhersagekraft des Modells Nachteile multivariater Arbeitsweise? Erhöhter Rechenaufwand Algorithmen zum Teil etwas undurchsichtig  „Black Box“ - Anwendung gefährlich Verfahrenskenngrößen wie Nachweisgrenze, Erfassungsgrenze etc. noch nicht definiert

Vielen Dank für die Aufmerksamkeit

Regressionsmethoden.

Ähnliche Präsentationen

Präsentation zum Thema: "Regressionsmethoden."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Regressionsmethoden.

Ähnliche Präsentationen

Präsentation zum Thema: "Regressionsmethoden."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback