Nachtrag: Simulation zum Bias-Variance Tradeoff

Nachtrag: Simulation zum Bias-Variance Tradeoff
Vergleich eines restriktiven Modells mit einem flexiblen Modell: Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben gewisser Größe n gezogen. Es werden zwei Modellräume (oft auch „Modellierungsmethoden“ genannt) miteinander verglichen: „Flexibles Modell“: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert als auch Std.Abw. (  zwei Parameter müssen geschätzt werden: μ,σ ) „Restriktives Modell“: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert und fester Std.Abw. σguess ( nur ein Parameter, μ, muss geschätzt werden) Die Güte der Modellanpassung wird vermöge der Kolmogoroff-Smirnov-Statistik bewertet (= L1-Norm auf dem Raum aller Wahrscheinlichkeitsdichten)

anzahl = c(3,5,10,20,50,100,200,500,1000) # gibt die Stichprobengrößen an, für die simuliert werden soll repeats = 1000 # die Modellidentifikation (Schätzung der Parameter/des Parameters) # soll für jede Stichprobengröße repeats Mal durchgeführt werden mureal = 0 sigmareal = 1 # dies sind die tatsächlichen Parameter der Normalverteilung, # aus der die Stichproben gezogen werden sigmaguess = 0.9 # dies ist die im restriktiven Modell angenommene (falsche bzw. # ungenaue) Standardabweichung. Hier kann experimentiert werden! xval = seq(-8,8,length=500) yval = dnorm(xval) abstand1 = numeric(repeats) abstand2 = numeric(repeats) # rein technische Dinge Comments : - Rescaling is hardly a normalization method, it is intermediate between image processing and (real) normalization. - Housekeeping not used anymore (only with low-throughput technologies like RT-qtPCR OR with specialized chips when the majority of genes changes!)

x11() # öffnet einen Grafikbildschirm par(mfrow=c(3,3)) # teilt den Grafikbildschirm in # 3x3 kleine Fenster auf for (n in anzahl) { for (r in 1:repeats) daten = rnorm(n,mureal,sigmareal) # ziehung der Stichprobe muhat = mean(daten) # ML-Schätzung des Erwartungswerts (beide Modelle) sigmahat = sd(daten) # ML-Schätzung der Std.Abw (flexibles Modell) abstand1[r] = mean(abs(yval dnorm(xval,muhat,sigmaguess))) abstand2[r] = mean(abs(yval dnorm(xval,muhat,sigmahat))) # Berechnung der Kolmogoroff-Smirnoff-Statistik # für beide geschätzten Modelle } # end for r Comments : - Rescaling is hardly a normalization method, it is intermediate between image processing and (real) normalization. - Housekeeping not used anymore (only with low-throughput technologies like RT-qtPCR OR with specialized chips when the majority of genes changes!)

plot(density(abstand1),main=paste("Datengroesse :",n), xlim=c(0,0.05),lwd=2) points(density(abstand2),col="red",type="l",lwd=2) abline(v=mean(abstand1),col="black",lty=3) abline(v=mean(abstand2),col="red",lty=3) cat(n," Beobachtungen: ", mean(abstand1),„ vs.",mean(abstand2),"\n") # grafische und textuelle Ausgabe der Ergebnisse } # end for n Comments : - Rescaling is hardly a normalization method, it is intermediate between image processing and (real) normalization. - Housekeeping not used anymore (only with low-throughput technologies like RT-qtPCR OR with specialized chips when the majority of genes changes!) Preisfrage: Für welche Stichprobenumfänge n erwartet man, dass das flexible Modell besser abschneidet, für welche wird eher das restriktive Modell gewinnen? (Die Antwort hängt quantitativ, aber nicht qualitativ von σguess und dessen Abweichung vom tatsächlichen σ (= Bias) ab)

Restriktives Modell Flexibles Modell
Simulation zum Bias-Variance Tradeoff

Maschinelles Lernen Dimensionsreduktion: Hauptkomponentenanalyse (PCA) Lineare Diskriminanzanalyse (LDA)

Principal Components Analyse
Gegeben: Hochdimensionale Daten x1,…,xn∊ℝp (p groß). Aufgabe: Finde eine Projektion P auf einen eindimensionalen Raum, die möglichst viel „Information“ aus den Daten transportiert. Der eindimensionale Raum sei gegeben durch x = m+ae , e ∊ℝp , a ∊ℝ, m sei der Schwerpunkt der Daten, Wir suchen eine Projektion xj → m+aje, die folgendes Zielkriterium minimiert:

. Principal Components Analyse
Partielles Ableiten und Nullsetzen liefert (oBdA ||e|| = 1) : m xk m+ake e . m+ake ist die orthogonale Projektion von xk auf die Gerade m+ae, a ∊ℝ.

Setze in J(a1,…,an,e) ein : mit der Streumatrix

Minimiere J(e), d.h. maximiere etSe unter der Nebenbedingung ||e|| = 1: Lagrange Multiplikator - Methode: , denn Somit muss gelten, und wegen etSe = etλe = λ ist λ der maximale Eigenwert von S.

Definition Principal Components Analyse: Projiziere die Datenpunkte orthogonal auf die Gerade, welche durch den Schwerpunkt der Daten verläuft und deren Richtung durch den Eigenvektor der Streumatrix gegeben ist, welcher den größten Eigenwert hat. Erweiterung: Projiziere auf einen d-dimensionalen (affinen) Raum, d>1, welcher von ek, k=1,…,d aufgespannt wird und welcher den Schwerpunkt der Daten enthält. Die zu optimierende Zielfunktion lautet dann Wie zuvor zeigt man, dass die ajk die orthogonale Projektion der xj auf den durch m,e1,…,ed gegebenen Raum definieren. Die Zielfunktion vereinfacht sich dann zu Es folgt mit den gleichen Argumenten, dass ek der Eigenvektor der Streumatrix mit dem k.-größten Eigenwert ist.

Da die Streumatrix S symmetrisch ist, folgt, dass die Eigenvektoren von S paarweise senkrecht aufeinander stehen: Somit ist Für λ1≠ λ2 folgt daraus (Die Eigenvektoren innerhalb eines Eigenraumes können stets paarweise senkrecht gewählt werden, z.B. Schmidtsches Orthogonalisierungsverfahren).

Sir Ronald Aylmer Fisher (1890-1962)
Lineare Diskriminanzanalyse (Fisher) Nachteile der PCA: Falls Information über die Klassenzugehörigkeit von Datenpunkten vorliegt, wird diese bei der PCA ignoriert. Die so gefundene Projektion kann u.U. die entscheidende Information vernichten! Sir Ronald Aylmer Fisher ( )

Lineare Diskriminanzanalyse

Idee der LDA: Streuung innerhalb der projizierten Gruppen: Streuung innerhalb der proji-zierten Gruppen ist klein Streuung der projizierten Gruppenmittel ist groß w Setze Dann ist

Idee der LDA: Streuung zwischen den projizierten Gruppen: Streuung innerhalb der proji-zierten Gruppen ist klein Streuung der projizierten Gruppenmittel ist groß w Die zu maximierende Zielfunktion lautet:

J(w) ist invariant gegenüber Skalierung von w. Daher ist Maximierung von J(w) äquivalent zur Minimierung von wtSww unter der Nebenbedingung wtSbw = 1. Analog zum Vorgehen bei der PCA verwenden wir Lagrange-Multiplikatoren: Somit muss gelten Beachte, dass ein Vielfaches von m1-m2 ist. Nehmen wir vereinfachend an, Sw sei invertierbar. Dann folgt also maximiert die Zielfunktion J(w).

Nachtrag: Simulation zum Bias-Variance Tradeoff

Ähnliche Präsentationen

Präsentation zum Thema: "Nachtrag: Simulation zum Bias-Variance Tradeoff"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Nachtrag: Simulation zum Bias-Variance Tradeoff

Ähnliche Präsentationen

Präsentation zum Thema: "Nachtrag: Simulation zum Bias-Variance Tradeoff"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback