Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seite 111/3/2013| Vergleich eines restriktiven Modells mit einem flexiblen Modell: Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben.

Ähnliche Präsentationen


Präsentation zum Thema: "Seite 111/3/2013| Vergleich eines restriktiven Modells mit einem flexiblen Modell: Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben."—  Präsentation transkript:

1 Seite 111/3/2013| Vergleich eines restriktiven Modells mit einem flexiblen Modell: Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben gewisser Größe n gezogen. Es werden zwei Modellräume (oft auch Modellierungsmethoden genannt) miteinander verglichen: a)Flexibles Modell: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert als auch Std.Abw. ( zwei Parameter müssen geschätzt werden: μ,σ ) b)Restriktives Modell: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert und fester Std.Abw. σ guess ( nur ein Parameter, μ, muss geschätzt werden) Die Güte der Modellanpassung wird vermöge der Kolmogoroff-Smirnov- Statistik bewertet (= L 1 -Norm auf dem Raum aller Wahrscheinlichkeitsdichten) Nachtrag: Simulation zum Bias-Variance Tradeoff

2 Seite 211/3/2013| Nachtrag: Simulation zum Bias-Variance Tradeoff anzahl = c(3,5,10,20,50,100,200,500,1000) # gibt die Stichprobengrößen an, für die simuliert werden soll repeats = 1000 # die Modellidentifikation (Schätzung der Parameter/des Parameters) # soll für jede Stichprobengröße repeats Mal durchgeführt werden mureal = 0 sigmareal = 1 # dies sind die tatsächlichen Parameter der Normalverteilung, # aus der die Stichproben gezogen werden sigmaguess = 0.9 # dies ist die im restriktiven Modell angenommene (falsche bzw. # ungenaue) Standardabweichung. Hier kann experimentiert werden! xval = seq(-8,8,length=500) yval = dnorm(xval) abstand1 = numeric(repeats) abstand2 = numeric(repeats) # rein technische Dinge

3 Seite 311/3/2013| Nachtrag: Simulation zum Bias-Variance Tradeoff x11()# öffnet einen Grafikbildschirm par(mfrow=c(3,3)) # teilt den Grafikbildschirm in # 3x3 kleine Fenster auf for (n in anzahl) { for (r in 1:repeats) { daten = rnorm(n,mureal,sigmareal) # ziehung der Stichprobe muhat = mean(daten) # ML-Schätzung des Erwartungswerts (beide Modelle) sigmahat = sd(daten) # ML-Schätzung der Std.Abw (flexibles Modell) abstand1[r] = mean(abs(yval- dnorm(xval,muhat,sigmaguess))) abstand2[r] = mean(abs(yval- dnorm(xval,muhat,sigmahat))) # Berechnung der Kolmogoroff-Smirnoff-Statistik # für beide geschätzten Modelle } # end for r

4 Seite 411/3/2013| Nachtrag: Simulation zum Bias-Variance Tradeoff plot(density(abstand1),main=paste("Datengroesse :",n), xlim=c(0,0.05),lwd=2) points(density(abstand2),col="red",type="l",lwd=2) abline(v=mean(abstand1),col="black",lty=3) abline(v=mean(abstand2),col="red",lty=3) cat(n," Beobachtungen: ", mean(abstand1), vs.",mean(abstand2),"\n") # grafische und textuelle Ausgabe der Ergebnisse } # end for n Preisfrage: Für welche Stichprobenumfänge n erwartet man, dass das flexible Modell besser abschneidet, für welche wird eher das restriktive Modell gewinnen? (Die Antwort hängt quantitativ, aber nicht qualitativ von σ guess und dessen Abweichung vom tatsächlichen σ (= Bias) ab)

5 Seite 511/3/2013| Simulation zum Bias-Variance Tradeoff Restriktives Modell Flexibles Modell

6 Dimensionsreduktion: Hauptkomponentenanalyse (PCA) Lineare Diskriminanzanalyse (LDA) Maschinelles Lernen

7 Seite 711/3/2013| Principal Components Analyse Gegeben: Hochdimensionale Daten x 1,…,x n p (p groß). Aufgabe: Finde eine Projektion P auf einen eindimensionalen Raum, die möglichst viel Information aus den Daten transportiert. Der eindimensionale Raum sei gegeben durch x = m+ae, e p, a, m sei der Schwerpunkt der Daten, Wir suchen eine Projektion x j m+a j e, die folgendes Zielkriterium minimiert:

8 Seite 811/3/2013| Principal Components Analyse Partielles Ableiten und Nullsetzen liefert (oBdA ||e|| = 1) : m xkxk m+a k e e. m+a k e ist die orthogonale Projektion von x k auf die Gerade m+ae, a.

9 Seite 911/3/2013| Setze in J(a 1,…,a n,e) ein : mit der Streumatrix Principal Components Analyse

10 Seite 1011/3/2013| Principal Components Analyse Minimiere J(e), d.h. maximiere e t Se unter der Nebenbedingung ||e|| = 1: Lagrange Multiplikator - Methode:, denn Somit muss gelten, und wegen e t Se = e t λe = λ ist λ der maximale Eigenwert von S.

11 Seite 1111/3/2013| Principal Components Analyse Definition Principal Components Analyse: Projiziere die Datenpunkte orthogonal auf die Gerade, welche durch den Schwerpunkt der Daten verläuft und deren Richtung durch den Eigenvektor der Streumatrix gegeben ist, welcher den größten Eigenwert hat. Erweiterung: Projiziere auf einen d-dimensionalen (affinen) Raum, d>1, welcher von e k, k=1,…,d aufgespannt wird und welcher den Schwerpunkt der Daten enthält. Die zu optimierende Zielfunktion lautet dann Wie zuvor zeigt man, dass die a j k die orthogonale Projektion der x j auf den durch m,e 1,…,e d gegebenen Raum definieren. Die Zielfunktion vereinfacht sich dann zu Es folgt mit den gleichen Argumenten, dass e k der Eigenvektor der Streumatrix mit dem k.-größten Eigenwert ist.

12 Seite 1211/3/2013| Principal Components Analyse Da die Streumatrix S symmetrisch ist, folgt, dass die Eigenvektoren von S paarweise senkrecht aufeinander stehen: Für λ 1 λ 2 folgt daraus Somit ist (Die Eigenvektoren innerhalb eines Eigenraumes können stets paarweise senkrecht gewählt werden, z.B. Schmidtsches Orthogonalisierungsverfahren).

13 Seite 1311/3/2013| Lineare Diskriminanzanalyse (Fisher) Sir Ronald Aylmer Fisher ( ) Nachteile der PCA: Falls Information über die Klassenzugehörigkeit von Datenpunkten vorliegt, wird diese bei der PCA ignoriert. Die so gefundene Projektion kann u.U. die entscheidende Information vernichten!

14 Seite 1411/3/2013| Lineare Diskriminanzanalyse

15 Seite 1511/3/2013| Lineare Diskriminanzanalyse Streuung der projizierten Gruppenmittel ist groß Streuung innerhalb der proji- zierten Gruppen ist klein Idee der LDA: Streuung innerhalb der projizierten Gruppen: w Setze Dann ist

16 Seite 1611/3/2013| Lineare Diskriminanzanalyse Streuung der projizierten Gruppenmittel ist groß Streuung innerhalb der proji- zierten Gruppen ist klein Idee der LDA: Streuung zwischen den projizierten Gruppen: w Die zu maximierende Zielfunktion lautet:

17 Seite 1711/3/2013| Somit muss gelten Lineare Diskriminanzanalyse J(w) ist invariant gegenüber Skalierung von w. Daher ist Maximierung von J(w) äquivalent zur Minimierung von w t S w w unter der Nebenbedingung w t S b w = 1. Analog zum Vorgehen bei der PCA verwenden wir Lagrange-Multiplikatoren: Nehmen wir vereinfachend an, S w sei invertierbar. Dann folgt Beachte, dass ein Vielfaches von m 1 -m 2 ist. also maximiert die Zielfunktion J(w).


Herunterladen ppt "Seite 111/3/2013| Vergleich eines restriktiven Modells mit einem flexiblen Modell: Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben."

Ähnliche Präsentationen


Google-Anzeigen