Nachtrag: Simulation zum Bias-Variance Tradeoff

Slides:



Advertisements
Ähnliche Präsentationen
Maschinelles Lernen   Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen.
Advertisements

Maschinelles Lernen Jun. Prof. Dr. Achim Tresch
Kerndichteschätzung Nearest-Neighbour-Verfahren
Prof. Dr. W. Conen 15. November 2004
Maschinelles Lernen   Präsenzübung.
Seminar „Extrapolationsmethoden für zufällige Felder“
Forschungsstrategien Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Die t-Verteilung Jonathan Harrington.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Kapitel 1 Das Schubfachprinzip
Kapitel 6 Mehrstufige Zufallsexperimente
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Konfidenzintervalle für Parameter
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.
M-L-Schätzer Erwartungswert
Die Student- oder t-Verteilung
Statistische Methoden I SS 2005
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden II SS 2003
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Folie 1 § 30 Erste Anwendungen (30.2) Rangberechnung: Zur Rangberechnung wird man häufig die elementaren Umformungen verwenden. (30.1) Cramersche Regel:
Eigenschaften der OLS-Schätzer
Variationsformalismus für das freie Teilchen
Histogramm/empirische Verteilung Verteilungen
Formulierung und Überprüfung von Hypothesen
§24 Affine Koordinatensysteme
11 Weiterführende Abfragen
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation
Information und Kommunikation
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
§23 Basiswechsel und allgemeine lineare Gruppe
Die Poisson-Verteilung: Mittelwert und Standardabweichung
Mittelwert und Standardabweichung
STATISIK LV Nr.: 0028 SS Mai 2005.
Konfidenzintervall und Testen für den Mittelwert und Anteile
Multivariate Statistische Verfahren
Einführung zur Fehlerrechnung
Nichtlineare Optimierung
Vortrag Relative Orientierung
Der Binomialtest Man habe einen wahren Anteil P. Kann man aufgrund von p sagen, daß in der Population tatsächlich der Anteil P zugrunde liegt? [Beispiele]
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Geoinformationssysteme
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Lineare Optimierung Nakkiye Günay, Jennifer Kalywas & Corina Unger Jetzt erkläre ich euch die einzelnen Schritte und gebe Tipps!
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
Analysen univariater Stichproben
Abstandsbestimmungen
Das Vektorprodukt Wir definieren erneut eine Multiplikation zwischen zwei Vektoren, das Vektorprodukt, nicht zu verwechseln mit dem Skalarprodukt. Schreibe.
 Präsentation transkript:

Nachtrag: Simulation zum Bias-Variance Tradeoff Vergleich eines restriktiven Modells mit einem flexiblen Modell: Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben gewisser Größe n gezogen. Es werden zwei Modellräume (oft auch „Modellierungsmethoden“ genannt) miteinander verglichen: „Flexibles Modell“: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert als auch Std.Abw. (  zwei Parameter müssen geschätzt werden: μ,σ ) „Restriktives Modell“: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert und fester Std.Abw. σguess ( nur ein Parameter, μ, muss geschätzt werden) Die Güte der Modellanpassung wird vermöge der Kolmogoroff-Smirnov-Statistik bewertet (= L1-Norm auf dem Raum aller Wahrscheinlichkeitsdichten)

Nachtrag: Simulation zum Bias-Variance Tradeoff anzahl = c(3,5,10,20,50,100,200,500,1000) # gibt die Stichprobengrößen an, für die simuliert werden soll repeats = 1000 # die Modellidentifikation (Schätzung der Parameter/des Parameters) # soll für jede Stichprobengröße repeats Mal durchgeführt werden mureal = 0 sigmareal = 1 # dies sind die tatsächlichen Parameter der Normalverteilung, # aus der die Stichproben gezogen werden sigmaguess = 0.9 # dies ist die im restriktiven Modell angenommene (falsche bzw. # ungenaue) Standardabweichung. Hier kann experimentiert werden! xval = seq(-8,8,length=500) yval = dnorm(xval) abstand1 = numeric(repeats) abstand2 = numeric(repeats) # rein technische Dinge Comments : - Rescaling is hardly a normalization method, it is intermediate between image processing and (real) normalization. - Housekeeping not used anymore (only with low-throughput technologies like RT-qtPCR OR with specialized chips when the majority of genes changes!)

Nachtrag: Simulation zum Bias-Variance Tradeoff x11() # öffnet einen Grafikbildschirm par(mfrow=c(3,3)) # teilt den Grafikbildschirm in # 3x3 kleine Fenster auf for (n in anzahl) { for (r in 1:repeats) daten = rnorm(n,mureal,sigmareal) # ziehung der Stichprobe muhat = mean(daten) # ML-Schätzung des Erwartungswerts (beide Modelle) sigmahat = sd(daten) # ML-Schätzung der Std.Abw (flexibles Modell) abstand1[r] = mean(abs(yval- dnorm(xval,muhat,sigmaguess))) abstand2[r] = mean(abs(yval- dnorm(xval,muhat,sigmahat))) # Berechnung der Kolmogoroff-Smirnoff-Statistik # für beide geschätzten Modelle } # end for r Comments : - Rescaling is hardly a normalization method, it is intermediate between image processing and (real) normalization. - Housekeeping not used anymore (only with low-throughput technologies like RT-qtPCR OR with specialized chips when the majority of genes changes!)

Nachtrag: Simulation zum Bias-Variance Tradeoff plot(density(abstand1),main=paste("Datengroesse :",n), xlim=c(0,0.05),lwd=2) points(density(abstand2),col="red",type="l",lwd=2) abline(v=mean(abstand1),col="black",lty=3) abline(v=mean(abstand2),col="red",lty=3) cat(n," Beobachtungen: ", mean(abstand1),„ vs.",mean(abstand2),"\n") # grafische und textuelle Ausgabe der Ergebnisse } # end for n Comments : - Rescaling is hardly a normalization method, it is intermediate between image processing and (real) normalization. - Housekeeping not used anymore (only with low-throughput technologies like RT-qtPCR OR with specialized chips when the majority of genes changes!) Preisfrage: Für welche Stichprobenumfänge n erwartet man, dass das flexible Modell besser abschneidet, für welche wird eher das restriktive Modell gewinnen? (Die Antwort hängt quantitativ, aber nicht qualitativ von σguess und dessen Abweichung vom tatsächlichen σ (= Bias) ab)

Restriktives Modell Flexibles Modell Simulation zum Bias-Variance Tradeoff

Maschinelles Lernen   Dimensionsreduktion: Hauptkomponentenanalyse (PCA) Lineare Diskriminanzanalyse (LDA)

Principal Components Analyse Gegeben: Hochdimensionale Daten x1,…,xn∊ℝp (p groß). Aufgabe: Finde eine Projektion P auf einen eindimensionalen Raum, die möglichst viel „Information“ aus den Daten transportiert. Der eindimensionale Raum sei gegeben durch x = m+ae , e ∊ℝp , a ∊ℝ, m sei der Schwerpunkt der Daten, Wir suchen eine Projektion xj → m+aje, die folgendes Zielkriterium minimiert:

. Principal Components Analyse Partielles Ableiten und Nullsetzen liefert (oBdA ||e|| = 1) : m xk m+ake e . m+ake ist die orthogonale Projektion von xk auf die Gerade m+ae, a ∊ℝ.

Principal Components Analyse Setze in J(a1,…,an,e) ein : mit der Streumatrix

Principal Components Analyse Minimiere J(e), d.h. maximiere etSe unter der Nebenbedingung ||e|| = 1: Lagrange Multiplikator - Methode: , denn Somit muss gelten, und wegen etSe = etλe = λ ist λ der maximale Eigenwert von S.

Principal Components Analyse Definition Principal Components Analyse: Projiziere die Datenpunkte orthogonal auf die Gerade, welche durch den Schwerpunkt der Daten verläuft und deren Richtung durch den Eigenvektor der Streumatrix gegeben ist, welcher den größten Eigenwert hat. Erweiterung: Projiziere auf einen d-dimensionalen (affinen) Raum, d>1, welcher von ek, k=1,…,d aufgespannt wird und welcher den Schwerpunkt der Daten enthält. Die zu optimierende Zielfunktion lautet dann Wie zuvor zeigt man, dass die ajk die orthogonale Projektion der xj auf den durch m,e1,…,ed gegebenen Raum definieren. Die Zielfunktion vereinfacht sich dann zu Es folgt mit den gleichen Argumenten, dass ek der Eigenvektor der Streumatrix mit dem k.-größten Eigenwert ist.

Principal Components Analyse Da die Streumatrix S symmetrisch ist, folgt, dass die Eigenvektoren von S paarweise senkrecht aufeinander stehen: Somit ist Für λ1≠ λ2 folgt daraus (Die Eigenvektoren innerhalb eines Eigenraumes können stets paarweise senkrecht gewählt werden, z.B. Schmidtsches Orthogonalisierungsverfahren).

Sir Ronald Aylmer Fisher (1890-1962) Lineare Diskriminanzanalyse (Fisher) Nachteile der PCA: Falls Information über die Klassenzugehörigkeit von Datenpunkten vorliegt, wird diese bei der PCA ignoriert. Die so gefundene Projektion kann u.U. die entscheidende Information vernichten! Sir Ronald Aylmer Fisher (1890-1962)

Lineare Diskriminanzanalyse

Lineare Diskriminanzanalyse Idee der LDA: Streuung innerhalb der projizierten Gruppen: Streuung innerhalb der proji-zierten Gruppen ist klein Streuung der projizierten Gruppenmittel ist groß w Setze Dann ist

Lineare Diskriminanzanalyse Idee der LDA: Streuung zwischen den projizierten Gruppen: Streuung innerhalb der proji-zierten Gruppen ist klein Streuung der projizierten Gruppenmittel ist groß w Die zu maximierende Zielfunktion lautet:

Lineare Diskriminanzanalyse J(w) ist invariant gegenüber Skalierung von w. Daher ist Maximierung von J(w) äquivalent zur Minimierung von wtSww unter der Nebenbedingung wtSbw = 1. Analog zum Vorgehen bei der PCA verwenden wir Lagrange-Multiplikatoren: Somit muss gelten Beachte, dass ein Vielfaches von m1-m2 ist. Nehmen wir vereinfachend an, Sw sei invertierbar. Dann folgt also maximiert die Zielfunktion J(w).