Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Entscheidungstheorie für Unentschlossene Indecision Theory.
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
Hypothesen testen: Grundidee
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Test auf Normalverteilung
Univariate Statistik M. Kresken.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Tutorium
Tutorium
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Vorlesung: ANOVA I
Eigenschaften der OLS-Schätzer
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Chi Quadrat Test Tamara Katschnig.
Aufgabenzettel V Statistik I
Globale Interpolations- und Prädiktionsverfahren
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Neuronale Netze Nachtrag Perzeptron
Die Gaußverteilung.
Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.


STATISIK LV Nr.: 1375 SS März 2005.
Wiederholung BSP 2.1.
STATISIK LV Nr.: 0028 SS Mai 2005.
Kapitel 10 Multikollinearität
Modul Statistische Datenanalyse
Konfidenzintervall und Testen für den Mittelwert und Anteile
Kapitel 18 Dynamische Modelle: Schätzen der Parameter
Mehr zum Testen von Hypothesen
Kapitel 18 Dynamische Modelle: Schätzen der Parameter.
1 Stichprobenverfahren zur Qualitätssicherung Hilfestellung der Statistik in der Wirtschaftsprüfung.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Data Mining Georg Pölzlbauer.
Klassifikation und Regression mittels neuronaler Netze
Dokumentation der Umfrage BR P2.t Ergebnisse in Prozent n= 502 telefonische CATI-Interviews, repräsentativ für die Linzer Bevölkerung ab 18 Jahre;
Statistik – Regression - Korrelation
Veranstaltung 4.
Entscheidungstheorie für Unentschlossene Indecision Theory.
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig

SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Maschinelles Lernen und Neural Computation
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
Kapitel 2: Klassifikation
Kapitel 5: Der praktische Umgang mit komplexen Lernern
 Präsentation transkript:

Kapitel 5: Der praktische Umgang mit komplexen Lernern SS 2009 Maschinelles Lernen und Neural Computation

Neuronale Netze als semiparametrische Verfahren Neuronale Netze sind sehr flexibel, aber haben eine große Anzahl an Freiheitsgraden (Gewichten)  sie benötigen sehr viele Daten für eine vernünftige Modellschätzung Modelle sollten möglichst klein gehalten werden Occams Razor: wenn zwei Modelle das gleiche vorhersagen, bevorzuge das kleinere Neuronale Netze unterliegen dem Fluch der Dimension (nicht beliebig viele Inputs) SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Overfitting Bei zu wenigen Trainingsdaten: Das NN versucht, das Rauschen mitzumodellieren „Überanpassung“ (Overfitting): schlechtere Performanz auf neuen Daten (quadratischer Abstand wird größer) 50 Bsp., 15 H.U. SS 2009 Maschinelles Lernen und Neural Computation

Vermeidung von Overfitting So viel Daten wie möglich (gute Abdeckung der Verteilung!) Modell (Netz) so klein wie möglich halten Allgemein: Regularisierung (= Einschränken der effektiven Anzahl der Freiheitsgrade): Mehrere Durchläufe, Durchschnitt bilden Strafterm für große Netze, z.B.: „Pruning“ (Entfernen von Verbindungen) Early stopping SS 2009 Maschinelles Lernen und Neural Computation

Überbestimmung des Modells Wenn weniger Daten (Beispiele) als Gewichte: Modell ist unterbestimmt (Gewichte könnten frei gewählt werden)  mindestens so viele Beispiele wie Gewichte Da Probleme stochastisch: jedes Beispiel trägt nur einen kleinen Teil zum Modell bei (Rauschverteilung)  ein Vielfaches an Beispielen notwendig Heuristik: nBeispiele > 10nGewichte Beispiel: 9 Inputs, 500 Beispiele, 1 Output nGewichte = nHU*(9+1), max. 50 Gewichte  max. 5 Hidden Units Auch wenn benötigtes Modell komplexer ist: es lässt sich mit diesem Datenmaterial nicht ausnutzen SS 2009 Maschinelles Lernen und Neural Computation

Der Fluch der Dimension Auch bei neuronalen Netzen steigt der Bedarf an Beispielen überlinear mit der Dimension (Inputs) (~ quadratisch) Zahl der Inputmerkmale sollte so klein wie möglich sein Obige Heuristik gilt eigentlich nur für kleine Inputanzahl (darüber noch größeres Vielfaches nehmen)  Merkmalselektion SS 2009 Maschinelles Lernen und Neural Computation

Die wesentlichen Schritte Aufgrund ihrer Eigenschaften erfordern neuronale Netze eine saubere Vorgangsweise: Datensichtung Datenvorverarbeitung Merkmalsselektion Modellschätzung und Modellselektion Vergleich mit einfachen Verfahren Testen auf unabhängigen Daten Interpretation der Ergebnisse SS 2009 Maschinelles Lernen und Neural Computation

Schritt 1: Datensichtung Wichtig: sich ein Bild von den Daten machen Z.B.: Plotten jedes einzelnen Inputmerkmals Ausreißer identifizieren  Fälle eliminieren oder auf Werte auf Maximalwert setzen Attribute mit wenig Informationsgehalt eliminieren (z.B. wenn es fast immer den gleichen Wert hat) Fehlende Werte identifizieren  Fälle eliminieren oder auf Werte auf Durchschnitt setzen SS 2009 Maschinelles Lernen und Neural Computation

Hauptkomponentenanalyse Principal Component Analysis (PCA): finde die Achsen (Hauptkomponenten), die die größte Varianz abdecken (~ Koordinatentransformation) Mathematisch: Eigenvektoren der Kovarianzmatrix Ermöglicht (tw.) Visualisierung der Daten Bsp: Pima Indian Daten PC2 PC1 SS 2009 Maschinelles Lernen und Neural Computation

Schritt 2: Vorverarbeitung Frage: enthalten Inputmerkmale die richtige Information?  Transformation (Differenzenbildung, Quotient, komplexere Merkmalsberechnung, etc.) Sichtung der neuen Merkmale Normalisierung (pro Merkmal): Mittelwert 0, Standardabweichung 1 (sonst ist Modellschätzung schwierig) SS 2009 Maschinelles Lernen und Neural Computation

Schritt 3: Merkmalsselektion So wenig Inputdimensionen wie möglich! 1. Heuristik: Korrelationsanalyse: Nur diejenigen, die hoch korrelieren Merkmale weglassen, die mit anderen hoch korrelieren Aber: nur “First order” Statistik, suboptimal Merkmale Klasse 2. Heuristik: PCA Eigenwerte geben an, wieviel Varianz abgedeckt z.B. Pima Indian: 2.1, 1.73, 1.03, 0.88, 0.76, 0.68, 0.42, 0.4 Nimm Hauptkomponenten als Input aber: keine Outputinformation; kann suboptimal sein SS 2009 Maschinelles Lernen und Neural Computation

Verfahren zur „feature selection“ „Filters“: betrachten einfache Auswahlmodelle (z.B. linear) “Wrappers”: Betrachten das Zielmodell (siehe Modellselektion) Suchverfahren: inkrementelles Hinzunehmen inkrementelles Wegnehmen “branch and bound” Bayes‘sche Evidenz Optimale Selektion nur, wenn alle Kombinationen betrachtet! SS 2009 Maschinelles Lernen und Neural Computation

Schritt 4a: Modellschätzung (Training) Konj. Gradient oder Quasi-Newton Fortschritt des Trainings: Lernkurve (Fehler über Lernzyklen) 1 Zyklus („epoch“): ganzes Trainingsset (batch) Mehrere Initialisierungen: lokale Minima erkennbar Fehler auf unabhängigen Datenset beobachtbar: Early Stopping: Abbrechen, wenn Validierungsfehler ansteigt (= overfitting) Lokales Minimum SS 2009 Maschinelles Lernen und Neural Computation

Schritt 4b: Modellselektion Ziel: optimale Modellkomplexität (Anzahl der Hidden Units) Da optimales Modell unbekannt: “ausprobieren” und vergleichen Immer auf unabhängigen Daten validieren Ein einzelner Trainingsdurchlauf hat „Bias“ (zu sehr vom Trainingsset abhängig  zu optimistisch/pessimistisch) Mehrere Durchläufe (mit verschiedenen Trainingssets) notwendig! SS 2009 Maschinelles Lernen und Neural Computation

Die n-fache Kreuzvalidierung Bei beschränkten Datensätzen: n-fache Kreuzvalidierung Das ganze n mal (Validierungsset jeweils disjunkt, Trainingssets nicht) n Durchläufe, n Netze, n Performanzen auf Validierungssets  Durchschnitt (Schätzung ohne Bias), NICHT das beste Netz! Standardabweichung (Konfidenzintervall) ... n-1 Teile zum Training n. Teil zum Testen (Validierung) n Teile SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Statistisches Testen Vergleich zweier Modelle anhand des Durchschnitts Frage: Ist der Unterschied signifikant (oder zufällig)?  statistischer Signifikanztest notwendig Z.B.: t-test (Test auf Gleichheit der Mittelwerte, setzt Normalverteilung voraus) Nullhypothese: Mittelwerte sind gleich T-Wert in Tabelle  p-Wert (1-Wahrscheinlichkeit, dass Nullhypothese abgelehnt werden kann) Anzahl Beobachtungen Varianz Freiheitsgrade SS 2009 Maschinelles Lernen und Neural Computation

Signifikanztests: Allgemeines P-Wert sollte maximal 5% sein: p<0.05 Je niedriger, desto signifikanter Wenn keine Signifikanz erreicht: mehr Beobachtungen = Erhöhung von n Abstand wird geringer werden Multiples Testen: bei p<0.05: Unter 20 Tests ist im Durchschnitt einer dabei, der fälschlicherweise Signifikanz vorhersagt  korrigieren oder höheres Niveau verlangen (z.B. p<0.01) SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Modellselektion Strategie zur optimalen Wahl der Modellkomplexität: Klein beginnen (z.B. 1 oder 2 Hidden Units) n-fache Kreuzvalidierung Jeweils eine Hidden Unit hinzufügen Akzeptieren, solange (signifikante) Verbesserung Keine Regularisierung notwendig Overfitting wird durch Kreuzvalidierung abgefangen (Durchschnittsbildung) zu viele Hidden Units  zu große Varianz  keine Signifikanz Das gleiche Verfahren kann auch zur Merkmalsselektion verwendet werden (“wrapper”) SS 2009 Maschinelles Lernen und Neural Computation

Schritt 5: Vergleich mit einfachen Verfahren Neuronales Netz sollte immer auch mit einfacher Alternative verglichen werden z.B.: lineares Verfahren, k-nearest neighbor Wie bei Modelleslektion: n-fache Kreuzvalidierung Vergleich der Mittelwerte Signifikanztest Bei kleinen Datensätzen ist lineares Verfahren oft nicht unterlegen! SS 2009 Maschinelles Lernen und Neural Computation

Schritt 6: Testen auf unabhängigen Daten Ein Teil der Daten (zufällig gewählt) sollte bis jetzt aufgehoben worden sein Testen des besten Modells auf diese Daten Nach Kreuzvalidierung: am besten alle n Netze mit Durchschnittsbildung! (= „Komitee“) Jetzt nochmalige n-fache Kreuzvalidierung mit besten Modell (Komitee)  Schätzung der Routineperformanz + Konfidenzintervall SS 2009 Maschinelles Lernen und Neural Computation

Schritt 7: Interpretation der Ergebnisse Quadratischer Fehler alleine sagt oft wenig aus Rückrechnen auf Originalwerte Berechnen der Auswirkungen (z.B. Ersparnis) Regressionsgerade, Scatter Plot: Güte Ausreißer SS 2009 Maschinelles Lernen und Neural Computation

Auswertung von Klassifikationsergebnissen Wenn Klassen ungleich verteilt (unterschiedliche a priori Wahrscheinlichkeiten): Gesamtperformanz ist nicht aussagekräftig z.B.: p(c1)=0.2, p(c2)=0.8 Immer “Klasse 2” sagen (“naïve rater”) bringt 80% korrekt  Unterscheiden zwischen Sensitivität (korrekt klassifizierte “Positive” – z.B. Klasse 1) Spezifität (korrekt klassifizierte “Negative” – z.B. Klasse 2) Wenn 1 Gesamtperformanz notwendig (z.B. zum Vergleich): Durchschnitt der beiden Werte naïve rater: Sens=0%, Spez=100%, Durchschnitt: 50% Guter Klassifizierer: Sens=80%, Spez=80%, Durchschnitt: 80% SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Die ROC-Kurve Ob höhere Sensitivität oder höhere Spezifität besser ist, entscheidet Anwendung  Sens. vs. Spez. plotten zeigt den gesamten Bereich des Klassifizierers an naive rater: 45º Gerade Je weiter davon entfernt, desto besser Gesamtgüte: Fläche unter der ROC-Kurve „receiver operated characteristics“ SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Zusammenfassung Komplexe Lerner erfordern Sorgfalt und saubere Validierung Viele Trainingsdurchgänge nötig Komplexe Lerner sollten nie „blind“ auf Daten angewandt werden Bei kleinen Datensätzen sind komplexe Lerner oft nicht überlegen (auch wenn das Problem theoretisch nichtlinear ist) SS 2009 Maschinelles Lernen und Neural Computation