Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell

Ähnliche Präsentationen


Präsentation zum Thema: "Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell"—  Präsentation transkript:

1 Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell
Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell

2 Allgemeiner Überblick
Gliederung Allgemeiner Überblick Das Problem Generalisierungsfähigkeit beim überwachten Lernen Design und Evaluation von Klassifikatoren Neuronale Netze, SS 2004

3 Menschliches Gehirn Neuronale Netze, SS 2004

4 Eigenschaften des Gehirns
Frequenzcodierung Hochgradige Vernetzung Massiv parallele Verarbeitung große Speicherfähigkeit Lern- und Assoziationsfähigkeit Kann man das mit einer Maschine auch??? Neuronale Netze, SS 2004

5 Was genau soll eine Maschine eigentlich lernen?
Maschinelles Lernen Was genau soll eine Maschine eigentlich lernen? Wie kann man den Lernerfolg messen? Wie kann man das effizient auf einem herkömmlichen Computer implementieren? => Notwendigkeit der Konkretisierung und Formalisierung Neuronale Netze, SS 2004

6 Arten des Maschinellen Lernens
Überwachtes Lernen: Lerne “Regel” (Modell, Hypothese) aus Menge von Beispielen Verstärkendes Lernen: Lernen mit Hilfe von Kritik (“Dein letzter Versuch war gut / schlecht”) Unüberwachtes Lernen: Lerne etwas durch Vergleich von Objekten z.B.: Objekt A sieht so ähnlich aus wie Objekt B. Also müssen sie beide zur selben “Kategorie” gehören. Neuronale Netze, SS 2004

7 Überwachtes Lernen - Klassifikation
Source: Duda, Hart, Stork, Pattern Classification, Wiley Interscience, 2000 Neuronale Netze, SS 2004

8 Mögliche Klassifikationen?
Source: Duda, Hart, Stork, Pattern Classification, Wiley Interscience, 2000 Neuronale Netze, SS 2004

9 Wie können wir entscheiden, welche Klassifikation korrekt ist?
Probleme Wie können wir entscheiden, welche Klassifikation korrekt ist? Wir wollen einen Klassifikator, der auch möglichst richtig auf ungesehenen Daten arbeitet, d.h. generalisiert! Wie können wir solch einen Klassifikator konstruieren? Neuronale Netze, SS 2004

10 Überwachtes Lernen - Regression
Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002 Neuronale Netze, SS 2004

11 Wie können wir entscheiden, welche Regressions-Funktion korrekt ist?
Dieselben Probleme Wie können wir entscheiden, welche Regressions-Funktion korrekt ist? Wir wollen eine Regressions-Funktion, die auch möglichst richtig auf ungesehenen Daten arbeitet, d.h. generalisiert! Wie können wir solch eine Regressions-Funktion konstruieren? Neuronale Netze, SS 2004

12 Unüberwachtes Lernen – Bsp. Clustering
Neuronale Netze, SS 2004

13 Wie kann man die Güte einer solchen Einteilung beurteilen?
Problem Wie kann man die Objekte sinnvoll in gleichartige Kategorien/Cluster einteilen? Wie kann man die Güte einer solchen Einteilung beurteilen? Wie viele Cluster sollen gefunden werden? Neuronale Netze, SS 2004

14 Allgemeiner Überblick
Das Problem Generalisierungsfähigkeit beim überwachten Lernen Design und Evaluation von Klassifikatoren Neuronale Netze, SS 2004

15 Überwachtes Lernen formal
Geg.: ges.: Klassifikation: Y endlich Regression: Y = d Annahme: Daten wurden statistisch unabhängig (i.i.d.) einer unbekannten Zufallsverteilung P(x,y) entnommen Neuronale Netze, SS 2004

16 Empirisches Risiko (=Trainingsfehler)
Vereinfachung: Empirisches Risiko (=Trainingsfehler) Funktion heißt Fehlerfunktion Hier: Neuronale Netze, SS 2004

17 Reicht die Minimierung des emp. Risikos statt dessen aus???
Kernproblem Wahres Risiko Ein guter Klassifikator sollte R[f] minimieren ABER: R[f] kann man nicht berechnen!!! (da P(x,y) nicht bekannt ist) Reicht die Minimierung des emp. Risikos statt dessen aus??? Neuronale Netze, SS 2004

18 Statistische Perspektive (Vapnik, Chervonenkis, 1979)
Begreife Remp[f] als statist. Schätzer für R[f]. Gewünscht: Konsistenz von Remp[f], d.h. Frage: Ist dies möglich? Neuronale Netze, SS 2004

19 Insbesondere gilt dann
Beobachtung 1: Beobachtung 2: Insbesondere gilt dann Summe der Ungleichungen: Neuronale Netze, SS 2004

20 Zweite Hälfte der Gleichung: opt ist unabhängig von Trainingsdaten
Zweite Hälfte der Gleichung: opt ist unabhängig von Trainingsdaten! Daher: Aber: erfordet gleichmäßige Konvergenz über alle Funktionen, die die Maschine implementieren kann! Neuronale Netze, SS 2004

21 Gleichmäßige Konvergenz
Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002 Neuronale Netze, SS 2004

22 Gleichmäßige Konvergenz (2)
Wie kann gleichmäßige Konvergenz a priori garantiert werden? Satz (Vapnik, Chervonenkis): Für alle  >0 N(F,2n) heißt shattering Koeffizient der Funktionenklasse F. N(F,2n) ist ein Maß, um die Komplexität (Kapazität) von F zu messen. Neuronale Netze, SS 2004

23 Shattering Neuronale Netze, SS 2004
Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002 Neuronale Netze, SS 2004

24 Bsp.: VC-Dimension der Klasse der Hyperebenen in 2 ist 3.
Shattering = Realisierung aller 2n verschiedenen Klasseneinteilungen von n Punkten VC-Dimension = maximale Anzahl Punkte h, für die es eine Menge von h Punkten gibt, die F shattern kann (und , falls es kein solches h gibt). Bsp.: VC-Dimension der Klasse der Hyperebenen in 2 ist 3. Neuronale Netze, SS 2004

25 Folgerung: gleichmäßige Konvergenz hängt von Kapazität von F ab.
VC-Schranke Folgerung: gleichmäßige Konvergenz hängt von Kapazität von F ab. => Kapazität sollte beschränkt werden (Bevorzugung möglichst “einfacher” Funktionen) Quantitativ (aus vorherigem Satz): Neuronale Netze, SS 2004

26 Überanpassung vs. Unteranpassung
Überanpassung (overfitting): emp. Risiko klein (vielleicht 0), aber h groß. Unteranpassung (underfitting): h klein, aber emp. Risiko groß. Neuronale Netze, SS 2004

27 Überanpassung vs. Unteranpassung (2)
Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002 Neuronale Netze, SS 2004

28 Trade-off zwischen Überanpassung und Unteranpassung.
Regularisierung Trade-off zwischen Überanpassung und Unteranpassung. Idee: Minimierung des regularisierten Risikos -> Idee bei Support Vector Machines Neuronale Netze, SS 2004

29 Allgemeiner Überblick
Das Problem Generalisierungsfähigkeit beim überwachten Lernen Design und Evaluation von Klassifikatoren Neuronale Netze, SS 2004

30 Das Klassifikations-Framework
Source: Duda, Hart, Stork, Pattern Classification, Wiley Interscience, 2000 Neuronale Netze, SS 2004

31 Vorverarbeitung der Daten
(falls möglich) Codierung als reelwertiger Vektor Normalisierung aller Merkmale auf Mittelwert 0 und Standardabweichung 1. Alternativ: Skalierung, z.B. zwischen [-1,1]. Neuronale Netze, SS 2004

32 Entfernung irrelevanter Merkmale (hier: “Farbe”)
Merkmalsauswahl Entfernung irrelevanter Merkmale (hier: “Farbe”) Extraktion möglichst informativer Merkmale aus den ursprünglichen Daten durch Transformation (z.B. Principal Component Analysis) Neuronale Netze, SS 2004

33 Evaluation eines Klassifikators
Möglichkeit 1: Teste auf einer großen Menge von ungesehenen Testdaten Möglichkeit 2 (besser): benutze Kreuzvalidierung (cross-validation) Neuronale Netze, SS 2004

34 K-fold Kreuzvalidierung
Neuronale Netze, SS 2004

35 Eigenschaften der Kreuzvalidierung
Schätzer für Generalisierungsleistung (Risiko) Schätzung um so genauer, je mehr folds. -> extrem: Leave-one-out cross-validation Vorteil: einfacher Vergleich von Klassifikatoren Nachteil: Rechenzeit Neuronale Netze, SS 2004

36 Gibt es einen universal besten Klassifikator?
No Free Lunch Gibt es einen universal besten Klassifikator? Sei hk die von Klassifikator k gelernte Hypothese und g die Zielfunktion. Sei Pr(hk|D) die Wahrscheinlichkeit, daß der Algorithmus hk liefert, wenn er auf Datensatz D trainiert wurde. Definiere “Matching” zwischen Verteilungen P(hk|D) und P(g|D) Neuronale Netze, SS 2004

37 Definiere sog. off-training Fehler
No Free Lunch (2) Folgerung: Ohne Vorwissen von P(g|D) kann man eigentlich gar nichts über P(hk|D) zeigen. Definiere sog. off-training Fehler Neuronale Netze, SS 2004

38 Satz (No Free Lunch Theorem)
Es gilt Für irgendeinen festen Datensatz D gilt 1 + 2 gelten auch gleichverteilt gemittelt über alle Priors P(g) Neuronale Netze, SS 2004

39 Das gleiche gilt, falls D schon bekannt ist.
Interpretation von 1 + 2 Falls alle Zielfunktionen gleich wahrscheinlich sind, dann wird, egal wie clever wir einen “guten” Lernalgorithmus P1(h1|D) und einen “schlechten” P2(h2|D) wählen, der “gute” nicht besser als der “schlechte” sein. Das gleiche gilt, falls D schon bekannt ist. Wie kann man 3. Interpretieren? Neuronale Netze, SS 2004

40 Folgerungen Selbst ein theoretisch gut fundierter Algorithmus wird auf einigen Daten schlecht funktionieren. Vergleiche der Generalisierungsleistung von Algorithmen sind nur auf vorhandenen Datensätzen sinnvoll. Jeder Lernalgorithmus muß (implizite) Annahmen über das Lernproblem machen. Es gibt keinen universalen Lernalgorithmus, der ohne Vorwissen auskommt. Neuronale Netze, SS 2004


Herunterladen ppt "Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell"

Ähnliche Präsentationen


Google-Anzeigen