Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell.

Ähnliche Präsentationen


Präsentation zum Thema: "Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell."—  Präsentation transkript:

1 Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell

2 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 2 Gliederung zAllgemeiner Überblick zDas Problem Generalisierungsfähigkeit beim überwachten Lernen zDesign und Evaluation von Klassifikatoren

3 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 3 Menschliches Gehirn

4 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 4 Eigenschaften des Gehirns zFrequenzcodierung zHochgradige Vernetzung zMassiv parallele Verarbeitung zgroße Speicherfähigkeit zLern- und Assoziationsfähigkeit zKann man das mit einer Maschine auch???

5 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 5 Maschinelles Lernen zWas genau soll eine Maschine eigentlich lernen? zWie kann man den Lernerfolg messen? zWie kann man das effizient auf einem herkömmlichen Computer implementieren? z=> Notwendigkeit der Konkretisierung und Formalisierung

6 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 6 Arten des Maschinellen Lernens zÜberwachtes Lernen: Lerne Regel (Modell, Hypothese) aus Menge von Beispielen z Verstärkendes Lernen: Lernen mit Hilfe von Kritik (Dein letzter Versuch war gut / schlecht) zUnüberwachtes Lernen: Lerne etwas durch Vergleich von Objekten z.B.: Objekt A sieht so ähnlich aus wie Objekt B. Also müssen sie beide zur selben Kategorie gehören.

7 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 7 Überwachtes Lernen - Klassifikation Source: Duda, Hart, Stork, Pattern Classification, Wiley Interscience, 2000

8 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 8 Mögliche Klassifikationen? Source: Duda, Hart, Stork, Pattern Classification, Wiley Interscience, 2000

9 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 9 Probleme zWie können wir entscheiden, welche Klassifikation korrekt ist? zWir wollen einen Klassifikator, der auch möglichst richtig auf ungesehenen Daten arbeitet, d.h. generalisiert! zWie können wir solch einen Klassifikator konstruieren?

10 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 10 Überwachtes Lernen - Regression Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002

11 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 11 Dieselben Probleme zWie können wir entscheiden, welche Regressions-Funktion korrekt ist? zWir wollen eine Regressions-Funktion, die auch möglichst richtig auf ungesehenen Daten arbeitet, d.h. generalisiert! zWie können wir solch eine Regressions- Funktion konstruieren?

12 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 12 Unüberwachtes Lernen – Bsp. Clustering

13 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 13 Problem zWie kann man die Objekte sinnvoll in gleichartige Kategorien/Cluster einteilen? zWie kann man die Güte einer solchen Einteilung beurteilen? zWie viele Cluster sollen gefunden werden?

14 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 14 zAllgemeiner Überblick zDas Problem Generalisierungsfähigkeit beim überwachten Lernen zDesign und Evaluation von Klassifikatoren

15 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 15 Überwachtes Lernen formal zGeg.: z ges.: yKlassifikation: Y endlich yRegression: Y = d zAnnahme: Daten wurden statistisch unabhängig (i.i.d.) einer unbekannten Zufallsverteilung P(x,y) entnommen

16 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 16 Empirisches Risiko zVereinfachung: zEmpirisches Risiko (=Trainingsfehler) zFunktion heißt Fehlerfunktion zHier:

17 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 17 Kernproblem zWahres Risiko zEin guter Klassifikator sollte R[f] minimieren zABER: R[f] kann man nicht berechnen!!! (da P(x,y) nicht bekannt ist) zReicht die Minimierung des emp. Risikos statt dessen aus???

18 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 18 Statistische Perspektive (Vapnik, Chervonenkis, 1979) zBegreife R emp [f] als statist. Schätzer für R[f]. zGewünscht: Konsistenz von R emp [f], d.h. zFrage: Ist dies möglich?

19 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 19 zBeobachtung 1: zBeobachtung 2: zInsbesondere gilt dann zSumme der Ungleichungen:

20 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 20 zZweite Hälfte der Gleichung: opt ist unabhängig von Trainingsdaten! Daher: zAber: erfordet gleichmäßige Konvergenz über alle Funktionen, die die Maschine implementieren kann!

21 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 21 Gleichmäßige Konvergenz Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002

22 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 22 Gleichmäßige Konvergenz (2) zWie kann gleichmäßige Konvergenz a priori garantiert werden? zSatz (Vapnik, Chervonenkis): Für alle >0 zN(F,2n) heißt shattering Koeffizient der Funktionenklasse F. zN(F,2n) ist ein Maß, um die Komplexität (Kapazität) von F zu messen.

23 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 23 Shattering Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002

24 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 24 VC-Dimension zShattering = Realisierung aller 2 n verschiedenen Klasseneinteilungen von n Punkten zVC-Dimension = maximale Anzahl Punkte h, für die es eine Menge von h Punkten gibt, die F shattern kann (und, falls es kein solches h gibt). zBsp.: VC-Dimension der Klasse der Hyperebenen in 2 ist 3.

25 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 25 VC-Schranke zFolgerung: gleichmäßige Konvergenz hängt von Kapazität von F ab. z=> Kapazität sollte beschränkt werden (Bevorzugung möglichst einfacher Funktionen) zQuantitativ (aus vorherigem Satz):

26 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 26 Überanpassung vs. Unteranpassung zÜberanpassung (overfitting): emp. Risiko klein (vielleicht 0), aber h groß. zUnteranpassung (underfitting): h klein, aber emp. Risiko groß.

27 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 27 Überanpassung vs. Unteranpassung (2) Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002

28 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 28 Regularisierung zTrade-off zwischen Überanpassung und Unteranpassung. zIdee: Minimierung des regularisierten Risikos z-> Idee bei Support Vector Machines

29 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 29 zAllgemeiner Überblick zDas Problem Generalisierungsfähigkeit beim überwachten Lernen zDesign und Evaluation von Klassifikatoren

30 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 30 Das Klassifikations-Framework Source: Duda, Hart, Stork, Pattern Classification, Wiley Interscience, 2000

31 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 31 Vorverarbeitung der Daten z(falls möglich) Codierung als reelwertiger Vektor zNormalisierung aller Merkmale auf Mittelwert 0 und Standardabweichung 1. zAlternativ: Skalierung, z.B. zwischen [-1,1].

32 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 32 Merkmalsauswahl zEntfernung irrelevanter Merkmale (hier: Farbe) zExtraktion möglichst informativer Merkmale aus den ursprünglichen Daten durch Transformation (z.B. Principal Component Analysis)

33 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 33 Evaluation eines Klassifikators zMöglichkeit 1: Teste auf einer großen Menge von ungesehenen Testdaten zMöglichkeit 2 (besser): benutze Kreuzvalidierung (cross-validation)

34 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 34 K-fold Kreuzvalidierung

35 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 35 Eigenschaften der Kreuzvalidierung zSchätzer für Generalisierungsleistung (Risiko) zSchätzung um so genauer, je mehr folds. z-> extrem: Leave-one-out cross-validation zVorteil: einfacher Vergleich von Klassifikatoren zNachteil: Rechenzeit

36 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 36 No Free Lunch zGibt es einen universal besten Klassifikator? z Sei h k die von Klassifikator k gelernte Hypothese und g die Zielfunktion. zSei Pr(h k |D) die Wahrscheinlichkeit, daß der Algorithmus h k liefert, wenn er auf Datensatz D trainiert wurde. zDefiniere Matching zwischen Verteilungen P(h k |D) und P(g|D)

37 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 37 No Free Lunch (2) zFolgerung: Ohne Vorwissen von P(g|D) kann man eigentlich gar nichts über P(h k |D) zeigen. zDefiniere sog. off-training Fehler

38 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 38 Satz (No Free Lunch Theorem) 1.Es gilt 2. Für irgendeinen festen Datensatz D gilt 3.1 + 2 gelten auch gleichverteilt gemittelt über alle Priors P(g)

39 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 39 Interpretation von 1 + 2 1.Falls alle Zielfunktionen gleich wahrscheinlich sind, dann wird, egal wie clever wir einen guten Lernalgorithmus P 1 (h 1 |D) und einen schlechten P 2 (h 2 |D) wählen, der gute nicht besser als der schlechte sein. 2.Das gleiche gilt, falls D schon bekannt ist. zWie kann man 3. Interpretieren?

40 Univ. Tübingen, Informatik, Abt. Prof. Zell, Neuronale Netze, SS 2004 40 Folgerungen zSelbst ein theoretisch gut fundierter Algorithmus wird auf einigen Daten schlecht funktionieren. zVergleiche der Generalisierungsleistung von Algorithmen sind nur auf vorhandenen Datensätzen sinnvoll. zJeder Lernalgorithmus muß (implizite) Annahmen über das Lernproblem machen. zEs gibt keinen universalen Lernalgorithmus, der ohne Vorwissen auskommt.


Herunterladen ppt "Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell."

Ähnliche Präsentationen


Google-Anzeigen