Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell

Slides:



Advertisements
Ähnliche Präsentationen
Präsentiert von Torben Pastuch
Advertisements

Excel – Kurs Philip Clasen
Fast Fourier Transformation
Matrixmultiplikation
Christian Scheideler SS 2009
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
Maschinelles Lernen   Präsenzübung.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Verifizieren versus Berechnen
Scratch Der Einstieg in das Programmieren. Scatch: Entwicklungsumgebung Prof. Dr. Haftendorn, Leuphana Universität Lüneburg,
Klicke Dich mit der linken Maustaste durch das Übungsprogramm! Vereinfachung von Termen Ein Übungsprogramm der IGS - Hamm/Sieg © IGS-Hamm/Sieg 2006 Dietmar.
Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.
Forschungsstatistik II
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
Prof. Dr. S. Albers Prof. Dr. Th. Ottmann
© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
Vorlesung: 1 Betriebssysteme 2007 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebssysteme Hochverfügbarkeit (Einführung) 3. Quartal.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Selbstverständnis der Mathematik
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
Wir suchen ‘ mit m = m    ‘ c  ‘ mod 26
Differentieller Stromverstärker
Inhalte und Maßnahmen eingegeben haben,
Kennlinie Lichtregelung in JavaNNS Version 1.1
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Machine Learning KNN und andere (Kap. 8).
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Eigenschaften der OLS-Schätzer
Lesen macht stark-Lesekompetenztests
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Effiziente Algorithmen
Vergleich PPT 2002 / 2003 zu PPT 2007 Zunächst erscheint PPT 2002 / 03 - durch klicken auf kann dann der Vergleich zur Version 2007 aufgerufen werden.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Polynome und schnelle Fourier-Transformation
Auslegung eines Vorschubantriebes
Jakis Überblick! Ein Viereck hat 4 Ecken (und 4 Seiten).
STATISIK LV Nr.: 1375 SS März 2005.
NEU! 1 2. Wo kommt diese Art von Rezeptor im Körper vor?
Analyse von Ablaufdiagrammen
PROCAM Score Alter (Jahre)
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Analyseprodukte numerischer Modelle
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Vortrag von Rechtsanwältin Verena Nedden, Fachanwältin für Steuerrecht zur Veranstaltung Wege zum bedingungslosen Grundeinkommen der Piratenpartei Rhein-Hessen.
Klassifikation und Regression mittels neuronaler Netze
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Analyse der Laufzeit von Algorithmen
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Monatsbericht Ausgleichsenergiemarkt Gas – November
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Geoinformationssysteme
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.
 Präsentation transkript:

Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell

Allgemeiner Überblick Gliederung Allgemeiner Überblick Das Problem Generalisierungsfähigkeit beim überwachten Lernen Design und Evaluation von Klassifikatoren Neuronale Netze, SS 2004

Menschliches Gehirn Neuronale Netze, SS 2004

Eigenschaften des Gehirns Frequenzcodierung Hochgradige Vernetzung Massiv parallele Verarbeitung große Speicherfähigkeit Lern- und Assoziationsfähigkeit Kann man das mit einer Maschine auch??? Neuronale Netze, SS 2004

Was genau soll eine Maschine eigentlich lernen? Maschinelles Lernen Was genau soll eine Maschine eigentlich lernen? Wie kann man den Lernerfolg messen? Wie kann man das effizient auf einem herkömmlichen Computer implementieren? => Notwendigkeit der Konkretisierung und Formalisierung Neuronale Netze, SS 2004

Arten des Maschinellen Lernens Überwachtes Lernen: Lerne “Regel” (Modell, Hypothese) aus Menge von Beispielen Verstärkendes Lernen: Lernen mit Hilfe von Kritik (“Dein letzter Versuch war gut / schlecht”) Unüberwachtes Lernen: Lerne etwas durch Vergleich von Objekten z.B.: Objekt A sieht so ähnlich aus wie Objekt B. Also müssen sie beide zur selben “Kategorie” gehören. Neuronale Netze, SS 2004

Überwachtes Lernen - Klassifikation Source: Duda, Hart, Stork, Pattern Classification, Wiley Interscience, 2000 Neuronale Netze, SS 2004

Mögliche Klassifikationen? Source: Duda, Hart, Stork, Pattern Classification, Wiley Interscience, 2000 Neuronale Netze, SS 2004

Wie können wir entscheiden, welche Klassifikation korrekt ist? Probleme Wie können wir entscheiden, welche Klassifikation korrekt ist? Wir wollen einen Klassifikator, der auch möglichst richtig auf ungesehenen Daten arbeitet, d.h. generalisiert! Wie können wir solch einen Klassifikator konstruieren? Neuronale Netze, SS 2004

Überwachtes Lernen - Regression Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002 Neuronale Netze, SS 2004

Wie können wir entscheiden, welche Regressions-Funktion korrekt ist? Dieselben Probleme Wie können wir entscheiden, welche Regressions-Funktion korrekt ist? Wir wollen eine Regressions-Funktion, die auch möglichst richtig auf ungesehenen Daten arbeitet, d.h. generalisiert! Wie können wir solch eine Regressions-Funktion konstruieren? Neuronale Netze, SS 2004

Unüberwachtes Lernen – Bsp. Clustering Neuronale Netze, SS 2004

Wie kann man die Güte einer solchen Einteilung beurteilen? Problem Wie kann man die Objekte sinnvoll in gleichartige Kategorien/Cluster einteilen? Wie kann man die Güte einer solchen Einteilung beurteilen? Wie viele Cluster sollen gefunden werden? Neuronale Netze, SS 2004

Allgemeiner Überblick Das Problem Generalisierungsfähigkeit beim überwachten Lernen Design und Evaluation von Klassifikatoren Neuronale Netze, SS 2004

Überwachtes Lernen formal Geg.: ges.: Klassifikation: Y endlich Regression: Y = d Annahme: Daten wurden statistisch unabhängig (i.i.d.) einer unbekannten Zufallsverteilung P(x,y) entnommen Neuronale Netze, SS 2004

Empirisches Risiko (=Trainingsfehler) Vereinfachung: Empirisches Risiko (=Trainingsfehler) Funktion heißt Fehlerfunktion Hier: Neuronale Netze, SS 2004

Reicht die Minimierung des emp. Risikos statt dessen aus??? Kernproblem Wahres Risiko Ein guter Klassifikator sollte R[f] minimieren ABER: R[f] kann man nicht berechnen!!! (da P(x,y) nicht bekannt ist) Reicht die Minimierung des emp. Risikos statt dessen aus??? Neuronale Netze, SS 2004

Statistische Perspektive (Vapnik, Chervonenkis, 1979) Begreife Remp[f] als statist. Schätzer für R[f]. Gewünscht: Konsistenz von Remp[f], d.h. Frage: Ist dies möglich? Neuronale Netze, SS 2004

Insbesondere gilt dann Beobachtung 1: Beobachtung 2: Insbesondere gilt dann Summe der Ungleichungen: Neuronale Netze, SS 2004

Zweite Hälfte der Gleichung: opt ist unabhängig von Trainingsdaten Zweite Hälfte der Gleichung: opt ist unabhängig von Trainingsdaten! Daher: Aber: erfordet gleichmäßige Konvergenz über alle Funktionen, die die Maschine implementieren kann! Neuronale Netze, SS 2004

Gleichmäßige Konvergenz Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002 Neuronale Netze, SS 2004

Gleichmäßige Konvergenz (2) Wie kann gleichmäßige Konvergenz a priori garantiert werden? Satz (Vapnik, Chervonenkis): Für alle  >0 N(F,2n) heißt shattering Koeffizient der Funktionenklasse F. N(F,2n) ist ein Maß, um die Komplexität (Kapazität) von F zu messen. Neuronale Netze, SS 2004

Shattering Neuronale Netze, SS 2004 Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002 Neuronale Netze, SS 2004

Bsp.: VC-Dimension der Klasse der Hyperebenen in 2 ist 3. Shattering = Realisierung aller 2n verschiedenen Klasseneinteilungen von n Punkten VC-Dimension = maximale Anzahl Punkte h, für die es eine Menge von h Punkten gibt, die F shattern kann (und , falls es kein solches h gibt). Bsp.: VC-Dimension der Klasse der Hyperebenen in 2 ist 3. Neuronale Netze, SS 2004

Folgerung: gleichmäßige Konvergenz hängt von Kapazität von F ab. VC-Schranke Folgerung: gleichmäßige Konvergenz hängt von Kapazität von F ab. => Kapazität sollte beschränkt werden (Bevorzugung möglichst “einfacher” Funktionen) Quantitativ (aus vorherigem Satz): Neuronale Netze, SS 2004

Überanpassung vs. Unteranpassung Überanpassung (overfitting): emp. Risiko klein (vielleicht 0), aber h groß. Unteranpassung (underfitting): h klein, aber emp. Risiko groß. Neuronale Netze, SS 2004

Überanpassung vs. Unteranpassung (2) Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002 Neuronale Netze, SS 2004

Trade-off zwischen Überanpassung und Unteranpassung. Regularisierung Trade-off zwischen Überanpassung und Unteranpassung. Idee: Minimierung des regularisierten Risikos -> Idee bei Support Vector Machines Neuronale Netze, SS 2004

Allgemeiner Überblick Das Problem Generalisierungsfähigkeit beim überwachten Lernen Design und Evaluation von Klassifikatoren Neuronale Netze, SS 2004

Das Klassifikations-Framework Source: Duda, Hart, Stork, Pattern Classification, Wiley Interscience, 2000 Neuronale Netze, SS 2004

Vorverarbeitung der Daten (falls möglich) Codierung als reelwertiger Vektor Normalisierung aller Merkmale auf Mittelwert 0 und Standardabweichung 1. Alternativ: Skalierung, z.B. zwischen [-1,1]. Neuronale Netze, SS 2004

Entfernung irrelevanter Merkmale (hier: “Farbe”) Merkmalsauswahl Entfernung irrelevanter Merkmale (hier: “Farbe”) Extraktion möglichst informativer Merkmale aus den ursprünglichen Daten durch Transformation (z.B. Principal Component Analysis) Neuronale Netze, SS 2004

Evaluation eines Klassifikators Möglichkeit 1: Teste auf einer großen Menge von ungesehenen Testdaten Möglichkeit 2 (besser): benutze Kreuzvalidierung (cross-validation) Neuronale Netze, SS 2004

K-fold Kreuzvalidierung Neuronale Netze, SS 2004

Eigenschaften der Kreuzvalidierung Schätzer für Generalisierungsleistung (Risiko) Schätzung um so genauer, je mehr folds. -> extrem: Leave-one-out cross-validation Vorteil: einfacher Vergleich von Klassifikatoren Nachteil: Rechenzeit Neuronale Netze, SS 2004

Gibt es einen universal besten Klassifikator? No Free Lunch Gibt es einen universal besten Klassifikator? Sei hk die von Klassifikator k gelernte Hypothese und g die Zielfunktion. Sei Pr(hk|D) die Wahrscheinlichkeit, daß der Algorithmus hk liefert, wenn er auf Datensatz D trainiert wurde. Definiere “Matching” zwischen Verteilungen P(hk|D) und P(g|D) Neuronale Netze, SS 2004

Definiere sog. off-training Fehler No Free Lunch (2) Folgerung: Ohne Vorwissen von P(g|D) kann man eigentlich gar nichts über P(hk|D) zeigen. Definiere sog. off-training Fehler Neuronale Netze, SS 2004

Satz (No Free Lunch Theorem) Es gilt Für irgendeinen festen Datensatz D gilt 1 + 2 gelten auch gleichverteilt gemittelt über alle Priors P(g) Neuronale Netze, SS 2004

Das gleiche gilt, falls D schon bekannt ist. Interpretation von 1 + 2 Falls alle Zielfunktionen gleich wahrscheinlich sind, dann wird, egal wie clever wir einen “guten” Lernalgorithmus P1(h1|D) und einen “schlechten” P2(h2|D) wählen, der “gute” nicht besser als der “schlechte” sein. Das gleiche gilt, falls D schon bekannt ist. Wie kann man 3. Interpretieren? Neuronale Netze, SS 2004

Folgerungen Selbst ein theoretisch gut fundierter Algorithmus wird auf einigen Daten schlecht funktionieren. Vergleiche der Generalisierungsleistung von Algorithmen sind nur auf vorhandenen Datensätzen sinnvoll. Jeder Lernalgorithmus muß (implizite) Annahmen über das Lernproblem machen. Es gibt keinen universalen Lernalgorithmus, der ohne Vorwissen auskommt. Neuronale Netze, SS 2004