Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

SS 2009Maschinelles Lernen und Neural Computation 28 Kapitel 2: Klassifikation.

Ähnliche Präsentationen


Präsentation zum Thema: "SS 2009Maschinelles Lernen und Neural Computation 28 Kapitel 2: Klassifikation."—  Präsentation transkript:

1 SS 2009Maschinelles Lernen und Neural Computation 28 Kapitel 2: Klassifikation

2 SS 2009Maschinelles Lernen und Neural Computation 29 C1C1 C2C2 ‘nein’ ‘ja’ Ein einfacher Fall Ein Feature, Histogramme für beide Klassen (z.B. Glukosewert, Diabetes ja/nein) Keine perfekte Trennung möglich Entscheidung: Schwellwert Frage: Wo setze ich ihn am besten hin?

3 SS 2009Maschinelles Lernen und Neural Computation 30 Der allgemeine Fall: Bayes‘sches Theorem Ann: Daten fallen in k Klassen, wähle für eine Beobachtung x j die Wahrscheinlichste aus Wahrscheinlichkeit für Beobachtung, wenn in Klasse i („likelihood“, „class-conditional“) Wahrscheinlichkeit für Klasse i vor der Beobachtung („a priori“) Wahrscheinlichkeit, dass Beobachtung Zur Klasse i gehört („a posteriori“) Wahrscheinlichkeit für das Auftreten der Beobachtung Nenner ist Summe aller möglichen Zähler (aller Fälle)

4 SS 2009Maschinelles Lernen und Neural Computation 31 Der optimale Klassifikator Klassifikation: wähle die Klasse i mit der höchsten a-posteriori Wahrscheinlichkeit Erzielt das bestmögliche Resultat Bayes‘sche Formel erleichtert das Problem, da Wahrscheinlichkeiten auf der rechten Seite meist leichter zu bestimmen sind Da p(x) für alle Klassen gleich ist, kann es oft weggelassen werden

5 SS 2009Maschinelles Lernen und Neural Computation 32 Einschub: Wahrscheinlichkeitsdichten Für diskrete Variablen (endliche Werte): Wahrscheinlichkeit, z.B.: P(c i ) Für kontinuierliche Variablen nicht möglich: P(x j )=0 Stattdessen: Wahrscheinlichkeitsdichtefunktion p(x) p(x j )... Dichte an diesem Punkt (kann größer als 1 sein) Wahrscheinlichkeit, dass x in einem kleinen Intervall liegt Dichte kann wie Wahrscheinlichkeit behandelt werden

6 SS 2009Maschinelles Lernen und Neural Computation 33 Beispiel: 1 Variable, 2 Klassen Annahme: in beiden Klassen sind Beobachtungen normalverteilt Verteilung der Werte für Klasse 1 („class-conditional“) für Klasse 2 Entscheidungsgrenze Entscheidungsgrenze: Schnittpunkt der beiden Kurven Multiplikation mit a-priori Wahrscheinlichkeiten: Entscheidungsgrenze verschiebt sich Durchdividieren durch Summe ergibt Wahrscheinlichkeit für Klasse

7 SS 2009Maschinelles Lernen und Neural Computation 34 Beispiel: 2 Variablen, 2 Klassen 2-dim. Gaussverteilungen Lineare Entscheidungsgrenze

8 SS 2009Maschinelles Lernen und Neural Computation 35 Klassifikatoren Problem: Dichteverteilungen meist unbekannt Lösung: –Schätzen der Verteilungen –Schätzen der Entscheidungsgrenze –Schätzen von Diskriminanzfunktionen: Wähle für jede Klasse Fkt. g i (x) Klasse c i, wenn g i (x)>g j (x) für alle j  i z.B.: Keine Wahrscheinlichkeiten mehr

9 SS 2009Maschinelles Lernen und Neural Computation 36 Diskriminanzfunktionen für Normalverteilungen Streuung in alle Richtungen gleich („sphärisch“): Log-Fkt. Und multiplikative Faktoren ändern nichts an Größenverhältnis: Quadratische Funktion Entscheidungsgrenze: g 1 (x)=g 2 (x), auch quadratisch wenn  1 =  2 : linear

10 SS 2009Maschinelles Lernen und Neural Computation 37 Visualisierung: Normalverteilungen

11 SS 2009Maschinelles Lernen und Neural Computation 38 Allgemeiner Ansatz: Diskriminanzanalyse Lineare Diskriminanzfunktion: entspricht dem Perceptron mit 1 Output Unit pro Klasse Quadratisch linear: entspricht einer „Vorverarbeitung“ der Daten, Parameter (w,v) noch immer linear

12 SS 2009Maschinelles Lernen und Neural Computation 39 Der Schritt zum neuronalen Netz Allgemein linear: beliebige Vorverarbeitungsfunktionen, lineare Verknüpfung Neuronales Netz: NN implementiert adaptive Vorverarbeitung nichtlinear in Parametern (w) MLP RBFN

13 SS 2009Maschinelles Lernen und Neural Computation 40 Beispiel: XOR (0 0)  0 (1 0)  1 (0 1)  1 (1 1)  0  Exklusives Oder 4. Muster ist Summe des 2. und 3. (lineare Abhängigkeit) Punkte lassen sich durch keine Gerade trennen

14 SS 2009Maschinelles Lernen und Neural Computation 41 0 Hidden Units Zwei Perceptrons + nichtlineare Transferfunktion: Schwellwertfunktion bricht lineare Abhängigkeit

15 SS 2009Maschinelles Lernen und Neural Computation 42 Beliebige Klassifikationen Jede Hidden Unit teilt Raum in 2 Hälften Output Units wirken wie “AND” Sigmoide: verlaufende Bereiche

16 SS 2009Maschinelles Lernen und Neural Computation 43 Beispiel: MLP MLP mit 5 Hidden und 2 Output Units Lineare Transferfunktion am Output Quadratischer Fehler

17 SS 2009Maschinelles Lernen und Neural Computation 44 MLP zur Diskriminanzanalyse MLP (und RBFN) ist direkte Erweiterung klassischer Modelle Stärke: beliebige nichtlineare Diskriminanzfunktionen Hidden Units: Adaptive Vorverarbeitung des Inputs Form der Diskriminanzfunktion außerhalb der Entscheidungsgrenze belanglos Perceptron ist identisch mit linearer Diskriminanzanalyse

18 SS 2009Maschinelles Lernen und Neural Computation 45 Alternativer Ansatz: Schätzung der Verteilungen Beim Ansatz mittels Diskriminanzfunktionen geht ein wesentlicher Aspekt verloren: Wahrscheinlichkeiten der Klassenzugehörigkeit  mehr an Bayes halten, Dichtefunktion schätzen (vor allem p(x|c i )) Parametrisch: Form ist bekannt, weniger Parameter zu schätzen Nichtparametrisch: Form ist unbekannt, theoretisch beliebig

19 SS 2009Maschinelles Lernen und Neural Computation 46 Parametrisch: Maximum Likelihood (ML) Ann.: Verteilung hat eine bestimmte, analytisch beschreibbare Form (z.B. Normalverteilung) mit Parametern  (z.B. Zentrum und Weite) Likelihood: Entspricht der „Wahrscheinlichkeit“, dass Daten beobachtet werden, wenn die Verteilung richtig ist ML: Finde jenes , das die Beobachtungen am wahrscheinlichsten macht: Maximiere L(  ) Vor: Beobachtungen (Daten) sind unabhängig voneinander Menge aller Datenpunkte

20 SS 2009Maschinelles Lernen und Neural Computation 47 Beispiel: eindimensionale Normalverteilung Vereinfachung (ähnlich wie zuvor): logarithmieren, Vorzeichen ändern, Konstante weglassen, minimieren  minimiere die negative log-Likelihood Minimierung: 1. Ableitung auf 0 setzen Erwartetes Ergebnis: Mittelwert und Varianz

21 SS 2009Maschinelles Lernen und Neural Computation 48 Likelihood-Funktionen für die Normalverteilung L(  ) für Punkte 1, 2 und 3,  =1 L(  ) für Punkte 1, 2 und 3,  =1 (wieder Gauss-Fkt.) L(  ) für einen Punkt 1,  =1:  ML nicht immer sinnvoll!

22 SS 2009Maschinelles Lernen und Neural Computation 49 Nichtparametrisch: Parzen-Windows Wenn Form beliebig, keine Likelihood angebbar Wähle einen kleinen (Hyper-)Würfel, zähle wieviel Punkte drin liegen (k i ) Geschätzte Dichte: Wenn n , V i  0, dann immer genauer Entspricht einem normalisierten Histogramm Volumen

23 SS 2009Maschinelles Lernen und Neural Computation 50 Der Fluch der Dimensionalität (Bellman 1961): bei nichtparametrischen Fällen steigt die Anzahl der benötigten Beispiele exponentiell mit der Dimensionalität des Input! Parzen: –wenn Fenster klein, muss es noch genügend Beispiele enthalten –je mehr Dimensionen, desto dünner gesät  möglichst wenige Inputs, viele Daten

24 SS 2009Maschinelles Lernen und Neural Computation 51 Semiparametrisch: Gaussian Mixtures (GMM) Nähere beliebige Verteilung durch eine Mischung von Normalverteilungen an Gleiches Prinzip wie bei neuronalen Netzen Maximum Likelihood:  -logL, Gradientenverfahren

25 SS 2009Maschinelles Lernen und Neural Computation 52 Beispiel Class- conditionals: Posterior: (90 gedreht) Entscheidungsgrenze:

26 SS 2009Maschinelles Lernen und Neural Computation 53 MLP zur Klassifikation Beweis existiert: MLP nähert die a-posteriori Wahrscheinlichkeit an Aktivierungsfunktion: Softmax (eigene Fehlerfunktion notwendig; siehe später) A-priori Wahrscheinlichkeiten: Verteilungen im Trainingsset

27 SS 2009Maschinelles Lernen und Neural Computation 54 Die Softmax-Funktion Erzwingt, dass Outputs als Wahrscheinlichkeiten interpretierbar sind Bezug zum Bayes’schen Theorem Spezialfall: Sigmoide Funktion nur 2 Klassen, 1 Output Unit: durchdividieren Wenn Expontentialverteilung  Softmax Nettoinput ist log. von Dichte

28 SS 2009Maschinelles Lernen und Neural Computation 55 Warum Wahrscheinlichkeiten? Mehr Information Ablehnung von unsicheren Fällen: Performanz steigt, aber einige Fälle unentscheidbar Einfache Berücksichtigung von anderen a-priori Wahrscheinlichkeiten Berücksichtigung von Kosten für Fehler Verknüpfung mit anderen Quellen

29 SS 2009Maschinelles Lernen und Neural Computation 56 NN als semiparametrische Methoden Semiparametrisch: Form relative beliebig, aber dennoch durch Anzahl der Hidden Units („Modellkomplexität“) beschränkt Fluch der Dimension abgeschwächt, aber immer noch gegeben: Bedarf steigt ungefähr quadratisch  NN haben gute Eigenschaften, wenn Dichten unbekannt, aber immer noch gilt: wenige Inputs, viele Daten!

30 SS 2009Maschinelles Lernen und Neural Computation 57 Nachtrag: k-nearest neighbor Speichere alle Trainingssätze mit zugehöriger Klasse Neuer Fall: wähle die k nähesten Trainingsfälle, nimm Klasse, die am häufigsten vorkommt Duda & Hart 1974: Nearest Neighbor (k=1) hat maximal den doppelten Fehler des bayesoptimalen Klassifizierers (für große Fallzahl)  kann als Benchmark verwendet werden Approximiert auch die a-priori Wahrscheinlichkeit direkt nichtparametrisch k=4: 3 Klasse 2 1 Klasse 1  Klasse 2 (posterior ¾)

31 SS 2009Maschinelles Lernen und Neural Computation 58 Zusammenfassung NN sind semiparametrische Methoden zur Klassifikation Lt. Bayes sind Wahrscheinlichkeiten angebbar, bringt mehr Information Es existieren gleichmächtige Alternativen (z.B. GMM) Nearest Neighbor als Benchmark


Herunterladen ppt "SS 2009Maschinelles Lernen und Neural Computation 28 Kapitel 2: Klassifikation."

Ähnliche Präsentationen


Google-Anzeigen