Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

0. Intelligente Systeme – Beispiele und Fähigkeiten

Ähnliche Präsentationen


Präsentation zum Thema: "0. Intelligente Systeme – Beispiele und Fähigkeiten"—  Präsentation transkript:

1 0. Intelligente Systeme – Beispiele und Fähigkeiten
Benötigte Technologien Analysator Erkennung Kategorisierung, Klassifikation, Kategorienbildung: Abbildung von Daten auf semantische Strukturen Zusammenhangsfindung zwischen Daten Prognose Zusammenhangsfindung zwischen jüngeren und älteren Daten aus aufgezeichneten Daten Zusammenhang auf aktuelle und zukünftige Daten anwenden Lernfähigkeit Anpassung an Änderungen Mustererkennung Data Mining Regression Maschinelles Lernen Vorlesung "Intelligente Systeme"

2 0. Intelligente Systeme – Beispiele und Fähigkeiten
Werkzeuge Mustererkennung Klassifikatoren Lineare Klassifikatoren Künstliche Neuronale Netze Support-Vektor-Maschinen Hidden-Markov-Modelle Clustering-Verfahren K-Means Self-Organizing Maps Vorlesung "Intelligente Systeme"

3 0. Intelligente Systeme – Beispiele und Fähigkeiten
Werkzeuge Merkmale Verdichtung Hauptkomponenten-Transformation Fourier-Transformation Auswahl Receiver Operation Characteristics Curve Kullback-Leiber Regression Lineare Regression Neuronale Netze Kernel (Support Vektor) Regression Genetische Programmierung Vorlesung "Intelligente Systeme"

4 1. Leistung von Erkennungssystemen
Intelligenz Intelligenz (lat.: intelligentia = "Einsicht, Erkenntnisvermögen", intellegere = "verstehen") bezeichnet im weitesten Sinne die Fähigkeit zum Erkennen von Zusammenhängen und zum Finden von optimalen Problemlösungen. Künstliche Intelligenz (KI) Nachbildung menschlicher Intelligenzleistungen in Software. Technischer Einsatz in intelligenten Systemen. Anwendungsbereiche: Optimierungsprobleme (Routenplanung, Netzwerke), Umgang mit natürlicher Sprache (Spracherkennung, automatisches Übersetzen, Internet-Suchmaschinen), Datenanalyse (Data Mining, Business Intelligence) Umgang mit natürlichen Signalen (Bildverstehen und Mustererkennung). Vorlesung "Intelligente Systeme"

5 1. Leistung von Erkennungssystemen
Komponentenfähigkeiten Analysator Erkennung Prognose Lernfähigkeit Regelungs/Handlungssystem Optimierung Handlung/Aktion ableiten Regelung Adaptivität Sensoren Kommunikation Ziel-system 1 Regelungs/ Handlungssystem 2 Analy-sator 4 Sensoren 3 Welt - Situations-information Abweichung Zielsetzung Aktionen Signale Daten Vorlesung "Intelligente Systeme"

6 1. Leistung von Erkennungssystemen
Gesichtsdetektion Vorlesung "Intelligente Systeme"

7 1. Leistung von Erkennungssystemen
Intelligente Systeme und deren Aufgabe Erste Aufgabe eines intelligenten Systems: Informationsgewinnung Gj+nj M+nM p3 Klasse wj m1 Gk+nk p1 Klasse wk p2 m2 Gl+nl Klasse wl p4 m3 Abbildung 1 Abbildung 2 Beschreibungs- (Zustands-)raum C Zugänglicher Musterraum P Beobachtungs- oder Meßraum F Informationsgewinnung Vorlesung "Intelligente Systeme"

8 1. Leistung von Erkennungssystemen
Intelligente Systeme und deren Aufgabe Erste Aufgabe eines intelligenten Systems: Informationsgewinnung Zustand Z1 do/ emit x:s1 Zustand Z3 do/ emit x:s3 Zustand Z2 do/ emit x:s2 Stochstischer Prozess Erkenner x Zustand p(x|s) s1 s2 x 15 9 14 10 11 „Glücksräder“ 13 12 14 15 9 10 13 11 Vorlesung "Intelligente Systeme" 12

9 2. Ein Beispiel für Erkennungssysteme
Nebenbemerkung Histogramm und Wahrscheinlichkeitsdichte Wahrscheinlichkeitsdichte: relative Häufigkeit pro Intervall Histogramm von x x Vorkommensanazahl (frequency) k 20 30 40 50 60 70 5 10 15 Stichprobe mit 50 Versuchen Stichprobe: Führe N Versuche aus, miss jedes mal die Größe x. Histogramm: Teile die Größe x in Intervalle mit Breite Dx. Zähle Anzahl in jedem Intervall. Trage die Anzahl gegen das Intervall auf. 20 70 x x x x x x x x x x x x x x x x x 20 70 Vorlesung "Intelligente Systeme"

10 2. Ein Beispiel für Erkennungssysteme
Nebenbemerkung Histogramm und Wahrscheinlichkeitsdichte Wahrscheinlichkeitsdichte r: relative Häufigkeit pro Intervall = (Vorkommensanzahl/Stichprobenumfang)/Intervallbreite = (k/N)/Dx = relative Häufigkeit / Intervallbreite = h/ Dx Histogramm von x Histogram von x 15 0.06 10 0.04 Vorkommensanazahl (frequency) k Wahrscheinlichkeitsdichte 5 0.02 0.00 x x 20 30 40 50 60 70 20 30 40 50 60 70 W-Dichte = (7/50) / 5 = 0.028 Vorlesung "Intelligente Systeme"

11 2. Ein Beispiel für Erkennungssysteme
Nebenbemerkung Histogramm und Wahrscheinlichkeitsdichte Mit zunehmender Stichprobengröße Balkenbreite immer kleiner, so dass im unendlichen Fall die Balkenbreite unendlich klein ist. Histogramm von x Histogramm von x Density 20 30 40 50 60 70 80 0.00 0.02 0.04 0.06 0.04 Wahrscheinlichkeitsdichte r 0.02 0.00 x 20 30 40 50 60 70 S Wahrscheinlichkeitsdichten x Balkenbreiten = 1 Vorlesung "Intelligente Systeme"

12 2. Ein Beispiel für Erkennungssysteme
Nebenbemerkung Wahrscheinlichkeitsdichte p(x) 0,10 0,05 0,00 Ist gleichbedeutend mit x , , , ,0 Vorlesung "Intelligente Systeme"

13 2. Ein Beispiel für Erkennungssysteme
Nebenbemerkung Wahrscheinlichkeitsdichte ergibt ergibt Vorlesung "Intelligente Systeme"

14 2. Ein Beispiel für Erkennungssysteme
Nebenbemerkung Körpergröße nach Einkommen (D, über 18a) Vorlesung "Intelligente Systeme"

15 2. Ein Beispiel für Erkennungssysteme
Nebenbemerkung Körpergröße nach Geschlecht (D, über 18a) Größe F M <150 cm 0,6% 0,1% cm 4% cm 12,7% 0,3% cm 27% 2,3% cm 29,1% 9% cm 17,6% 19,2% cm 6,9% 26,1% cm 1,8% 23,9% cm 0,2% 12,8% >190 cm <0,1% 6,3% Vorlesung "Intelligente Systeme"

16 2. Ein Beispiel für Erkennungssysteme
Nebenbemerkung Körpergröße nach Bundesland (D, über 18a) Vorlesung "Intelligente Systeme"

17 3. Statistische Fundamente
Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? A-priori-Wahrscheinlichkeiten Ein betrachtetes System befindet sich in einem “wahren Zustand” c, z.B. c=c1 (normal) oder c=c2 (Zündaussetzer). Diese können sich zufällig abwechseln und treten mit den Wahrscheinlichkeiten P(c1) und P(c2) auf: A-priori-Wahrscheinlichkeiten. P(c1) + P(c2) =1, wenn keine weiteren Zustände. Fall 1: Keine weitere Information als P(c1) und P(c2) -> Entscheidungsregel über nächsten Zustand: c1, wenn P(c1) > P(c2) , sonst c2. Vorlesung "Intelligente Systeme"

18 3. Statistische Fundamente
Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? Verbund-Wahrscheinlichkeiten und bedingte Wahrscheinlichkeiten Zusatzinformation: B ist aufgetreten. Wahrscheinlichkeit von A, wenn B aufgetreten ist: bedingt Beispiel: P(1,70m < h < 1,80m | Frau) = 0,2, P(Frau) = P(Mann) = 0,5 P(1,70m < h < 1,80m , Frau) = 0,2 * 0,5 = 0,1 Verbund-Wahrscheinlichkeit P(A,B) von A und B ist Wahrscheinlichkeit, dass A und B gleichzeitig auftreten. Bedingte Wahrscheinlichkeit P(A|B) ist Wahrscheinlichkeit, dass A auftritt unter der Bedingung, dass B aufgetreten ist. Gilt auch für Wahrscheinlichkeitsdichten B ist fest! B ist fest! A ist fest! Vorlesung "Intelligente Systeme"

19 3. Statistische Fundamente
Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? Verbund-Wahrscheinlichkeiten und bedingte Wahrscheinlichkeiten Verbund-Wahrscheinlichkeit P(A,B) von A und B ist Wahrscheinlichkeit, dass A und B gleichzeitig auftreten. Größe, bezüglich derer Dichte berechnet wird, muss variabel sein. Daher lautet Verbundwahrscheinlichkeitsdichte B ist fest! A ist fest! ist fest! ist fest! Vorlesung "Intelligente Systeme"

20 3. Statistische Fundamente
Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? Wahrscheinlichkeitsdichte p(x) x variabel 0,10 0,05 0,00 x , , , ,0 Vorlesung "Intelligente Systeme"

21 3. Statistische Fundamente
Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? Klassenbedingte Wahrscheinlichkeitsdichtefunktion p(x|c) Information x über das System (z.B. das Drehmoment M4) mit verschiedenen Ausprägungen in verschiedenen Zuständen (Klassen) c. Klassenbedingte Wahrscheinlichkeitsdichtefunktion p(x|c). Fall 2: Wir verfügen über weitere Information x. p(x|c) c1 c2 x Wahrscheinlichkeitsdichte für das Vorliegen eines Wertes des Merkmals x, wenn das System in Zustand c ist. Die Fläche unter der Kurve ist jeweils 1. Vorlesung "Intelligente Systeme" Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Ó Wiley-Interscience

22 3. Statistische Fundamente
Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? Fall 2: Wir verfügen über weitere Information x, also die Wahrscheinlichkeitsdichtefunktionen p(x|ci) für die verschiedenen Klassen und den aktuellen Wert von Merkmal x unseres Systems sowie die A-priori-Wahrscheinlichkeiten der Klassen P(ci). Dann ist die verknüpfte Wahrscheinlichkeitsdichte, dass das System in Zustand ci ist und dabei den Merkmalswert x hat: p(ci,x) = P(ci|x)p(x) = p(x|ci)P(ci). Von Interesse P(ci|x). Mittels Bayes´scher Formel Wahrscheinlichkeit für Klasse ci Wahrscheinlichkeit für Klasse ci unter der Bedingung, dass ein Wert x vorliegt Wahrscheinlichkeitsdichte von Merkmal x, unter der Bed., dass Klasse ci vorliegt Wahrscheinlichkeitsdichte von Merkmal x Vorlesung "Intelligente Systeme"

23 3. Statistische Fundamente
Bayes´sche Entscheidungstheorie A posteriori Wahrscheinlichkeit, dass Klasse ci vorliegt, wenn das Merkmal die Ausprägung x hat: Likelihood Prior Evidence Posterior p(x|c) P(c|x) c1 c2 c2 P(c1) = 1/3 P(c2) = 2/3 c1 x x Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Ó Wiley-Interscience Vorlesung "Intelligente Systeme"

24 3. Statistische Fundamente
Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? Fall 2: Entscheide c1 wenn P(c1|x) > P(c2|x), sonst c2. P(c|x) P(c2|x=14)=0.92 c2 c1 P(c1|x=14)=0.08 x c1 c2 c1 c2 Vorlesung "Intelligente Systeme"

25 3. Statistische Fundamente
Erkennungssysteme und deren Aufgabe Informationsgewinnung Zustand Z1 do/ emit x:s1 Zustand Z3 do/ emit x:s3 Zustand Z2 do/ emit x:s2 Stochstischer Prozess Erkenner x Zustand p(x|s) s1 s2 x 15 9 14 10 11 „Glücksräder“ 13 12 14 15 9 10 13 11 Vorlesung "Intelligente Systeme" 12

26 3. Statistische Fundamente
Mehr als ein Merkmal: Grundlagen Numerische Merkmale und Merkmalsvektor Ein Merkmal x Zwei Merkmale x1 und x2 Merkmal x2 20 70 x Merkmal x x x x x Ein-dimensionaler Merkmalsraum x x x x x x x x x x x x x x x x x x x x x x Merkmal x1 x x x x Stichprobe: Menge der Merkmals- ausprägungen x x x x x x x x x x x Skalare Zwei-dimensionaler Merkmalsraum Vektoren Vorlesung "Intelligente Systeme"

27 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Mehr als ein Merkmal: Grundlagen Bild von Objekten unterschiedlicher Größe und Form Meßraum: Grauwerte der Pixel eines Kamerasensors Merkmalsauswahl: Merkmalsvariable Formfaktor (f) und maximale Abmessung (l) Formfaktor f Jeder Merkmalsvektor xi= [fi, li]T repräsentiert ein Muster. Wegen der statistischen Prozesse bei der Musterentstehung und beim Meßprozess werden Merkmale als “random variables” und Merkmalsvektoren als “random vectors” betrachtet. x x x x x fi x x Merkmalsraum + xi * li Maximale Abmessung l Vorlesung "Intelligente Systeme"

28 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Mehr als ein Merkmal: Dichte und Dichtefunktion Stichprobe Wahrscheinlichkeitsdichtefunktion Merkmal x1 Merkmal x2 Wahrsch. Merkmal x2 x x x x x x x x x x x x x x x x x x x x x x x x x x Merkmal x1 x x x x x x x x x x x x x x x Dichte: relative Häufigkeit im Kästchen, geteilt durch Kästchenfläche Vorlesung "Intelligente Systeme"

29 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Mehr als ein Merkmal: Korrelation und Kovarianz Wahrscheinlichkeitsdichtefunktion Zwei unterschiedliche stochastische Größen (z.B. Merkmale) Maßzahl für montonen Zusammenhang zwischen wenn gleichsinniger Zusammenhang zw. wenn gegensinniger Zusammenhang zw. wenn kein Zusammenhang zw. Die Größe von K hängt von den Maßeinheiten von ab. Daher Invarianz durch Normierung mit Standardabweichung: Korrelation C Vorlesung "Intelligente Systeme"

30 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Mehr als ein Merkmal, mehrere Klassen Merkmal x2 Merkmal x1 Vorlesung "Intelligente Systeme" Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Ó Wiley-Interscience

31 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Mehr als ein Merkmal, mehrere Klassen Endliche Menge von Klassen {c1,c2,…,cC} mit zugehörigen Wahrscheinlichkeitsdichten Bayes Formel für a posteriori Wahrscheinlichkeit Entscheidungsregel: Merkmal x1 Merkmal x2 x2T xT x1T Vorlesung "Intelligente Systeme"

32 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Entscheidungsflächen und -funktionen Entscheidungsregel: Merkmal x1 Merkmal x2 Teilt Merkmalsraum in Regionen R3 x2T R4 Entscheidungsflächen sind Grenzflächen zwischen den Regionen R2 xT x1T R1 Vorlesung "Intelligente Systeme"

33 3. Statistische Fundamente
Merkmalsraum Entscheidungsflächen und -funktionen Entscheidungsregel: Entscheidungsregel gilt auch für monotone Funktionen g (Entscheidungs-funktionen) von P: (konst. Nenner weglassen) (logarithmieren) Vorlesung "Intelligente Systeme"

34 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Entscheidungsflächen und -funktionen Bei zwei Kategorien (Klassen) Entscheidungsregel Kann vereinfacht werden zu einer einzigen Entscheidungsfunktion deren Vorzeichen über die Klassenzugehörigkeit entscheidet: Bequeme Wahl von g: Vorlesung "Intelligente Systeme"

35 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Entscheidungsflächen und -funktionen Modellfunktion für klassenbedingte Wahrscheinlichkeitsdichte: Normalverteilung Bisher ein-dimensional: Jetzt mehr-dimensional: Merkmal x1 Merkmal x2 Wahrsch. Vorlesung "Intelligente Systeme"

36 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Entscheidungsflächen und -funktionen Normalverteilung Jetzt mehr-dimensional: Merkmal x1 Merkmal x2 Wahrsch. Vorlesung "Intelligente Systeme"

37 3. Statistische Fundamente
Merkmalsraum Entscheidungsflächen und -funktionen Beispiel: Annahme einer mehr-dimensionalen Normalverteilung Berechnung Schwerpunkt und Kovarianzmatrix aus Stichprobe Schwerpunkt der Verteilung Empirischer Schwerpunkt der Stichprobe Vorlesung "Intelligente Systeme"

38 3. Statistische Fundamente
Merkmalsraum Entscheidungsflächen und -funktionen Beispiel: Annahme einer mehr-dimensionalen Normalverteilung Berechnung empirischer Schwerpunkt und empirische Kovarianzmatrix aus Stichprobe Im Fall drei-dimensionaler Vektoren: Geschätzte Normalverteilung: Vorlesung "Intelligente Systeme"

39 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Entscheidungsflächen und -funktionen Geschätzte Normalverteilung: Benötigt wird die Inverse der Kovarianzmatrix Analytische Matrix-Inversion z.B. mittels adjungierter Matrix Vorlesung "Intelligente Systeme"

40 3. Statistische Fundamente
Merkmalsraum Entscheidungsflächen und -funktionen Geschätzte Normalverteilung: Rekursive, numerische Schätzung des empirischen Schwerpunkts und der Inversen der Kovarianzmatrix aus Stichprobe durch Rekursion Aus: H.Burkhardt, Inst. F. Informatik, Uni Freiburg: Mustererkennung Vorlesung "Intelligente Systeme"

41 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Schätzung Varianz (unabh. tats. Verteilung) Quelle: Wikipedia Vorlesung "Intelligente Systeme"

42 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Entscheidungsflächen und -funktionen Bei Normalverteilung wegen e-Funktion Wahl von ln-Entscheidungsfunktion: Entscheidungsfläche beim Zweiklassenproblem: ist quadratische Form. Für zwei-dimensionale Merkmalsvektoren Vorlesung "Intelligente Systeme"

43 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Entscheidungsflächen und -funktionen Entscheidungsfläche beim Zweiklassenproblem: Zweiklassenproblem bei Normalverteilungen einfachster Fall: Merkmale unkorreliert -> Kovarianzen (Nichtdiagonalelemente der Kovarianzmatrix) sind Null Merkmalsvarianzen (Diagonalelemente der Kovarianzmatrix) für beide Klassen gleich A-priori-Wahrscheinlichkeiten für beide Klassen gleich Mittelsenkrechte zwischen den Schwerpunkten Vorlesung "Intelligente Systeme"

44 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsfunktionen: Lineare Entscheidungsfunktion: Entscheidungsfläche Hyperebene ein-dim. Merkm.-Raum zwei-dim. Merkm.-Raum drei-dim. Merkm.-Raum Vorlesung "Intelligente Systeme" Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Ó Wiley-Interscience

45 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsfunktionen: Entscheidungsfunktion Entscheidungsflächen: Hyperquadriken Vorlesung "Intelligente Systeme" Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Ó Wiley-Interscience

46 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsflächen: Hyperquadriken Ebenen Vorlesung "Intelligente Systeme" Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Ó Wiley-Interscience

47 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsflächen: Hyperquadriken Paraboloide Ellipsoide Vorlesung "Intelligente Systeme" Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Ó Wiley-Interscience

48 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsflächen: Hyperquadriken Hyperboloide Kugeln Vorlesung "Intelligente Systeme" Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Ó Wiley-Interscience

49 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Wie weiter? Voraussetzung bisher: A priori Wahrscheinlichkeiten und klassen-bedingte Wahrscheinlichkeitsdichten bekannt. Realität: Nur Stichproben gegeben. Ansätze: Parametrische Techniken: Annahme bestimmter parametrisierter Wahrscheinlichkeitsdichtefunktionen und Schätzung der Parameterwerte anhand Stichprobe, Einsetzen in Bayes Framework. A) Maximum-Likelihood Schätzung B) Bayes Learning Nicht-parametrische Techniken Direkte Bestimmung der Parameter der Entscheidungsflächen anhand Stichprobe. Vorlesung "Intelligente Systeme"

50 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Wie weiter? Möglichkeit 1 bei gegebener Stichprobe: Schätzung der pdf und a-priori-Wahrsch. Aus Stichprobe: Bildung Histogramm, relative Häufigkeiten h(ci) Modellbildung: Annahme einer Modellfunktionenklasse für klassenbedingte Wahrscheinlichkeitsdichte, z.B. Gaussfunktion Schätzung der Parameter der Funktion -> Instanz der Funktionenklasse, die das Histogramm am besten approximiert (Schätzfunktion der klassenbedingten Wahrscheinlichkeitsdichte): Anwendung Bayes: Benutze als Näherung für und relative Häufigk. H(ci) für P(ci) und wende Bayes´sche Entscheidungsregel an: Vorlesung "Intelligente Systeme"

51 3. Statistische Fundamente
Merkmalsraum Wie weiter? Möglichkeit 1 bei gegebener Stichprobe: Schätzung der pdf und a-priori-Wahrsch. Stichprobe Geschätzte pdf und apw Merkmal x1 Merkmal x2 Wahrsch. Merkmal x2 x x x x x x x x x x x x x x x x x x x x x x x x x x x x Merkmal x1 x x x x x x x x x x x x x Anwendung Bayes Entscheidungsregel: Entscheidungsfläche Vorlesung "Intelligente Systeme"

52 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Merkmalsraum Wie weiter? Möglichkeit 2 bei gegebener Stichprobe: Finde eine Entscheidungsfläche, welche die Stichprobenvektoren einer Klasse von denen der anderen Klassen trennt. x Merkmal x2 x Merkmal x1 Vorlesung "Intelligente Systeme"

53 Vorlesung "Intelligente Systeme"
Überwachte Methoden 4. Entscheidungsflächen und -funktionen Klasse 1 h Gerade Trennlinie x x Lineare Klassifikatoren Einschichtiges Perceptron Kleinste Quadrate Klass. Lineare Support Vektor Maschine x x x x x + Klasse 2 * l Klasse 1 Nichtlineare Klassifikatoren Mehrschicht-Perceptron logistisch polynom radiale Basisfunktionen Support-Vektor-Maschinen h Trennkurve x x x x x x x x x x x x x + + + x + + + + x + + x + x + + x x x x + + + Klasse 2 + + + + + + + l Vorlesung "Intelligente Systeme"

54 5. Lineare Klassifikatoren
Grundlagen Das Perzeptron Lineare Support Vektor Maschine Nicht-lineare Klassen und Mehrklassen-Ansatz Kleinste Quadrate lineare Klassifikatoren Stochastische Approximation und der LMS Algorithmus Schätzung mittels Quadratfehlersumme Mehrklassen-Verallgemeinerung Vorlesung "Intelligente Systeme"

55 Vorlesung "Intelligente Systeme"
5. Lineare Klassifikatoren Grundlagen Vorlesung "Intelligente Systeme"

56 Vorlesung "Intelligente Systeme"
5. Lineare Klassifikatoren Der Merkmalsraum wird durch Hyperebenen aufgeteilt. Vorteil: Einfachheit und geringer Berechnungsaufwand. Nachteile: Zugrundeliegende statistische Verteilungen der Trainingsmuster werden nicht vollständig genutzt. Nur linear separierbare Klassen werden korrekt klassifiziert. Entscheidungs-Hyperebene: Eine Entscheidungs-Hyperebene teilt den Merkmalsraum in zwei Halbräume: Punkte (Vektoren) von Halbraum Klasse 1 Punkte von Halbraum Klasse 2. Beschreibung Hyperebene im N-dimensionalen Merkmalsraum (Vektoren x) durch Normalenvektor n = [n1, n2,..., nN]T und senkrechter Abstand d zum Ursprung: HNF: nTx = d äquivalent Entscheidungs-Hyperebene definiert durch den Gewichtsvektor w = [w1, w2,..., wN]T und w0, bezeichnet als Schwellwert: g(x) = wT x + w0 =! 0 Bestimme w und w0 so, dass Merkmalsvektoren x verschiedener Klassen ein unterschiedliches Vorzeichen von g(x) ergeben. Vorlesung "Intelligente Systeme"

57 5. Lineare Klassifikatoren
Zweidimensionaler Fall: Geometrie der Entscheidungs-Linie (-Hyperebene) x2 Merkmalsraum d z x x1 Entscheidungshyperebene Entscheidungsfunktion Das Vorzeichen von g(x) gibt die Klassenzugehörigkeit an. Wie werden die unbekannten Gewichtswerte w1, w2,..., wN und w0 berechnet? Vorlesung "Intelligente Systeme"

58 Lineare Klassifikatoren
Das Perzeptron Die Perzeptron-Kostenfunktion Der Perzeptron Algorithmus Bemerkungen zum Perzeptron Algorithmus Eine Variation des Perzeptron-Lernschemas Arbeitsweise des Perzeptrons Vorlesung "Intelligente Systeme"

59 Vorlesung "Intelligente Systeme"
5. Lineare Klassifikatoren Der Perzeptron Algorithmus Allgemeines Lösungsmuster: Gesucht: Lösung eines Problems Gegeben: Ein Lösungsraum (gebildet durch Menge möglicher Lösungen: Lösungskandidaten) Ein Kriterium, das die Lösung kennzeichnet. Mustervorgehen: Ordne jedem Lösungskandidaten einen Wert derart zu, dass der Wert am kleinsten ist, wenn das Kriterium erfüllt ist: “Kostenfunktion” Lösungssuche -> Minimumsuche Wende vorhandene Lösungsmuster zur Minimumsuche an. Vorlesung "Intelligente Systeme"

60 Vorlesung "Intelligente Systeme"
5. Lineare Klassifikatoren Der Perzeptron Algorithmus Annahme: Es liegen zwei Klassen c1 and c2 vor, die linear separierbar sind. Es existiert eine Entscheidungs-Hyperebene w x + w0= 0 derart, daß Umformulierung mit erweiterten N+1-dimensionalen Vektoren: x´ º [x, 1]T und w´ º [w, w0]T ergibt Die Aufgabe wird als Minimierungsproblem der Perzeptron-Kostenfunktion formuliert. Vorlesung "Intelligente Systeme"

61 Vorlesung "Intelligente Systeme"
5. Lineare Klassifikatoren Der Perzeptron Algorithmus Gesucht: Gewichtsvektor und Schwellwert , die für alle Stichprobenvektoren erfüllen, bzw. Gegeben: Lösungsraum: Menge aller und bzw. Lösungskriterium: Menge der durch und falsch klassifizierten Stichprobenvektoren ist leer. Mustervorgehen: Wahl der Kostenfunktion Vorlesung "Intelligente Systeme"

62 Kostenfunktion (Anzahl Fehler)
Vorlesung "Intelligente Systeme"

63 Kostenfunktion (Perzeptron)
Vorlesung "Intelligente Systeme"

64 Kostenfunktion (quadratisch)
Vorlesung "Intelligente Systeme"

65 Vorlesung "Intelligente Systeme"
5. Lineare Klassifikatoren Die Perzeptron-Kostenfunktion Y sei diejenige Untermenge der Trainingsvektoren, welche durch die Hyperebene (definiert durch Gewichtsvektor w´) fehlklassifiziert werden. Die Variable dx wird so gewählt, dass dx = -1 wenn x e c1 und dx = +1 wenn x e c2. J ist dann stets positiv und wird dann Null, wenn Y eine leere Menge ist, d.h., wenn es keine Fehlklassifikation gibt. J ist stetig und stückweise linear. Nur wenn sich die Anzahl der fehlklassifizierten Vektoren ändert, gibt es eine Diskontituität. Für die Minimierung von J wird ein iteratives Schema ähnlich der Gradientenabstiegsmethode verwendet. Vorlesung "Intelligente Systeme"

66 Vorlesung "Intelligente Systeme"
5. Lineare Klassifikatoren Gradientenmethode für die Perzeptron-Kostenfunktion Konvention (zur Reduktion des Schreibaufwandes): Erweiterte Vektoren ohne Strich Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Ó Wiley-Interscience Vorlesung "Intelligente Systeme"

67 Vorlesung "Intelligente Systeme"
5. Lineare Klassifikatoren Der Perzeptron-Algorithmus Iterative Anpassung des Gewichtsvektors entlang dem Gradienten der Kostenfunktion: (1) k: Iterationsindex, hk: Lernrate (positiv) (1) ist nicht definiert an Unstetigkeitsstellen von J. An allen Unstetigkeitsstellen von J gilt: (2) Substitution der rechten Seite von (2) in (1) ergibt: wodurch der Perzeptron-Algorithmus an allen Punkten definiert ist. Vorlesung "Intelligente Systeme"

68 Vorlesung "Intelligente Systeme"
5. Lineare Klassifikatoren Geometrische Interpretation für den 2d Merkmalsraum Trennlinie im Schritt k+1 Letzter Schritt des Perzeptron-Algorithmus: Nur noch ein einziger Punkt x fehlklassifiziert. x2 Trennlinie im Schritt k w´(k+1) x1 w´(k) w wurde in die Richtung von x gedreht. h bestimmt die Stärke der Drehung. Vorlesung "Intelligente Systeme"

69 Vorlesung "Intelligente Systeme"
5. Lineare Klassifikatoren Bemerkungen zum Perzeptron-Algorithmus 1. Der Perzeptron-Algorithmus konvergiert zu einer Lösung in einer endlichen Anzahl von Schritten, vorausgesetzt, daß die Folge hk richtig gewählt wird. Es kann gezeigt werden, dass dies der Fall ist, wenn gilt: Ein Beispiel einer Folge, welche obige Bedingung erfüllt, ist hk = c/k, da divergent für r <= 1, aber konvergent für r >1. 2. Die Konvergenzgeschwindigkeit hängt von der Folge hkab. 3. Die Lösung ist nicht eindeutig, da es immer eine Schar von Hyperebenen gibt, welche zwei linear separierbare Klassen trennt. Vorlesung "Intelligente Systeme"

70 Vorlesung "Intelligente Systeme"
5. Lineare Klassifikatoren Eine Variation des Perzepton Lernschemas Bisher: Gesamte Trainingsvektormenge in einem Trainingsschritt. Neu: Ein einziger Trainingsvektor in einem Trainingsschritt und Wiederholung für alle Vektoren der Trainingsmenge: “Trainingsepoche”. Die Trainingsepochen weden wiederholt, bis Konvergenz erreicht ist, d.h., wenn alle Trainingsvektoren korrekt klassifiziert werden. Wiederhole, bis Konvergenz erreicht ist { Wiederhole für alle Trainingsvektoren } Dieses Schema ist Mitglied der “Belohnungs- und Bestrafungs-”Schemata. Es konvergiert ebenso in einer endlichen Anzahl von Iterationen. Vorlesung "Intelligente Systeme"

71 Perzeptronalgorithmus
Vorlesung "Intelligente Systeme"

72 Perzeptronalgorithmus
Vorlesung "Intelligente Systeme"

73 Perzeptronalgorithmus
Vorlesung "Intelligente Systeme"

74 Perzeptronalgorithmus
Vorlesung "Intelligente Systeme"

75 Lineare Support Vektor Maschine
Alternative Betrachtungsweise: Perzeptron-Algorithmus mit erweiterten Vektoren: Wiederhole, bis Konvergenz erreicht ist { Wiederhole für alle Trainingsvektoren } Der innere Teil kann mit c1=1 und c2=-1 geschrieben werden als: Wenn , dann Vorlesung "Intelligente Systeme"

76 Lineare Support Vektor Maschine
Wiederhole, bis Konvergenz erreicht ist { Wiederhole für alle Trainingsvektoren { } } Wenn , dann Die Lösung ist dann eine Linearkombination der Stichprobenvektoren Einsetzen in die Gleichung für die Entscheidungsebene ergibt und die Entscheidungsfunktion lautet dann Die Lern(update)-regel lautet dann im Perzeptron-Algorithmus entsprechend: Wenn , dann Vorlesung "Intelligente Systeme"

77 Lineare Support Vektor Maschine
Maximaler Rand x2 Klasse 1 x x x x x d x x . + + + + + . z + Klasse 2 + + x1 Zueinander parallele Ebenen, welche Vektoren beider Klassen trennen: Gleicher Normalenvektor, unterschiedliche Schwellwerte: oder Bestimmung von und so, dass der Abstand zwischen den parallelen Ebenen maximal wird, d.h. minimiere . Nebenbedingung: korrekte Trennung der Vektoren der beiden Klassen: Vorlesung "Intelligente Systeme"

78 Lineare Support Vektor Maschine
Bestimmung von und so, dass der Abstand zwischen den parallelen Ebenen maximal wird, d.h. minimiere oder . Nebenbedingung: korrekte Trennung der Vektoren der beiden Klassen: Die Nebenbedingungen können vereinfacht werden: Mit den nummerischen Klassenlabeln c1=1 und c2=-1 erhalten wir schließlich die folgende Optimierungsaufgabe: Minimiere unter den Randbedingungen Lösung durch „Quadratische Programmierung“ Bibliotheken Name Lizenz Beschreibung CVXOPT GLP Sprache: C, Python; API: Python OpenOpt BSD Numerisches Optimierungsframework in Python QuadProg GPL2 Sprache: R, Algorithmus von Goldfarb und Idnani (1982, 1983) Quadprog++ GPLv3 C++, Algorithmus von Goldfarb und Idnani (1982, 1983) Vorlesung "Intelligente Systeme"

79 Lineare Support Vektor Maschine
Lösung Supportvektormaschine durch Quadratische Programmierung Aufgabe: Minimiere unter den Randbedingungen Ansatz zur Quadratischen Programmierung: Lagrange-Theorie: Lösung ist Optimum der Langrange-Funktion: Optimierung einer Funktion unter den k Randbedingungen : Bilde die Lagrange-Funktion L und finde das Optimum von L. Notwendige Bedingung: stationäre Punkte von L: Vorlesung "Intelligente Systeme"

80 Lineare Support Vektor Maschine
Optimum der Langrange-Funktion: Einsetzen in L ergibt Optimiere Duale Form => Quadratische Optimierungsaufgabe: rein konvex Vorlesung "Intelligente Systeme"

81 Lineare Support Vektor Maschine
Optimiere => Quadratische Optimierungsaufgabe: rein konvex Vorlesung "Intelligente Systeme"

82 Vorlesung "Intelligente Systeme"
5. Lineare Klassifikatoren Das Perzeptron im Betrieb Gewichtsvektor w und Schwellwert w0 wurden vom Lernalgorithmus gefunden. Die Klassifikationsprozedur lautet dann: Dies kann als Netzwerk interpretiert werden: Die Elemente des Merkmalsvektors werden auf die Eingangsknoten gegeben. Jedes wird multipliziert mit den entsprechenden Gewichten der Synapsen. Die Produkte werden zusammen mit dem Schwellwert aufsummiert. Das Ergebnis wird von einer Aktivierungsfunktion f verarbeitet (z.B. +1 wenn Ergebnis > 0, -1 sonst). x1o x2o . xNo w1 w2 wN w0 S f Dieses grundlegende Netzwerk wird als Perzeptron oder Neuron bezeichnet. Vorlesung "Intelligente Systeme"

83 Vorlesung "Intelligente Systeme"
5. Lineare Klassifikatoren Perzeptron-Lernphase: Bestimmung des erweiterten Gewichtsvektors Wiederhole, bis Konvergenz erreicht ist { Wiederhole für alle Trainingsvektoren } x1o x2o . xNo w1 w2 wN w0 S f Perzeptron-Betriebsphase: Klassifikation eines (erweiterten) Merkmalsvektors Nach Konvergenz Vorlesung "Intelligente Systeme"

84 Lineare Klassifikatoren
Aufstieg und Fall des Perzeptrons 1957 – Frank Rosenblatt entwickelt Konzept des Perzeptron 1958 – Konzept-Vorstellung 1960 – Konzept-Umsetzung an der Cornell University, Ithaca, New York (USA) 1962 – Zusammenfassung der Ergebnisse in „Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” 1969 – Beweis durch Marvin Minsky und Seymour Papert, dass ein einstufiges Perzeptron den XOR-Operator nicht darstellen kann. Vorlesung "Intelligente Systeme"

85 Nicht-lineare Klassifikatoren
Das XOR-Problem Das Zweischicht-Perzeptron Eigenschaften des Zweischicht-Perzeptrons Prozedur zum Auffinden geeigneter Abbildungen mit Perzeptrons Der Backpropagation-Algorithmus Bemerkungen zum Backpropagation-Algorithmus Freiheitsgrade beim Backpropagation-Algorithmus Nicht-lineare Support-Vektor-Maschine Vorlesung "Intelligente Systeme"

86 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren In vielen praktischen Fällen sind auch optimale lineare Klassifikatoren unzureichend. Einfachstes Beispiel: Das XOR Problem. Bool´sche Operationen können als Klassifikationen aufgefasst werden: Abhängig vom binären Eingangsvektor ist der Ausgang entweder 1 (Klasse A) oder 0 (Klasse b). X1 X2 AND(X1, X2) Klasse OR(X1, X2) Klasse XOR(X1, X2) Klasse B B B B A A B A A A A B x2 x2 x2 1 B A A B 1 A 1 A B B B A B A x1 x1 1 1 1 x1 Vorlesung "Intelligente Systeme"

87 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren: Mehrschicht-Perzeptron Das zweischichtige Perzeptron Wir betrachten zunächst das OR-Gatter: Die OR-Separierung wird dargestellt durch folgende Perzeptron-Struktur: x2 x1o x2o 1 1 A A S f B A x1 x1 -1/2 Das XOR Gatter Eine offensichtliche Lösung des XOR-Problems wäre, zwei Entscheidungslinien g1(x) and g2(x) einzuzeichnen. Dann ist Klasse A auf der - Seite von g1(x) und auf der + Seite von g2(x) und Klasse B auf der + Seite von g1(x) und auf der - Seite von g2(x). Eine geeignete Kombination der Ergebnisse der beiden linearen Klassifikatoren würde also die Aufgabe erfüllen. x2 + - + - 1 A B B A 1 x1 g1(x) g2(x) Vorlesung "Intelligente Systeme"

88 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron Anderer Blickwinkel als Basis für Verallgemeinerung: Realisierung zweier Entscheidungslinien (Hyperebenen) durch Training zweier Perzeptrons mit Eingängen x1, x2 und entsprechend berechneten Gewichten. Die Perzeptrons wurden trainiert, die Ausgänge yi = f(gi(x)), i=1,2 zu liefern, Aktivierungsfunktion f: Sprungfunktion mit Werten 0 und 1. In der folgenden Tabelle sind die Ausgänge mit ihren entsprechenden Eingängen gezeigt: (x1 x2) (y1 y2) Klasse (0 0) (0 0) B (0) (0 1) (0 1) A (1) (1 0) (0 1) A (1) (1 1) (1 1) B (0) Betrachtet man (x1, x2) als Vektor x und (y1, y2) als Vektor y, definiert dies eine Abbildung von Vektor x auf Vektor y. Entscheidung über die Zugehörigkeit zu Klasse A oder B anhand der transformierten Daten y: y2 Die Abbildung überführt linear nicht separierbares Problem im Ursprungsraum in ein linear separierbares im Bildraum. A B 1 B x1 1 y1 Vorlesung "Intelligente Systeme"

89 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron Eigenschaften des Zweischicht-Perzeptrons -1/2 S f 1 x1o y1 y2 -1 +1 -1/2 S f 1 -3/2 S f x2o Die erste Schicht führt eine Transformation der Bereiche des Eingangsraumes (x1,x2) auf den + und - Seiten der geraden Entscheidungslinien g2: x1+x2-1/2=0 und g1: x1+x2-3/2=0 durch auf die Vertizes (Ecken) des Einheitsquadrates im Ausgangsraum (y1,y2). x2 y2 + - + - Die zweite Schicht führt eine Abbildung der Bereiche des (y1,y2)-Raumes auf den + und - Seiten der geraden Entscheidungslinie g3: -y1+y2-1/2=0 durch auf die Ausgangswerte 0 und 1. + - A A B B 1 1 B A B 1 x1 x1 y1 1 g1(x) g2(x) Vorlesung "Intelligente Systeme"

90 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron Dies führt zum Zweischicht-Perzeptron, welches das XOR-Problem löst: x1o 1 -1 +1 x2o -1/2 S f -3/2 f Sprungfunktion 1 S Dieses kann weiter verallgemeinert werden auf das allgemeine Zweischicht-Perzeptron oder Zweischicht-Feedforward-Netzwerk: x1o x2o . xNo O y1 O y2 O yM O Dabei bezeichnet jeder Knoten folgende Struktur: w1 . wN S f w0 Vorlesung "Intelligente Systeme"

91 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron x1o x2o . xNo O y1 O y2 O yM O Neuronen der ersten Schicht: Abbildung des Eingangsraumes auf die Vertizes eines Hyperkubus im M-dimensionalen Raum der Ausgangswerte der versteckten Neuronen. =>Jeder Eingangsvektor x wird auf einen binären Vektor y abgebildet. Komponenten yi des Abbild-Vektors y von Vektor x werden durch den Gewichtsvektor wi bestimmt. Befindet sich x auf der positiven Seite der Ebene, welche durch wi definiert ist, hat yi den Wert 1 und wenn x auf der negativen Seite der Ebene liegt, die durch wi definiert ist, hat yi den Wert 0. Wir betrachten den Fall dreier versteckter Neuronen: Drei Hyperebenen g1, g2, g3: g1 g3 g2 + - 111 011 010 110 001 000 100 Der Merkmalsraum wird in Polyeder unterteilt (Volumina, die durch Entscheidungs-Hyperebenen begrenzt werden), welche auf die Vertizes eines dreidimensionalen Kubus abgebildet werden, welche durch Tripel der binären Werte y1, y2, y3 definiert werden. 011 111 Zweite Schicht: Entscheidungshyperebene, welche die Vertizes in zwei Klassen aufteilt. Im vorliegenden Fall werden die Gebiete 111, 110, 101 und 100 in die gleiche Klasse eingeteilt. 001 101 110 000 100 Vorlesung "Intelligente Systeme"

92 Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron
Ein Zweischicht-Perzeptron kann Klassen unterteilen, die aus Vereinigung polyedrischer Bereiche bestehen. Liegen Vereinigungen solcher Bereiche vor, wird eine weitere Schicht benötigt. x1o x2o . xNo O y1,1 O y2,1 . O yM,1 O y1,2 O y2,2 . O yL,2 O Das Perzeptron kann auch erweitert werden, um Mehrklassenprobleme zu lösen. Klassenzugehörigkeits- raum Merkmalsraum : O Class wj Class wk Class wl Gj Gk Gl p3 p1 p2 p4 m1 m2 m3 Das Mehrschicht-Perzeptron löst alle Klassifikationsaufgaben, bei denen die Klassen im Merkmalsraum durch Vereinigungen von Polyedern, Vereinigungen solcher Vereinigungen, ..., gebildet werden, wenn die entsprechende Anzahl von Schichten zur Verfügung steht. Klassenzugehörigkeits- raum Merkmalsraum Vorlesung "Intelligente Systeme"

93 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron Anmerkungen: Struktur zur nicht-linearen Abbildung von Merkmalsvektoren auf Klassenzugehörigkeitsvektoren: Das Mehrschicht-Perzeptron. Verbleibende, noch zu bestimmenden Freiheitsgrade: Anzahl der Schichten, Anzahl der Neuronen pro Schicht, Aktivierungsfunktion, Gewichtswerte. Verbleibende Frage: Bei gegebenen Merkmalen und bekannten Klassenzugehörigkeiten der Stichproben-Vektoren: Welches ist die beste Anordnung von Neuronen und Gewichtsvektoren, die eine gegebene Klassifikationsaufgabe lösen? Hilfe seitens der Mathematik: Für jedes kontinuierliche Abbildungsproblem kann ein Zweischicht-Perzeptron mit einer nicht-linearen Aktivierungsfunktion und einer hinreichenden Anzahl Neuronen in der versteckten Schicht gefunden werden, welches die Abbildung mit beliebiger Genauigkeit annähert. => Freiheit, einen Satz von Aktivierungsfunktionen zu wählen, der eine einfache Lösung ermöglicht. Vorlesung "Intelligente Systeme"

94 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron Auffinden einer geeigneten Abbildung mit Perzeptrons Einmal wieder Optimierungsprozedur: Minimierung der Differenz zwischen realem Ausgang des Perzeptrons (vorausgesagte Klassenzugehörigkeit) und dem gewünschten Ausgang entsprechend der bekannten Klassenzugehörigkeiten der verfügbaren Stichprobe. Definition einer Kostenfunktion der Differenz zwischen realem und gewünschtem Ausgang. z.B. Summe der Fehlerquadrate. Minimierung der Kostenfunktion bezüglich der Perzeptron-Parameter. Vereinfachung: Definiere eine Aktivierungsfunktion. Dann braucht die Minimierung nur bezüglich der Gewichtswerte durchgeführt werden. Minimierung impliziert die Nutzung der Ableitungen der Aktivierungsfunktion. Wird die Sprungfunktion benutzt, tritt eine Unstetigkeit in der Ableitung auf. Wir ersetzen daher die Sprungfunktion durch die stetig differenzierbare logistische Funktion. f Die logistische Funktion ist eine aufgeweichte Sprungfunktion, wobei a die Steigung bei x=0 bestimmt und Damit ist die Klassenzugehörigkeit nicht mehr scharf 0 oder 1. 1 x Vorlesung "Intelligente Systeme"

95 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron Nun kann der “geeignetste” Klassifikator durch Minimierung einer Kostenfunktion bezüglich der Gewichtswerte gefunden werden. Geometrische Betrachtungsweise: Alle Gewichte (aller Schichten) spannen einen Raum auf. Die Kostenfunktion bildet dann eine Fläche über diesem Raum. => Globales Minimum dieser Fläche für die gegebene Stichprobe gesucht. Da nicht-lineare Aktivierungsfunktionen vorliegen, wird zur Suche ein iteratives Schema benutzt. Der verbreitetste Ansatz ist die Gradientenabstiegsmethode: Starte mit einem Zufalls-Gewichtsvektor w. Berechne den Gradienten der Fläche bei w. Bewege w in Richtung entgegen dem Gradienten. Wiederhole die obigen Schritte, bis ein Minimum erreicht ist, d.h. der Gradient einen Schwellwert unterschreitet. Es sei w der Gewichtsvektor von Neuron n in Schicht l: Vorlesung "Intelligente Systeme"

96 Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron
x1o x2o . xNo Neuron 2 in Schicht 3 Korrektur-Inkrement D mit Kostenfunktion J: O n21 ->y21 O n22 ->y21 . O n2A ->y21 O n31 ->y31 O n32 ->y31 . O n3A ->y31 y1 yM O : O Kostenfunktion: Summe der Abweichungen des tatsächlichen vom gewünschten Ausgang für alle K Stichprobenvektoren: l=L l=1 e: Summe der Fehlerquadrate über alle M Ausgangsneuronen: Aktivierung Neuron n in Schicht l Kettenregel: o . w1 w2 wN w0 S f y n Vorlesung "Intelligente Systeme"

97 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron o . o . Wn0l-1 n f Schicht l-1 Schicht l j f wj0l Neuron n aus Schicht l-1. Ausgang für Stichprobenvektor k: ynl-1(k). Gewichtswert zu Neuron j aus der nachfolgenden Schicht l: wjnl. Dann ist das Argument dieses Neurons j aus Schicht l: In der Ausgangsschicht ist An der Eingangsschicht gilt Definition für gegebenes Abweichungsmaß e: Diese Beziehung gilt für jede differenzierbare Kostenfunktion. Schließlich erhalten wir: Vorlesung "Intelligente Systeme"

98 Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron
Die Berechnungen beginnen an der Ausgangsschicht l=L und propagieren rückwärts durch die Schichten l=L-1, L-2, ..., 1. Bei Benutzung des Quadratfehler-Distanzmaßes erhalten wir: (1) l = L: Fehler für Muster k an Ausgangsschicht Aktivierungsfunktion Aus wird Ableitung der Aktivierungsfunktion Von folgt (2) l < L: Schwieriger wegen Einfluss von auf alle der nächsten Schicht Nochmals Kettenregel: Nach längerer Algebra erhält man folgende Gleichung: Dies vervollständigt den Gleichungssatz des Backpropagation Algorithmus. Vorlesung "Intelligente Systeme"

99 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron Der Backpropagation Gleichungssatz Fehler-Rückpropagierung Gewichtsmodifikation Vorlesung "Intelligente Systeme"

100 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron Der Backpropagation Gleichungssatz o . o . wn0l-1 n f Schicht l Schicht l-1 j f wj0l Fehler-Rückpropagierung Gewichtsmodifikation Vorlesung "Intelligente Systeme"

101 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron Der Backpropagation Algorithmus Unter der Annahme der logistischen Funktion als Aktivierungsfunktion: 1. Initialisierung Initialisiere die Gewichte des Netzwerks mit kleinen Zufallszahlen. Benutze z.B. einen Pseudozufallszahlengenerator. 2. Vorwärts-Berechnung Berechne für jeden Merkmalsvektor x(i) der Trainingsmenge alle vjl(i), yjl(i)=f(vjl(i)) und die Kostenfunktion J sowie djl(i) für die momentanen Schätzwerte der Gewichte. 3. Rückwärts-Berechnung Berechne für jedes i die djl-1(i) und aktualisiere die Gewichte für alle Schichten entsprechend: Wiederhole Schritte 2 und 3, bis der Wert von J zufriedenstellend klein ist. Vorlesung "Intelligente Systeme"

102 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron Bemerkungen zum Backpropagation Algorithmus Ausgangspunkt Mehrschicht-Perzeptrons mit Stufenfunktionen als Aktivierungsfunktionen: Operatoren zur Aufteilung des Merkmalsraums in Volumina, welche Klassenzugehörigkeiten repräsentieren. Volumina waren allgemeine Vereinigungen von Polyedern, begrenzt durch Entscheidungs-Hyperebenen. Lösungsweg Für eine gegebene endliche Stichprobe (Merkmalsvektoren mit bekannter Klassenzugehörigkeit) existiert i.A. eine unbegrenzte Anzahl möglicher Mehrschicht-Perzeptron-Realisierungen, welche die Klassifikationsaufgabe lösen. Suche nach einer eindeutigen (der besten) Lösung: Minimum einer Kostenfunktion; Wahl: Fehlerquadratsumme. Für mathematische Formulierung: Ersatz der Stufenfunktion durch die logistische Funktion als Aktivierungsfunktion. Optimierungsprozedur zur Bestimmung der Gewichtwerte für eine gegebene Stichprobe: den Backpropagation Algorithmus. Allgemeingültigkeit Satz von Kolmogoroff aus der Mathematik: Abbildungsoperatoren mit einer versteckten Schicht und nicht-linearer Abbildungsfunktion sind in der Lage, jegliche stetig differenzierbare Abbildung zu realisieren. Daraus folgt, dass wir eine einfache Methode gefunden haben, einen universellen Mustererkenner zu konstruieren. Vorlesung "Intelligente Systeme"

103 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Verallgemeinerung Mehrschicht-Perzeptron Ausgangspunkt für Konstruktion nicht-linearer Klassifikatoren war XOR-Problem. Lösung: Vektor-Abbildung x auf y: in x nicht-lineares Problem -> linear separierbares in y f: Aktivierungsfunktion und gi(x): Linearkombination der Eingänge eines jeden Neurons. x2 1 S f y1 x1o y2 1,1,0 1 0,1,0 -1/2 1 0,1,1 1,1,1 S f y2 1 1 S f x2o 0,0,0 1,0,0 y1 -1 -1/2 1 0,0,1 y3 1,0,1 1 x1 -1 y3 S f 3/2 Dies ist ein Funktionenapproximationsproblem mit einem Satz Funktionen einer ausgewählten Funktionenklasse. Vorlesung "Intelligente Systeme"

104 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Verallgemeinerung Verallgemeinerte nicht-lineare Klassifikation Bilde die Daten mit irgend welchen Funktionen in einen höher-dimensionalen Merkmalsraum ab, in welchem ein linearer Klassifikator die Stichprobe korrekt trennt. y3 Klasse 1 x2 x x x x x x x x x x Trennkurve x x x x + + + + + x + + Trennebene x + + + x + x + + x x x x + + + Klasse 2 y1 + + + + + + + x1 y2 Beispiel y2=x1x1 Trenngerade x x x xx x x x o oo oo xx x x xx o o 1 x1 x o x o x x x o 1 y1=x1 Vorlesung "Intelligente Systeme"

105 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Verallgemeinerung Verallgemeinerte nicht-lineare Klassifikation Bilde die Daten mit irgend welchen Funktionen in einen höher-dimensionalen Merkmalsraum ab, in welchem ein linearer Klassifikator die Stichprobe korrekt trennt. Verallgemeinerung: Merkmalsvektoren im d-dimensionalen Raum Rd, die zu zwei Klassen gehören, die nicht linear trennbar sind. Gegeben seien k nicht-lineare Aktivierungsfuktionen f1, f2, ..., fk, welche eine Abbildung definieren: Gesucht: Menge von Funktionen f1, f2, ..., fk, so dass die Klassen linear separierbar sind im k-dimensiona- len Raum der Vektoren y durch eine Hyperebene für die Im Ursprungsraum beide Klassen durch eine nicht-lineare Hyperfläche G(x)=0 trennbar, im Bildraum durch Hyperebene : Approximation der nicht-linearen Fläche G(x) mit einer Linearkombination der f(x). f muss nicht-linear sein, sonst nur Translation, Skalierung und Rotation (ungenügend). Dies ist ein Funktionenapproximationsproblem mit einem Satz Funktionen einer ausgewählten Funktionenklasse. Vorlesung "Intelligente Systeme"

106 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : Verallgemeinerung Dies entspricht einem Zweischicht-Netzwerk mit Aktivierungsfunktionen f1, f2, ..., fk. Die Äquivalenz wird leicht erkannt im (künstlichen) Fall jeweils eines Ein- und Ausgangsneurons: O f1 O f2 . O fM O w1,1 w1,2 . w1,M w2,1 w2,2 . w2,M x y Das bislang betrachtete Perzeptron benutzte als Funktionenklasse die logistischen Funktionen: y w0 x Zwei weitere Klassen haben in der Mustererkennung spezielle Bedeutung: Polynome Gaußfunktionen Polynomklassifikatoren Radiale-Basisfunktionen-Netze Vorlesung "Intelligente Systeme"

107 Vorlesung "Intelligente Systeme"
Nicht-lineare Klassifikatoren : SVM Höher-dimensionaler Merkmalsraum : Es können komplexe Funktionen durch Schichtstruktur linearer Funktionen oder nicht-lineare Basisfunktionen abgebildet werden. Nachteile: Fluch der Dimensionalität Berechnungskomplexität hoch-dimensionaler Vektoren Lösung: Darstellung komplexer Funktionen in dualer Form: Benutzung von Kernelfunktionen , deren Wert das Skalarprodukt der Bildwerte der Argumente ist. Vorlesung "Intelligente Systeme"

108 Vorlesung "Intelligente Systeme"
Nicht-parametrische Methoden Nächster-Nachbar-Klassifikator Nächste-Nachbar-Regel Gegeben sei eine Stichprobe aus N Mustervektoren (Prototypen) und zugehörigen Klassenzugehörigkeiten (Label) Ein unbekanntes Muster ist zu klassifizieren. Regel: Es wird ihm die Klasse des ihm nächstliegenden Prototypen zugeordnet. Wirkung im Merkmalsraum: Aufteilung in Voronoi-Zellen Große Zellen (grobe Auflösung) wo Musterdichte gering Kleine Zellen (feine Auflösung) wo Musterdichte hoch Klasse 1 Klasse 2 Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Ó Wiley-Interscience Vorlesung "Intelligente Systeme"

109 Vorlesung "Intelligente Systeme"
Nicht-parametrische Methoden K-Nächste-Nachbar-Klassifikator Gegeben sei eine Stichprobe aus N Mustervektoren (Prototypen) und zugehörigen Klassenzugehörigkeiten (Label) Ein unbekanntes Muster ist zu klassifizieren. Regel: Eine Hyperkugel wird um herum solange vergrößert, bis k Prototypen darin enthalten sind. Es wird die Klasse der einfachen Mehrheit dieser k nächsten Prototypen zugeordnet. Zwei-dmensionaler Merkmalsraum, Zwei-Klassenproblem, k=5 Klasse 1 Klasse 2 Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Ó Wiley-Interscience Vorlesung "Intelligente Systeme"

110 Vorlesung "Intelligente Systeme"
Nicht-parametrische Methoden K-Nächste-Nachbar-Klassifikator Vergleich mit Bayes: Entscheidungsfehler E Für k=3, großes N und kleinen Bayes-Fehler gute Approximation für Bayes. Weitere Verbesserung im Limes für größeres k. Vorteil: Kein Training erforderlich Nachteil: Komplexität hoch: Speicherbedarf O(N), Abstandsberechnung O(Dimension), Suche kleinster Abstand O(d*N2) bis O(d*N*lnN). => Effizienzsteigerung durch Verdichtung der Stichprobe Vorlesung "Intelligente Systeme"

111 Vorlesung "Intelligente Systeme"
Nicht-parametrische Methoden Nächste-Nachbar-Klassifikator Effizienzsteigerung durch Verdichtung der Stichprobe Kein Beitrag eines Prototypen xi zur Klassifikation, wenn seine Voronoi-Zelle nur Nachbarzellen mit seiner eigenen Klassenzugehörigkeit besitzt. Elimination überflüssiger Elemente in der Stichprobe: Falls im Voronoi-Diagramm die Nachbarzellen der Zelle von xi die gleiche Klassenzugehörigkeit wie aufweisen, kann der Prototyp xi aus der Stichprobe entfernt werden, ohne dass die Fehlerrate des NN-Klassifikators verändert wird. Vorlesung "Intelligente Systeme"

112 Vorlesung "Intelligente Systeme"
Nicht-parametrische Methoden Nächste-Nachbar-Klassifikator Effizienzsteigerung durch Verdichtung der Stichprobe Vorlesung "Intelligente Systeme"

113 Vorlesung "Intelligente Systeme"
Merkmalsvorverarbeitung und -auswahl Bei der Gesichtserkennung haben wir für jede Person eine Menge an Stichproben-mustern (z.B. Grauwertbilder) mit be-kannter Klassenzugehörigkeit (z.B. Name als Klassenlabel). Rechts ist ein Zweiklassenproblem (Identifikation) dargestellt. Bei der Konstruktion eines Klassifikators ist die erste Frage: Was ist die beste Menge an Merkmalen (aus Messungen im Bild zu extrahieren) um dem Klassifikator eine richtige und robuste Klassifikation zu ermöglichen? Die einfachste Wahl der direkten Verwendung der Grauwerte aller Pixel ist keine gute Wahl, da sie einen 64K-komponentigen Merkmalsvektor für 256x256 pixel Bilder erzeugt und der Merlmalsvektor selbst bei Verschiebungen von nur einem Pixel wesentlich gedreht wird. Person P Klassifikation P nicht P Vorlesung "Intelligente Systeme"

114 Vorlesung "Intelligente Systeme"
Merkmalsvorverarbeitung und -auswahl Zunächst wird alles verfügbare a priori Wissen genutzt, wie z.B.: Korrigiere zuerst alle Verzerrungen, die bekannt sind oder in den Mustern selbst gemessen werden können. Eliminiere dann sämtliches Rauschen und alle Störungen, die nicht vom Objekt herrühren. Entferne Elemente aus den Mustern, die innerhalb einer Klasse stark variieren können oder instabil sind (z.B. hochfrequ. Komp. in Gesichtserkennung). Nach den obigen Filterungen und Transformationen folgt eine eventuelle Vorverarbeitung der Stichprobe mittels Entfernung von Ausreissern, Datennormierung und Substituierung fehlender Daten. Letztlich werden robuste, meßbare Merkmale mit hoher Trennbarkeit ausgewählt durch entweder Nutzung von Modellwissen oder Statistische Analyse Vorlesung "Intelligente Systeme"

115 Vorlesung "Intelligente Systeme"
Merkmalsvorverarbeitung und -auswahl Vorverarbeitung durch Entfernung von Ausreißern Ausreißer: Punkt, der weit entfernt liegt vom Mittelwert einer Zufallsvariablen. Mögliche Ursachen: Meßfehler, Stichprobenwert aus dem „Außenbereich“ der Verteilung erwischt, Stichprobe besitzt lange „Außenbereiche”. Um das Problem anzugehen, sollte eine hinreichend große Stichprobe vorliegen, um statistisch signifikant Mittelwert und Standardabweichung berechnen zu können, eine gute Schätzung der Verteilung zu ermöglichen. Für eine normalverteilte Zufallsvariable mit Standardabwei- chung s, deckt die Fläche um 2s um den Mittelwert 95% und um 3s 99% aller Punkte ab. Noch weiter entfernte Punkte sind höchstwahrscheinlich Fehl- messungen und erzeugen beim Training große Fehler. Solche Punkte sollten entfernt werden. Ist die Anzahl der Ausreißer nicht klein, kann dies durch eine breite Verteilungsfunktion bedingt sein. Dann gibt die Quadratfehlersummen-Kostenfunktion den außen- liegenden Werten zuviel Gewicht (wegen der Quadrierung) und es sollte eine geeignetere Kostenfunktion (Kreuz-Entropie) gewählt werden. p xo x xm p xm+2s xm xm+s xo x p xo x xm Vorlesung "Intelligente Systeme"

116 Vorlesung "Intelligente Systeme"
Merkmalsvorverarbeitung und -auswahl Vorverarbeitung durch Datennormierung Der Meßprozeß zur Extraktion von Primärmerkmalen aus den Mustern kann in sehr unterschiedlichen dynamischen Bereichen für die verschiedenen Merkmale resultieren. So kann beim Punktschweißen die Schweißspannung von 0 V bis 1 kV variieren, der Schweißstrom (bei einer Konstantstromsteuerung) lediglich von 1,8 kA bis 1,9 kA. Problem: Merkmale mit großen Werten haben mehr Einfluß auf die Kostenfunktion als Merkmale mit kleinen Werten, was nicht unbedingt ihre Signifikanz widerspiegelt. Lösung: Normierung der Merkmale derart, dass die Werte aller Merkmale in ähnlichen Bereichen liegen. Maßnahme: Normierung mit den jeweiligen Schätzwerten von Mittelwert und Varianz: Angenommen, wir haben eine Stichprobe aus N Daten des Merkmals f, dann Nach der Normierung haben alle Merkmale den Mittelwert Null und Einheitsvarianz. Vorlesung "Intelligente Systeme"

117 Vorlesung "Intelligente Systeme"
Merkmalsvorverarbeitung und -auswahl Die obige Methode ist linear. Sind die Daten nicht gleichmäßig um den Mittelwert verteilt, sind nicht-lineare Normierungen angezeigt. Diese können logarithmische oder logistische Funktionen sein, welche die Daten in vorgegebene Intervalle abbilden. Das softmax scaling ist ein weit verbreiteter Ansatz: Dies begrenzt den Bereich auf das Intervall [0,1]. Für kleine Werte des Arguments ergibt sich wieder eine lineare Methode. Der Grad der nicht-linearen Stauchung hängt vom Wert von s und vom Parameter r ab. Vorlesung "Intelligente Systeme"

118 Vorlesung "Intelligente Systeme"
Merkmalsvorverarbeitung und -auswahl Vorverarbeitung durch Ergänzung fehlender Daten Problem: Manchmal ist die Anzahl verfügbarer Daten nicht für alle Merkmale gleich (z.B. asynchrone Messungen unterschiedlicher Frequenz). Für das Training wird jedoch die gleiche Anzahl von Daten für alle Merkmale benötigt. Lösung: Wenn wir über viele Trainingsdaten verfügen und nur einige Messungen von Merkmalswerten fehlen, können Merkmalsvektoren mit fehlenden Elementen aus dem Trainingsdatensatz herausgenommen werden. Wenn wir uns den Luxus des Wegwerfens von Merkmalsvektoren nicht leisten können, müssen wir die fehlenden Werte durch Schätzwerte ersetzen: Mittelwert der verfügbaren Merkmalswerte, Interpolationswert zwischen Vorgänger und Nachfolger Schätzwert aus der zugrundeliegenden Verteilung (wenn verfügbar) Vorlesung "Intelligente Systeme"

119 Vorlesung "Intelligente Systeme"
Merkmalsvorverarbeitung und -auswahl Bewertung und Auswahl von Merkmalen 1. Einzelmerkmale Um einen ersten Eindruck von den ausgewählten Merkmalen zu erhalten, ist es nützlich, die Trennfähigkeit eines jeden einzelnen Merkmals zu betrachten. Dieses Vorgehen filtert Merkmale heraus, die keine Information über Klassenzugehörigkeiten enthalten. 2. Merkmalskombination Danach ist die beste Kombination der übrig gebliebenen Merkmale zu einem Merkmalsvektor zu betrachten. Vorlesung "Intelligente Systeme"

120 Vorlesung "Intelligente Systeme"
Merkmalsvorverarbeitung und -auswahl Einzelmerkmals-Auswahl: t-Test für die Merkmalsauswahl Angenommen, wir haben ein Zweiklassenproblem und es sei das betrachtete Merkmal eine Zufallsvariable, dann lautet die Aufgabe, die folgenden Hypothesen zu testen: H1: Die Merkmalswerte unterscheiden sich nicht wesentlich für unterschiedliche Klassen. H0: Die Merkmalswerte unterscheiden sich wesentlich für unterschiedliche Klassen. H0 ist dabei die Nullhypothese und H1 die Alternativhypothese. Angenommen, Merkmal x gehört zu einer bekannten Familie von Wahrscheinlichkeitsverteilungsfunktionen mit einem unbekannten Parameter µ. Im Falle Gaußscher Verteilungen kann µ der Mittelwert oder die Varianz sein. Wenn bekannt ist, daß die Varianz denselben Wert s hat, lautet die Frage, ob sich die Mittelwerte µ1 und µ2 des Merkmals x für die beiden Klassen wesentlich unterscheiden. H1: Dµ = µ1 - µ2 ¹ 0, H0: Dµ = µ1 - µ2 = 0 Werden die Werte von x für die Klasse 1 mit X und für Klasse 2 mit Y bezeichnet, definieren wir Z=X-Y. Dann können wir die Stichprobe für z verwenden, um auf die Dµ Hypothese hin zu testen und einen t-Test durchführen mit Vorlesung "Intelligente Systeme"

121 Vorlesung "Intelligente Systeme"
Merkmalsvorverarbeitung und -auswahl Klassentrennbarkeit : Receiver operating characteristics Kurve Prüfung bislang auf wesentlichen Unterschied der Mittelwerte eines Merkmals zweier Klassen: Merkmale mit ungefähr gleichem Mittelwert werden ausgeschlossen. Maß für Unterscheidungsfähigkeit eines Merkmals: ROC (Zusätzliche Betrachtung des Überlapps der Wahrscheinlichkeitsverteilungsfunktionen für die beiden Klassen). Wir können einen Schwellwert zwischen beiden Klassen definieren: p Schwellwert Klasse1 Klasse2 p Klasse1 Klasse2 1-a a x Xm Ym b x 1-b Wahrscheinlichkeit einer falschen Entscheidung über die Klasse1-Zugehörigkeit: Fläche a unter der oberen Kurve rechts vom Schwellwert; Wahrscheinlichkeit einer korrekten Entscheidung 1- a. Entsprechend für Klasse2: b und 1-b. Die Variation des Schwellwerts ergibt die ROC Kurve: Bei vollständigem Überlapp ist a = 1-b (Diagonale), ohne Überlapp ist 1-b = 1 unabhängig von a, ansonsten erhalten wir eine Kurve wie im Diagramm. Die Fläche zwischen dieser Kurve und der Dia- gonale ist ein Überlapp-Maß zwischen 0 und 0,5. Die ROC Kurve: Durchfahren des Wertebereichs von x mit dem Schwellwert und Berechnung und Auftragung von a = 1-b im Diagramm. 1-b 1 A a 1 Vorlesung "Intelligente Systeme"

122 Vorlesung "Intelligente Systeme"
Merkmalsvorverarbeitung und -auswahl Merkmalsvektor-Klassentrennbarkeitsmaße Die bisherigen Betrachtungen sind nicht geeignet, die Korrelationen zwischen Merkmalen zu berücksichtigen, die üblicherweise bestehen und die Unterscheidungseffizienz eines Merkmalsvektors beeinflussen. 1. Divergenz (Kullback-Leibler) Gegeben seien zwei Klassen c1 und c2. Gemäß der Bayes´schen Regel wird ein Merkmalsvektor x zugeordnet zu c1 wenn P(c1|x) > P(c2|x). Unterscheidbarkeit d für eine Merkmalsausprägung x: d(x)=ln[p(c1|x)/p(c2|x)]. Mittelwerte von d: Symmetrische Kombination: Divergenz d Vorlesung "Intelligente Systeme"

123 Vorlesung "Intelligente Systeme"
Merkmalsvorverarbeitung und -auswahl Merkmalsvektor-Klassentrennbarkeitsmaße Divergenz bei Normalverteilungen Für mehrdimensionale Gaussfunktionen mit Mittelwertvektoren m und Kovarianzmartizen S Vorlesung "Intelligente Systeme"

124 Vorlesung "Intelligente Systeme"
Merkmalsvorverarbeitung und -auswahl Mit ist Divergenz dann gleich was sich im eindimensionalen Fall reduziert zu Verallgemeinerung auf Mehrklassen-Trennbarkeitsmaß M: Anzahl der Klassen Vorlesung "Intelligente Systeme"

125 Vorlesung "Intelligente Systeme"
Merkmalsvorverarbeitung und -auswahl 2. Fishers discriminant ratio Das FDR Maß basiert auf der sogenannten Streumatrix-Methode. Für Zweiklassenprobleme in einer Dimension (ein Merkmal) hat die FDR folgende Form: Für Mehrklassenprobleme können mittelnde Formen der FDR benutzt werden: wobei die Indizes i und j sich auf Mittelwert und Varianz (des betrachteten Merkmals) für die Klassen ci und cj beziehen. 3. Weitere Klassentrennbarkeitsmaße Chernoff Rand und Brattcharrya Distanz. Die Mahalanobis-Distanz ist ein Spezialfall von (1.), wobei die Wahrscheinlichkeitsverteilungsfunktionen gleiche Kovarianzmatrizen besitzen. Vorlesung "Intelligente Systeme"

126 Vorlesung "Intelligente Systeme"
Merkmalsvorverarbeitung und -auswahl 4. Visualisierung des Merkmalsraumes mit entsprechenden Werkzeugen Vorlesung "Intelligente Systeme"

127 Vorlesung "Intelligente Systeme"
Merkmalsauswahl Merkmalsvektorauswahl Um den optimalen Merkmalsvektor aufzufinden, könnten wir eine vollständige Suche unter allen Kombinationen von l Merkmalen aus m möglichen durchführen. Wir würden die beste Kombination bezüglich eines bestimmten Trennbarkeitsmaßes suchen. Für große Werte von m kann dies ein ernsthaftes kombinatorisches Problem werden, da Beispiel: vollständige Suche nach Kombination der 5 besten Merkmale von 20 ergibt zu untersuchende Kombinationen. Aus diesem Grund gibt es viele Suchtechniken wie - Sequential forward selection 1. Bestes Einzelmerkmal M1 2. Beste Kombination von M1 mit einem weiteren Merkmal: M1,M2 3. Beste Kombination von M1,M2 mit einem weiteren Merkmal: M1,M2,M3 … bis gewünschte Leistung erreicht ist. Anzahl zu untersuchender Kombinationen: l+(l-1)+(l-2)+…+(l-m-1). - Genetische Algorithmen Vorlesung "Intelligente Systeme"

128 Vorlesung "Intelligente Systeme"
Merkmalsauswahl Merkmalserzeugung Merkmale können rohe Meßwerte der zugrundeliegenden Muster sein. Dies kann zu sehr hochdimensionalen Merkmalsvektoren führen mit stark korrelierten Merkmalen und folgedessen Redundanz der Information. Die Aufgabe der Merkmalserzeugung ist die Beseitigung dieser Redundanzen durch Transformationen der rohen Meßwerte auf neue Koordinaten und die Auswahl nur solcher Koordinaten als neue Merkmale, die den höchsten Grad an Information beinhalten. Dies sollte zu einer Kompression der klassifikationsrelevanten Information in eine relativ kleine Anzahl von Merkmalen führen. Z.B. genügt bei der Gesichtserkennung eine Transformation auf ein System aus 50 „Eigengesichtern“ um alle Gesichter mit ausreichender Genauigkeit zu beschreiben, während die Ursprungsbilder aus z.B Werten bestehen. Lineare Transformationen Karhunen-Loève (Eigenvektor-Zerlegung) Singulärwertzerlegung Fourier-Transformation Hadamard Transformation Wavelet Transformation ... Signaleigenschaften Invariante Momente, Textur, Rauhigkeit,.... Anwendungsbeispiel Qualitätskontrolle beim Widerstands-Punktschweißen Inkl. Merkmalserzeugung und Merkmalsauswahl Vorlesung "Intelligente Systeme"

129 Vorlesung "Intelligente Systeme"
Hauptkomponenten-Transformation Zwei ursprüngliche Merkmale x1 und x2 sind der Stichprobenverteilung nicht gut angepasst. Besser x1´ und x2´ : Zur Beschreibung genügt x1´: Linearer Unterraum von x1, x2. x2 x´1 x´2 x´2 h x1 h Vorlesung "Intelligente Systeme"

130 Vorlesung "Intelligente Systeme"
Hauptkomponenten-Transformation x2 x´1 x´2 x´2 2. Drehung auf Richtung maximaler Varianz 1. Verschiebung in den Schwerpunkt h x1 h Vorlesung "Intelligente Systeme"

131 Vorlesung "Intelligente Systeme"
Hauptkomponenten-Transformation x2 14,00 12,00 10,00 8,00 6,00 4,00 2,00 0,00 h x1 0,00 5,00 10,00 15,00 h Vorlesung "Intelligente Systeme"

132 Vorlesung "Intelligente Systeme"
Hauptkomponenten-Transformation 1. Allgemeines Vorgehen Muster-Stichprobe Schätzung Schwerpunkt Empirische Kovarianz-Matrix Hauptachsen und Hauptachsenabschnitte durch Diagonalisierung von K und davon Eigenwerte, Eigenvektoren Vorlesung "Intelligente Systeme"

133 Vorlesung "Intelligente Systeme"
Hauptkomponenten-Transformation x2 0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 5,00 15,00 Muster-Stichprobe Schätzung Schwerpunkt h x1 Empirische Kovarianz-Matrix h Vorlesung "Intelligente Systeme"

134 Vorlesung "Intelligente Systeme"
Hauptkomponenten-Transformation x2 Empirische Kovarianz-Matrix Hauptachsen und Hauptachsenabschnitte 0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 5,00 15,00 1. Charakteristisches Polynom null setzen: Nullstellen sind gesuchte Eigenwerte. 2. Eigenvektoren durch Einsetzen in und Lösen von h x1 Vorlesung "Intelligente Systeme"

135 Vorlesung "Intelligente Systeme"
Hauptkomponenten-Transformation 2. Singulärwert-Zerlegung SVD von Y 3. Eigenwert-Zerlegung von Vorlesung "Intelligente Systeme"

136 Vorlesung "Intelligente Systeme"
Hauptkomponenten-Transformation 4. Vorgehen zur Lösung der PCA 1. I) II) III) wenn N > m, dann I), wenn N < m, dann III) Bemerkung: Vorlesung "Intelligente Systeme"

137 Vorlesung "Intelligente Systeme"
Jede m x n – Matrix mit m > n kann geschrieben werden als Produkt einer m x m, spalten-normalen Matrix , einer positiv semi-definiten n x n Diagonalmatrix und der Transponierten einer n x n normalen Matrix . Vorlesung "Intelligente Systeme"

138 Vorlesung "Intelligente Systeme"
Hauptkomponenten-Transformation 5. Beispiel: Eigengesichter Hauptachsen und Hauptachsenabschnitte Sortieren nach Hauptachsenabschnitten (relative Relevanz) Abschneiden ab Schwellwert Zugehörige Eigenvektoren: Hauptkomponenten (neue Basis) “Durchschnitts-gesicht” “Eigengesichter” Vorlesung "Intelligente Systeme"

139 Vorlesung "Intelligente Systeme"
Hauptkomponenten-Transformation Merkmalsgewinnung: Subtraktion des Schwerpunkts vom Eingangsmuster Projektion des Ergebnisses auf die Hauptkomponenten Vorlesung "Intelligente Systeme"

140 Einbringen von a priori Wissen
Bisher: Erlernen einer Abbildung Anhand einer bekannten Stichprobe Jetzt: Nutzung von a priori Wissen a) Nur bestimmte zeitliche Abfolgen sind möglich Zeitdiskrete Prozesse: Hidden-Markov-Modelle b) Kausale Zusammenhänge sind bekannt oder vermutet: Bayesian Belief Networks c) Randbedingungen für die Lösung sind bekannt: Kostenfunktion-Regularisierung Muster Klassenzugehörigkeit |1|5|7|8|3|4| |1|0|0| Muster 1 Klassenzugehörigkeit 1 . : Muster N Klassenzugehörigkeit N Vorlesung "Intelligente Systeme"

141 Vorlesung "Intelligente Systeme"
Literatur R. O. Duda, P. E. Hart, D. G. Stork: Pattern Classification, 2nd ed., Wiley, New York 2001 C. M. Bishop: Pattern Recognition and Machine Learning, Springer, Berlin 2004 Weitere Literaturangaben unter /BeschrIntelliSys.htm Vorlesung "Intelligente Systeme"


Herunterladen ppt "0. Intelligente Systeme – Beispiele und Fähigkeiten"

Ähnliche Präsentationen


Google-Anzeigen