Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Intelligente Systeme - Wissen aus Daten gewinnen Prof. Dr. Norbert Link Fachhochschule.

Ähnliche Präsentationen


Präsentation zum Thema: "Intelligente Systeme - Wissen aus Daten gewinnen Prof. Dr. Norbert Link Fachhochschule."—  Präsentation transkript:

1 Intelligente Systeme - Wissen aus Daten gewinnen Prof. Dr. Norbert Link Fachhochschule Karlsruhe – Hochschule für Technik Fachbereich Informatik

2 Vorlesung "Intelligente Systeme"2 Intelligente Systeme - Inhaltsverzeichnis 1. Was leisten intelligente Systeme ? 4  Selbstexperimente4  Analyse der Selbstexperimente9  Beispielanwendungen14  Intelligente Systeme und deren Aufgabe Ein vereinfachtes System-Beispiel 22 Motordiagnose für Verbrennungskraftmaschine 3. Statistische Fundamente 44  Bayes´sche Entscheidungstheorie 44  Mehr als ein Merkmal49  Mehrere Merkmale, mehrere Klassen53  Entscheidungsfunktionen und –flächen56  Wie weiter ?68 4. Entscheidungsflächen und –funktionen 69

3 Vorlesung "Intelligente Systeme"3 Intelligente Systeme - Inhaltsverzeichnis 5. Lineare Klassifikatoren 72  Grundlagen73  Das Perzeptron76  Lineare Klassifikation nicht linear trennbarer Klassen87  Lineare Separierung von mehr als zwei Klassen88  Kleinste-Quadrate-Klassifikatoren96  Stochastische Approximation und der LMS Algorithmus Nicht-lineare Klassifikatoren 109  Mehrschicht-Perzeptrons110  Backpropagation-Algorithmus118  Netzgröße und –struktur127  Konvergenzverhalten und Beschleunigung136  Lernstrategien134  Alternative Kosten- und Aktivierungsfunktionen137

4 Vorlesung "Intelligente Systeme"4 Intelligente Systeme - Inhaltsverzeichnis 7. Merkmalsvorverarbeitung und -auswahl 140  Merkmalsvorverarbeitung141  Merkmalsbewertung und -auswahl Merkmalserzeugung 156  Hauptkomponententransformation157  Signalabtastung und Frequenzraumdarstellung Einbringen von a priori Wissen 174  Zeitdiskrete Prozesse: Hidden-Markov-Modelle175  Kausale Zusammenhänge: Bayesian Belief Networks185  Randbedingungen: Kostenfunktion-Regularisierung Nicht-parametrische Klassifikatoren 197 k-NN Klassifikatoren Selbst-organisierende Karten 203 Kohonen-Karten204

5 Vorlesung "Intelligente Systeme"5 1. Leistung intelligenter Systeme Vorschau über das Kapitel  Selbstversuche  Analyse der Selbstversuche  Beispiel-Anwendungen  Schlussfolgerungen aus den Beispielen

6 Vorlesung "Intelligente Systeme"6 1. Leistung intelligenter Systeme Intelligenz Intelligenz (lat.: intelligentia = "Einsicht, Erkenntnisvermögen", intellegere = "verstehen") bezeichnet im weitesten Sinne die Fähigkeit zum Erkennen von Zusammenhängen und zum Finden von optimalen Problemlösungen.lat.ErkenntnisvermögenProblemlösungen Künstliche IntelligenzKünstliche Intelligenz (KI) bezeichnet die mechanisch-elektronische Nachbildung menschlicher Intelligenz innerhalb der Informatik. Die KI findet zunehmend Einsatz in der ingenieurwissenschaftlichen oder medizinischen Technik. Mögliche Anwendungsszenarien sind: Optimierungsprobleme (Reiseplanung, Schienenverkehr), Umgang mit natürlicher Sprache (automatisches Sprachverstehen, automatisches Übersetzen, Suchmaschinen im Internet), Umgang mit natürlichen Signalen (Bildverstehen und Mustererkennung).InformatikTechnikReiseplanung Schienenverkehrautomatisches Sprachverstehen automatisches ÜbersetzenSuchmaschinenBildverstehenMustererkennung

7 Vorlesung "Intelligente Systeme"7 1. Leistung intelligenter Systeme Selbstversuch 1  Hören Sie sich die folgenden Geräusche an. Was hören Sie ? Erstes BeispielMusik Zweites BeispielEin Tier Drittes Beispiel Eine Maschine

8 Vorlesung "Intelligente Systeme"8 1. Leistung intelligenter Systeme Selbstversuch 2  Hören Sie sich die folgenden Geräusche an. Welches Musikinstrument hören Sie ? Hammond-Orgel Trommeln (Congas) Elektrische Gitarre Erstes Beispiel Zweites Beispiel Drittes Beispiel

9 Vorlesung "Intelligente Systeme"9 1. Leistung intelligenter Systeme Selbstversuch 3  Hören Sie sich die folgenden Geräusche an. Welches Tier hören Sie ? Elephant Affe Flugzeug-Landeklappe Ihr Mustererkennungssystem wurde vermutlich durch eine falsche Erwartung getäuscht. Erstes Beispiel Zweites Beispiel Drittes Beispiel

10 Vorlesung "Intelligente Systeme"10 1. Leistung intelligenter Systeme Selbstversuch 4  Hören Sie sich die folgenden Sounds an. Welchen Unterschied detektieren Sie ? Erstes BeispielZweites BeispielDrittes Beispiel Propellerflugzeug 500 rpm 1200 rpm 1800 rpm

11 Vorlesung "Intelligente Systeme"11 1. Leistung intelligenter Systeme Selbstversuche Ergebnis In Begriffen der Mustererkennung haben Sie saubere Arbeit geleistet: 1) in Schall-Klassifikation und 2) in Größen-Schätzung aus Schallsignalen Letzteres haben Sie wahrscheinlich auch erkannt.

12 Vorlesung "Intelligente Systeme"12 1. Leistung intelligenter Systeme Analyse der Selbstversuche Schall- quelle Druck- wellen Ohr Nerven- signal Was ist bei Ihnen vorgegangen ? Verarbeitung Im Gehirn Musik Tier-Geräusch Motor-Geräusch Klassen- zugehörigkeit SignalDatenSemantik

13 Vorlesung "Intelligente Systeme"13 1. Leistung intelligenter Systeme Analyse der Selbstversuche Technologisches Äquivalent ObjektGeräusch Primär- signal Mikrophon Wandler (Sensor) El. Spannung Sekundär- signal Filter/Ampl. Signalauf- bereitung Spannung Sensorsystem Output Klassifikator Mustererkennungs- gerät rpm zu niedrig0.06 Klasse 1 Wahrscheinlichkeit rpm ok0.92 Klasse 2 Wahrscheinlichkeit rpm zu hoch0.02 Klasse 3 Wahrscheinlichkeit

14 Vorlesung "Intelligente Systeme"14 1. Leistung intelligenter Systeme Analyse der Selbstversuche Klassifikator Mustererkennungs- gerät rpm zu niedrig Klasse 1 rpm ok Klasse 2 rpm zu hoch Klasse Ein “rpm aus Geräusch” Klassifikator könnte so funktionieren:

15 Vorlesung "Intelligente Systeme"15 1. Leistung intelligenter Systeme Zusammenfassung unserer Selbstversuch-Erfahrung Wir haben das Vorliegen einer bestimmten Unterklasse aus einer möglichen Menge einer Oberklasse anhand eines Teilaspekts (Geräusch, Bild, …) festgestellt. Die Klassenzugehörigkeit ist mit Semantik verbunden. Das Ergebnis (Bestimmung der Unterklasse) hing ab von der Aufgabe (Vorgabe der Oberklasse). Die Aufgabe bestimmte somit die Menge der möglichen Unterklassen. Wird die Oberklasse falsch angegeben, sind die Ergebnisse i.A. falsch. Die Menge der Unterklassen war diskret oder kontinuierlich.

16 Vorlesung "Intelligente Systeme"16 1. Leistung intelligenter Systeme Beispiel-Anwendungen Dies war keine scharfe Definition, sondern nur ein Hinweis, was Mustererkennung sein könnte. Bevor wir zu systematischen Ansätzen übergehen, lernen wir noch etwas aus Beispielen. Geschmack oder elektrochemische Potentiale Spektren Bilder Symbolische Information

17 Vorlesung "Intelligente Systeme"17 1. Leistung intelligenter Systeme Beispiel-Anwendungen Geschmack oder elektrochemische Potentiale Soft drink Merkmal Süße Säure Bitterkeit Schärfe Bier Ausprägung xxxxxxxxxxxxxx xxxxxxxxx xxxxxxxxx Geschmack ist die Antwort eines Nervs auf das chemische Potential µ bestimmter Substanzen. Kombinationen von µ-Sensoren werden genutzt, um das Vorhandensein und die Konzentration einer Menge von Substanzen zu festzustellen.

18 Vorlesung "Intelligente Systeme"18 1. Leistung intelligenter Systeme Beispiel-Anwendungen A t A t A t A t  t  t  t  t Signale Schallsignale: Spracherkennung, Maschinendiagn. Infrarotspektren: Gasmoleküle, pharmazeut. Produktion EKG/EEG: medizinische Diagnostik, HMI Chromatographie: Genanalyse “auf”“ab”“Auswahl”“zurück”

19 Vorlesung "Intelligente Systeme"19 1. Leistung intelligenter Systeme Spracherkennung Good morning ladies and gentlemen I’m the above

20 Vorlesung "Intelligente Systeme"20 1. Leistung intelligenter Systeme Beispiel-Anwendungen Verifikation der Personen-Identität 1. Identifikation (mittels Name oder Magnetkarte) 2. Schnappschuss des Gesichts 3. Extraktion eines Merkmalsmusters 4. Abruf des Merkmalsmusters der Person aus Datenbank 5. Vergleich der Muster 6. Schwellwert: Erkennung Korrelation c Wenn c > Schwelle, dann Identität ok Bilder

21 Vorlesung "Intelligente Systeme"21 1. Leistung intelligenter Systeme Gesichtsdetektion

22 Vorlesung "Intelligente Systeme"22 1. Leistung intelligenter Systeme Beispiel-Anwendungen Symbolische Information Kundenprofile M1: Wert pro Einkaufxxxxxxxxx M2: Jährliche Einkäufexxxx M3: Reklamationenxxxxx M4: Zahlgeschwindigkeitxxxxx M5: Akquisitionsaufwandxxxxxxxx Klassegutschlecht Ausprägung M1 M2 M3 M4 M5 Merkmal Ausprägung M1 M2 M3 M4 M5 Merkmal Merkmale

23 Vorlesung "Intelligente Systeme"23 1. Leistung intelligenter Systeme Intelligente Systeme und deren Aufgabe Das intelligente System kann verschiedene Aufgaben haben. Syntaktischer Analysator Wert einer linguistischen Variablen Estimator Wert einer „physikalischen“ Variablen Klassifikator Klassenzugehörigkeit Die Eingabe kann aus verschiedenen Quellen kommen. Die Ausgabe kann unter- schiedlicher Art sein. Name Wert kont. Wert diskret Mustererkennungs-Apparat Ein „intelligentes System“ W3W3

24 Vorlesung "Intelligente Systeme"24 1. Leistung intelligenter Systeme Intelligente Systeme und deren Aufgabe Klasse w j Klasse w k Klasse w l Beschreibungs- (Zustands-)raum C Zugänglicher Musterraum P Beobachtungs- oder Meßraum F G j + j G k + k G l + l p3p3 p1p1 p2p2 p4p4 m1m1 m2m2 m3m3 Abbildung 1 Abbildung 2 Informationsgewinnung M+ M Erste Aufgabe eines intelligenten Systems: Informationsgewinnung

25 Vorlesung "Intelligente Systeme"25 1. Leistung intelligenter Systeme Zweck intelligenter Systeme: Situationserkennung Erste Stufe in der Interaktion mit Objekten Interaktion mit Objekten: Reaktion und Beeinflussung Erste Situationserkennungs-Aufgabe: Identifikation 1.Identifiziere die Klasse eines Objekts anhand eines Teilaspekts 2.Stelle den Zustand bzw. die aktiven Methoden anhand einer Äußerung des Objekts fest. Folgeaktionen: Rufe aus einer Datenbank alle für eine Reaktion bzw. Beeinflussung nötigen Aspekte der Klasse ab: Reaktion: Ablauf der aktiven Methode, Aktivitäten des aktuellen Zustands Beeinflussung: Menge und Aufruf der Methoden, mögliche Zustände und Zustandsübergänge

26 Vorlesung "Intelligente Systeme"26 1. Leistung intelligenter Systeme Zeck intelligenter Systeme: Situationserkennung Zweite Situationserkennungs-Aufgabe: Verhaltensmodellierung Modellierung (Nachahmung) von Methoden eines unbekannten Objekts (z.B. Experte oder Prozess) 1.Angebot von Daten und Signalen, Aufzeichnen der Reaktion 2.Erlernen des Zusammenhanges 3.Anwendung Aus verfügbaren (beobachtbaren, unvollständigen und gestörten) Daten optimale Entscheidung treffen !

27 Vorlesung "Intelligente Systeme"27 2. Ein Beispiel Motordiagnose für Verbrennungskraftmaschinen  Beobachtbare Größe: Signal des Drehzahlgebers  Diagnoseleistung (ohne zusätzliche Sensorik) Zündaussetzer, Verbrennungsstörung Einspritzung Ventilundichtigkeit “Blow-by” Reibung

28 Vorlesung "Intelligente Systeme"28 2. Ein Beispiel Motordiagnose für Verbrennungskraftmaschinen Zündung Einspritzung Dichtheit Reibung Motor Zahnrad Induktionssensor U ind t Die Vorgänge im Motor verursachen Änderungen der Winkelgeschwindig- keit.

29 Vorlesung "Intelligente Systeme"29 2. Ein Beispiel Motordiagnose für Verbrennungskraftmaschinen Zündaussetzer-Erkennung Komponente 1 Winkel- geschwindigkeit eines Zyklus Induktions- Sensor

30 Vorlesung "Intelligente Systeme"30 2. Ein Beispiel Motordiagnose für Verbrennungskraftmaschinen Zündung Einspritzung Dichtheit Reibung Motor Zahnrad Induktionssensor U ind t T Berechenbar aus Beobachtung: Wechselanteil des Drehmoments Wechseldrehmoment eines 6-Zylinder-Motors Wechseldrehmoment [Nm]

31 Vorlesung "Intelligente Systeme"31 2. Ein Beispiel Motordiagnose für Verbrennungskraftmaschinen Zündaussetzer-Erkennung Komponenten 2 und 3 Winkel- geschwindigkeit eines Zyklus Induktions- Sensor Periode T Bestimmung Drehmoment Berechnung

32 Vorlesung "Intelligente Systeme"32 2. Ein Beispiel Motordiagnose für Verbrennungskraftmaschinen Zündaussetzer-Erkennung Charakteristisch: Drehmoment-Maxima M 1, …, M 6 der einzelnen Zylinder. -> Bestimmung der Maxima (Merkmale) Bem.: Phasenwinkel  i char. Einspr. M1M1 M2M2 M3M3 M4M4 M5M5 M6M6 11 22 33 44 55 66 Betrachte nur Zylinder 4: Messungen von M4 für Normalbetrieb (Klasse c1) und Zündaussetzer (Klasse c2): Stichprobe Kurbelwinkel [Grad] Wechseldrehmoment [Nm] NormalbetriebZündaussetzer

33 Vorlesung "Intelligente Systeme"33 2. Ein Beispiel Motordiagnose für Verbrennungskraftmaschinen Zündaussetzer-Erkennung Komponente 4 Winkel- geschwindigkeit eines Zyklus Induktions- Sensor Periode T Bestimmung Drehmoment Berechnung Merkmalsextraktion: Drehmomentmaxima

34 Vorlesung "Intelligente Systeme"34 2. Ein Beispiel Motordiagnose für Verbrennungskraftmaschinen Zündaussetzer-Erkennung Betrachte nur Zylinder 4: Messungen von M 4 für Normalbetrieb (Klasse c 1 ) und Zündaussetzer (Klasse c 2 ): Stichprobe aus vielen Umdrehungen. Bilde das Histogramm der Drehmomentwerte der Stichprobe: Wechseldrehmoment Vorkommensanzahl

35 Vorlesung "Intelligente Systeme"35 2. Ein Beispiel Motordiagnose für Verbrennungskraftmaschinen Zündaussetzer-Erkennung Wähle aufgrund des Histogramms der Drehmomentwerte der Stichprobe den geeignetsten Schwellwert (mit dem kleinsten Fehler) zur Entscheidung über die Klassenzugehörigkeit: Wechseldrehmoment Vorkommensanzahl MTMT Zündaussetzer normal

36 Vorlesung "Intelligente Systeme"36 2. Ein Beispiel Nebenbemerkung Histogramm und Wahrscheinlichkeitsdichte Wahrscheinlichkeitsdichte: relative Häufigkeit pro Intervall Histogramm von x x Vorkommensanazahl (frequency) k Stichprobe mit 50 Versuchen Stichprobe: Führe N Versuche aus, miss jedes mal die Größe x. Histogramm: Teile die Größe x in Intervalle mit Breite  x. Zähle Anzahl in jedem Intervall. Trage die Anzahl gegen das Intervall auf xxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxx

37 Vorlesung "Intelligente Systeme"37 2. Ein Beispiel Nebenbemerkung Histogramm und Wahrscheinlichkeitsdichte Wahrscheinlichkeitsdichte  : relative Häufigkeit pro Intervall = (Vorkommensanzahl/Stichprobenumfang)/Intervallbreite = (k/N)/  x = relative Häufigkeit / Intervallbreite = h/  x Histogramm von x x Vorkommensanazahl (frequency) k Histogram von x x Wahrscheinlichkeitsdichte W-Dichte = (7/50) / 5 = 0.028

38 Vorlesung "Intelligente Systeme"38 2. Ein Beispiel Nebenbemerkung Histogramm und Wahrscheinlichkeitsdichte Histogramm von x x Wahrscheinlichkeitsdichte   Wahrscheinlichkeitsdichten x Balkenbreiten = 1 Mit zunehmender Stichprobengröße Balkenbreite immer kleiner, so dass im unendlichen Fall die Balkenbreite unendlich klein.

39 Vorlesung "Intelligente Systeme"39 Auffinden der Schwelle mittels Histogramm-Auswertung (1) Verteilungsfunktionen (Wahrscheinlichkeitsdichten) des Merkmals M für Zündaussetzer p Z (M) und Normalbetrieb p N (M) mit a priori Auftrittswahrscheinlichkeiten von Zündaussetzern P Z und Normalbetrieb P N. Bedingung P Z + P N = 1. Ergibt Gesamtwahrscheinlichkeitsdichte p(M) = P Z p Z (M) + P N p N (M) Im Gauss´schen Fall: 2. Ein Beispiel

40 Vorlesung "Intelligente Systeme"40 Auffinden der Schwelle mittels Histogramm-Auswertung (2) Gaussfunktion: Wahrscheinlichkeitsdichtefunktion der Normalverteilung „Vorurteilsfreieste“ Annahme einer Wahrscheinlichkeitsdichtefunktion, wenn nur der Mittelwert  und die Varianz  2 bekannt sind. 2. Ein Beispiel Gesamtfläche = 1 Fläche zwischen  und  ungefähr 2/3 Fläche zwischen  und  ungefähr 95% Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition,  Wiley-Interscience

41 Vorlesung "Intelligente Systeme"41 Auffinden der Schwelle mittels Histogramm-Auswertung (3) Wahrscheinlichkeit einer Fehlzuordnung E: Minimierung von E Einsetzen, logarithmieren und vereinfachen ergibt quadratische Gleichung mit 2. Ein Beispiel

42 Vorlesung "Intelligente Systeme"42 Auffinden der Schwelle mittels Histogramm-Auswertung (4) Vorgehen nach obiger Methode: 1.Trainingsstichprobe Datenmaterial mit Merkmalswerten 2.Histogramm für Zündaussetzer h Z 3.Histogramm für Normalbetrieb h N 4.Berechnung von  Z und  Z aus h Z 5.Berechnung von  N und  N aus h N 6.Berechnung von A, B und C: 7.Berechnung der Schwelle durch Lösung der quadratischen Gleichung 8.Anwenden der Schwelle auf neues Datenmaterial 2. Ein Beispiel

43 Vorlesung "Intelligente Systeme"43 2. Ein Beispiel Motordiagnose für Verbrennungskraftmaschinen Zündaussetzer-Erkennung Komponente 5 und Gesamtsystem Winkel- geschwindigkeit eines Zyklus Induktions- Sensor Periode T Bestimmung Drehmoment Berechnung Merkmalsextraktion: Drehmomentmaxima Klassifikation: Anwendung Optimaler Schwellwert Normal Zündaussetzer

44 Vorlesung "Intelligente Systeme"44 Auffinden der Schwelle mittels Histogramm-Auswertung (5) Vorgehen nach obiger Methode: 1.Trainingsstichprobe Datenmaterial mit Merkmalswerten 2. Ein Beispiel DrehmomentKlasse 400Z 500Z 300Z 500Z Z 400Z 600Z 700Z 500Z 600Z 500Z 800N 900N 850N DrehmomentKlasse 800N 750N 800N N N 850N N 800N N 750N N 700N 750N 800N 850N

45 Vorlesung "Intelligente Systeme"45 Auffinden der Schwelle mittels Histogramm-Auswertung (6) Vorgehen nach obiger Methode: 2. Histogramm für Zündaussetzer h Z 3. Histogramm für Normalbetrieb h N 2. Ein Beispiel Drehm.Kl. 400Z 500Z 300Z 500Z Z 400Z 600Z 700Z 500Z 600Z 500Z 800N 900N 850N Drehm.Kl. 800N 750N 800N N N 850N N 800N N 750N N 700N 750N 800N 850N M h[1/11] h[1/18]

46 Vorlesung "Intelligente Systeme"46 2. Ein Beispiel M h[1/11] h[1/18] Auffinden der Schwelle mittels Histogramm-Auswertung (7) Vorgehen nach obiger Methode: 4. Berechnung von  Z und  Z aus h Z

47 Vorlesung "Intelligente Systeme"47 2. Ein Beispiel M h[1/11] h[1/18] Auffinden der Schwelle mittels Histogramm-Auswertung (8) Vorgehen nach obiger Methode: 5. Berechnung von  N und  N aus h N

48 Vorlesung "Intelligente Systeme"48 Auffinden der Schwelle mittels Histogramm-Auswertung (9) Vorgehen nach obiger Methode: 6. Berechnung von A, B und C: 2. Ein Beispiel

49 Vorlesung "Intelligente Systeme"49 Auffinden der Schwelle mittels Histogramm-Auswertung (10) Vorgehen nach obiger Methode: 7. Berechnung der Schwelle durch Lösung der quadratischen Gleichung 2. Ein Beispiel

50 Vorlesung "Intelligente Systeme"50 Auffinden der Schwelle mittels Histogramm-Auswertung (11) Vorgehen nach obiger Methode: 8. Anwenden der Schwelle auf neues Datenmaterial 2. Ein Beispiel Winkel- geschwindigkeit eines Zyklus Induktions- Sensor Periode T Bestimmung Drehmoment Berechnung Merkmalsextraktion: Drehmomentmaxima M > 720 ? Normal Zündaussetzer M=820 ja nein

51 Vorlesung "Intelligente Systeme"51 2. Ein Beispiel Motordiagnose für Verbrennungskraftmaschinen Zündauss. Einspritzauss. Ventilundicht. Beschreibungs- (Zustands-)raum Motorfehler Zugänglicher Musterraum Wechseldrehmoment- muster Beobachtungs- oder Meßraum Drehzahlsensordaten Phase j Schütteln Auslauf p3p3 p1p1 p2p2 p4p4 m1m1 m2m2 m3m3 Abbildung Informationsgewinnung Geberradfehler, Höhenschlag, Störungen

52 Vorlesung "Intelligente Systeme"52 3. Statistische Fundamente Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ?  A-priori-Wahrscheinlichkeiten Ein betrachtetes System befindet sich in einem “wahren Zustand” c, z.B. c=c 1 (normal) oder c=c 2 (Zündaussetzer). Diese können sich zufällig abwechseln und treten mit den Wahrscheinlichkeiten P(c 1 ) und P(c 2 ) auf: A-priori-Wahrscheinlichkeiten. P(c 1 ) + P(c 2 ) =1, wenn keine weiteren Zustände. Fall 1: Keine weitere Information als P(c 1 ) und P(c 2 ) -> Entscheidungsregel über nächsten Zustand: c 1, wenn P(c 1 ) > P(c 2 ), sonst c 2. Sinnvoll nur bei einer einzigen Entscheidung.

53 Vorlesung "Intelligente Systeme"53 3. Statistische Fundamente Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ?  Klassenbedingte Wahrscheinlichkeitsdichtefunktion p(x|c) Information x über das System (z.B. das Drehmoment M 4 ) mit verschiedenen Ausprägungen in verschiedenen Zuständen (Klassen) c. Klassenbedingte Wahrscheinlichkeitsdichtefunktion p(x|c). Fall 2: Wir verfügen über weitere Information x. p(x|c) c1c1 c2c2 x Wahrscheinlichkeitsdichte für das Vorliegen eines Wertes des Merkmals x, wenn das System in Zustand c ist. Die Fläche unter der Kurve ist jeweils 1. Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition,  Wiley-Interscience

54 Vorlesung "Intelligente Systeme"54 3. Statistische Fundamente Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? Fall 2: Wir verfügen über weitere Information x, also die Wahrscheinlichkeitsdichtefunktionen p(x|c i ) für die verschiedenen Klassen und den aktuellen Wert von Merkmal x unseres Systems sowie die A-priori-Wahrscheinlichkeiten der Klassen P(c i ). Dann ist die verknüpfte Wahrscheinlichkeitsdichte, dass das System in Zustand c i ist und dabei den Merkmalswert x hat: p(c i,x) = P(c i |x)p(x) = p(x|c i )P(c i ). Von Interesse P(c i |x). Mittels Bayes´scher Formel Wahrscheinlichkeitsdichte von Merkmal x Wahrscheinlichkeit für Klasse c i unter der Bedingung, dass ein Wert x vorliegt Wahrscheinlichkeitsdichte von Merkmal x, unter der Bed., dass Klasse c i vorliegt Wahrscheinlichkeit für Klasse c i

55 Vorlesung "Intelligente Systeme"55 3. Statistische Fundamente Bayes´sche Entscheidungstheorie A posteriori Wahrscheinlichkeit, dass Klasse c i vorliegt, wenn das Merkmal die Ausprägung x hat: p(x|c) c1c1 c2c2 x P(c|x) c1c1 c2c2 P(c 1 ) = 1/3 P(c 2 ) = 2/3 Likelihood Prior Evidence x Posterior Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition,  Wiley-Interscience

56 Vorlesung "Intelligente Systeme"56 3. Statistische Fundamente Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? Fall 2: Entscheide c 1 wenn P(c 1 |x) > P(c 2 |x), sonst c 2. P(c|x) c1c1 c2c2 x P(c 1 |x=14)=0.08 P(c 1 |x=14)=0.92 c1c1 c2c2 c1c1 c2c2

57 Vorlesung "Intelligente Systeme"57 3. Statistische Fundamente Mehr als ein Merkmal Numerische Merkmale und Merkmalsvektor Betrachte Signale des Motordiagnosesystems. Einfachste Wahl der Merkmale: Äquidistante Abtastung der Amplitudendaten der Wechseldrehmomentkurve. 0  Kurbelwinkel Wechseldrehm. M1M1 M2M2 M3M3 M4M4 M5M5 Jedes Wechseldrehmomentmuster ist charakterisiert durch eine Menge von Drehmomentwerten. Die Menge der Drehmomentwerte kann als Spaltenvektor geschrieben werden: [M1, M2, M3, M4, M5] T.

58 Vorlesung "Intelligente Systeme"58 Merkmale Numerische Merkmale und Merkmalsvektor 0  Kurbelwinkel Wechseldrehm. M1M1 M2M2 M3M3 M4M4 M5M5 Ein Drehmomentmuster wir dann repräsentiert durch den Vektor M = [M1, M2, M3, M4, M5] T im fünf-dimensionalen “Drehmomentwerteraum”. Ein Drehmomentwert heisst dann “Merkmal”, der Raum “Merkmalsraum“, der Vektor “Merkmalsvektor“. Merkmalsvektoren von verschiedenen Motorzuständen sollten getrennte Volumina im Merkmalsraum einnehmen. 3. Statistische Fundamente Mehr als ein Merkmal

59 Vorlesung "Intelligente Systeme"59 Merkmalsraum Bild von Objekten unterschiedlicher Größe und Farbe Maximale Abmessung l Farbwert h x x x x x x x Merkmalsraum hihi lili * Meßraum: Farbwerte der Pixel eines Kamerasensors Merkmalsauswahl: Merkmalsvariable Farbwert (h) und maximale Abmessung (l) fifi Jeder Merkmalsvektor f i = [h i, l i ] T repräsentiert ein Muster. Wegen der statistischen Prozesse bei der Musterentstehung und beim Meßprozess werden Merkmale als “random variables” und Merkmalsvektoren als “random vectors” betrachtet. 3. Statistische Fundamente Mehr als ein Merkmal

60 Vorlesung "Intelligente Systeme"60 Merkmalsraum Wahrscheinlichkeitsdichtefunktion 3. Statistische Fundamente Mehr als ein Merkmal Merkmal x 1 Merkmal x 2 Wahrsch. Merkmal x 1 Merkmal x 2 x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x Stichprobe

61 Vorlesung "Intelligente Systeme"61 Merkmalsraum 3. Statistische Fundamente Mehr als ein Merkmal, mehrere Klassen Merkmal x 1 Merkmal x 2 Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition,  Wiley-Interscience

62 Vorlesung "Intelligente Systeme"62 Merkmalsraum 3. Statistische Fundamente Mehr als ein Merkmal, mehrere Klassen Merkmal x 1 Merkmal x 2 Endliche Menge von Klassen {c 1,c 2,…,c C } mit zugehörigen Wahrscheinlichkeitsdichten Bayes Formel für a posteriori Wahrscheinlichkeit Entscheidungsregel: x 1T x 2T xTxT

63 Vorlesung "Intelligente Systeme"63 Merkmalsraum 3. Statistische Fundamente Entscheidungsflächen und -funktionen Merkmal x 1 Merkmal x 2 Entscheidungsregel: Entscheidungsflächen sind Grenzflächen zwischen den Regionen Teilt Merkmalsraum in Regionen R4R4 R3R3 R2R2 R1R1 x 1T x 2T xTxT

64 Vorlesung "Intelligente Systeme"64 Merkmalsraum 3. Statistische Fundamente Entscheidungsflächen und -funktionen Entscheidungsregel: Entscheidungsregel gilt auch für monotone Funktionen g (Entscheidungs- funktionen) von P: (konst. Nenner weglassen) (logarithmieren)

65 Vorlesung "Intelligente Systeme"65 Merkmalsraum 3. Statistische Fundamente Entscheidungsflächen und -funktionen Bei zwei Kategorien (Klassen) Entscheidungsregel Kann vereinfacht werden zu einer einzigen Entscheidungsfunktion deren Vorzeichen über die Klassenzugehörigkeit entscheidet: Bequeme Wahl von g:

66 Vorlesung "Intelligente Systeme"66 Merkmalsraum 3. Statistische Fundamente Entscheidungsflächen und -funktionen Modellfunktion für klassenbedingte Wahrscheinlichkeitsdichte: Normalverteilung Bisher ein-dimensional: Jetzt mehr-dimensional: Merkmal x 1 Merkmal x 2 Wahrsch.

67 Vorlesung "Intelligente Systeme"67 Merkmalsraum 3. Statistische Fundamente Entscheidungsflächen und -funktionen Normalverteilung Jetzt mehr-dimensional: Merkmal x 1 Merkmal x 2 Wahrsch.

68 Vorlesung "Intelligente Systeme"68 Merkmalsraum 3. Statistische Fundamente Entscheidungsflächen und -funktionen Beispiel: Annahme einer mehr-dimensionalen Normalverteilung Berechnung Schwerpunkt und Kovarianzmatrix aus Stichprobe Schwerpunkt Empirischer Schwerpunkt

69 Vorlesung "Intelligente Systeme"69 Merkmalsraum 3. Statistische Fundamente Entscheidungsflächen und -funktionen Beispiel: Annahme einer mehr-dimensionalen Normalverteilung Berechnung Schwerpunkt und Kovarianzmatrix aus Stichprobe Im Fall drei-dimensionaler Vektoren: Geschätzte Normalverteilung:

70 Vorlesung "Intelligente Systeme"70 Merkmalsraum 3. Statistische Fundamente Entscheidungsflächen und -funktionen Bei Normalverteilung wegen e-Fuktion Wahl von ln-Entscheidungsfunktion: Einfachster Fall: Alle Merkmale unabhängig und mit gleicher Varianz Lineare Entscheidungsfunktion: Entscheidungsfläche Hyperebene Lineare Form

71 Vorlesung "Intelligente Systeme"71 Merkmalsraum 3. Statistische Fundamente Entscheidungsflächen und -funktionen Normalverteilung Einfachster Fall: Alle Merkmale unabhängig und mit gleicher Varianz Lineare Entscheidungsfunktion: Entscheidungsfläche Hyperebene Weitere Einschränkung: A priori Wahrscheinlichkeiten P für alle Klassen gleich: Entscheidungsregel: Ordne Vektor der Klasse zu, zu deren Schwerpunkt- vektor er den kleinsten euklidischen Abstand hat: Minimum-Distance Klassifikator

72 Vorlesung "Intelligente Systeme"72 Merkmalsraum 3. Statistische Fundamente Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsfunktionen: Lineare Entscheidungsfunktion: Entscheidungsfläche Hyperebene ein-dim. Merkm.-Raum zwei-dim. Merkm.-Raum drei-dim. Merkm.-Raum Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition,  Wiley-Interscience

73 Vorlesung "Intelligente Systeme"73 Merkmalsraum 3. Statistische Fundamente Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsfunktionen: Entscheidungsfunktion Entscheidungsflächen: Hyperquadriken Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition,  Wiley-Interscience

74 Vorlesung "Intelligente Systeme"74 Merkmalsraum 3. Statistische Fundamente Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsflächen: Hyperquadriken Ebenen Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition,  Wiley-Interscience

75 Vorlesung "Intelligente Systeme"75 Merkmalsraum 3. Statistische Fundamente Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsflächen: Hyperquadriken ParaboloideEllipsoide Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition,  Wiley-Interscience

76 Vorlesung "Intelligente Systeme"76 Merkmalsraum 3. Statistische Fundamente Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsflächen: Hyperquadriken HyperboloideKugeln Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition,  Wiley-Interscience

77 Vorlesung "Intelligente Systeme"77 Merkmalsraum 3. Statistische Fundamente Wie weiter? Voraussetzung bisher: A priori Wahrscheinlichkeiten und klassen-bedingte Wahrscheinlichkeitsdichten bekannt. Realität: Nur Stichproben gegeben. Ansätze: 1.Parametrische Techniken: Annahme bestimmter parametrisierter Wahrscheinlichkeitsdichtefunktionen und Schätzung der Parameterwerte anhand Stichprobe, Einsetzen in Bayes Framework. A) Maximum-Likelihood Schätzung B) Bayes Learning 2.Nicht-parametrische Techniken 3.Direkte Bestimmung der Parameter der Entscheidungsflächen anhand Stichprobe.

78 Vorlesung "Intelligente Systeme"78 Merkmalsraum 3. Statistische Fundamente Wie weiter? Möglichkeit 1 bei gegebener Stichprobe: Aus Stichprobe: Bildung Histogramm, relative Häufigkeiten h(c i ) Modellbildung: Annahme einer Modellfunktionenklasse für klassenbedingte Wahrscheinlichkeitsdichte, z.B. Gaussfunktion Schätzung der Parameter der Funktion -> Instanz der Funktionenklasse, die das Histogramm am besten approximiert (Schätzfunktion der klassenbedingten Wahrscheinlichkeitsdichte): Anwendung Bayes: Benutze als Näherung für und H(c i ) für P(c i ) und wende Bayes´sche Entscheidungsregel an:

79 Vorlesung "Intelligente Systeme"79 Statistische Klassifikationsaufgabe l h x x x x x x x Trennlinie Merkmalsraum Klasse 1 Klasse 2 * Aufgabe 1: Gegeben sei eine Stichprobe mit bekannten Klassenzugehörigkeiten (Klasse 1 und Klasse 2). Finde ein Trennmöglichkeit, um zu entscheiden, zu welcher Klasse ein unbekanntes Muster gehört. Überwachte Methoden 4. Entscheidungsflächen und -funktionen

80 Vorlesung "Intelligente Systeme"80 Klassifikationsaufgabe Aufgabe 2: Unter der Annahme, daß es sich um zwei Klassen handelt, finde die zugehörigen Cluster in der Stichprobe mit den Mustern. Z.B. Learning Vector Quantisation (LVQ), Self Organising Maps (SOMs). l h x x x x x x x Merkmalsraum Klasse 1 Klasse 2 * Unüberwachte Methoden 4. Entscheidungsflächen und -funktionen

81 Vorlesung "Intelligente Systeme" Überwachte Methoden l h x x x x x x x Gerade Trennlinie Klasse 1 Klasse 2 * l h x x x x x x x Trennkurve Klasse 1 Klasse 2 x x x x x x x x x x x x x x Lineare Klassifikatoren Einschichtiges Perceptron Kleinste Quadrate Klass. Lineare Support Vektor Maschine Nichtlineare Klassifikatoren Bayes´sche Klass. Mehrschicht-Perceptron logistisch polynom radiale Basisfunktionen Support-Vektor-Maschinen 4. Entscheidungsflächen und -funktionen

82 Vorlesung "Intelligente Systeme"82 5. Lineare Klassifikatoren Grundlagen Das Perzeptron Nicht-lineare Klassen und Mehrklassen-Ansatz Kleinste Quadrate lineare Klassifikatoren Stochastische Approximation und der LMS Algorithmus Schätzung mittels Quadratfehlersumme Mehrklassen-Verallgemeinerung Lineare Support Vektor Maschine

83 Vorlesung "Intelligente Systeme"83 Grundlagen 5. Lineare Klassifikatoren

84 Vorlesung "Intelligente Systeme"84 Der Merkmalsraum wird durch Hyperebenen aufgeteilt. Vorteil: Einfachheit und geringer Berechnungsaufwand. Nachteile: Die zugrundeliegenden statistischen Verteilungen der Trainingsmuster werden nicht vollständig genutzt. Nur linear separierbare Klassen werden korrekt klassifiziert. Entscheidungs-Hyperebene: Eine Entscheidungs-Hyperebene teilt den Merkmalsraum in zwei Halbräume: Punkte (Vektoren) von Halbraum 1 Klasse 1 Punkte von Halbraum 2 Klasse 2. Hyperebene im N-dimensionalen Merkmalsraum beschrieben durch Normalenvektor n = [n 1, n 2,..., n N ] T und senkrechten Abstand d zum Ursprung. Ist x ein Merkmalsvektor, z der Abstand des Punktes x von der Hyperebene und d der Abstand der Hyperebene zum Ursprung, dann ist die Entscheidungs-Hyperebene definiert durch den Gewichtsvektor w = [w 1, w 2,..., w N ] T und w 0, bezeichnet als Schwellwert: g(x) = w T x + w 0 =! 0 wobei w und w 0 so gewählt werden, dass Merkmalsvektoren x verschiedener Klassen ein unterschiedliches Vorzeichen von g(x) ergeben. 5. Lineare Klassifikatoren

85 Vorlesung "Intelligente Systeme"85 Zweidimensionaler Fall: Geometrie der Entscheidungs-Linie (-Hyperebene) Merkmalsraum x1x1 x2x2 d x z Das Vorzeichen von g(x) gibt die Klassenzugehörigkeit an. Wie werden die unbekannten Gewichtswerte w 1, w 2,..., w N und w 0 berechnet? 5. Lineare Klassifikatoren Entscheidungshyperebene Entscheidungsfunktion

86 Vorlesung "Intelligente Systeme"86 Lineare Klassifikatoren Das Perzeptron  Die Perzeptron-Kostenfunktion  Der Perzeptron Algorithmus  Bemerkungen zum Perzeptron Algorithmus  Eine Variation des Perzeptron-Lernschemas  Arbeitsweise des Perzeptrons

87 Vorlesung "Intelligente Systeme"87 Der Perzeptron Algorithmus Annahme: Es liegen zwei Klassen c 1 and c 2 vor, die linear separierbar sind. Es existiert eine Entscheidungs-Hyperebene w x + w 0 = 0 derart, daß Umformulierung mit erweiterten N+1-dimensionalen Vektoren: x´  x, 1] T und w´  w, w 0 ] T ergibt Die Aufgabe wird als Minimierungsproblem der Perzeptron-Kostenfunktion formuliert. 5. Lineare Klassifikatoren

88 Vorlesung "Intelligente Systeme"88 Die Perzeptron-Kostenfunktion Y sei diejenige Untermenge der Trainingsvektoren, welche durch die Hyperebene (definiert durch Gewichtsvektor w) fehlklassifiziert werden. Die Variable  x wird so gewählt, daß  x = -1 wenn x  c 1 und  x = +1 wenn x  c 2. J ist dann stets positiv und wird dann Null, wenn Y eine leere Menge ist, d.h., wenn es keine Fehlklassifikation gibt. J ist stetig und stückweise linear. Nur wenn sich die Anzahl der fehlklassifizierten Vektoren ändert, gibt es eine Diskontituität. Für die Minimierung von J wird ein iteratives Schema ähnlich der Gradientenabstiegsmethode verwendet. 5. Lineare Klassifikatoren

89 Vorlesung "Intelligente Systeme"89 Gradientenmethode für die Perzeptron-Kostenfunktion 5. Lineare Klassifikatoren Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition,  Wiley-Interscience

90 Vorlesung "Intelligente Systeme"90 k: Iterationsindex,  k  Lernrate (positiv) Der Perzeptron-Algorithmus Iterative Anpassung des Gewichtsvektors entlang dem Gradienten der Kostenfunktion: (1) ist nicht definiert an Unstetigkeitsstellen von J. An allen Unstetigkeitsstellen von J gilt: Substitution der rechten Seite von (2) in (1) ergibt: (1) (2) wodurch der Perzeptron-Algorithmus an allen Punkten definiert ist. 5. Lineare Klassifikatoren

91 Vorlesung "Intelligente Systeme"91 Geometrische Interpretation für den 2d Merkmalsraum w(k) Trennlinie im Schritt k x1x1 x2x2 w(k+1) Trennlinie im Schritt k+1 x w wurde in die Richtung von x gedreht.  bestimmt die Stärke der Drehung. Letzter Schritt des Perzeptron-Algorithmus: Nur noch ein einziger Punkt x fehlklassifiziert. 5. Lineare Klassifikatoren

92 Vorlesung "Intelligente Systeme"92 Bemerkungen zum Perzeptron-Algorithmus 1. Der Perzeptron-Algorithmus konvergiert zu einer Lösung in einer endlichen Anzahl von Schritten, vorausgesetzt, daß die Folge  k richtig gewählt wird. Es kann gezeigt werden, dass dies der Fall ist, wenn gilt: Ein Beispiel einer Folge, welche obige Bedingung erfüllt, ist  k = c/k, da divergent für r Die Konvergenzgeschwindigkeit hängt von der Folge  k ab. 3. Die Lösung ist nicht eindeutig, da es immer eine Schar von Hyperebenen gibt, welche zwei linear separierbare Klassen trennt. 5. Lineare Klassifikatoren

93 Vorlesung "Intelligente Systeme"93 Eine Variation des Perzepton Lernschemas Bisher: Gesamte Trainingsvektormenge in einem Trainingsschritt. Neu: Ein einziger Trainingsvektor in einem Trainingsschritt und Wiederholung für alle Vektoren der Trainingsmenge: “Trainingsepoche”. Die Trainingsepochen weden wiederholt, bis Konvergenz erreicht ist, d.h., wenn alle Trainingsvektoren korrekt klassifiziert werden. Dieses Schema ist Mitglied der “Belohnungs- und Bestrafungs-”Schemata. Es konvergiert ebenso in einer endlichen Anzahl von Iterationen. Wiederhole, bis Konvergenz erreicht ist { Wiederhole für alle Trainingsvektoren { } 5. Lineare Klassifikatoren

94 Vorlesung "Intelligente Systeme"94 Das Perzeptron im Betrieb Gewichtsvektor w und Schwellwert w 0 wurden vom Lernalgorithmus gefunden. Die Klassifikationsprozedur lautet dann: Dies kann als Netzwerk interpretiert werden: x1ox2o...xNox1ox2o...xNo w1w2.wNw1w2.wN w0w0  f Die Elemente des Merkmalsvektors werden auf die Eingangsknoten gegeben. Jedes wird multipliziert mit den entsprechenden Gewichten der Synapsen. Die Produkte werden zusammen mit dem Schwellwert aufsummiert. Das Ergebnis wird von einer Aktivierungsfunktion f verarbeitet (z.B. +1 wenn Ergebnis > 0, -1 sonst). Dieses grundlegende Netzwerk wird als Perzeptron oder Neuron bezeichnet. 5. Lineare Klassifikatoren

95 Vorlesung "Intelligente Systeme"95 Übung zu Perzeptrons: Programmiere und benutze beide Perzeptron-Algorithmen. Starte mit w=(1,0), w 0 =2 und weiteren Trennlinien. Menge 1: Klasse 1: x 1,1 =[1,1] T, x 1,2 =[2,1] T, x 1,3 =[1,2] T, x 1,4 =[2,2] T, x 1,5 =[1,3] T Klasse 2: x 2,1 =[5,1] T, x 2,2 =[6,1] T, x 2,3 =[5,2] T, x 2,4 =[6,2] T, x 2,5 =[5,3] T Menge 2: Klasse 1: x 1,1 =[1,1] T, x 1,2 =[2,1] T, x 1,3 =[1,2] T, x 1,4 =[4,2] T, x 1,5 =[1,3] T Klasse 2: x 2,1 =[3,1] T, x 2,2 =[4,1] T, x 2,3 =[3,2] T, x 2,4 =[2,2] T, x 2,5 =[4,3] T Beobachte und beschreibe das Konvergenzverhalten. 5. Lineare Klassifikatoren

96 Vorlesung "Intelligente Systeme"96 5. Lineare Klassifikatoren Wiederhole, bis Konvergenz erreicht ist { Wiederhole für alle Trainingsvektoren { }

97 Vorlesung "Intelligente Systeme"97 Nicht-lineare Klassen und Mehrklassen-Ansatz  Lineare Klassifikation nicht linear separierbarer Klassen  Lineare Separierung von mehr als zwei Klassen 5. Lineare Klassifikatoren

98 Vorlesung "Intelligente Systeme"98 Lineare Klassifikation nicht linear separierbarer Klassen Klassen nicht linear separierbar: Perzeptron-Algorithmus konvergiert nicht. Erweiterung des Perzeptron-Lernalgorithmus nach Gallant: Pocket-Algorithmus. Konvergiert zu einer optimalen Lösung in dem Sinne, dass die Anzahl der Fehlklassifikationen minimal ist. Der Pocket-Algorithmus: Schritt k=0: Initialisiere Gewichtsvektor w(0) mit Zufallszahlen. Definiere einen Zufalls-Gewichtsvektor w p und speichere ihn (“in the pocket”). Setze den Zähler h p von w p auf Null. Iteriere: Schritt k+1 Berechne w(k+1) aus w(k) mittels Perzeptron-Regel. Benutze w(k+1), um die Anzahl h korrekt klassifizierter Trainingsvektoren zu messen. Wenn h > h p, ersetze w p durch w(k+1) und den aktuellen Wert von h p durch h. 5. Lineare Klassifikatoren

99 Vorlesung "Intelligente Systeme"99 Lineare Separierung von mehr als zwei Klassen M Klassen (hier M=4) 1.M lineare Klassifikatoren, die je eine Klasse von allen anderen unterscheiden oder 2.M(M-1)/2 Klassifikatoren, die jeweils ein paar von Klassen unterscheiden oder Lineare Klassifikatoren c2c2 c3c3 c1c1 c4c4 c2c2 c3c3 c1c1 c4c4 H 12 H 23 H 24 H 13 H 14 H 34 c1c1 c2c2 c1c1 c3c3 c2c2 c3c3 c3c3 c4c4 c2c2 c4c4 c1c1 Nicht c 1 Nicht c 3 Nicht c 4 Nicht c 2 c2c2 c4c4 c3c3 Mehrdeutiges Gebiet

100 Vorlesung "Intelligente Systeme"100 Lineare Separierung von mehr als zwei Klassen... Oder Kesler: M lineare Entscheidungsfunktionen g i (x) = w i T x + w 0i mit Klassenzuordnung des Vektors x zu Klasse i, wenn “Lineare Maschine” Zuordnungsgrenzen der linearen Maschine für drei bzw. fünf Klassen c1c1 c3c3 c2c2 c5c5 c4c4 H 15 H 14 H 25 H 35 H 13 H 34 H 23 H 24 c1c1 c3c3 c2c2 H 13 H 12 H 23 R1R1 R2R2 R3R3 R1R1 R2R2 R3R3 R4R4 R5R5 5. Lineare Klassifikatoren

101 Vorlesung "Intelligente Systeme"101 Lineare Separierung von mehr als zwei Klassen Lineare Maschine: Verallgemeinerung des Perzeptrons auf M-Klassen-Aufgaben: Eine lineare Unterscheidungsfunktion w i sei definiert für jede der Klassen c i i = 1,2,...,M. Ein l+1 dimensionaler (inklusive w 0 ) Merkmalsvektor x wird Klasse c i zugeordnet, wenn 5. Lineare Klassifikatoren

102 Vorlesung "Intelligente Systeme"102 Lineare Separierung von mehr als zwei Klassen Lineare Maschine: Wirkung im Merkmalsraum Trennebenen zwischen Klassen c i und c j : 5. Lineare Klassifikatoren c1c1 c3c3 c2c2 H 13 H 12 H 23 R1R1 R2R2 R3R3

103 Vorlesung "Intelligente Systeme"103 Lineare Separierung von mehr als zwei Klassen Lineare Maschine: Annahme: Drei Klassen mit Gewichtsvektoren Für einen Stichprobenvektor der Klasse c 1 gilt: 5. Lineare Klassifikatoren Block-Gewichtsvektor Block-Merkmalsvektoren

104 Vorlesung "Intelligente Systeme" Lineare Klassifikatoren Block-Gewichtsvektor Block-Merkmalsvektoren Block-Gewichtsvektor Block-Merkmalsvektoren

105 Vorlesung "Intelligente Systeme"105 Lineare Separierung von mehr als zwei Klassen Kesler´s Konstruktion: Für jeden der Trainingsvektoren aus Klasse c i konstruiere M-1 Vektoren x ij =[0,0,...,x,...,-x,...,0] T, j = 1,2,…M wobei j    i Block-Vektoren der Dimension (l+1)Mx1 überall Nullen haben, außer an Blockposition i und j, wo sie x bzw. -x für j    i haben. Konstruiere ferner einen Blockgewichtsvektor w = [w 1, w 2,..., w M ] T. Wenn x  c i dann impliziert dies: Benutze den Perzeptron-Algorithmus, um eine Trennebene im (l+1)M dimensionalen Raum zu berechnen, so dass alle (M-1)N Trainingsvektoren auf der positiven Seite liegen. Das Verfahren konvergiert nur, wenn alle Klassen linear separierbar sind ! 5. Lineare Klassifikatoren M: Anzahl der Klassen

106 Vorlesung "Intelligente Systeme"106 Beispiel für Kesler´s Konstruktion (Teil1) Dreiklassenproblem im 2d Merkmalsraum:linear separierbar c 1 :[1,1] T,[2,2] T,[2,1] T Quadrant 1 c 2 :[1,-1] T,[1,-2] T,[2,-2] T Quadrant 4 c 3 :[-1,1] T,[-1,2] T,[-2,1] T Quadrant 2 Erweiterung auf 3 Dimensionen und Anwendung von Kesler´s Konstruktion: c 1 : [1,1] T gibtx 1,2 = [1,1,1,-1,-1,-1,0,0,0] T und x 1,3 = [1,1,1,0,0,0,-1,-1,-1] T c 2 : [1,-2] T gibtx 2 1 = [-1,2,-1,1,-2,1,0,0,0] T und x 2,3 = [0,0,0,1,-2,1,-1,2,-1] T c 3 :[-2,1] T gibtx 3 1 = [2,-1,-1,0,0,0,-2,1,1] T und x 3 2 = [0,0,0,2,-1,-1,-2,1,1] T usw. um die anderen 12 Vektoren zu erhalten. Die Gewichtsvektoren für c 1, c 2 und c 3 lauten: w 1 = [w 11, w 12, w 10 ] T, w 2 = [w 21, w 22, w 20 ] T, w 3 = [w 31, w 32, w 30 ] T Kesler: w = [w 1, w 2, w 3 ] T Anwendung des Perzeptron-Algorithmus unter der Bedingung x ij =[0,0,...,x,...,-x,...,0] T, j = 1,2,…M wobei j  i Block-Vektoren der Dimension (l+1)Mx1überall Nullvektoren, außer an Blockposition i and j, wo x bzw. -x für j  i 5. Lineare Klassifikatoren

107 Vorlesung "Intelligente Systeme"107 Dreiklassenproblem im 2d Merkmalsraum:linear separierbar Klasse c 1 : x a = [1,1] T, x b = [2,2] T, x c = [2,1] T Quadrant 1 Klasse c 2 : x d = [1,-1] T, x e = [1,-2] T, x f = [2,-2] T Quadrant 4 Klasse c 3 : x g = [-1,1] T, x h = [-1,2] T, x i = [-2,1] T Quadrant 2 Block-Merkmalsvektoren: c 1 : x a = [1,1] T gibt x a 12 = [1,1,1,-1,-1,-1,0,0,0] T und x a 1,3 = [1,1,1,0,0,0,-1,-1,-1] T x b =[2,2] T gibt x b 12 = [2,2,1,-2,-2,-1,0,0,0] T und x b 1,3 = [2,2,1,0,0,0,-2,-2,-1] T x c =[2,1] T gibt x c 12 = [2,1,1,-2,-1,-1,0,0,0] T und x c 1,3 = [2,1,1,0,0,0,-2,-1,-1] T c 2 : x d = [1,-1] T gibt x d 21 = [-1,1,-1,1,-1,1,0,0,0] T und x d 2,3 = [0,0,0,1,-1,1,-1,1,-1] T x e =[1,-2] T gibt x e 21 = [-1,2,-1,1,-2,1,0,0,0] T und x e 2,3 = [0,0,0,1,-2,1,-1,2,-1] T x f =[2,-2] T gibt x f 21 = [-2,2,-1,2,-2,1,0,0,0] T und x f 2,3 = [0,0,0,2,-2,1,-2,2,-1] T c 3 : x g = [-1,1] T gibt x g 31 = [1,-1,-1,0,0,0,-1,1,1] T und x g 3 2 = [0,0,0,1,-1,-1,-1,1,1] T x h =[-1,2] T gibt x h 31 = [1,-2,-1,0,0,0,-1,2,1] T und x h 3 2 = [0,0,0,1,-2,-1,-1,2,1] T x i =[-2,1] T gibt x i 31 = [2,-1,-1,0,0,0,-2,1,1] T und x i 3 2 = [0,0,0,2,-1,-1,-2,1,1] T Die Gewichtsvektoren für c 1, c 2 und c 3 lauten: w 1 = [w 11, w 12, w 10 ] T, w 2 = [w 21, w 22, w 20 ] T, w 3 = [w 31, w 32, w 30 ] T Block-Gewichtsvektor w = [w 1, w 2, w 3 ] T = [w 11, w 12, w 10, w 21, w 22, w 20,w 31, w 32, w 30 ] T Anwendung des Perzeptron-Algorithmus unter der Bedingung Beispiel für Kesler´s Konstruktion (Teil2) 5. Lineare Klassifikatoren

108 Vorlesung "Intelligente Systeme"108 Dreiklassenproblem im 2d Merkmalsraum:linear separierbar Klasse c 1 : x a = [1,1] T, x b = [2,2] T, x c = [2,1] T Quadrant 1 Klasse c 2 : x d = [1,-1] T, x e = [1,-2] T, x f = [2,-2] T Quadrant 4 Klasse c 3 : x g = [-1,1] T, x h = [-1,2] T, x i = [-2,1] T Quadrant 2 Ergebnis Perzeptron-Algorithmus: w=[5.13, 3.60, 1.00, -0.05, -3.16, -0.4, -3.84, 1.28, 0.69 ] T w 1 = [5.13, 3.60, 1.00] T, w 2 = [-0.05, -3.16, -0.4] T, w 3 = [-3.84, 1.28, 0.69 ] T Bestimmung Klassenzugehörigkeit neuer Vektor: x p = [1.5, 1.5] T x’ p = [1.5, 1.5, 1] T Berechnungx’ p w 1 = , x’ p w 2 = , x’ p w 3 = -3.3 ergibtx’ p w 1 > x’ p w 3 > x’ p w 2 daraus folgtx p Element der Klasse c 1 Beispiel für Kesler´s Konstruktion (Teil3) 5. Lineare Klassifikatoren

109 Vorlesung "Intelligente Systeme"109 Lineare Klassifikatoren Kleinste-Quadrate lineare Klassifikatoren

110 Vorlesung "Intelligente Systeme"110 Kleinste-Quadrate Lineare Klassifikatoren Wegen der Einfachheit linearer Klassifikatoren ist ihr Einsatz bisweilen auch dann wünschenswert, wenn die Klassifikationsaufgabe nicht-linear ist. Anstelle des Pocket-Algorithmus können Kleinste-Quadrate-Methoden verwendet werden, um eine optimale Lösung zu finden. Gegeben: linearer Klassifikator w und Stichproben-Merkmalsvektor x (jeweils erweiterte Vektoren). Ausgang des Klassifikators Der gewünschte Ausgang ist(2-Klassen-Problem) Methode der kleinsten Quadrate: Optimaler Gewichtsvektor w durch Minimierung des mittleren quadratischen Fehlers (MSE: mean square error) J zwischen tatsächlichem und gewünschtem Ausgang: Minimierung der obigen Gleichung bezüglich w bedeutet: Lineare Klassifikatoren E[...] bezeichnet den Erwartungwert über die Verteilung:

111 Vorlesung "Intelligente Systeme"111 Die obige Gleichung wird also gelöst durch: Wobei R die Korrelationsmatrix der l-dimensionalen Vektoren x ist: E[xy] ist die Kreuzkorrelation zwischen tatsächlichem und gewünschtem Ausgang: Wenn R invertierbar ist, resultiert der optimale Gewichtsvektor aus der Lösung eines linearen Gleichungssystems. Lineare Klassifikatoren

112 Vorlesung "Intelligente Systeme"112 Zusammenfassung der “Mean Square Error Estimation” (MSE): Lösung gegeben durch folgende Gleichungen: R ist die Korrelationsmatrix der Verteilung der Merkmalsvektoren. Aber leider (wie bei Bayes): Eine Lösung der obigen Gleichungen benötigt die Kenntnis der Verteilungsfunktion. Diese ist im Allgemeinen nicht bekannt, sondern nur Stichprobe gegeben. Daher: Approximation muss gefunden werden, welche die verfügbaren Stichproben- Merkmalsvektoren benutzt: Der LMS-Algorithmus Lineare Klassifikatoren

113 Vorlesung "Intelligente Systeme"113 Lineare Klassifikatoren Stochastische Approximation und der LMS Algorithmus

114 Vorlesung "Intelligente Systeme"114 Wir betrachten eine Gleichung der Form wie z.B. wobei eine Folge von “random vectors” der unbekannten Verteilung ist, F(.,.) ist eine Funktion und w der Vektor der unbekannten Gewichtswerte. Dann kann eine Lösung gefunden werden durch Anwendung des folgenden iterativen Schemas (Robbins und Monroe 1951): Wenn Dann was bedeutet, daß die gewünschte Konvergenz erreicht wurde. Stochastische Approximation und der LMS Algorithmus Lineare Klassifikatoren

115 Vorlesung "Intelligente Systeme"115 Mithilfe dieser Erkenntnis kann die ursprüngliche Gleichung ohne genaue Kenntnis der Verteilung gelöst werden. Allerdings wird eine hinreichend große Stichprobe von Merkmalsvektoren benötigt. Dann wird substituiert durch, wobei {x k } die Menge der Trainings-Merkmalsvektoren und {y k } die Menge der entsprechenden gewünschten Ausgangswerte +-1 darstellt. Dieses iterative Schema wird als Widrow-Hoff Algorithmus bezeichnet. Er konvergiert asymptotisch gegen die MSE-Lösung. Lineare Klassifikatoren

116 Vorlesung "Intelligente Systeme"116 Eine verbreitete Variante benutzt ein konstantes  für die Folge  . Diese Variante wird angewendet, wenn sich die Stichprobenverteilung mit dem Index k ändert. Sie konvergiert jedoch nicht genau gegen die MSE-Lösung. Hayk konnte jedoch 1996 zeigen, daß wenn 0 <  < 2/spur{R}, dann Es stellt sich heraus, dass, je kleiner der Wert von  ist, die MSE Lösung umso besser approximiert wird, aber die Konvergenzgeschwindigkeit umso kleiner ist. Lineare Klassifikatoren

117 Vorlesung "Intelligente Systeme"117 Lineare Klassifikatoren Schätzalgorithmus mittels Quadratfehlersummen

118 Vorlesung "Intelligente Systeme"118 Schätzung mittels Summe der Fehlerquadrate Ein anderes Kriterium für die Konstruktion eines optimalen linearen Klassifikators ist die Minimierung der Summe der Fehlerquadrate über die Trainingsstichprobe. Die Kostenfunktion lautet dann: Die Fehlerquadrate zwischen den gewünschten und den tatsächlichen Klassifikatorausgängen werden über alle verfügbaren Trainingsvektoren der Stichprobe aufsummiert, wodurch die Notwendigkeit der expliziten Kenntnis der zugrundeliegenden Verteilungsfunktionen vermieden wird. Die Minimierung obiger Gleichung bezüglich w ergibt: Lineare Klassifikatoren

119 Vorlesung "Intelligente Systeme"119 Die Minimum-Bedingung kann umformuliert werden als: Matrix X T X wird bezeichnet als “Stichproben-Korrelationsmatrix”. Matrix (X T X) -1 X T ist die Pseudoinverse von Matrix X und wird mit X + bezeichnet. X + ist nur dann sinnvoll, wenn X T X invertierbar ist, d.h. wenn X den Rang l besitzt. X + ist eine Verallgemeinerung der Inversen einer invertierbaren quadratischen Matrix: Wenn X eine invertierbare quadratische Matrix ist, dann ist X + = X -1. Dann ist der geschätzte Gewichtsvektor die Lösung des linearen Gleichungssystems Xw = y. Wenn es mehr Gleichungen als Unbekannte gibt, d.h., wenn N > l, dann ist die Lösung, die man mit der Pseudoinversen erhält, diejenige, die die Summe der Fehlerquadrate minimiert. Es kann ferner gezeigt werden, daß die Lösung mit der Summe der Fehlerquadrate gegen die MSE-Lösung strebt, wenn N gegen unendlich geht. Lineare Klassifikatoren

120 Vorlesung "Intelligente Systeme"120 Lineare Klassifikatoren Mehrklassen-Verallgemeinerung

121 Vorlesung "Intelligente Systeme"121 Mehrklassen-Verallgemeinerung Konstruiere N lineare Trennfunktionen i=1,...,N wobei der gewünschte Ausgang lautet Mit dem MSE Kriterium: Wenn wir in diesem Fall N=2 wählen gibt die Entscheidungs-Hyperebene die gewünschten Antworten +-1 für die entsprechende Klassenzugehörigkeit. Definiert man den Vektor der gewünschten Ausgänge für einen gegebenen Merkmalsvektor x als y=(y 1,,y N ), wobei y i =1 für die Klasse von Vektor x und y=0 sonst. Es sei ferner Matrix W zusammengesetzt aus Gewichtsvektoren w i als Spalten. Dann kann das MSE Kriterium verallgemeinert werden als Minimierung der Norm von y-W T x: Dies ist gleichbedeutend mit N unabhängigen MSE Minimierungsaufgaben, welche mit den bereits vorgestellten Methoden gelöst werden können. Lineare Klassifikatoren

122 Vorlesung "Intelligente Systeme"122 Lineare Klassifikatoren Aufstieg und Fall des Perzeptrons 1957 – Frank Rosenblatt entwickelt Konzept des Perzeptron 1958 – Konzept-Vorstellung 1960 – Konzept-Umsetzung an der Cornell University, Ithaca, New York (USA) 1962 – Zusammenfassung der Ergebnisse in „Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” 1969 – Beweis durch Marvin Minsky und Seymour Papert, dass ein einstufiges Perzeptron den XOR-Operator nicht darstellen kann.

123 Vorlesung "Intelligente Systeme"123 Nicht-lineare Klassifikatoren Das XOR-Problem Das Zweischicht-Perzeptron Eigenschaften des Zweischicht-Perzeptrons Prozedur zum Auffinden geeigneter Abbildungen mit Perzeptrons Der Backpropagation-Algorithmus Bemerkungen zum Backpropagation-Algorithmus Freiheitsgrade beim Backpropagation-Algorithmus

124 Vorlesung "Intelligente Systeme"124 In vielen praktischen Fällen sind auch optimale lineare Klassifikatoren unzureichend. Einfachstes Beispiel: Das XOR Problem. Bool´sche können als Klassifikationen aufgefasst werden: Abhängig vom binären Eingangsvektor ist der Ausgang entweder 1 (Klasse A) oder 0 (Klasse b). X 1 X 2 AND(X 1, X 2 ) KlasseOR(X 1, X 2 ) KlasseXOR(X 1, X 2 ) Klasse 00 0 B 0 B 0 B 01 0 B 1 A 1 A 10 0 B 1 A 1 A 11 1 A 1 A 0 B 0 1 x2x2 1 x1x1 B B B A 0 1 x2x2 1 x1x1 A A B A 0 1 x2x2 1 x1x1 A A B B Nicht-lineare Klassifikatoren

125 Vorlesung "Intelligente Systeme"125 Das zweischichtige Perzeptron Wir betrachten zunächst das OR-Gatter: x1x1 0 x2x2 1 x1x1 A A B A Die OR-Separierung wird dargestellt durch folgende Perzeptron-Struktur: x1o x2ox1o x2o /2  f 0 1 x2x2 1 x1x1 A A B B Das XOR Gatter Eine offensichtliche Lösung des XOR-Problems wäre, zwei Entscheidungslinien g 1 (x) and g 2 (x) einzuzeichnen. Dann ist Klasse A auf der - Seite von g 1 (x) und auf der + Seite von g 2 (x) und Klasse B auf der + Seite von g 1 (x) und auf der - Seite von g 2 (x). Eine geeignete Kombination der Ergebnisse der beiden linearen Klassifikatoren würde also die Aufgabe erfüllen. g1(x)g1(x) g2(x)g2(x) Nicht-lineare Klassifikatoren

126 Vorlesung "Intelligente Systeme"126 Anderer Blickwinkel als Basis für Verallgemeinerung: Realisierung zweier Entscheidungslinien (Hyperebenen) durch Training zweier Perzeptrons mit Eingängen x 1, x 2 und entsprechend berechneten Gewichten. Die Perzeptrons wurden trainiert, die Ausgänge y i = f(g i (x)), i=1,2 zu liefern, Aktivierungsfunktion f: Sprungfunktion mit Werten 0 und 1. In der folgenden Tabelle sind die Ausgänge mit ihren entsprechenden Eingängen gezeigt: (x 1 x 2 )(y 1 y 2 )Klasse (00)(00) B (0) (01)(10) A (1) (10)(10) A (1) (11)(11) B (0) Betrachtet man (x 1, x 2 ) als Vektor x und (y 1, y 2 ) als Vektor y, definiert dies eine Abbildung von Vektor x auf Vektor y. Entscheidung über die Zugehörigkeit zu Klasse A oder B anhand der transformierten Daten y: x1x1 0 y2y2 1 y1y1 A B B Die Abbildung überführt linear nicht separierbares Problem im Ursprungsraum in ein linear separierbares im Bildraum. Nicht-lineare Klassifikatoren

127 Vorlesung "Intelligente Systeme"127 Dies führt zum Zweischicht-Perzeptron, welches das XOR-Problem löst: Dieses kann weiter verallgemeinert werden auf das allgemeine Zweischicht-Perzeptron oder Zweischicht-Feedforward-Netzwerk: x1ox2o...xNox1ox2o...xNo O y 1 O y 2. O y M O w1..wNw1..wN w0w0  f Dabei bezeichnet jeder Knoten folgende Struktur: f  Sprungfunktion x1ox1o x2ox2o /2  f -3/2  f -1/2  f Nicht-lineare Klassifikatoren

128 Vorlesung "Intelligente Systeme"128 Eigenschaften des Zweischicht-Perzeptrons Die erste Schicht führt eine Transformation der Bereiche des Eingangsraumes (x 1,x 2 ) auf den + und - Seiten der geraden Entscheidungslinien g 1 : x 1 +x 2 -1/2=0 und g 2 : x 1 +x 2 -3/2=0 durch auf die Vertizes (Ecken) des Einheitsquadrates im Ausgangsraum (y 1,y 2 ). x1x1 0 y2y2 1 y1y1 A B B 1 Die zweite Schicht führt eine Abbildung der Bereiche des (y 1,y 2 )-Raumes auf den + und - Seiten der geraden Entscheidungslinie g: y 1 -2y 2 -1/2=0 durch auf die Ausgangswerte 0 und x1ox1o 1111 y1y2y1y2 x2ox2o /2  f -3/2  f -1/2  f Nicht-lineare Klassifikatoren 0 1 x2x2 1 x1x1 A A B B g1(x)g1(x) g2(x)g2(x)

129 Vorlesung "Intelligente Systeme"129 x1ox2o...xNox1ox2o...xNo O y 1 O y 2. O y M O Neuronen der ersten Schicht: Abbildung des Eingangsraumes auf die Vertizes eines Hyperkubus im M-dimensionalen Raum der Ausgangswerte der versteckten Neuronen. =>Jeder Eingangsvektor x wird auf einen binären Vektor y abgebildet. Komponenten y i des Abbild-Vektors y von Vektor x werden durch den Gewichtsvektor w i bestimmt. Wir betrachten den Fall dreier versteckter Neuronen: Drei Hyperebenen g 1, g 2, g 3 : Der Merkmalsraum wird in Polyeder unterteilt (Volumina, die durch Entscheidungs-Hyperebenen begrenzt werden), welche auf die Vertizes eines dreidimensionalen Kubus abgebildet werden, welche durch Tripel der binären Werte y 1, y 2, y 3 definiert werden. g1g1 g3g3 g2g Befindet sich x auf der positiven Seite der Ebene, welche durch w i definiert ist, hat y i den Wert 1 und wenn x auf der negativen Seite der Ebene liegt, die durch w i definiert ist, hat y i den Wert Zweite Schicht: Entscheidungshyperebene, welche die Vertizes in zwei Klassen aufteilt. Im vorliegenden Fall werden die Gebiete 111, 110, 101 und 100 in die gleiche Klasse eingeteilt. Nicht-lineare Klassifikatoren

130 Vorlesung "Intelligente Systeme"130 Ein Zweischicht-Perzeptron kann Klassen unterteilen, die aus Vereinigung polyedrischer Bereiche bestehen. Liegen Vereinigungen solcher Bereiche vor, wird eine weitere Schicht benötigt. x1ox2o...xNox1ox2o...xNo O y 1,2 O y 2,2. O y L,2 O O y 1,1 O y 2,1. O y M,1 Das Mehrschicht-Perzeptron löst alle Klassifikationsaufgaben, bei denen die Klassen im Merkmalsraum durch Vereinigungen von Polyedern, Vereinigungen solcher Vereinigungen,..., gebildet werden, wenn die entsprechende Anzahl von Schichten zur Verfügung steht. Das Perzeptron kann auch erweitert werden, um Mehrklassenprobleme zu lösen. :O:O Class w j Class w k Class w l GjGj GkGk GlGl p3p3 p1p1 p2p2 p4p4 m1m1 m2m2 m3m3 Merkmalsraum Klassenzugehörigkeits- raum Klassenzugehörigkeits- raum Nicht-lineare Klassifikatoren

131 Vorlesung "Intelligente Systeme"131 Anmerkungen: Struktur zur nicht-linearen Abbildung von Merkmalsvektoren auf Klassenzugehörigkeitsvektoren: Das Mehrschicht-Perzeptron. Verbleibende, noch zu bestimmenden Freiheitsgrade: Anzahl der Schichten, Anzahl der Neuronen pro Schicht, Aktivierungsfunktion, Gewichtswerte. Verbleibende Frage: Bei gegebenen Merkmalen und bekannten Klassenzugehörigkeiten der Stichproben- Vektoren: Welches ist die beste Anordnung von Neuronen und Gewichtsvektoren, die eine gegebene Klassifikationsaufgabe lösen? Hilfe seitens der Mathematik: Für jedes kontinuierliche Abbildungsproblem kann ein Zweischicht-Perzeptron mit einer nicht-linearen Aktivierungsfunktion und einer hinreichenden Anzahl Neuronen in der versteckten Schicht gefunden werden, welches die Abbildung mit beliebiger Genauigkeit annähert. => Freiheit, einen Satz von Aktivierungsfunktionen zu wählen, der eine einfache Lösung ermöglicht. Nicht-lineare Klassifikatoren

132 Vorlesung "Intelligente Systeme"132 Auffinden einer geeigneten Abbildung mit Perzeptrons Einmal wieder Optimierungsprozedur: Minimierung der Differenz zwischen realem Ausgang des Perzeptrons (vorausgesagte Klassenzugehörigkeit) und dem gewünschten Ausgang entsprechend der bekannten Klassenzugehörigkeiten der verfügbaren Stichprobe. Definition einer Kostenfunktion der Differenz zwischen realem und gewünschtem Ausgang. z.B. Summe der Fehlerquadrate. Minimierung der Kostenfunktion bezüglich der Perzeptron-Parameter. Vereinfachung: Definiere eine Aktivierungsfunktion. Dann braucht die Minimierung nur bezüglich der Gewichtswerte durchgeführt werden. Minimierung impliziert die Nutzung der Ableitungen der Aktivierungsfunktion. Wird die Sprungfunktion benutzt, tritt eine Unstetigkeit in der Ableitung auf. Wir ersetzen daher die Sprungfunktion durch die stetig differenzierbare logistische Funktion. x f Die logistische Funktion ist eine aufgeweichte Sprungfunktion, wobei a die Steigung bei x=0 bestimmt und Damit ist die Klassenzugehörigkeit nicht mehr scharf 0 oder 1. 1 Nicht-lineare Klassifikatoren

133 Vorlesung "Intelligente Systeme"133 Nun kann der “geeignetste” Klassifikator durch Minimierung einer Kostenfunktion bezüglich der Gewichtswerte gefunden werden. Geomterische Betrachtungsweise: Alle Gewichte (aller Schichten) spannen einen Raum auf. Die Kostenfunktion bildet dann eine Fläche über diesem Raum. => Globales Minimum dieser Fläche für die gegebene Stichprobe gesucht. Da nicht-lineare Aktivierungsfunktionen vorliegen, wird zur Suche ein iteratives Schema benutzt. Der verbreitetste Ansatz ist die Gradientenabstiegsmethode: Starte mit einem Zufalls-Gewichtsvektor w. Berechne den Gradienten der Fläche bei w. Bewege w in Richtung entgegen dem Gradienten. Wiederhole die obigen Schritte, bis ein Minimum erreicht ist, d.h. der Gradient einen Schwellwert unterschreitet. Es sei w der Gewichtsvektor von Neuron n in Schicht l: Nicht-lineare Klassifikatoren

134 Vorlesung "Intelligente Systeme"134 Nicht-lineare Klassifikatoren x1ox2o...xNox1ox2o...xNo O 3,1 O 3,2. O 3,K O O 2,1 O 2,2. O 2,M :O:O l=1 l=L Neuron 2 in Schicht 3 Korrektur-Inkrement  mit Kostenfunktion J: Kostenfunktion: Summe der Abweichungen des tatsächlichen vom gewünschten Ausgang für alle K Stichprobenvektoren:  : Summe der Fehlerquadrate über alle M Ausgangsneuronen: Kettenregel: o. o w1w2.wNw1w2.wN w0w0  f y Aktivierung Neuron n in Schicht l

135 Vorlesung "Intelligente Systeme"135 Neuron n aus Schicht l-1. Ausgang für Stichprobenvektor k: y n l-1 (k). Gewichtswert zu Neuron j aus der nachfolgenden Schicht l: w jn l. Dann ist das Argument dieses Neurons j aus Schicht l: In der Ausgangsschicht ist An der Eingangsschicht gilt Definition für gegebenes Abweichungsmaß  Schließlich erhalten wir: Diese Beziehung gilt für jede differenzierbare Kostenfunktion. Nicht-lineare Klassifikatoren o. o W n0 l-1 n f Schicht l-1 o. o. o w j0 l j f Schicht l

136 Vorlesung "Intelligente Systeme"136 Die Berechnungen beginnen an der Ausgangsschicht l=L und propagieren rückwärts durch die Schichten l=L-1, L-2,..., 1. Bei Benutzung des Quadratfehler-Distanzmaßes erhalten wir: Aus wird Von folgt (1) l = L: Fehler für Muster k an Ausgangsschicht (2) l < L: Schwieriger wegen Einfluss von auf alle der nächsten Schicht Nochmals Kettenregel: Nach längerer Algebra erhält man folgende Gleichung: Dies vervollständigt den Gleichungssatz des Backpropagation Algorithmus. Nicht-lineare Klassifikatoren Aktivierungsfunktion Ableitung der Aktivierungsfunktion

137 Vorlesung "Intelligente Systeme"137 Der Backpropagation Gleichungssatz Nicht-lineare Klassifikatoren Fehler-RückpropagierungGewichtsmodifikation

138 Vorlesung "Intelligente Systeme"138 Der Backpropagation Algorithmus Unter der Annahme der logistischen Funktion als Aktivierungsfunktion: 1. Initialisierung Initialisiere die Gewichte des Netzwerks mit kleinen Zufallszahlen. Benutze z.B. einen Pseudozufallszahlengenerator. 2. Vorwärts-Berechnung Berechne für jeden Merkmalsvektor x(i) der Trainingsmenge alle v j l (i), y j l (i)=f(v j l (i)) und die Kostenfunktion J sowie  j l (i) für die momentanen Schätzwerte der Gewichte. 3. Rückwärts-Berechnung Berechne für jedes i die  j l-1 (i) und aktualisiere die Gewichte für alle Schichten entsprechend: Wiederhole Schritte 2 und 3, bis der Wert von J zufriedenstellend klein ist. Nicht-lineare Klassifikatoren

139 Vorlesung "Intelligente Systeme"139 Bemerkungen zum Backpropagation Algorithmus Ausgangspunkt Mehrschicht-Perzeptrons mit Stufenfunktionen als Aktivierungsfunktionen: Operatoren zur Aufteilung des Merkmalsraums in Volumina, welche Klassenzugehörigkeiten repräsentieren. Volumina waren allgemeine Vereinigungen von Polyedern, begrenzt durch Entscheidungs-Hyperebenen. Lösungsweg Für eine gegebene endliche Stichprobe (Merkmalsvektoren mit bekannter Klassenzugehörigkeit) existiert i.A. eine unbegrenzte Anzahl möglicher Mehrschicht- Perzeptron-Realisierungen, welche die Klassifikationsaufgabe lösen. Suche nach einer eindeutigen (der besten) Lösung: Minimum einer Kostenfunktion; Wahl: Fehlerquadratsumme. Für mathematische Formulierung: Ersatz der Stufenfunktion durch die logistische Funktion als Aktivierungsfunktion. Optimierungsprozedur zur Bestimmung der Gewichtwerte für eine gegebene Stichprobe: den Backpropagation Algorithmus. Allgemeingültigkeit Satz von Kolmogoroff aus der Mathematik: Abbildungsoperatoren mit einer versteckten Schicht und nicht-linearer Abbildungsfunktion sind in der Lage, jegliche stetig differenzierbare Abbildung zu realisieren. Daraus folgt, dass wir eine einfache Methode gefunden haben, einen universellen Mustererkenner zu konstruieren. Nicht-lineare Klassifikatoren

140 Vorlesung "Intelligente Systeme"140 Wie komme ich zu einer guten Netzwerkstruktur ? Wie kann ich die Konvergenzgeschwindigkeit optimieren ? Wie kann ich vermeiden, in lokalen Minima der Kostenfunktion steckenzubleiben ? Wie präsentiere ich die Trainingsstichprobe ? Update nach jedem Trainingspaar, Epochen-Lernen, sequentielle oder zufällige Reihenfolge ? Wann höre ich mit dem Training auf ? Gibt es bessere Kostenfunktionen ? Gibt es Alternativen für die Architektur und die Aktivierungsfunktion ? Offene Fragen zum Backpropagation Algorithmus J m J w Nicht-lineare Klassifikatoren

141 Vorlesung "Intelligente Systeme"141 Wahl der Netzwerkgröße und -struktur Wie soll man die geeignete Anzahl der Neuronen und Schichten bestimmen? Wenn eine endliche Trainingsstichprobe von Paaren gegeben ist {x 1,y 1, x 2,y 2,..., x N,y N }, dann sollte die Anzahl der freien Parameter (hier synaptische Gewichte) 1) groß genug sein, um eine angemessene Klassentrennung modellieren zu können 2) klein genug sein, damit nicht die Möglichkeit besteht, die Unterschiede zwischen Paaren derselben Klasse (Look-up Tabelle) zu lernen. Wenn die Anzahl freier Parameter groß ist, tendiert das Netz dazu, sich an die speziellen Details des Trainingsdatensatzes anzupassen (Übertrainieren) und verliert seine Generalisierungsfähigkeit. Das Netz sollte die kleinst mögliche Größe besitzen, um sich den größten Regelmäßigkeiten in den Daten anzupassen und die kleineren zu ignorieren, die von Rauschen herrühren könnten. Zur Bestimmung der Netzgröße gibt es auch systematische Methoden. x1x1 x2x2 * * * * * * * * * Hohe Anzahl freier Parameter Niedrige Anzahl freier Parameter Nicht-lineare Klassifikatoren

142 Vorlesung "Intelligente Systeme"142 Methoden zur systematischen Bestimmung der Netzgröße Algebraische Schätzung Ein Mehrschicht-Perzeptron mit Eingangsraum-Dimensionalität d und einer versteckten Schicht mit N Neuronen kann maximal M polyedrische Gebiete bilden, wobei. Für das XOR-Problem mußten wir drei Gebiete unterscheiden, d.h. M=3 und d=2. Mit obiger Gleichung erhält man für N=1 M=2 und für N=2 ergibt sich M=4, was bedeutet, daß eine versteckte Schicht mit zwei Neuronen notwendig und hinreichend ist. Netzpruning Anfangs wird ein großes Netzwerk für das Training gewählt und danach die Anzahl der freien Parameter sukzessive entsprechend einer ausgewählten Regel (z.B. Kostenfunktions- Regularisierung) reduziert. Die Kostenfunktionsregularisierung schließt in die Kostenfunktion einen Bestrafungsterm ein. Dieser kann z.B. gewählt werden als: wobei K die Gesamtzahl der Gewichtswerte im Netzwerk und der Regularisierungsparameter ist. Es gibt verschiedene Pruning-Techniken, die auf ähnlichen Grundideen aufbauen. Nicht-lineare Klassifikatoren

143 Vorlesung "Intelligente Systeme"143 Konstruktive Techniken Als Ausgangspunkt wird ein kleines Netzwerk gewählt, dem aufgrund entsprechend angepaßter Lernregeln sukzessive Neuronen hinzugefügt werden. Fahlmann (1990) schlug die cascade correlation Konstruktionstechnik für neuronale Netze mit einer versteckten Schicht und sigmoider Aktivierungsfunktion vor. Start: nur Eingangs- und Ausgangsneuronen. Sukzessives Hinzufügen versteckter Neuronen: Jeweils mit dem bestehenden Netzwerk mit zwei Typen von Gewichten verbunden: Typ 1: verbindet das neue Neuron mit den Eingangsneuronen sowie mit den Ausgängen der zuvor hinzugefügten versteckten Neuronen. Die entsprechenden Gewichtswerte werden dann trainiert, um die Korrelation zwischen der Sequenz der Ausgangswerte des neu hinzugefügten Neurons und der Restfehlersequenz des Netzwerkausgangs (für die Trainingsvektormenge) zu maximieren. Diese Gewichtswerte werden dann eingefroren. Typ 2: verbindet den Ausgang des neuen Neurons mit den Ausgangsneuronen des Netzwerks. Nach jedem derartigen Hinzufügen eines Neuron: Training des gesamten Satzes der Typ2- Gewichte, um die Quadratfehlersumme zu minimieren. Neue Neuronen werden solange hinzugefügt, bis die Kostenfunktion spezifizierte Vorgaben erfüllt. Nicht-lineare Klassifikatoren

144 Vorlesung "Intelligente Systeme"144 Konstruktive Techniken cascade correlation Konstruktionstechnik 1. Start: nur Eingangs- und Ausgangsneuronen 2. Training bis Minimum SSE 3. Schleife bis SSE < Schwellwert 3.1 Hinzufügen neues hidden Neuron 3.2 Verbinde Eingänge neues Neuron mit Eingangsneuronen und Ausgängen der alten hidden Neuronen mit Typ1-Gewichten. 3.3 Trainiere Typ1-Gewichte neues Neuron, bis die Korrelation zwischen SSE des alten Netzwerks und Ausgang des neuen Neurons maximal ist. 3.4 Verbinde Ausgang neues Neuron mit Eingängen der Ausgangsneuronen mit Typ2-Gewichten. 3.4 Trainiere Typ2-Gewichte aller versteckten Neuronen, bis SSE des Netzwerks minimal. OO..OOO..O O x 1 x 2. x M OO..OOO..O O x 1 x 2. x M O Typ1-Gewicht Typ2-Gewicht OO..OOO..O O x 1 x 2. x M O O Nicht-lineare Klassifikatoren

145 Vorlesung "Intelligente Systeme"145 Konvergenzverhalten und Beschleunigung Der Backpropagation Algorithmus ist eine Variante der Gradienteabstiegsmethoden, speziell für Mehrschichtstrukturen. Er hat damit dieselben Nachteile wie sein Original. J w steckengeblieben oszillierend langsam Es gibt mehrere Ansätze, diese Probleme zu überwinden. Hinzufügen eines Impulsterms Der Impulsterm dämpft das Oszillationsverhalten und beschleunigt die Konvergenz. Er fügt aber auch einen neuen Parameter hinzu, den Impulsfaktor, der den Einfluß des alten Gewichtsvektors auf die Gestalt des neuen Gewichtsvektors gewichtet. Nicht-lineare Klassifikatoren

146 Vorlesung "Intelligente Systeme"146 Beschleunigung mit Rprop Die Grundidee besteht darin, für die Lernrate µ einen adaptiven Wert zu verwenden, der vom Unterschied des Kostenfunktionswertes zwischen zwei aufeinanderfolgenden Trainingsschritten abhängt: Nimmt die Kostenfunktion ab, oder bleibt sie unverändert, dann wird die Lernrate um einen Faktor > 1 erhöht. Steigt die Kostenfunktion an um mehr als einen bestimmten Faktor, dann wird die Lernrate mit einem Faktor < 1 verringert. Im Zwischenbereich bleibt die Lernrate gleich. In der Praxis sind typische Werte r i =1.05, r d =0.7, c=1.04 Nicht-lineare Klassifikatoren

147 Vorlesung "Intelligente Systeme"147 Gegenmaßnahmen bei Steckenbleiben im lokalen Minimum Bleibt auch nach einer großen Anzahl von Trainingsepochen die Kostenfunktion auf einem unbefriedigend hohen Niveau, kann davon ausgegangen werden, daß die Gradientenabstiegsmethode in einem lokalen Minimum steckengeblieben ist. Man kann dann zuerst versuchen, das Training mit einer neuen Zufallsgewichtsverteilung zu wiederholen. Wenn auch dies nicht hilft, kann ein weiteres Neuron in einer versteckten Schicht hinzugeügt werden, um neue Dimensionen im Raum der Gewichtswerte hinzuzufügen, in denen die Gradientenmethode einen Weg aus dem lokalen Minimum finden kann. J Anzahl der Epochen Nicht-lineare Klassifikatoren

148 Vorlesung "Intelligente Systeme"148 Präsentation des Trainingsdatensatzes Der Trainingsdatensatz kann in verschiedener Reihenfolge angeboten werden. Die Neuberechnung der Gewichte kann mit unterschiedlicher Strategie erfolgen. Den Daten kann Rauschen hinzugefügt werden. Die Verteilung der Trainingsdaten kann verändert werden. Neuberechnung der Gewichte: Batch Modus: Nach Präsentation aller Trainingspaare (Epochenlernen) Mittelungsprozess -> besseres Konvergenzverhalten Pattern Modus: Nach jeder Präsentation eines Trainingspaares Stärkerer Zufallscharakter -> geringere Gefahr des Steckenbleibens Überlagerung von Rauschen: Eine kleine zufällige Störung der Eingangsvektoren kann die Generalisierungsfähigkeit des Netzwerks verbessern. Reihenfolge der Präsentation des Trainingsdatensatzes: Die Zufallsauswahl bei der Präsentationsreihenfolge glättet die Konvergenz und hilft, aus Regionen um ein lokales Minimum herauszuspringen. Vervielfachung der Trainingspaare: Wenn die Klassen in der Stichprobe durch sehr unterschiedliche Anzahlen von Trainingspaaren repräsentiert werden, kann die Konzentration des Netzes auf die stark besetzten Klassen vermieden werden, indem Kopien der Trainingspaare der unterbesetzten Klassen der Stichprobe hinzugefügt werden. Nicht-lineare Klassifikatoren

149 Vorlesung "Intelligente Systeme"149 Die optimale Leistung ist erreicht, wenn Die Kostenfunktion minimal für den Trainingsdatennsatz ist. Das Netzwerk nicht übertrainiert ist. Aufteilung des Trainingsdatensatzes in Lerndatensatz: Zur Neuberechnung der Gewichtswerte Validierungsdatensatz:Nur zur Überprüfung der aktuellen Netzleistung Beobachte die Entwicklung der Kostenfunktionswerte jeweils für den Lern- und den Vailidierungsdatensatz. Wenn die Anzahl der Gewichtswerte groß genug gewählt wurde, kann der Fehler für den Lerndatensatz beliebig klein gemacht werden. Dies führt zum Verlust der Generalisierungsfähigkeit: Die Kostenfunktion des Validierungsdatensatzes nimmt nach einem Minimum wieder zu. Die optimale Leistung eines gewählten Netzwerks wird also am Minimum der Kostenfunktion des Validierungsdatensatzes erreicht. Abbruch des Lernvorgangs J Epochenanzahl Lerndatensatz Validierungsdatensatz Nicht-lineare Klassifikatoren

150 Vorlesung "Intelligente Systeme"150 Kostenfunktion Alternativen Bislang Kostenfunktion vom Typ „quadratischer Fehler“. Mögliche Probleme: 1. „Lernfokussierung“ und Ausreisser-Empfindlichkeit Fehler werden an den Ausgangsknoten zuerst quadriert und dann aufsummiert. Folge: große Fehlerwerte -> höherer Einfluß auf das Lernen als kleine. Ausgänge mit großen dynamischen Bereichen der Soll-Ausgangswerte werden stärker berücksichtigt. 2. Lokale Minima Gradientenabstiegsmethode kann in lokalen Minima hängen bleiben. Lösung: Es gibt eine Klasse von Kostenfunktionen, well-formed functions, die sicherstellen, daß der Gradientenabstiegsalgorithmus zu einer eindeutigen Lösung konvergiert, welche alle Lerndatensätze korrekt klassifiziert. Z.B. cross-entropy Kostenfunktion: Diese hängt nur von relativen Fehlern ab und gibt Klassen mit niedrigem und hohem dynamischen Bereich das gleiche Gewicht. Nicht-lineare Klassifikatoren

151 Vorlesung "Intelligente Systeme"151 Unter der Annahme, dass die beiden Klassen im Ursprungs- raum durch eine nicht-lineare Hyperfläche  (x)=0 trennbar waren, dann sind die beiden Relationen rechts äquivalent mit einer Approximation der nicht-linearen Fläche  (x) mit einer Linearkombination der f(x). Alternative Aktivierungsfunktionen Ausgangspunkt für die Konstruktion nicht-linearer Klassifikatoren war das XOR-Problem. Lösung: Vektor-Abbildung x auf y, welche das in x nicht-lineare Problem in ein linear separierbares in y überführte. F: Aktivierungsfunktion und g i (x): Linearkombination der Eingänge eines jeden Neurons. Verallgemeinerung: Merkmalsvektoren im d-dimensionalen Raum R d, die zu zwei Klassen gehören, die nicht linear trennbar sind. Gegeben seien k nicht-lineare Aktivierungsfuktionen f 1, f 2,..., f k, welche eine Abbildung definieren: Wir suchen dann nach einer Menge von Funktionen f 1, f 2,..., f k, so dass die Klassen linear separierbar sind im k- dimensionalen Raum der Vektoren y durch eine Hyperebene, so dass Dies ist ein Funktionenapproximationsproblem mit einem Satz Funktionen einer ausgewählten Funktionenklasse. Nicht-lineare Klassifikatoren

152 Vorlesung "Intelligente Systeme"152 Dies entspricht einem Zweischicht-Netzwerk mit Aktivierungsfunktionen f 1, f 2,..., f k. Die Äquivalenz wird leicht erkannt im (künstlichen) Fall jeweils eines Ein- und Ausgangsneurons: O f 1 O f 2. O f M O O x y w 1,1 w 1,2. w 1,M w 2,1 w 2,2. w 2,M Das bislang betrachtete Perzeptron benutzte als Funktionenklasse die logistischen Funktionen: y x w0w0 Zwei weitere Klassen haben in der Mustererkennung spezielle Bedeutung: PolynomeGaußfunktionen PolynomklassifikatorenRadiale-Basisfunktionen-Netze Nicht-lineare Klassifikatoren

153 Vorlesung "Intelligente Systeme"153 Nächster-Nachbar-Klassifikator Nächste-Nachbar-Regel Gegeben sei eine Stichprobe aus N Mustervektoren (Prototypen) und zugehörigen Klassenzugehörigkeiten (Label) Ein unbekanntes Muster ist zu klassifizieren. Regel: Es wird ihm die Klasse des ihm nächstliegenden Prototypen zugeordnet. Wirkung im Merkmalsraum: Aufteilung in Voronoi-Zellen Große Zellen (grobe Auflösung) wo Musterdichte gering Kleine Zellen (feine Auflösung) wo Musterdichte hoch Nicht-parametrische Methoden Klasse 1 Klasse 2 Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition,  Wiley-Interscience

154 Vorlesung "Intelligente Systeme"154 K-Nächste-Nachbar-Klassifikator Gegeben sei eine Stichprobe aus N Mustervektoren (Prototypen) und zugehörigen Klassenzugehörigkeiten (Label) Ein unbekanntes Muster ist zu klassifizieren. Regel: Eine Hyperkugel wird um herum solange vergrößert, bis k Prototypen darin enthalten sind. Es wird die Klasse der einfachen Mehrheit dieser k nächsten Prototypen zugeordnet. Zwei-dmensionaler Merkmalsraum, Zwei-Klassenproblem, k=5 Nicht-parametrische Methoden Klasse 1 Klasse 2 Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition,  Wiley-Interscience

155 Vorlesung "Intelligente Systeme"155 K-Nächste-Nachbar-Klassifikator Vergleich mit Bayes: Entscheidungsfehler E Für k=3, großes N und kleinen Bayes-Fehler gute Approximation für Bayes. Weitere Verbesserung im Limes für größeres k. Vorteil: Kein Training erforderlich Nachteil: Komplexität hoch: Speicherbedarf O(N), Abstandsberechnung O(Dimension), Suche kleinster Abstand O(d*N 2 ) bis O(d*N*lnN). => Effizienzsteigerung durch Verdichtung der Stichprobe Nicht-parametrische Methoden

156 Vorlesung "Intelligente Systeme"156 Nächste-Nachbar-Klassifikator  Effizienzsteigerung durch Verdichtung der Stichprobe Kein Beitrag eines Prototypen x i zur Klassifikation, wenn seine Voronoi-Zelle nur Nachbarzellen mit seiner eigenen Klassenzugehörigkeit besitzt. Elimination überflüssiger Elemente in der Stichprobe: Falls im Voronoi-Diagramm die Nachbarzellen der Zelle von x i die gleiche Klassenzugehörigkeit wie aufweisen, kann der Prototyp x i aus der Stichprobe entfernt werden, ohne dass die Fehlerrate des NN- Klassifikators verändert wird. Nicht-parametrische Methoden

157 Vorlesung "Intelligente Systeme"157 Nächste-Nachbar-Klassifikator  Effizienzsteigerung durch Verdichtung der Stichprobe Nicht-parametrische Methoden

158 Vorlesung "Intelligente Systeme"158 Klassifikation Bei der Gesichtserkennung haben wir für jede Person eine Menge an Stichproben- mustern (z.B. Grauwertbilder) mit be- kannter Klassenzugehörigkeit (z.B. Name als Klassenlabel). Rechts ist ein Zweiklassenproblem (Identifikation) dargestellt. Bei der Konstruktion eines Klassifikators ist die erste Frage: Was ist die beste Menge an Merkmalen (aus Messungen im Bild zu extrahieren) um dem Klassifikator eine richtige und robuste Klassifikation zu ermöglichen? Die einfachste Wahl der direkten Verwendung der Grauwerte aller Pixel ist keine gute Wahl, da sie einen 64K- komponentigen Merkmalsvektor für 256x256 pixel Bilder erzeugt und der Marlmalsvektor selbst bei Verschiebungen von nur einem Pixel wesentlich gedreht wird. Person P P nicht P Merkmalsvorverarbeitung und -auswahl

159 Vorlesung "Intelligente Systeme"159 Zunächst wird alles verfügbare a priori Wissen genutzt, wie z.B.: Korrigiere zuerst alle Verzerrungen, die bekannt sind oder in den Mustern selbst gemessen werden können. Eliminiere dann sämtliches Rauschen und alle Störungen, die nicht vom Objekt herrühren. Entferne Elemente aus den Mustern, die innerhalb einer Klasse stark variieren können oder instabil sind (z.B. hochfrequ. Komp. in Gesichtserkennung). Nach den obigen Filterungen und Transformationen folgt eine eventuelle Vorverarbeitung der Stichprobe mittels Entfernung von Ausreissern, Datennormierung und Substituierung fehlender Daten. Letztlich werden robuste, meßbare Merkmale mit hoher Trennbarkeit ausgewählt durch entweder Nutzung von Modellwissen oder Statistische Analyse Merkmalsvorverarbeitung und -auswahl

160 Vorlesung "Intelligente Systeme"160 Vorverarbeitung durch Entfernung von Ausreißern Ausreißer: Punkt, der weit entfernt liegt vom Mittelwert einer Zufallsvariablen. Mögliche Ursachen: Meßfehler, Stichprobenwert aus dem „Außenbereich“ der Verteilung erwischt, Stichprobe besitzt lange „Außenbereiche”. Um das Problem anzugehen, sollte eine hinreichend große Stichprobe vorliegen, um statistisch signifikant Mittelwert und Standardabweichung berechnen zu können, eine gute Schätzung der Verteilung zu ermöglichen. Für eine normalverteilte Zufallsvariable mit Standardabwei- chung , deckt die Fläche um 2  um den Mittelwert 95% und um 3  99% aller Punkte ab. Noch weiter entfernte Punkte sind höchstwahrscheinlich Fehl- messungen und erzeugen beim Training große Fehler. Solche Punkte sollten entfernt werden. Ist die Anzahl der Ausreißer nicht klein, kann dies durch eine breite Verteilungsfunktion bedingt sein. Dann gibt die Quadratfehlersummen-Kostenfunktion den außen- liegenden Werten zuviel Gewicht (wegen der Quadrierung) und es sollte eine geeignetere Kostenfunktion (Kreuz-Entropie) gewählt werden. x p x p xmxm xmxm xoxo xoxo xm+xm+ x m +2  x p xmxm xoxo Merkmalsvorverarbeitung und -auswahl

161 Vorlesung "Intelligente Systeme"161 Vorverarbeitung durch Datennormierung Der Meßprozeß zur Extraktion von Primärmerkmalen aus den Mustern kann in sehr unterschiedlichen dynamischen Bereichen für die verschiedenen Merkmale resultieren. So kann beim Punktschweißen die Schweißspannung von 0 V bis 1 kV variieren, der Schweißstrom (bei einer Konstantstromsteuerung) lediglich von 1,8 kA bis 1,9 kA. Problem: Merkmale mit großen Werten haben mehr Einfluß auf die Kostenfunktion als Merkmale mit kleinen Werten, was nicht unbedingt ihre Signifikanz widerspiegelt. Lösung: Normierung der Merkmale derart, dass die Werte aller Merkmale in ähnlichen Bereichen liegen. Maßnahme: Normierung mit den jeweiligen Schätzwerten von Mittelwert und Varianz: Angenommen, wir haben eine Stichprobe aus N Daten des Merkmals f, dann Nach der Normierung haben alle Merkmale den Mittelwert Null und Einheitsvarianz. Merkmalsvorverarbeitung und -auswahl

162 Vorlesung "Intelligente Systeme"162 Die obige Methode ist linear. Sind die Daten nicht gleichmäßig um den Mittelwert verteilt, sind nicht-lineare Normierungen angezeigt. Diese können logarithmische oder logistische Funktionen sein, welche die Daten in vorgegebene Intervalle abbilden. Das softmax scaling ist ein weit verbreiteter Ansatz: Dies begrenzt den Bereich auf das Intervall [0,1]. Für kleine Werte des Arguments ergibt sich wieder eine lineare Methode. Der Grad der nicht-linearen Stauchung hängt vom Wert von  und vom Parameter r ab. Merkmalsvorverarbeitung und -auswahl

163 Vorlesung "Intelligente Systeme"163 Vorverarbeitung durch Ergänzung fehlender Daten Problem: Manchmal ist die Anzahl verfügbarer Daten nicht für alle Merkmale gleich (z.B. asynchrone Messungen unterschiedlicher Frequenz). Für das Training wird jedoch die gleiche Anzahl von Daten für alle Merkmale benötigt. Lösung:  Wenn wir über viele Trainingsdaten verfügen und nur einige Messungen von Merkmalswerten fehlen, können Merkmalsvektoren mit fehlenden Elementen aus dem Trainingsdatensatz herausgenommen werden.  Wenn wir uns den Luxus des Wegwerfens von Merkmalsvektoren nicht leisten können, müssen wir die fehlenden Werte durch Schätzwerte ersetzen: Mittelwert der verfügbaren Merkmalswerte, Interpolationswert zwischen Vorgänger und Nachfolger Schätzwert aus der zugrundeliegenden Verteilung (wenn verfügbar) Merkmalsvorverarbeitung und -auswahl

164 Vorlesung "Intelligente Systeme" Einzelmerkmale Um einen ersten Eindruck von den ausgewählten Merkmalen zu erhalten, ist es nützlich, die Trennfähigkeit eines jeden einzelnen Merkmals zu betrachten. Dieses Vorgehen filtert Merkmale heraus, die keine Information über Klassenzugehörigkeiten enthalten. 2. Merkmalskombination Danach ist die beste Kombination der übrig gebliebenen Merkmale zu einem Merkmalsvektor zu betrachten. Merkmalsvorverarbeitung und -auswahl Bewertung und Auswahl von Merkmalen

165 Vorlesung "Intelligente Systeme"165 Einzelmerkmals-Auswahl: t-Test für die Merkmalsauswahl Angenommen, wir haben ein Zweiklassenproblem und es sei das betrachtete Merkmal eine Zufallsvariable, dann lautet die Aufgabe, die folgenden Hypothesen zu testen: H 1 : Die Merkmalswerte unterscheiden sich nicht wesentlich für unterschiedliche Klassen. H 0 : Die Merkmalswerte unterscheiden sich wesentlich für unterschiedliche Klassen. H 0 ist dabei die Nullhypothese und H 1 die Alternativhypothese. Angenommen, Merkmal x gehört zu einer bekannten Familie von Wahrscheinlichkeitsverteilungsfunktionen mit einem unbekannten Parameter µ. Im Falle Gaußscher Verteilungen kann µ der Mittelwert oder die Varianz sein. Wenn bekannt ist, daß die Varianz denselben Wert  hat, lautet die Frage, ob sich die Mittelwerte µ 1 und µ 2 des Merkmals x für die beiden Klassen wesentlich unterscheiden. H 1 :  µ = µ 1 - µ 2  0, H 0 :  µ = µ 1 - µ 2 = 0 Werden die Werte von x für die Klasse 1 mit X und für Klasse 2 mit Y bezeichnet, definieren wir Z=X-Y. Dann können wir die Stichprobe für z verwenden, um auf die  µ Hypothese hin zu testen und einen t-Test durchführen mit Merkmalsvorverarbeitung und -auswahl

166 Vorlesung "Intelligente Systeme"166 Prüfung bislang auf wesentlichen Unterschied der Mittelwerte eines Merkmals zweier Klassen: Merkmale mit ungefähr gleichem Mittelwert werden ausgeschlossen. Maß für Unterscheidungsfähigkeit eines Merkmals: ROC (Zusätzliche Betrachtung des Überlapps der Wahrscheinlichkeitsverteilungsfunktionen für die beiden Klassen). Wir können einen Schwellwert zwischen beiden Klassen definieren: Klassentrennbarkeit : Receiver operating characteristics Kurve x p XmXm YmYm x p     Schwellwert Klasse1 Klasse2 Wahrscheinlichkeit einer falschen Entscheidung über die Klasse1-Zugehörigkeit: Fläche  unter der oberen Kurve rechts vom Schwellwert; Wahrscheinlichkeit einer korrekten Entscheidung 1- . Entsprechend für Klasse2:  und 1- . Die Variation des Schwellwerts ergibt die ROC Kurve: Bei vollständigem Überlapp ist  1-  (Diagonale), ohne Überlapp ist 1-  = 1 unabhängig von , ansonsten erhalten wir eine Kurve wie im Diagramm. Die Fläche zwischen dieser Kurve und der Dia- gonale ist ein Überlapp-Maß zwischen 0 und 0,5. Die ROC Kurve: Durchfahren des Wertebereichs von x mit dem Schwellwert und Berechnung und Auftragung von  = 1-  im Diagramm. 1-   1 1 A Merkmalsvorverarbeitung und -auswahl Klasse1 Klasse2

167 Vorlesung "Intelligente Systeme"167 Merkmalsvektor-Klassentrennbarkeitsmaße Die bisherigen Betrachtungen sind nicht geeignet, die Korrelationen zwischen Merkmalen zu berücksichtigen, die üblicherweise bestehen und die Unterscheidungseffizienz eines Merkmalsvektors beeinflussen. 1. Divergenz Gegeben seien zwei Klassen c1 und c2. Gemäß der Bayes´schen Regel wird ein Merkmalsvektor x zugeordnet zu c1 wenn P(c1|x) > P(c2|x). Unterscheidbarkeit für eine Merkmalsausprägung  =ln[ p(c1|x)/p(c2|x)]. Mittelwerte von  : Symmetrische Kombination: Divergenz d Merkmalsvorverarbeitung und -auswahl

168 Vorlesung "Intelligente Systeme"168 Merkmalsvektor-Klassentrennbarkeitsmaße Divergenz bei Normalverteilungen Für mehrdimensionale Gaussfunktionen mit Mittelwertvektoren  und Kovarianzmartizen  Merkmalsvorverarbeitung und -auswahl

169 Vorlesung "Intelligente Systeme"169 Mit ist Divergenz dann gleich was sich im eindimensionalen Fall reduziert zu Verallgemeinerung auf Mehrklassen-Trennbarkeitsmaß M: Anzahl der Klassen Merkmalsvorverarbeitung und -auswahl

170 Vorlesung "Intelligente Systeme" Fishers discriminant ratio Das FDR Maß basiert auf der sogenannten Streumatrix-Methode. Für Zweiklassenprobleme in einer Dimension (ein Merkmal) hat die FDR folgende Form: Für Mehrklassenprobleme können mittelnde Formen der FDR benutzt werden: wobei die Indizes i und j sich auf Mittelwert und Varianz (des betrachteten Merkmals) für die Klassen c i und c j beziehen. 3. Weitere Klassentrennbarkeitsmaße Chernoff Rand und Brattcharrya Distanz. Die Mahalanobis-Distanz ist ein Spezialfall von (1.), wobei die Wahrscheinlichkeitsverteilungsfunktionen gleiche Kovarianzmatrizen besitzen. Merkmalsvorverarbeitung und -auswahl

171 Vorlesung "Intelligente Systeme" Visualisierung des Merkmalsraumes mit entsprechenden Werkzeugen Merkmalsvorverarbeitung und -auswahl

172 Vorlesung "Intelligente Systeme"172 Merkmalsvektorauswahl Um den optimalen Merkmalsvektor aufzufinden, könnten wir eine vollständige Suche unter allen Kombinationen von l Merkmalen aus m möglichen durchführen. Wir würden die beste Kombination bezüglich eines bestimmten Trennbarkeitsmaßes suchen. Für große Werte von m kann dies ein ernsthaftes kombinatorisches Problem werden, da Beispiel: vollständige Suche nach Kombination der 5 besten Merkmale von 20 ergibt zu untersuchende Kombinationen. Aus diesem Grund gibt es viele Suchtechniken wie - Sequential forward selection 1. Bestes Einzelmerkmal M1 2. Beste Kombination von M1 mit einem weiteren Merkmal: M1,M2 3. Beste Kombination von M1,M2 mit einem weiteren Merkmal: M1,M2,M3 … bis gewünschte Leistung erreicht ist. Anzahl zu untersuchender Kombinationen: l+(l-1)+(l-2)+…+(l-m-1). - Genetische Algorithmen Merkmalsauswahl

173 Vorlesung "Intelligente Systeme"173 Merkmalserzeugung Merkmale können rohe Meßwerte der zugrundeliegenden Muster sein. Dies kann zu sehr hochdimensionalen Merkmalsvektoren führen mit stark korrelierten Merkmalen und folgedessen Redundanz der Information. Die Aufgabe der Merkmalserzeugung ist die Beseitigung dieser Redundanzen durch Transformationen der rohen Meßwerte auf neue Koordinaten und die Auswahl nur solcher Koordinaten als neue Merkmale, die den höchsten Grad an Information beinhalten. Dies sollte zu einer Kompression der klassifikationsrelevanten Information in eine relativ kleine Anzahl von Merkmalen führen. Z.B. genügt bei der Gesichtserkennung eine Transformation auf ein System aus 50 „Eigengesichtern“ um alle Gesichter mit ausreichender Genauigkeit zu beschreiben, während die Ursprungsbilder aus z.B Werten bestehen. Lineare Transformationen Karhunen-Loève (Eigenvektor-Zerlegung) Singulärwertzerlegung Fourier-Transformation Hadamard Transformation Wavelet Transformation... Signaleigenschaften Invariante Momente, Textur, Rauhigkeit,.... Anwendungsbeispiel Qualitätskontrolle beim Widerstands-Punktschweißen Inkl. Merkmalserzeugung und Merkmalsauswahl

174 Vorlesung "Intelligente Systeme"174 Hauptkomponenten-Transformation x1x1 x2x2 h h x´ 1 x´ 2 Zwei ursprüngliche Merkmale x 1 und x 2 sind der Stichprobenverteilung nicht gut angepasst. Besser x 1 ´ und x 2 ´ : Zur Beschreibung genügt x 1 ´: Linearer Unterraum von x 1, x 2.

175 Vorlesung "Intelligente Systeme"175 x1x1 x2x2 h h x´ 1 x´ 2 1. Verschiebung in den Schwerpunkt 2. Drehung auf Richtung maximaler Varianz Hauptkomponenten-Transformation

176 Vorlesung "Intelligente Systeme"176 x1x1 x2x2 h h 0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 0,005,0010,0015,00 Hauptkomponenten-Transformation

177 Vorlesung "Intelligente Systeme" Allgemeines Vorgehen Muster-Stichprobe Schätzung Schwerpunkt Empirische Kovarianz-Matrix Hauptachsen und Hauptachsenabschnitte durch Diagonalisierung von K und davon Eigenwerte, Eigenvektoren Hauptkomponenten-Transformation

178 Vorlesung "Intelligente Systeme"178 0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 0,005,0010,0015,00 x1x1 x2x2 h h Muster-Stichprobe Schätzung Schwerpunkt Empirische Kovarianz-Matrix Hauptkomponenten-Transformation

179 Vorlesung "Intelligente Systeme"179 Hauptachsen und Hauptachsenabschnitte x1x1 x2x2 h 0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 0,005,0010,0015,00 Empirische Kovarianz-Matrix 1. Charakteristisches Polynom null setzen: Nullstellen sind gesuchte Eigenwerte. 2. Eigenvektoren durch Einsetzen in und Lösen von Hauptkomponenten-Transformation

180 Vorlesung "Intelligente Systeme" Singulärwert-Zerlegung SVD von Y 3. Eigenwert-Zerlegung von Hauptkomponenten-Transformation

181 Vorlesung "Intelligente Systeme" Vorgehen zur Lösung der PCA 1. 2.I) II) III) wenn N > m, dann I), wenn N < m, dann III) Bemerkung: Hauptkomponenten-Transformation

182 Vorlesung "Intelligente Systeme"182 Jede m x n – Matrix mit m > n kann geschrieben werden als Produkt einer m x m, spalten-normalen Matrix, einer positiv semi-definiten n x n Diagonalmatrix und der Transponierten einer n x n normalen Matrix.

183 Vorlesung "Intelligente Systeme"183 Hauptachsen und Hauptachsenabschnitte Sortieren nach Hauptachsenabschnitten (relative Relevanz) Abschneiden ab Schwellwert Zugehörige Eigenvektoren: Hauptkomponenten (neue Basis) “Durchschnitts- gesicht” “Eigengesichter” Hauptkomponenten-Transformation 5. Beispiel: Eigengesichter

184 Vorlesung "Intelligente Systeme"184 Merkmalsgewinnung: Subtraktion des Schwerpunkts vom Eingangsmuster Projektion des Ergebnisses auf die Hauptkomponenten Hauptkomponenten-Transformation

185 Vorlesung "Intelligente Systeme"185 Einbringen von a priori Wissen Bisher: Erlernen einer Abbildung Anhand einer bekannten Stichprobe Jetzt: Nutzung von a priori Wissen a) Nur bestimmte zeitliche Abfolgen sind möglich Zeitdiskrete Prozesse: Hidden-Markov-Modelle b) Kausale Zusammenhänge sind bekannt oder vermutet: Bayesian Belief Networks c) Randbedingungen für die Lösung sind bekannt: Kostenfunktion- Regularisierung |1|5|7|8|3|4| Muster Klassenzugehörigkeit |1|0|0| Muster 1 Klassenzugehörigkeit 1 Muster N Klassenzugehörigkeit N.:.:

186 Vorlesung "Intelligente Systeme"186 Digitale Signale: ADC und DAC Beobachtbare Prozessmuster Sensor/ Wandler Signalauf- bereitung Merkmal-/ Primitive- extraktion Klassifik. Estimation Deskription Mögl. Algorithmenrückkopplung oder -interaktion Mustererkennungssystem A D Analoge WeltDigitale Welt Diskrete Abtastung Quantisierung

187 Vorlesung "Intelligente Systeme"187 Analoge WeltDigitale Welt Diskrete Abtastung Quantisierung Sample & Hold ADC- Analog/ Digital Converter Ursprüngl. Analogsignal Abgetastetes Analogsignal Digitalisiertes Signal Zeit Abtastpunkt Amplitude (phys. Einh.) Digitale Zahl Analoger Eingang Digitaler Ausgang Einfrieren der Werte an Abtastzeitpunkten Wandeln des Signals zur nächsten Ganzzahl Fehlerquellen bei der Analog-Digital-Wandlung

188 Vorlesung "Intelligente Systeme"188 ADC- Analog/ Digital Converter Abgetastetes Analogsignal Digitalisiertes Signal Zeit Abtastpunkt Digitale Zahl Digitaler Ausgang Wandeln des Signals zur nächsten Ganzzahl Fehlerquelle Quantisierungsfehler Abtastpunkt Fehler (in LSBs) Differenz zw. abget. Analogsignal und digit. Signal Fehlerquellen bei der Analog-Digital-Wandlung

189 Vorlesung "Intelligente Systeme"189 Fehlerquelle Aliasing Graphiken aus Steven W. Smith „The Scientist and Engineer´s Guide to Figital Signal Processing“ Abtastung mit mindestens der doppelten Schwingungsfrequenz Fehlerquellen bei der Analog-Digital-Wandlung

190 Vorlesung "Intelligente Systeme"190 Ortsraum - Frequenzraum Signale können als Überlagerung (Summe) periodischer Funktionen mit Frequenzen  und mit Amplituden F dargestellt werden: Transformation in Frequenzraum Diskrete Fourier-(Rück)Transformation Frequenzraum-Darstellung gibt an, mit welcher Häufigkeit jeweils periodische Funktionen vorkommen. Cosinus FunktionenSinus Funktionen y(x) Applet Frequenzraumdarstellung

191 Vorlesung "Intelligente Systeme"191 Im Frequenzraum sind viele Operationen günstiger. Alle linearen Operationen z.B. Hochpass, Tiefpass, Bandpass und Bandsperre mit hoher Güte Erkennung periodischer Strukturen Manipulation periodischer Strukturen Nach einer Bearbeitung im Frequenzraum F e (k)→F e ~ (k) und F o (k)→F o ~ (k) kann wieder in den Ortsraum zurück transformiert werden. Signal y im Ortsraum, Abtastwerte y(i) Analyse: Transformation Ortsraum  Frequenzraum Synthese: Transformation Frequenzraum  Ortsraum Frequenzraumdarstellung

192 Vorlesung "Intelligente Systeme"192 Polare Notation – komplexe Schreibweise F(k)  Amplitude, Betrag (Magnitude) Phase Komplexe Schreibweise |F(k)| F e (k) F o (k) Frequenzraumdarstellung

193 Vorlesung "Intelligente Systeme"193 Operationen im Frequenzraum Filterung der abgetasteten Funktion y: Analyse Multiplikation mit Filterfunktion Synthese Filterfunktion, Abtastwerte f(k) Frequenzraumdarstellung


Herunterladen ppt "Intelligente Systeme - Wissen aus Daten gewinnen Prof. Dr. Norbert Link Fachhochschule."

Ähnliche Präsentationen


Google-Anzeigen