Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Maschinelles Lernen Jun. Prof. Dr. Achim Tresch

Ähnliche Präsentationen


Präsentation zum Thema: "Maschinelles Lernen Jun. Prof. Dr. Achim Tresch"—  Präsentation transkript:

1 Maschinelles Lernen Jun. Prof. Dr. Achim Tresch
„Schachroboter“, 1769 Jun. Prof. Dr. Achim Tresch

2 Biometrische Personenidentifikation
Einführung: Was ist maschinelles Lernen? Biometrische Personenidentifikation Modellbasierte Aktienmarktanalysen Spracherkennung

3 Einführung: Was ist maschinelles Lernen?
Automatisierte Hochdurchsatz- Bildanalyse Protein-Funktionsvorhersage Computerunterstützte Krebsdiagnostik

4 Einführung: Was ist maschinelles Lernen?
Genvorhersage Was ist maschinelles Lernen? „Intelligente“ Autonome Systeme Kreditrisikobewertung

5 Daten  Entscheidungen
Einführung: Was ist maschinelles Lernen? Daten  Entscheidungen bekannte Daten  bekannte („richtige“) Entscheidungen unbekannte Daten  möglichst „richtige“ Entscheidungen ?

6 Spezies Beispiel: Unterscheidung von Lachs und Seebarsch
Aufgabe: Sortiere zwei Arten von Fisch, die über ein Fließband laufen Spezies

7 Beispiel: Unterscheidung von Lachs und Seebarsch
menschliches Vorgehen maschinelles Vorgehen Digitalisiertes Kamerabild Merkmalsextraktion (Feature Selection) Ermittele ein Klassifikationskriterium > 40cm Klassifiziere

8 Egal, wie man x* auch wählt, es kommt immer zu Fehlklassifikationen.
Beispiel: Unterscheidung von Lachs und Seebarsch Klassifiziere nach der Länge des Fisches: Egal, wie man x* auch wählt, es kommt immer zu Fehlklassifikationen. Wähle einen Schwellwert x*, oberhalb dessen der Fisch als Seebarsch, und unterhalb dessen der Fisch als Lachs klassifiziert wird.

9 Beispiel: Unterscheidung von Lachs und Seebarsch
Klassifiziere nach der Farbe (Helligkeit) des Fisches:

10 Beispiel: Unterscheidung von Lachs und Seebarsch
Kombiniere die Merkmale Länge und Helligkeit: Fisch  (Länge, Helligkeit) Eine geeignet gewählte Entscheidungsgrenze kann Lachs und Seebarsch fast fehlerfrei trennen.

11 Beispiel: Unterscheidung von Lachs und Seebarsch
Geht es noch besser? Jain! Das Hinzufügen weiterer Merkmale könnte helfen, MUSS ABER NICHT: z.B. wäre die Länge des Rumpfes wahrscheinlich eine redundante Größe, die einfach eine lineare Funktion der Gesamtlänge ist. Die Entscheidungsgrenze könnte flexibler gewählt und besser an die Daten angepasst werden:

12 Beispiel: Unterscheidung von Lachs und Seebarsch
Geht es noch besser? Jain! Das Hinzufügen weiterer Merkmale könnte helfen, MUSS ABER NICHT: z.B. wäre die Länge des Rumpfes wahrscheinlich eine redundante Größe, die einfach eine lineare Funktion der Gesamtlänge ist. Die Entscheidungsgrenze könnte flexibler gewählt und besser an die Daten angepasst werden: Problem: Ist ein neuer, noch nicht gesehener Fisch mit diesen Kennzahlen vermutlich eher ein Lachs oder ein Barsch?  Generalisierbarkeit

13 Beispiel: Unterscheidung von Lachs und Seebarsch
Möglicherweise haben hyperbelförmige Entscheidungsgrenzen die besten Trennungs- und Verallgemeinerungseigenschaften. Wie schätzt man die Klassifikationsgüte des gelernten Klassifikators auf unbekannten Daten ab?  Validierung

14 Der Design-Zyklus der Mustererkennung
Hauptthemen der Vorlesung

15 Organisatorisches . . . Vorlesung Maschinelles Lernen:
6 Credit Points, benoteter Schein, zweisemestrig   Scheinkriterien: Klausur am Ende des Semesters Erfolgreiche Teilnahme an den Übungen ist Voraussetzung zur Klausurteilnahme. Jedes Übungsblatt wird mit A,B oder C bewertet, es darf nur ein Mal C erzielt werden. Die Übungen sind teils praktisch (in R), teils theoretisch. Literatur: [1] Duda, Hart, Stork: Pattern Classification, 2nd Editon, Wiley Interscience, [2] Baldi, Brunak: Bioinformatics - the machine learning approach. 2nd Edition, MIT Press, 2001. Weitere Bücher/Artikel werden im Verlauf der Vorlesung genannt. Arbeiten: Über das Gebiet werden Arbeiten vergeben. Skripten: Auf der Homepage oder in ILIAS Vorlesungs-/Übungszeiten: ?

16 Bayessche Entscheidungstheorie
Unterscheidung von Lachs und Seebarsch: Angenommen, wir fangen ausschließlich Lachs oder Barsch. Greifen wir blindlings einen Fisch ω heraus, so gibt es eine a priori Wahrscheinlichkeit (kurz Prior), dass dieser Fisch ein Lachs bzw. ein Barsch ist: P(ω=Lachs), P(ω=Barsch) D.h., wir betrachten ω als eine binäre Zufallsvariable. Notwendig gilt dann P(ω=Lachs) + P(ω=Barsch) = 1 (Exklusivität, Exhaustivität) Der Bequemlichkeit schreibt man oft einfach P(Lachs) bzw. P(Barsch), wenn klar ist, welche Zufallsvariable gemeint ist. Andere Schreibweisen sind Pω(Lachs) bzw. Pω(Barsch). Bem.: Falls wir gar kein Vorwissen darüber haben, welcher Fisch häufiger gefangen wird, ist es vernünftig, beide Ereignisse als gleich wahrscheinlich anzunehmen: P(ω=Lachs) = P(ω=Barsch) (uniformer Prior)

17 Bayessche Entscheidungstheorie
Ohne jegliche Zusatzinformation lautet die optimale Entscheidungsregel: Falls P(ω=Lachs) > P(ω=Barsch) : Klassifiziere jeden gefangenen Fisch als Lachs Falls P(ω=Lachs) ≤ P(ω=Barsch) : Klassifiziere jeden gefangenen Fisch als Barsch Daten helfen bei der Konstruktion besserer Entscheidungsregeln: Sei für Lachs und Barsch die Verteilung ihrer Helligkeitswerte x gegeben. P(x | ω=Lachs) P(x | ω=Barsch) Wie würde Ihre Entscheidung lauten, wenn bei einem gefangenen Fisch der Helligkeitswert 11.5 beobachtet wurde?

18 Bayessche Entscheidungstheorie
Erinnerung bedingte Wahrscheinlichkeiten (Definition): P( x , ω ) = P( x | ω ) P(ω) = P( ω | x) P(x) Bei gegebenem Helligkeitswert x wollen wir entscheiden, ob P( ω=Lachs | x) > P( ω=Barsch | x) (dann Entscheidung für „Lachs“) Hierzu verwenden wir den Satz von Bayes: Bayes‘ Essay Towards Solving a Problem in the Doctrine of Chances, welcher die obige Formel enthält, wurde erst zwei Jahre nach seinem Tode veröffentlicht. Thomas Bayes, * ~1702, † 1761 Englischer Mathematiker und presbyterianischer Pfarrer.

19 Bayessche Entscheidungstheorie
Satz von Bayes Posterior Likelihood Prior Evidence Nutze aus, dass P( ω=Lachs | x) > P( ω=Barsch | x) ↔ P( ω=Lachs | x) / P( ω=Barsch | x) > 1 (setze a/0 = ∞ für a>0)

20 Bayessche Entscheidungstheorie
P(ω=Barsch | x) P(ω=Lachs | x)

21 Bayessche Entscheidungstheorie
Beachte: In der Entscheidungsregel kommt die Evidenz nicht vor, lediglich das Produkt aus Likelihood und Prior spielen eine Rolle. Likelihood Prior Posterior Entscheidungsregel (Bayes Klassifikator): „Lachs“, falls P( ω=Lachs | x) P(ω=Lachs) > P( ω=Barsch | x) P(ω=Barsch) „Barsch“, falls P( ω=Lachs | x) P(ω=Lachs) ≤ P( ω=Barsch | x) P(ω=Barsch) Wie „gut“ ist diese Regel? Wie hoch ist die Fehlklassifikationswahrscheinlichkeit? Für gegebenes x ist der bedingte Fehler

22 „Voreingenommenheit der Jury“ aufgrund anderer Indizien
Beispiel: The O.J. Simpson Trial O.J. Simpson, 1994 angeklagt wegen Mordes an seiner Ex-Frau Nicole Brown Simpson und ihrem Liebhaber Ronald Goldman Rechtsexperten sind sich einig, dass die Indizienlage (DNA-Analysen) keinen Raum für vernünftige Zweifel an der Täterschaft Simpsons lässt. Unstreitig ist, dass jedenfalls in der Praxis ein weniger prominenter Täter in den USA mit großer Sicherheit verurteilt worden wäre. Man fand auf dem Grundstück der Ermordeten Blutspuren, die mit einer „Wahrscheinlichkeit von 170 Millionen zu 1“ O. J.Simpson zuzuordnen sind. „Voreingenommenheit der Jury“ aufgrund anderer Indizien

23 Bayessche Entscheidungstheorie, Verallgemeinerungen

24 Bayessche Entscheidungstheorie, Verallgemeinerungen
Mehrere Klassen: Seien C = {ω1, ω2,…ωc} c verschiedene Klassen (Kategorien, Merkmale, Labels) Mehrere Aktionen: Seien A = {a1, a2,…an,} n verschiedene Aktionen. Im Beispiel galt A = C = {Lachs,Barsch}. Denkbar wäre z.B. auch C = {Alter > 60, Alter ≤ 60} , A = {Behandlung mit Virostatika, Grippeimpfung, keine Grippeimpfung} Lossfunktion: λ: A x C  |R . λ(ai,ωj) sind hierbei die Kosten oder der Loss der Aktion ai, wenn Klasse ωj vorliegt. Aufgabe: Finde eine Entscheidungsfunktion a: Daten  A, welche die erwarteten Kosten (expected Loss) minimiert. Für gegebene Daten x und die Entscheidung ai wird der bedingte Fehler P(error | x) ersetzt durch das bedingte Risiko

25 Bayessche Entscheidungstheorie, Verallgemeinerungen
Für eine gegebene Entscheidungsregel a: Daten  A lautet der erwartete Verlust Minimiert man R(a(x)| x) punktweise, minimiert man auch den erwarteten Verlust. Entscheidungsregel (Bayes Entscheidung): Bei gegebenen Daten x wähle die Aktion a(x)=ai, für die R(ai,x) minimal wird. Diese Regel minimiert den erwarteten Verlust, ist also (gemessen an diesem Kriterium) die bestmögliche Entscheidungsregel!

26 Bayessche Entscheidungstheorie, Verallgemeinerungen
Die 0-1 Lossfunktion In dem Fall der Klassifikation von Objekten gilt Klassen = Aktionen, und Fehlklassifikationen werden oft als gleich schwerwiegend betrachtet.Dies führt zu der Lossfunktion Das bedingte Risiko beträgt dann Die Bayes-Entscheidungsregel minimiert R(ai|x), maximiert also P(ai|x). Sie entscheidet sich daher immer für die Klasse mit dem höchsten Posterior. Diese Regel entspricht genau der Bayes-Klassifikator im Lachs-Barsch-Beispiel. Der Bayes-Klassifikator ist daher im Sinne der 0-1 Lossfunktion optimal.

27 Bayes-Entscheidungn bei normalverteiltem Posterior
Exkurs: Die Normalverteilung

28 Bayes-Entscheidungn bei normalverteiltem Posterior

29 Bayes-Entscheidungn bei normalverteiltem Posterior

30 Bayes-Entscheidungn bei normalverteiltem Posterior

31 Bayes-Entscheidungn bei normalverteiltem Posterior

32 Bayes-Entscheidungn bei normalverteiltem Posterior


Herunterladen ppt "Maschinelles Lernen Jun. Prof. Dr. Achim Tresch"

Ähnliche Präsentationen


Google-Anzeigen