Maschinelles Lernen Jun. Prof. Dr. Achim Tresch „Schachroboter“, 1769 Jun. Prof. Dr. Achim Tresch http://www.staff.uni-mainz.de/tresch/ tresch@imbei.uni-mainz.de
Biometrische Personenidentifikation Einführung: Was ist maschinelles Lernen? Biometrische Personenidentifikation Modellbasierte Aktienmarktanalysen Spracherkennung
Einführung: Was ist maschinelles Lernen? Automatisierte Hochdurchsatz- Bildanalyse Protein-Funktionsvorhersage Computerunterstützte Krebsdiagnostik
Einführung: Was ist maschinelles Lernen? Genvorhersage Was ist maschinelles Lernen? „Intelligente“ Autonome Systeme Kreditrisikobewertung
Daten Entscheidungen Einführung: Was ist maschinelles Lernen? Daten Entscheidungen bekannte Daten bekannte („richtige“) Entscheidungen unbekannte Daten möglichst „richtige“ Entscheidungen ?
Spezies Beispiel: Unterscheidung von Lachs und Seebarsch Aufgabe: Sortiere zwei Arten von Fisch, die über ein Fließband laufen Spezies
Beispiel: Unterscheidung von Lachs und Seebarsch menschliches Vorgehen maschinelles Vorgehen Digitalisiertes Kamerabild Merkmalsextraktion (Feature Selection) Ermittele ein Klassifikationskriterium > 40cm Klassifiziere
Egal, wie man x* auch wählt, es kommt immer zu Fehlklassifikationen. Beispiel: Unterscheidung von Lachs und Seebarsch Klassifiziere nach der Länge des Fisches: Egal, wie man x* auch wählt, es kommt immer zu Fehlklassifikationen. Wähle einen Schwellwert x*, oberhalb dessen der Fisch als Seebarsch, und unterhalb dessen der Fisch als Lachs klassifiziert wird.
Beispiel: Unterscheidung von Lachs und Seebarsch Klassifiziere nach der Farbe (Helligkeit) des Fisches:
Beispiel: Unterscheidung von Lachs und Seebarsch Kombiniere die Merkmale Länge und Helligkeit: Fisch (Länge, Helligkeit) Eine geeignet gewählte Entscheidungsgrenze kann Lachs und Seebarsch fast fehlerfrei trennen.
Beispiel: Unterscheidung von Lachs und Seebarsch Geht es noch besser? Jain! Das Hinzufügen weiterer Merkmale könnte helfen, MUSS ABER NICHT: z.B. wäre die Länge des Rumpfes wahrscheinlich eine redundante Größe, die einfach eine lineare Funktion der Gesamtlänge ist. Die Entscheidungsgrenze könnte flexibler gewählt und besser an die Daten angepasst werden:
Beispiel: Unterscheidung von Lachs und Seebarsch Geht es noch besser? Jain! Das Hinzufügen weiterer Merkmale könnte helfen, MUSS ABER NICHT: z.B. wäre die Länge des Rumpfes wahrscheinlich eine redundante Größe, die einfach eine lineare Funktion der Gesamtlänge ist. Die Entscheidungsgrenze könnte flexibler gewählt und besser an die Daten angepasst werden: Problem: Ist ein neuer, noch nicht gesehener Fisch mit diesen Kennzahlen vermutlich eher ein Lachs oder ein Barsch? Generalisierbarkeit
Beispiel: Unterscheidung von Lachs und Seebarsch Möglicherweise haben hyperbelförmige Entscheidungsgrenzen die besten Trennungs- und Verallgemeinerungseigenschaften. Wie schätzt man die Klassifikationsgüte des gelernten Klassifikators auf unbekannten Daten ab? Validierung
Der Design-Zyklus der Mustererkennung Hauptthemen der Vorlesung
Organisatorisches . . . Vorlesung Maschinelles Lernen: 6 Credit Points, benoteter Schein, zweisemestrig Scheinkriterien: Klausur am Ende des Semesters Erfolgreiche Teilnahme an den Übungen ist Voraussetzung zur Klausurteilnahme. Jedes Übungsblatt wird mit A,B oder C bewertet, es darf nur ein Mal C erzielt werden. Die Übungen sind teils praktisch (in R), teils theoretisch. Literatur: [1] Duda, Hart, Stork: Pattern Classification, 2nd Editon, Wiley Interscience, 2000. [2] Baldi, Brunak: Bioinformatics - the machine learning approach. 2nd Edition, MIT Press, 2001. Weitere Bücher/Artikel werden im Verlauf der Vorlesung genannt. Arbeiten: Über das Gebiet werden Arbeiten vergeben. Skripten: Auf der Homepage oder in ILIAS Vorlesungs-/Übungszeiten: ?
Bayessche Entscheidungstheorie Unterscheidung von Lachs und Seebarsch: Angenommen, wir fangen ausschließlich Lachs oder Barsch. Greifen wir blindlings einen Fisch ω heraus, so gibt es eine a priori Wahrscheinlichkeit (kurz Prior), dass dieser Fisch ein Lachs bzw. ein Barsch ist: P(ω=Lachs), P(ω=Barsch) D.h., wir betrachten ω als eine binäre Zufallsvariable. Notwendig gilt dann P(ω=Lachs) + P(ω=Barsch) = 1 (Exklusivität, Exhaustivität) Der Bequemlichkeit schreibt man oft einfach P(Lachs) bzw. P(Barsch), wenn klar ist, welche Zufallsvariable gemeint ist. Andere Schreibweisen sind Pω(Lachs) bzw. Pω(Barsch). Bem.: Falls wir gar kein Vorwissen darüber haben, welcher Fisch häufiger gefangen wird, ist es vernünftig, beide Ereignisse als gleich wahrscheinlich anzunehmen: P(ω=Lachs) = P(ω=Barsch) (uniformer Prior)
Bayessche Entscheidungstheorie Ohne jegliche Zusatzinformation lautet die optimale Entscheidungsregel: Falls P(ω=Lachs) > P(ω=Barsch) : Klassifiziere jeden gefangenen Fisch als Lachs Falls P(ω=Lachs) ≤ P(ω=Barsch) : Klassifiziere jeden gefangenen Fisch als Barsch Daten helfen bei der Konstruktion besserer Entscheidungsregeln: Sei für Lachs und Barsch die Verteilung ihrer Helligkeitswerte x gegeben. P(x | ω=Lachs) P(x | ω=Barsch) Wie würde Ihre Entscheidung lauten, wenn bei einem gefangenen Fisch der Helligkeitswert 11.5 beobachtet wurde?
Bayessche Entscheidungstheorie Erinnerung bedingte Wahrscheinlichkeiten (Definition): P( x , ω ) = P( x | ω ) P(ω) = P( ω | x) P(x) Bei gegebenem Helligkeitswert x wollen wir entscheiden, ob P( ω=Lachs | x) > P( ω=Barsch | x) (dann Entscheidung für „Lachs“) Hierzu verwenden wir den Satz von Bayes: Bayes‘ Essay Towards Solving a Problem in the Doctrine of Chances, welcher die obige Formel enthält, wurde erst zwei Jahre nach seinem Tode veröffentlicht. Thomas Bayes, * ~1702, † 1761 Englischer Mathematiker und presbyterianischer Pfarrer.
Bayessche Entscheidungstheorie Satz von Bayes Posterior Likelihood Prior Evidence Nutze aus, dass P( ω=Lachs | x) > P( ω=Barsch | x) ↔ P( ω=Lachs | x) / P( ω=Barsch | x) > 1 (setze a/0 = ∞ für a>0) ↔ ↔ ↔
Bayessche Entscheidungstheorie P(ω=Barsch | x) P(ω=Lachs | x)
Bayessche Entscheidungstheorie Beachte: In der Entscheidungsregel kommt die Evidenz nicht vor, lediglich das Produkt aus Likelihood und Prior spielen eine Rolle. Likelihood Prior Posterior Entscheidungsregel (Bayes Klassifikator): „Lachs“, falls P( ω=Lachs | x) P(ω=Lachs) > P( ω=Barsch | x) P(ω=Barsch) „Barsch“, falls P( ω=Lachs | x) P(ω=Lachs) ≤ P( ω=Barsch | x) P(ω=Barsch) Wie „gut“ ist diese Regel? Wie hoch ist die Fehlklassifikationswahrscheinlichkeit? Für gegebenes x ist der bedingte Fehler
„Voreingenommenheit der Jury“ aufgrund anderer Indizien Beispiel: The O.J. Simpson Trial O.J. Simpson, 1994 angeklagt wegen Mordes an seiner Ex-Frau Nicole Brown Simpson und ihrem Liebhaber Ronald Goldman Rechtsexperten sind sich einig, dass die Indizienlage (DNA-Analysen) keinen Raum für vernünftige Zweifel an der Täterschaft Simpsons lässt. Unstreitig ist, dass jedenfalls in der Praxis ein weniger prominenter Täter in den USA mit großer Sicherheit verurteilt worden wäre. Man fand auf dem Grundstück der Ermordeten Blutspuren, die mit einer „Wahrscheinlichkeit von 170 Millionen zu 1“ O. J.Simpson zuzuordnen sind. „Voreingenommenheit der Jury“ aufgrund anderer Indizien
Bayessche Entscheidungstheorie, Verallgemeinerungen
Bayessche Entscheidungstheorie, Verallgemeinerungen Mehrere Klassen: Seien C = {ω1, ω2,…ωc} c verschiedene Klassen (Kategorien, Merkmale, Labels) Mehrere Aktionen: Seien A = {a1, a2,…an,} n verschiedene Aktionen. Im Beispiel galt A = C = {Lachs,Barsch}. Denkbar wäre z.B. auch C = {Alter > 60, Alter ≤ 60} , A = {Behandlung mit Virostatika, Grippeimpfung, keine Grippeimpfung} Lossfunktion: λ: A x C |R . λ(ai,ωj) sind hierbei die Kosten oder der Loss der Aktion ai, wenn Klasse ωj vorliegt. Aufgabe: Finde eine Entscheidungsfunktion a: Daten A, welche die erwarteten Kosten (expected Loss) minimiert. Für gegebene Daten x und die Entscheidung ai wird der bedingte Fehler P(error | x) ersetzt durch das bedingte Risiko
Bayessche Entscheidungstheorie, Verallgemeinerungen Für eine gegebene Entscheidungsregel a: Daten A lautet der erwartete Verlust Minimiert man R(a(x)| x) punktweise, minimiert man auch den erwarteten Verlust. Entscheidungsregel (Bayes Entscheidung): Bei gegebenen Daten x wähle die Aktion a(x)=ai, für die R(ai,x) minimal wird. Diese Regel minimiert den erwarteten Verlust, ist also (gemessen an diesem Kriterium) die bestmögliche Entscheidungsregel!
Bayessche Entscheidungstheorie, Verallgemeinerungen Die 0-1 Lossfunktion In dem Fall der Klassifikation von Objekten gilt Klassen = Aktionen, und Fehlklassifikationen werden oft als gleich schwerwiegend betrachtet.Dies führt zu der Lossfunktion Das bedingte Risiko beträgt dann Die Bayes-Entscheidungsregel minimiert R(ai|x), maximiert also P(ai|x). Sie entscheidet sich daher immer für die Klasse mit dem höchsten Posterior. Diese Regel entspricht genau der Bayes-Klassifikator im Lachs-Barsch-Beispiel. Der Bayes-Klassifikator ist daher im Sinne der 0-1 Lossfunktion optimal.
Bayes-Entscheidungn bei normalverteiltem Posterior Exkurs: Die Normalverteilung
Bayes-Entscheidungn bei normalverteiltem Posterior
Bayes-Entscheidungn bei normalverteiltem Posterior
Bayes-Entscheidungn bei normalverteiltem Posterior
Bayes-Entscheidungn bei normalverteiltem Posterior
Bayes-Entscheidungn bei normalverteiltem Posterior