Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Maschinelles Lernen Jun. Prof. Dr. Achim Tresch Schachroboter, 1769.

Ähnliche Präsentationen


Präsentation zum Thema: "Maschinelles Lernen Jun. Prof. Dr. Achim Tresch Schachroboter, 1769."—  Präsentation transkript:

1 Maschinelles Lernen Jun. Prof. Dr. Achim Tresch Schachroboter, 1769

2 Seite 211/16/2013| Einführung: Was ist maschinelles Lernen? Spracherkennung Modellbasierte Aktienmarktanalysen Biometrische Personenidentifikation

3 Seite 311/16/2013| Computerunterstützte Krebsdiagnostik Automatisierte Hochdurchsatz- Bildanalyse Protein-Funktionsvorhersage Einführung: Was ist maschinelles Lernen?

4 Seite 411/16/2013| Intelligente Autonome Systeme Was ist maschinelles Lernen? Einführung: Was ist maschinelles Lernen? Genvorhersage Kreditrisikobewertung

5 Seite 511/16/2013| Daten Entscheidungen bekannte Daten bekannte (richtige) Entscheidungen unbekannte Daten möglichst richtige Entscheidungen ? Einführung: Was ist maschinelles Lernen?

6 Seite 611/16/2013| Beispiel: Unterscheidung von Lachs und Seebarsch Aufgabe: Sortiere zwei Arten von Fisch, die über ein Fließband laufen Spezies

7 Seite 711/16/2013| Beispiel: Unterscheidung von Lachs und Seebarsch Digitalisiertes Kamerabild Merkmalsextraktion (Feature Selection) Ermittele ein Klassifikationskriterium Klassifiziere > 40cm menschliches Vorgehenmaschinelles Vorgehen

8 Seite 811/16/2013| Beispiel: Unterscheidung von Lachs und Seebarsch Klassifiziere nach der Länge des Fisches: Wähle einen Schwellwert x*, oberhalb dessen der Fisch als Seebarsch, und unterhalb dessen der Fisch als Lachs klassifiziert wird. Egal, wie man x* auch wählt, es kommt immer zu Fehlklassifikationen.

9 Seite 911/16/2013| Beispiel: Unterscheidung von Lachs und Seebarsch Klassifiziere nach der Farbe (Helligkeit) des Fisches:

10 Seite 1011/16/2013| Beispiel: Unterscheidung von Lachs und Seebarsch Kombiniere die Merkmale Länge und Helligkeit: Fisch (Länge, Helligkeit) Eine geeignet gewählte Entscheidungsgrenze kann Lachs und Seebarsch fast fehlerfrei trennen.

11 Seite 1111/16/2013| Beispiel: Unterscheidung von Lachs und Seebarsch Geht es noch besser? Jain! Das Hinzufügen weiterer Merkmale könnte helfen, MUSS ABER NICHT: z.B. wäre die Länge des Rumpfes wahrscheinlich eine redundante Größe, die einfach eine lineare Funktion der Gesamtlänge ist. Die Entscheidungsgrenze könnte flexibler gewählt und besser an die Daten angepasst werden:

12 Seite 1211/16/2013| Beispiel: Unterscheidung von Lachs und Seebarsch Geht es noch besser? Jain! Das Hinzufügen weiterer Merkmale könnte helfen, MUSS ABER NICHT: z.B. wäre die Länge des Rumpfes wahrscheinlich eine redundante Größe, die einfach eine lineare Funktion der Gesamtlänge ist. Die Entscheidungsgrenze könnte flexibler gewählt und besser an die Daten angepasst werden: Problem: Ist ein neuer, noch nicht gesehener Fisch mit diesen Kennzahlen vermutlich eher ein Lachs oder ein Barsch? Generalisierbarkeit

13 Seite 1311/16/2013| Beispiel: Unterscheidung von Lachs und Seebarsch Möglicherweise haben hyperbelförmige Entscheidungsgrenzen die besten Trennungs- und Verallgemeinerungseigenschaften. Wie schätzt man die Klassifikationsgüte des gelernten Klassifikators auf unbekannten Daten ab? Validierung

14 Seite 1411/16/2013| Der Design-Zyklus der Mustererkennung Hauptthemen der Vorlesung

15 Seite 1511/16/2013| Vorlesung Maschinelles Lernen: 6 Credit Points, benoteter Schein, zweisemestrig Scheinkriterien: Klausur am Ende des Semesters Erfolgreiche Teilnahme an den Übungen ist Voraussetzung zur Klausurteilnahme. Jedes Übungsblatt wird mit A,B oder C bewertet, es darf nur ein Mal C erzielt werden. Die Übungen sind teils praktisch (in R), teils theoretisch. Literatur: [1] Duda, Hart, Stork: Pattern Classification, 2nd Editon, Wiley Interscience, [2] Baldi, Brunak: Bioinformatics - the machine learning approach. 2nd Edition, MIT Press, Weitere Bücher/Artikel werden im Verlauf der Vorlesung genannt. Arbeiten: Über das Gebiet werden Arbeiten vergeben. Skripten: Auf der Homepage oder in ILIAS Vorlesungs-/Übungszeiten: ? Organisatorisches...

16 Seite 1611/16/2013| Bayessche Entscheidungstheorie Unterscheidung von Lachs und Seebarsch: Angenommen, wir fangen ausschließlich Lachs oder Barsch. Greifen wir blindlings einen Fisch ω heraus, so gibt es eine a priori Wahrscheinlichkeit (kurz Prior), dass dieser Fisch ein Lachs bzw. ein Barsch ist: P(ω=Lachs), P(ω=Barsch) D.h., wir betrachten ω als eine binäre Zufallsvariable. Notwendig gilt dann P(ω=Lachs) + P(ω=Barsch) = 1 (Exklusivität, Exhaustivität) Der Bequemlichkeit schreibt man oft einfach P(Lachs) bzw. P(Barsch), wenn klar ist, welche Zufallsvariable gemeint ist. Andere Schreibweisen sind P ω (Lachs) bzw. P ω (Barsch). Bem.: Falls wir gar kein Vorwissen darüber haben, welcher Fisch häufiger gefangen wird, ist es vernünftig, beide Ereignisse als gleich wahrscheinlich anzunehmen: P(ω=Lachs) = P(ω=Barsch) (uniformer Prior)

17 Seite 1711/16/2013| Bayessche Entscheidungstheorie Ohne jegliche Zusatzinformation lautet die optimale Entscheidungsregel: Falls P(ω=Lachs) > P(ω=Barsch) : Klassifiziere jeden gefangenen Fisch als Lachs Falls P(ω=Lachs) P(ω=Barsch) : Klassifiziere jeden gefangenen Fisch als Barsch Daten helfen bei der Konstruktion besserer Entscheidungsregeln: Sei für Lachs und Barsch die Verteilung ihrer Helligkeitswerte x gegeben. Wie würde Ihre Entscheidung lauten, wenn bei einem gefangenen Fisch der Helligkeitswert 11.5 beobachtet wurde? P(x | ω=Lachs) P(x | ω=Barsch)

18 Seite 1811/16/2013| Bayessche Entscheidungstheorie Erinnerung bedingte Wahrscheinlichkeiten (Definition): P( x, ω ) = P( x | ω ) P(ω) = P( ω | x) P(x) Bei gegebenem Helligkeitswert x wollen wir entscheiden, ob P( ω=Lachs | x) > P( ω=Barsch | x) (dann Entscheidung für Lachs) Hierzu verwenden wir den Satz von Bayes: Thomas Bayes, * ~1702, 1761 Englischer Mathematiker und presbyterianischer Pfarrer. Bayes Essay Towards Solving a Problem in the Doctrine of Chances, welcher die obige Formel enthält, wurde erst zwei Jahre nach seinem Tode veröffentlicht.

19 Seite 1911/16/2013| Bayessche Entscheidungstheorie Satz von Bayes Posterior LikelihoodPrior Evidence Nutze aus, dass P( ω=Lachs | x) > P( ω=Barsch | x) P( ω=Lachs | x) / P( ω=Barsch | x) > 1 (setze a/0 = für a>0)

20 Seite 2011/16/2013| Bayessche Entscheidungstheorie P(ω=Barsch | x) P(ω=Lachs | x)

21 Seite 2111/16/2013| Bayessche Entscheidungstheorie Beachte: In der Entscheidungsregel kommt die Evidenz nicht vor, lediglich das Produkt aus Likelihood und Prior spielen eine Rolle. Posterior LikelihoodPrior Entscheidungsregel (Bayes Klassifikator): Lachs, falls P( ω=Lachs | x) P(ω=Lachs) > P( ω=Barsch | x) P(ω=Barsch) Barsch, falls P( ω=Lachs | x) P(ω=Lachs) P( ω=Barsch | x) P(ω=Barsch) Wie gut ist diese Regel? Wie hoch ist die Fehlklassifikationswahrscheinlichkeit? Für gegebenes x ist der bedingte Fehler

22 Seite 2211/16/2013| Beispiel: The O.J. Simpson Trial O.J. Simpson, 1994 angeklagt wegen Mordes an seiner Ex-Frau Nicole Brown Simpson und ihrem Liebhaber Ronald Goldman Rechtsexperten sind sich einig, dass die Indizienlage (DNA- Analysen) keinen Raum für vernünftige Zweifel an der Täterschaft Simpsons lässt. Unstreitig ist, dass jedenfalls in der Praxis ein weniger prominenter Täter in den USA mit großer Sicherheit verurteilt worden wäre. Man fand auf dem Grundstück der Ermordeten Blutspuren, die mit einer Wahrscheinlichkeit von 170 Millionen zu 1 O. J.Simpson zuzuordnen sind. Voreingenommenheit der Jury aufgrund anderer Indizien

23 Seite 2311/16/2013| Bayessche Entscheidungstheorie, Verallgemeinerungen

24 Seite 2411/16/2013| Bayessche Entscheidungstheorie, Verallgemeinerungen Mehrere Klassen: Seien C = {ω 1, ω 2,…ω c } c verschiedene Klassen (Kategorien, Merkmale, Labels) Mehrere Aktionen: Seien A = {a 1, a 2,…a n,} n verschiedene Aktionen. Im Beispiel galt A = C = {Lachs,Barsch}. Denkbar wäre z.B. auch C = {Alter > 60, Alter 60}, A = {Behandlung mit Virostatika, Grippeimpfung, keine Grippeimpfung} Lossfunktion: λ: A x C |R. λ(a i,ω j ) sind hierbei die Kosten oder der Loss der Aktion a i, wenn Klasse ω j vorliegt. Aufgabe: Finde eine Entscheidungsfunktion a: Daten A, welche die erwarteten Kosten (expected Loss) minimiert. Für gegebene Daten x und die Entscheidung a i wird der bedingte Fehler P(error | x) ersetzt durch das bedingte Risiko

25 Seite 2511/16/2013| Bayessche Entscheidungstheorie, Verallgemeinerungen Minimiert man R(a(x)| x) punktweise, minimiert man auch den erwarteten Verlust. Für eine gegebene Entscheidungsregel a: Daten A lautet der erwartete Verlust Entscheidungsregel (Bayes Entscheidung): Bei gegebenen Daten x wähle die Aktion a(x)=a i, für die R(a i,x) minimal wird. Diese Regel minimiert den erwarteten Verlust, ist also (gemessen an diesem Kriterium) die bestmögliche Entscheidungsregel!

26 Seite 2611/16/2013| Bayessche Entscheidungstheorie, Verallgemeinerungen Die 0-1 Lossfunktion In dem Fall der Klassifikation von Objekten gilt Klassen = Aktionen, und Fehlklassifikationen werden oft als gleich schwerwiegend betrachtet.Dies führt zu der Lossfunktion Das bedingte Risiko beträgt dann Die Bayes-Entscheidungsregel minimiert R(a i |x), maximiert also P(a i |x). Sie entscheidet sich daher immer für die Klasse mit dem höchsten Posterior. Diese Regel entspricht genau der Bayes-Klassifikator im Lachs-Barsch-Beispiel. Der Bayes-Klassifikator ist daher im Sinne der 0-1 Lossfunktion optimal.

27 Seite 2711/16/2013| Bayes-Entscheidungn bei normalverteiltem Posterior Exkurs: Die Normalverteilung

28 Seite 2811/16/2013| Bayes-Entscheidungn bei normalverteiltem Posterior

29 Seite 2911/16/2013| Bayes-Entscheidungn bei normalverteiltem Posterior

30 Seite 3011/16/2013| Bayes-Entscheidungn bei normalverteiltem Posterior

31 Seite 3111/16/2013| Bayes-Entscheidungn bei normalverteiltem Posterior

32 Seite 3211/16/2013| Bayes-Entscheidungn bei normalverteiltem Posterior


Herunterladen ppt "Maschinelles Lernen Jun. Prof. Dr. Achim Tresch Schachroboter, 1769."

Ähnliche Präsentationen


Google-Anzeigen