Maschinelles Lernen Jun. Prof. Dr. Achim Tresch

Slides:



Advertisements
Ähnliche Präsentationen
Nachtrag: Simulation zum Bias-Variance Tradeoff
Advertisements

Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.
Christian Scheideler SS 2009
Fachdidaktik Seminar – Kernideen der Mathematik
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
Maschinelles Lernen   Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen.
Kerndichteschätzung Nearest-Neighbour-Verfahren
Julia Antoniuk Jessica Gottschalk Susana de Miguel
Maschinelles Lernen   Präsenzübung.
Prinzipal-Agenten Beziehungen
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Heuristiken und Kontexteinflüsse
Hypothesenprüfung nach Bayes
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (11-1 –Selbstanordnende lineare Listen) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27-Selbstanordnende lineare Listen) Prof. Th. Ottmann.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 16 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Kapitel 6 Mehrstufige Zufallsexperimente
Bit Commitment mit quadratischen Resten Vortrag von Josef Pozny
Was sind Histogramme? (1)
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur - statt Vorlesungen -
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur nächste Woche - statt Vorlesungen -
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
II. Wahrscheinlichkeitstheorie
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird verlegt. Der Nachholtermin wird noch bekannt gegeben.
Bedingte Wahrscheinlichkeiten
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Eigenschaften der OLS-Schätzer
Effiziente Algorithmen
11 Weiterführende Abfragen
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation
Information und Kommunikation
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
KIT – Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft INSTITUT FÜR ANGEWANDTE INFORMATIK UND FORMALE.
Übersicht 1.Darum geht es 2.Die Argumente gegen die Initiative 3.Ausblick Seite
Übersicht 1.Darum geht es 2.Die Argumente gegen die Initiative 3.Ausblick Seite
Zuwanderung ist nicht unkontrolliert, sie hängt von der Konjunktur ab Unter Kontingentsystem Mit PFZ Seite
Lebensdauer eines x-jährigen
Mathematik 1 und 2 bei Dr. rer. nat. Otto Schafmeister
Schnittpunkt von zwei Geraden
Lernmodelle und Experimentelle Untersuchungen
2. Einzielentscheidungen mit einem Szenarium

Christian Scheideler WS 2008
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Geoinformationssysteme
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
 Präsentation transkript:

Maschinelles Lernen Jun. Prof. Dr. Achim Tresch   „Schachroboter“, 1769 Jun. Prof. Dr. Achim Tresch http://www.staff.uni-mainz.de/tresch/ tresch@imbei.uni-mainz.de

Biometrische Personenidentifikation Einführung: Was ist maschinelles Lernen? Biometrische Personenidentifikation Modellbasierte Aktienmarktanalysen Spracherkennung

Einführung: Was ist maschinelles Lernen? Automatisierte Hochdurchsatz- Bildanalyse Protein-Funktionsvorhersage Computerunterstützte Krebsdiagnostik

Einführung: Was ist maschinelles Lernen? Genvorhersage Was ist maschinelles Lernen? „Intelligente“ Autonome Systeme Kreditrisikobewertung

Daten  Entscheidungen Einführung: Was ist maschinelles Lernen? Daten  Entscheidungen bekannte Daten  bekannte („richtige“) Entscheidungen unbekannte Daten  möglichst „richtige“ Entscheidungen ?

Spezies Beispiel: Unterscheidung von Lachs und Seebarsch Aufgabe: Sortiere zwei Arten von Fisch, die über ein Fließband laufen Spezies

Beispiel: Unterscheidung von Lachs und Seebarsch menschliches Vorgehen maschinelles Vorgehen Digitalisiertes Kamerabild Merkmalsextraktion (Feature Selection) Ermittele ein Klassifikationskriterium > 40cm Klassifiziere

Egal, wie man x* auch wählt, es kommt immer zu Fehlklassifikationen. Beispiel: Unterscheidung von Lachs und Seebarsch Klassifiziere nach der Länge des Fisches: Egal, wie man x* auch wählt, es kommt immer zu Fehlklassifikationen. Wähle einen Schwellwert x*, oberhalb dessen der Fisch als Seebarsch, und unterhalb dessen der Fisch als Lachs klassifiziert wird.

Beispiel: Unterscheidung von Lachs und Seebarsch Klassifiziere nach der Farbe (Helligkeit) des Fisches:

Beispiel: Unterscheidung von Lachs und Seebarsch Kombiniere die Merkmale Länge und Helligkeit: Fisch  (Länge, Helligkeit) Eine geeignet gewählte Entscheidungsgrenze kann Lachs und Seebarsch fast fehlerfrei trennen.

Beispiel: Unterscheidung von Lachs und Seebarsch Geht es noch besser? Jain! Das Hinzufügen weiterer Merkmale könnte helfen, MUSS ABER NICHT: z.B. wäre die Länge des Rumpfes wahrscheinlich eine redundante Größe, die einfach eine lineare Funktion der Gesamtlänge ist. Die Entscheidungsgrenze könnte flexibler gewählt und besser an die Daten angepasst werden:

Beispiel: Unterscheidung von Lachs und Seebarsch Geht es noch besser? Jain! Das Hinzufügen weiterer Merkmale könnte helfen, MUSS ABER NICHT: z.B. wäre die Länge des Rumpfes wahrscheinlich eine redundante Größe, die einfach eine lineare Funktion der Gesamtlänge ist. Die Entscheidungsgrenze könnte flexibler gewählt und besser an die Daten angepasst werden: Problem: Ist ein neuer, noch nicht gesehener Fisch mit diesen Kennzahlen vermutlich eher ein Lachs oder ein Barsch?  Generalisierbarkeit

Beispiel: Unterscheidung von Lachs und Seebarsch Möglicherweise haben hyperbelförmige Entscheidungsgrenzen die besten Trennungs- und Verallgemeinerungseigenschaften. Wie schätzt man die Klassifikationsgüte des gelernten Klassifikators auf unbekannten Daten ab?  Validierung

Der Design-Zyklus der Mustererkennung Hauptthemen der Vorlesung

Organisatorisches . . . Vorlesung Maschinelles Lernen: 6 Credit Points, benoteter Schein, zweisemestrig   Scheinkriterien: Klausur am Ende des Semesters Erfolgreiche Teilnahme an den Übungen ist Voraussetzung zur Klausurteilnahme. Jedes Übungsblatt wird mit A,B oder C bewertet, es darf nur ein Mal C erzielt werden. Die Übungen sind teils praktisch (in R), teils theoretisch. Literatur: [1] Duda, Hart, Stork: Pattern Classification, 2nd Editon, Wiley Interscience, 2000. [2] Baldi, Brunak: Bioinformatics - the machine learning approach. 2nd Edition, MIT Press, 2001. Weitere Bücher/Artikel werden im Verlauf der Vorlesung genannt. Arbeiten: Über das Gebiet werden Arbeiten vergeben. Skripten: Auf der Homepage oder in ILIAS Vorlesungs-/Übungszeiten: ?

Bayessche Entscheidungstheorie Unterscheidung von Lachs und Seebarsch: Angenommen, wir fangen ausschließlich Lachs oder Barsch. Greifen wir blindlings einen Fisch ω heraus, so gibt es eine a priori Wahrscheinlichkeit (kurz Prior), dass dieser Fisch ein Lachs bzw. ein Barsch ist: P(ω=Lachs), P(ω=Barsch) D.h., wir betrachten ω als eine binäre Zufallsvariable. Notwendig gilt dann P(ω=Lachs) + P(ω=Barsch) = 1 (Exklusivität, Exhaustivität) Der Bequemlichkeit schreibt man oft einfach P(Lachs) bzw. P(Barsch), wenn klar ist, welche Zufallsvariable gemeint ist. Andere Schreibweisen sind Pω(Lachs) bzw. Pω(Barsch). Bem.: Falls wir gar kein Vorwissen darüber haben, welcher Fisch häufiger gefangen wird, ist es vernünftig, beide Ereignisse als gleich wahrscheinlich anzunehmen: P(ω=Lachs) = P(ω=Barsch) (uniformer Prior)

Bayessche Entscheidungstheorie Ohne jegliche Zusatzinformation lautet die optimale Entscheidungsregel: Falls P(ω=Lachs) > P(ω=Barsch) : Klassifiziere jeden gefangenen Fisch als Lachs Falls P(ω=Lachs) ≤ P(ω=Barsch) : Klassifiziere jeden gefangenen Fisch als Barsch Daten helfen bei der Konstruktion besserer Entscheidungsregeln: Sei für Lachs und Barsch die Verteilung ihrer Helligkeitswerte x gegeben. P(x | ω=Lachs) P(x | ω=Barsch) Wie würde Ihre Entscheidung lauten, wenn bei einem gefangenen Fisch der Helligkeitswert 11.5 beobachtet wurde?

Bayessche Entscheidungstheorie Erinnerung bedingte Wahrscheinlichkeiten (Definition): P( x , ω ) = P( x | ω ) P(ω) = P( ω | x) P(x) Bei gegebenem Helligkeitswert x wollen wir entscheiden, ob P( ω=Lachs | x) > P( ω=Barsch | x) (dann Entscheidung für „Lachs“) Hierzu verwenden wir den Satz von Bayes: Bayes‘ Essay Towards Solving a Problem in the Doctrine of Chances, welcher die obige Formel enthält, wurde erst zwei Jahre nach seinem Tode veröffentlicht. Thomas Bayes, * ~1702, † 1761 Englischer Mathematiker und presbyterianischer Pfarrer.

Bayessche Entscheidungstheorie Satz von Bayes Posterior Likelihood Prior Evidence Nutze aus, dass P( ω=Lachs | x) > P( ω=Barsch | x) ↔ P( ω=Lachs | x) / P( ω=Barsch | x) > 1 (setze a/0 = ∞ für a>0) ↔ ↔ ↔

Bayessche Entscheidungstheorie P(ω=Barsch | x) P(ω=Lachs | x)

Bayessche Entscheidungstheorie Beachte: In der Entscheidungsregel kommt die Evidenz nicht vor, lediglich das Produkt aus Likelihood und Prior spielen eine Rolle. Likelihood Prior Posterior Entscheidungsregel (Bayes Klassifikator): „Lachs“, falls P( ω=Lachs | x) P(ω=Lachs) > P( ω=Barsch | x) P(ω=Barsch) „Barsch“, falls P( ω=Lachs | x) P(ω=Lachs) ≤ P( ω=Barsch | x) P(ω=Barsch) Wie „gut“ ist diese Regel? Wie hoch ist die Fehlklassifikationswahrscheinlichkeit? Für gegebenes x ist der bedingte Fehler

„Voreingenommenheit der Jury“ aufgrund anderer Indizien Beispiel: The O.J. Simpson Trial O.J. Simpson, 1994 angeklagt wegen Mordes an seiner Ex-Frau Nicole Brown Simpson und ihrem Liebhaber Ronald Goldman Rechtsexperten sind sich einig, dass die Indizienlage (DNA-Analysen) keinen Raum für vernünftige Zweifel an der Täterschaft Simpsons lässt. Unstreitig ist, dass jedenfalls in der Praxis ein weniger prominenter Täter in den USA mit großer Sicherheit verurteilt worden wäre. Man fand auf dem Grundstück der Ermordeten Blutspuren, die mit einer „Wahrscheinlichkeit von 170 Millionen zu 1“ O. J.Simpson zuzuordnen sind. „Voreingenommenheit der Jury“ aufgrund anderer Indizien

Bayessche Entscheidungstheorie, Verallgemeinerungen

Bayessche Entscheidungstheorie, Verallgemeinerungen Mehrere Klassen: Seien C = {ω1, ω2,…ωc} c verschiedene Klassen (Kategorien, Merkmale, Labels) Mehrere Aktionen: Seien A = {a1, a2,…an,} n verschiedene Aktionen. Im Beispiel galt A = C = {Lachs,Barsch}. Denkbar wäre z.B. auch C = {Alter > 60, Alter ≤ 60} , A = {Behandlung mit Virostatika, Grippeimpfung, keine Grippeimpfung} Lossfunktion: λ: A x C  |R . λ(ai,ωj) sind hierbei die Kosten oder der Loss der Aktion ai, wenn Klasse ωj vorliegt. Aufgabe: Finde eine Entscheidungsfunktion a: Daten  A, welche die erwarteten Kosten (expected Loss) minimiert. Für gegebene Daten x und die Entscheidung ai wird der bedingte Fehler P(error | x) ersetzt durch das bedingte Risiko

Bayessche Entscheidungstheorie, Verallgemeinerungen Für eine gegebene Entscheidungsregel a: Daten  A lautet der erwartete Verlust Minimiert man R(a(x)| x) punktweise, minimiert man auch den erwarteten Verlust. Entscheidungsregel (Bayes Entscheidung): Bei gegebenen Daten x wähle die Aktion a(x)=ai, für die R(ai,x) minimal wird. Diese Regel minimiert den erwarteten Verlust, ist also (gemessen an diesem Kriterium) die bestmögliche Entscheidungsregel!

Bayessche Entscheidungstheorie, Verallgemeinerungen Die 0-1 Lossfunktion In dem Fall der Klassifikation von Objekten gilt Klassen = Aktionen, und Fehlklassifikationen werden oft als gleich schwerwiegend betrachtet.Dies führt zu der Lossfunktion Das bedingte Risiko beträgt dann Die Bayes-Entscheidungsregel minimiert R(ai|x), maximiert also P(ai|x). Sie entscheidet sich daher immer für die Klasse mit dem höchsten Posterior. Diese Regel entspricht genau der Bayes-Klassifikator im Lachs-Barsch-Beispiel. Der Bayes-Klassifikator ist daher im Sinne der 0-1 Lossfunktion optimal.

Bayes-Entscheidungn bei normalverteiltem Posterior Exkurs: Die Normalverteilung

Bayes-Entscheidungn bei normalverteiltem Posterior

Bayes-Entscheidungn bei normalverteiltem Posterior

Bayes-Entscheidungn bei normalverteiltem Posterior

Bayes-Entscheidungn bei normalverteiltem Posterior

Bayes-Entscheidungn bei normalverteiltem Posterior