Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Maschinelles Lernen und automatische Textklassifikation Einführung: maschinelles Lernen.

Ähnliche Präsentationen


Präsentation zum Thema: "Maschinelles Lernen und automatische Textklassifikation Einführung: maschinelles Lernen."—  Präsentation transkript:

1 Maschinelles Lernen und automatische Textklassifikation Einführung: maschinelles Lernen

2 Warum maschinelles Lernen? Fortschritte bei Algorithmen und Theorie Unüberschaubare Menge online verfügbarer Daten Rechenkapazität verfügbar Kommerzielle Anwendungen gefragt Menschliche Arbeitskraft oft zu teuer oder nicht verfügbar

3 Warum maschinelles Lernen? Probleme, bei denen die exakten Mechanismen oder Regeln nicht bekannt sind Beispiel: automatische Klassifikation von Zeitungsartikeln nach Ressort –Versuchen Sie operationale Regeln anzugeben, wann ein Artikel zum Ressort Sport gehört!

4 Typische Anwendungen Data Mining: –Verwendung historischer Daten um Entscheidungen zu verbessern Patientendaten Sofware Applikationen, die nicht von Hand programmiert werden können –Roboter, automatische Steuerung –Erkennung gesprochener Sprache Selbstlernende Programme –Newsreader, der Anwender-Interessen lernt

5 Weitere Beispiele Spiele, z.B. Schach Komplexe Entscheidungen, z.B. –Betriebswirtschaftl. Entscheidungen –Expertensysteme Mustererkennung, z.B. –OCR –Bilderkennung Vorhersagen von best. Verhalten/Ereignissen –Wettervorhersage –Aktienkurse

6 Beispiel: Medizin

7

8

9

10

11 Was ist Lernen? Lernen = verbesserte Bewältigung einer Aufgabe A durch Übung/Erfahrung Ü –Verbesserung bei Aufgabe A –In Bezug auf ein bestimmtes Qualitätsmaß Q –Aufgrund der Übung/Erfahrung Ü Beispiel 1: Schach –A: Schach spielen –Q: Anteil der gewonnenen Spiele –Ü: Möglichkeit gegen sich selbst zu spielen Beispiel 2: Handschriftenerkennung –A: korrekte Erkennenung handschriftlicher Wörter in Bildern –Q: Anteil korrekt erkannter Wörter –Ü: große Menge handgeschriebener Wörter mit korrekter Transkription

12 Erfahrung/Übung Direkt: –was ist optimaler nächster Zug –Welches Wort Indirekt: –Ausgang des Spiels –Korrekt erkannter Text,... Trainer: –Anleitung

13 Maschinelles Lernen Betrachte maschinelles Lernen als Lernen von Input-Output-Funktionen Idee: –gegeben Trainingsmenge, z.B. Menge vorklassifizierter Zeitungsartikel –gesucht Funktion f, die für jeden Input den gewünschten Output liefert –Vorgehen: finde Funktion h, die auf der Trainingsmenge mit f bestmöglich übereinstimmt

14 Input-Output-Funktionen Im ML werden Input-Output-Funktionen typischerweise als Funktionen auf Vektoren betrachtet: –F: (x1, x2, x3,...,xn) -> (y1, y2, y3,..., ym) D.h. Input und Output müssen als Vektor repräsentiert werden -> Repräsentationsproblem Wie könnte eine Vektorrepräsentation im Falle des Beispiels der Klassifikation von Zeitungsartikeln aussehen?

15 Repräsentation Schach: Liste von Koordinaten mit Spielfigur und schwarz/weiss Handschrifterkennung: Pixelkoordinaten, Graustufe Textklassifikation: Bag-of-Words

16 Zielfunktion Schach: –Brett-Koordinaten -> nächster Zug Handschrifterkennung: –Pixelkoordinaten -> Wort Textklassifikation: –Wortmenge -> Kategorie Problem: es gibt in der Regel beliebig viele Funktionen h, die auf einer gegebenen Trainingsmenge mit f übereinstimmen –Einschränkung auf bestimmte Typen von Funktionen!

17 Input-Output-Funktionen Evaluierung der Hypothese h: –Erfordert weitere Samples für das Verhalten von f: Testset –Typisches Vorgehen: splitte Samplemenge in Trainingsset (typischerweise 80%) Testset (typischerweise 20%) –Zur Verbesserung: Variation von Trainings- /Testset

18 Design Entscheidungen Art des Trainings? Definition der Zielfunktion? Repräsentation der gelernten Funktion? Welcher Lernalgorithmus?

19 Wichtige Punkte Welche Lernalgorithmern sind für welche Funktionen geeignet? Wie groß muß das Trainingsset sein? Welchen Einfluß hat die Komplexität der Hypothesen? Was passiert, wenn das Trainingsset fehlerhafte Daten enthält? Was sind die Grenzen von maschinellem Lernen? Wie kann Zusatzwissen genutzt werden? Was können wir von biologischem Lernen ableiten?

20 Aufgaben Klassifikation von Zeitungsartikeln in elektronischer Form danach, ob sie Sportartikel sind oder nicht. –Definieren Sie eine geeignete Repräsentation der Daten –Definieren Sie eine geeignete Zielfunktion –Versuchen Sie auf der Basis der gewählten Repräsentation möglichst operative Regeln zu formulieren, wann ein Artikel ein Sportartikel ist.


Herunterladen ppt "Maschinelles Lernen und automatische Textklassifikation Einführung: maschinelles Lernen."

Ähnliche Präsentationen


Google-Anzeigen