Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Maschinelles Lernen und automatische Textklassifikation

Ähnliche Präsentationen


Präsentation zum Thema: "Maschinelles Lernen und automatische Textklassifikation"—  Präsentation transkript:

1 Maschinelles Lernen und automatische Textklassifikation
Einführung: maschinelles Lernen

2 Warum maschinelles Lernen?
Fortschritte bei Algorithmen und Theorie Unüberschaubare Menge online verfügbarer Daten Rechenkapazität verfügbar Kommerzielle Anwendungen gefragt Menschliche Arbeitskraft oft zu teuer oder nicht verfügbar

3 Warum maschinelles Lernen?
Probleme, bei denen die exakten Mechanismen oder Regeln nicht bekannt sind Beispiel: automatische Klassifikation von Zeitungsartikeln nach Ressort Versuchen Sie operationale Regeln anzugeben, wann ein Artikel zum Ressort „Sport“ gehört!

4 Typische Anwendungen Data Mining:
Verwendung historischer Daten um Entscheidungen zu verbessern Patientendaten Sofware Applikationen, die nicht von Hand programmiert werden können Roboter, automatische Steuerung Erkennung gesprochener Sprache Selbstlernende Programme Newsreader, der Anwender-Interessen lernt

5 Weitere Beispiele Spiele, z.B. Schach Komplexe Entscheidungen, z.B.
Betriebswirtschaftl. Entscheidungen Expertensysteme Mustererkennung, z.B. OCR Bilderkennung Vorhersagen von best. Verhalten/Ereignissen Wettervorhersage Aktienkurse

6 Beispiel: Medizin

7

8

9

10

11 Was ist Lernen? Lernen = verbesserte Bewältigung einer Aufgabe A durch Übung/Erfahrung Ü Verbesserung bei Aufgabe A In Bezug auf ein bestimmtes Qualitätsmaß Q Aufgrund der Übung/Erfahrung Ü Beispiel 1: Schach A: Schach spielen Q: Anteil der gewonnenen Spiele Ü: Möglichkeit gegen sich selbst zu spielen Beispiel 2: Handschriftenerkennung A: korrekte Erkennenung handschriftlicher Wörter in Bildern Q: Anteil korrekt erkannter Wörter Ü: große Menge handgeschriebener Wörter mit korrekter Transkription

12 Erfahrung/Übung Direkt: Indirekt: Trainer:
was ist optimaler nächster Zug Welches Wort Indirekt: Ausgang des Spiels Korrekt erkannter Text, ... Trainer: Anleitung

13 Maschinelles Lernen Betrachte maschinelles Lernen als Lernen von Input-Output-Funktionen Idee: gegeben Trainingsmenge, z.B. Menge vorklassifizierter Zeitungsartikel gesucht Funktion f, die für jeden Input den gewünschten Output liefert Vorgehen: finde Funktion h, die auf der Trainingsmenge mit f bestmöglich übereinstimmt

14 Input-Output-Funktionen
Im ML werden Input-Output-Funktionen typischerweise als Funktionen auf Vektoren betrachtet: F: (x1, x2, x3, ...,xn) -> (y1, y2, y3, ..., ym) D.h. Input und Output müssen als Vektor repräsentiert werden -> Repräsentationsproblem Wie könnte eine Vektorrepräsentation im Falle des Beispiels der Klassifikation von Zeitungsartikeln aussehen?

15 Repräsentation Schach: Liste von Koordinaten mit Spielfigur und schwarz/weiss Handschrifterkennung: Pixelkoordinaten, Graustufe Textklassifikation: „Bag-of-Words“

16 Zielfunktion Schach: Handschrifterkennung: Textklassifikation:
Brett-Koordinaten -> nächster Zug Handschrifterkennung: Pixelkoordinaten -> Wort Textklassifikation: Wortmenge -> Kategorie Problem: es gibt in der Regel beliebig viele Funktionen h, die auf einer gegebenen Trainingsmenge mit f übereinstimmen Einschränkung auf bestimmte Typen von Funktionen!

17 Input-Output-Funktionen
Evaluierung der Hypothese h: Erfordert weitere Samples für das Verhalten von f: Testset Typisches Vorgehen: splitte Samplemenge in Trainingsset (typischerweise 80%) Testset (typischerweise 20%) Zur Verbesserung: Variation von Trainings-/Testset

18 Design Entscheidungen
Art des Trainings? Definition der Zielfunktion? Repräsentation der gelernten Funktion? Welcher Lernalgorithmus?

19 Wichtige Punkte Welche Lernalgorithmern sind für welche Funktionen geeignet? Wie groß muß das Trainingsset sein? Welchen Einfluß hat die Komplexität der Hypothesen? Was passiert, wenn das Trainingsset fehlerhafte Daten enthält? Was sind die Grenzen von maschinellem Lernen? Wie kann Zusatzwissen genutzt werden? Was können wir von biologischem Lernen ableiten?

20 Aufgaben Klassifikation von Zeitungsartikeln in elektronischer Form danach, ob sie Sportartikel sind oder nicht. Definieren Sie eine geeignete Repräsentation der Daten Definieren Sie eine geeignete Zielfunktion Versuchen Sie auf der Basis der gewählten Repräsentation möglichst operative Regeln zu formulieren, wann ein Artikel ein Sportartikel ist.


Herunterladen ppt "Maschinelles Lernen und automatische Textklassifikation"

Ähnliche Präsentationen


Google-Anzeigen