Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Präsentiert von Torben Pastuch

Ähnliche Präsentationen


Präsentation zum Thema: "Präsentiert von Torben Pastuch"—  Präsentation transkript:

1 Präsentiert von Torben Pastuch
am Seminar für Computerlinguistik der Uni Heidelberg Datum:

2 CXT verwendet „Support Vector Machines“...
Machine Learning Verfahren X Neuronale Netzwerke Genetische Algorithmen SUPPORT VECTOR MACHINES

3 Erstmals Thema 1992 auf der COLT-92
Praxisrelevante Forschung seit 1995 Findet Verwendung in folgenden Gebieten... Biometrie (z.B. Gesichtserkennung) Computerlinguistik (z.B. Textkategorisierung) Allgemein gesprochen ... „Mustererkennung“ Ermöglicht das Lernen von Klassifizierungen Kombination von mehreren bekannten Konzepten

4 Eine Einführung in „Support Vector Machines“
SVMs & Chunking Praxis-Demonstration: „Proof of Concept“

5 Fand erste Anwendung im „Perceptron“ (1956)
b x-b x Fand erste Anwendung im „Perceptron“ (1956)

6 Es existieren relativ einfache Algorithmen
Algorithmen sind schnell und massendatentauglich Nur linear separable Klassen können gelernt werden Lösung ist nicht immer ideal

7 x y R Hyperebene (Punkt) R Gesucht ist also

8 SVM hängen ausschließlich von den Skalarprodukten der Trainingsdaten ab
Kernel-Funktion

9 Ein Beispiel für einen Kernel: Der Polynomial-Kernel

10 Polynomialer Kernel Radial Basis Function Kernel (RBF) Sigmoider Kernel

11 Nur linear separable Klassen können gelernt werden
Lösung ist nicht immer ideal

12 w -1 +1 < 0 > 0

13 Berechnung der „wirklichen Breite“ 

14 Formalisierung der Trainingsdaten
Nun ist folgendes zu erreichen: Minimiere: Unter der Bedingung, dass:

15 …diese Funktion Maximiere unter diesen Bedingungen

16 Für die Lösung gilt…

17 vi yi Die Trainingsdaten sind folgendermaßen aufgebaut
Wort: wi-2 wi-1 wi wi+1 wi+2 POS: ti-2 ti-2 ti-2 ti-2 ti-2 yi z.B.: +1, wenn „wi ist Anfang einer NP“ Und -1, wenn „wi ist nicht Anf. einer NP“ Für die Trainingsdaten wurde der (V2) verwendet. (ca Sätze  ca Wörter)

18 Was verursacht die Probleme beim Chunken?
Es muss der „passende“ Kernel gefunden werden Es gilt, alle Parameter ideal zu wählen Der Algorithmus ist vergleichsweise langsam Komplexität: O(n2) bis O(n3)

19 IRChunker Output CSVM IRTagger CPoCDemo
Die CSVM-Klasse ist aufgabenunabhängig. Möglichst allgemeine und effiziente Implementierung


Herunterladen ppt "Präsentiert von Torben Pastuch"

Ähnliche Präsentationen


Google-Anzeigen