Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002.

Ähnliche Präsentationen


Präsentation zum Thema: "Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002."—  Präsentation transkript:

1 Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum:

2 Machine Learning Verfahren X C XT verwendet Support Vector Machines... Neuronale Netzwerke Genetische Algorithmen SUPPORT VECTOR MACHINES

3 Erstmals Thema 1992 auf der COLT-92 Praxisrelevante Forschung seit 1995 Findet Verwendung in folgenden Gebieten... Biometrie (z.B. Gesichtserkennung) Computerlinguistik (z.B. Textkategorisierung) Allgemein gesprochen... Mustererkennung Kombination von mehreren bekannten Konzepten Ermöglicht das Lernen von Klassifizierungen

4 Eine Einführung in Support Vector Machines SVMs & Chunking Praxis-Demonstration: Proof of Concept

5 Fand erste Anwendung im Perceptron (1956) w x b x-b

6 Es existieren relativ einfache Algorithmen Algorithmen sind schnell und massendatentauglich Nur linear separable Klassen können gelernt werden Lösung ist nicht immer ideal

7 Gesucht ist also x y R R Hyperebene (Punkt)

8 SVM hängen ausschließlich von den Skalarprodukten der Trainingsdaten ab Kernel-Funktion

9 Ein Beispiel für einen Kernel: Der Polynomial- Kernel

10 Polynomialer Kernel Radial Basis Function Kernel (RBF) Sigmoider Kernel

11 Nur linear separable Klassen können gelernt werden Lösung ist nicht immer ideal

12 w < 0 > 0 +1

13 Berechnung der wirklichen Breite

14 Formalisierung der Trainingsdaten Nun ist folgendes zu erreichen: Unter der Bedingung, dass: Minimiere:

15 …diese Funktion Maximiere unter diesen Bedingungen

16 Für die Lösung gilt…

17 Die Trainingsdaten sind folgendermaßen aufgebaut Wort:w i-2 w i-1 w i w i+1 w i+2 POS:t i-2 t i-2 t i-2 t i-2 t i-2 vivi yiyi z.B.: +1, wenn w i ist Anfang einer NP Und -1, wenn w i ist nicht Anf. einer NP Für die Trainingsdaten wurde der (V2) verwendet. (ca Sätze ca Wörter)

18 Was verursacht die Probleme beim Chunken? Es muss der passende Kernel gefunden werden Es gilt, alle Parameter ideal zu wählen Der Algorithmus ist vergleichsweise langsam Komplexität: O(n 2 ) bis O(n 3 )

19 Die CSVM-Klasse ist aufgabenunabhängig. Möglichst allgemeine und effiziente Implementierung IRChunker CSVM IRTagger Output CPoCDemo


Herunterladen ppt "Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 01.07.2002."

Ähnliche Präsentationen


Google-Anzeigen