Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Textklassifikation und Informationsextraktion Tobias Scheffer Peter Haider Paul.

Ähnliche Präsentationen


Präsentation zum Thema: "Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Textklassifikation und Informationsextraktion Tobias Scheffer Peter Haider Paul."—  Präsentation transkript:

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Textklassifikation und Informationsextraktion Tobias Scheffer Peter Haider Paul Prasse Uwe Dick

2 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 2 Textklassifikation, Informationsextraktion

3 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 3 Textklassifikation, Informationsextraktion Textklassifikator: Ordnet einen Text einer Menge von inhaltlichen Kategorien zu. Wird aus annotierten Daten gelernt. Anwendungsbeispiel: Posteingangsverarbeitung. Informationsextraktion: Identifikation definierter Felder in Dokument. Auch aus Daten gelernt. Anwendungsbeispiel: Automatisierung von Dokumentenverarbeitungsprozessen.

4 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 4 Textklassifikation: Repräsentation Nach Tokenisierung wird Text durch Vektor repräsentiert. Vektorraummodell:  Vektor der Worthäufigkeiten für probabilistische Modelle.  TFIDF-Repräsentation für lineare Verfahren. Wortreihenfolge bleibt unberücksichtigt. Vektorraummodell mit N-Grammen:  Wird für Spamerkennung verwendet.  Jedes N-Gramm durch Dimension repräsentiert, oder  Sparse Binary Polynomial Hashing oder  Orthogonal Sparse N-Grams.

5 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 5 Repräsentation Jedes N-Gramm durch Dimension repräsentiert,  Nur N-Gramme, die auch tatsächlich auftreten. Sparse Binary Polynomial Hashing  Fenster der Breite N wird über Text geschoben,  Jede Teilmenge von bis zu N Tokens, die in dieser Reihenfolge auftauchen und das am weitesten rechts stehende Token beinhalten, ist eine Dimension, Orthogonal Sparse Bigrams.  Fenster der Breite N wird über Text geschoben,  Jedes Paar aus einem beliebigen Token im Fenster und dem am rechten Fensterrand stehenden Token ist ein Merkmal. SBPH und OSB: N-Gramme mit Platzhaltern.

6 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 6 Klassifikator / Entscheidungsfunktion Für eine binäre Klassifikation (y= +1 oder -1) wird eine Entscheidungsfunktion f(x) gelernt. Je größer f(x), desto wahrscheinlicher ist, dass x zur Klasse gehört. Wenn f(x)  , dann entscheide h(x) = +1, sonst h(x) = -1. Klassifikator h(x), Entscheidungsfunktion f(x). Der Wert für  verschiebt „false positives“ zu „false negatives“. Optimaler Wert hängt von Kosten einer positiven oder negativen Fehlklassifikation ab.

7 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 7 Evaluation von Textklassifikatoren Fehlklassifikationswahrscheinlichkeit  Häufig nicht aussagekräftig, weil P(+1) sehr klein.  Wie gut sind 5% Fehler, wenn P(+1)=3%?  Idee: Nicht Klassifikator bewerten, sondern Entscheidungsfunktion. Precision / Recall  Precision-Recall-Kurve bewertet Entscheidungsfunktion,  Jeder Wert für  entspricht Punkt auf P-R-Kurve.  F-Measure: „Durchschnitt“ aus Precision und Recall. Receiver Operating Characteristic (ROC-Kurve)  Bewertet Entscheidungsfunktion,  Fläche unter ROC-Kurve = P(positives Beispiel hat höheren f-Wert als negatives Beispiel)

8 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 8 ROC-Analyse Entscheidungsfunktion + Schwellwert = Klassifikator. Großer Schwellwert: Mehr positive Bsp falsch. Kleiner Schwellwert: Mehr negative Bsp falsch. Bewertung der Entscheidungsfunktion unabhängig vom konkreten Schwellwert. Receiver-Operating-Characteristic-Analyse Kommt aus der Radartechnik, im 2. Weltkrieg entwickelt. Bewertung der Qualität von Entscheidungsfunktionen.

9 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 9 ROC-Kurven Charakterisieren das Verhalten des Klassifikators für alle möglichen Schwellwerte. X-Achse: „False Positives“: Anzahl negativer Beispiele, die als positiv klassifiziert werden. Y-Achse: „True Positives“: Anzahl positiver Beispiele, die als positiv klassifiziert werden.

10 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 10 Bestimmen der ROC-Kurve von f Für alle positiven Beispiele xp in Testmenge  Füge f(xp) in sortierte Liste Lp ein. Für alle negativen Beispiele xn in Testmenge  Füge f(xn) in sortierte Liste Ln ein. tp = fp = 0 Wiederhole solange Lp und Ln nicht leer sind.  Wenn Lp  Element  Ln  Element dann increment(tp) und Lp = LP  Next.  Wenn Ln  Element  Lp  Element dann increment(fp) und Ln = Ln  Next.  Zeichne neuen Punkt (fp, tp)

11 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 11 Flächeninhalt der ROC-Kurve Flächeninhalt AUC kann durch Integrieren (Summieren der Trapez-Flächeninhalte) bestimmt werden. p = zufällig gezogenes Positivbeispiel n = zufällig gezogenes Negativbeispiel Theorem: AUC = P(f(p) > f(n)). Beweisidee: ROC-Kurve mit nur einem Positiv- und einem Negativbeispiel (Flächeninhalt 0 oder 1); Durchschnitt vieler solcher Kurven = AUC.

12 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 12 Precision / Recall Alternative zur ROC-Analyse. Stammt aus dem Information Retrieval. Precision: P(richtig | als positiv erkannt) Recall: P(als positiv erkannt | ist positiv)

13 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 13 Precision / Recall Zusammenfassungen der Kurve in einer Zahl:  Maximum F-Measure: Maximum über alls (p,r)-Paare auf der Kurve:  Precision-Recall-Breakeven-Point: Derjenige Wert für den gilt: Precision(  ) = Recall(  ) = PRBEP.

14 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 14 Precision / Recall Trade-Off Precision-/Recall-Kurven Welcher Klassifikator ist der Beste / Schlechteste precision recall

15 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 15 Bestimmen der Performance-Maße Performance auf Trainingsmenge extrem optimistischer Schätzer für Performance für unbekannte Texte. Zum Schätzen der Performance werden Texte verwendet, die nicht zum Trainieren verwendet wurden. Training-und-Test: Verwende 80% der Daten zum Trainieren, 20% der Daten zum Messen der ROC- Kurve, P-R-Kurve, oder Fehlklassifikationswahrsch. N-Fold-Cross-Validation: Teile Daten in n Teile, wiederholtes Trainieren mit n-1 Teilen.

16 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 16 Fehlerschätzung Algorithmus Training-and-Test  Aufteilen der Datenbank in Trainingsmenge und Testmenge.  h1 = Lernalgorithmus (Trainingsmenge)  Bestimme Ê anhand der Testmenge.  h = Lernalgorithmus (alle Beispiele)  Liefere Hypothese h zusammen mit Fehlerschätzer Training-and-Test ist für große Datenbanken gut anwendbar. Problematisch für kleine Datenbanken

17 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 17 N-Fold Cross-Validation Algorithmus N-CV (Beispiele S)  Bilde n etwa gleich große Blöcke S1,..., Sn von Beispielen, die zusammen S ergeben. Ê=0.  For i = 1... N  h = Lernalgorithmus (S \ Si)  Ê = Ê + empirischer Fehler von h auf Si  Ê = Ê/N  h = Lernalgorithmus (S)  Liefere Hypothese h mit Fehlerschätzer Wenn |S| = n, heisst das Verfahren Leave-one-Out. Nur leicht pessimistischer Schätzer.

18 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 18 Lineare Klassifikatoren

19 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 19 Lineare Klassifikatoren Umformulierung mit zusätzlichem, konstanten Eingabeattribut x 0 =1: 

20 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 20 Rocchio : Mittelpunkt der neg. Beispiele : Mittelpunkt der pos. Beispiele Trennebene: Normalenvektor = (x +1 -x -1 ) Bestimmung von w 0 : Mittelpunkt (x +1 +x -1 )/2 muss auf der Ebene liegen x -1 x +1 w

21 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 21 Rocchio Trennebenen hat maximalen Abstand von den Mittelpunkten der Klassen. Trainingsbeispiele können falsch klassifiziert werden. Differenz der Mittelwerte kann schlechter Normalenvektor für Diskrimination sein.

22 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 22 Perzeptron Lineares Modell:  Ziel:  Für alle Beispiele (x i, +1) :  Für alle Beispiele (x i, -1) :

23 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 23 Perzeptron Lineares Modell:  Ziel:  Für alle Beispiele (x i, +1) :  Für alle Beispiele (x i, -1) : Ziel: Für alle Beispiele:   = Beispiel liegt auf der richtigen Seite der Ebene

24 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 24 Perzeptron Lineares Modell:  Ziel: Für alle Beispiele:  Perzeptron-Optimierungskriterium: 

25 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 25 Perzeptron Lineares Modell:  Ziel: Für alle Beispiele:  Perzeptron-Optimierungskriterium:  Subgradient für Beispiel (x i, y i ) : 

26 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 26 Perzeptron Lineares Modell:  Perzeptron-Optimierungskriterium:  Subgradient für Beispiel (x i, y i ) :  Gradientenaufstieg: Wiederhole, für alle Beispiele mit 

27 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 27 Perzeptron-Algorithmus Lineares Modell:  Perzeptron-Trainingsalgorithmus: Solange noch Beispiele (x i, y i ) mit der Hypothese inkonsistent sind, iteriere über alle Beispiele  Wenn dann

28 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 28 Perzeptron-Algorithmus Perzeptron findet immer eine Trennebene, wenn eine existiert (Optimierungskriterium ist konkav). Existiert immer eine Trennebene?

29 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 29 Margin-Perzeptron Perzeptron-Klassifikation:  Perzeptron: für alle Beispiele muss gelten   = Beispiel liegt auf der richtigen Seite der Ebene. Margin-Perzeptron:   = Beispiel mindestens  von Trennebene entfernt

30 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 30 Margin-Perzeptron-Algorithmus Lineares Modell:  Perzeptron-Trainingsalgorithmus: Solange noch Beispiele (x i, y i ) mit der Hypothese inkonsistent sind, iteriere über alle Beispiele  Wenn dann

31 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 31 Margin-Maximierung Perzeptron: für alle Beispiele muss gelten Margin-Perzeptron:  Finde Ebene, die alle Beispiele mindestens  von Ebene entfernt.  Fester, voreingestellter Wert . Margin-Maximierung:  Finde Ebene, die alle Beispiele mindestens  von Ebene entfernt.  Für den größtmöglichen Wert 

32 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 32 Margin-Maximierung Margin-Maximierung:  Finde Ebene, die alle Beispiele mindestens  von Ebene entfernt.  Für den größtmöglichen Wert . Maximiere  unter der Nebenbedingungen: für alle Beispiele (x i, y i ) gelte = Minimiere |w| unter der Nebenbedingung:  für alle Beispiele (x i, y i ):

33 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 33 Soft-Margin-Maximierung Hard-Margin-Maximierung:  Minimiere |w| unter der Nebenbedingungen:  für alle Beispiele (x i, y i ): Soft-Margin-Maximierung:  Minimiere unter den Nebenbedingungen:  für alle Beispiele (x i, y i ):  Alle  i  0. Soft-Margin-Ebene existiert immer, Hard-Margin-Ebene nicht! Slack  i Margin 1/|w|

34 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 34 Soft-Margin-Maximierung Soft-Margin-Maximierung:  Minimiere unter den Nebenbedingungen:  für alle Beispiele (x i, y i ):  Alle  i  0. Einsetzen von  i in Optimierungskriterium ergibt  Minimiere: Margin 1/|w| Slack  i

35 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 35 Soft-Margin-Maximierung Soft-Margin-Maximierung:  Minimiere: Minimierung mit Gradientenverfahren. Annäherung durch differenzierbare Variante (Huber- statt Hinge-Loss), dann Newton-Verfahren. Kriterium ist konvex, es gibt genau ein Minimum. Primale Support Vector Machine Margin 1/|w| Slack  i

36 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 36 Soft-Margin-Maximierung Soft-Margin-Maximierung:  Minimiere: Minimierung mit Gradientenverfahren. Wiederhole:  Enthält Summe über alle Beispiele

37 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 37 Logistische Regression SVM: großer Entscheidungsfunktionswert ~ hohe Sicherheit der Vorhersage. Aber: beim lernen nicht auf korrekte Kalibrierung der Klassenwahrscheinlichkeiten optimiert. f(x)=18.3  Risiko eines Fehlers? Logistische Regression: Vorhersage der Klassenwahrscheinlichkeit.

38 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 38 Logistische Regression Bayes‘ Regel:  Log-odd ratio: 

39 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 39 Logistische Regression Likelihood jeder Klasse normalverteilt, gemeinsame Kovarianzmatrix für beide Klassen.  Logg-odds ratio:

40 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 40 Logistische Regression Likelihood jeder Klasse normalverteilt, gemeinsame Kovarianzmatrix für beide Klassen.  Logg-odds ratio:

41 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 41 Logistische Regression Wenn zwei klassen jeweils normalverteilte Likelihood mit derselben Kovarianzmatrix haben, dann nimmt P(y|x) diese Form an:  P(y|x)P(y|x) ywx+w 0

42 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 42 Logistische Regression Bisher: Motivation der Form des logistischen Klassifikationsmodells. Falls Klassenverteilungen bekannt wären, könnten wir w und w 0 aus  +1,  -1 und  herleiten. Sind aber nicht bekannt. Verteilungsannahme muss auch nicht stimmen. Jetzt: Wie finden wir tatsächlich Parameter w und w 0 ?

43 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 43 Logistische Regression Prior über Parameter:  Normalverteilung, w ~ N[0,  ‘]. Posterior:  Verlustfunktion: 

44 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 44 Logistische Regression Verlustfunktion ist konvex und differenzierbar. Gradientenabstieg führt zum Minimum. Verlustfunktionen Logistic Regression und SVM

45 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 45 Multiklassen-Klassifikation Binäre Klassifikation:   Lineare Klassifikation: Multiklassen-Klassifikation:   Endliche Menge von Klassen-Labels, Ansatz:  Statt jetzt 

46 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 46 Lernen mit strukturierten Ausgaben Klassifikation bei mehr als zwei Klassen:   f bekommt jetzt zwei Parameter. Gemeinsame Merkmale von Ein- und Ausgabe:  Gleicher Ansatz für Multiklassen, Sequenz- und Struktur-Lernen, Ranking.

47 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 47 Lernen mit strukturierten Ausgaben Constraints bei normaler SVM:  Für alle (x i, y i ): Constraints mit strukturierten Ausgaben:  Für alle (x i, y i ) : und alle y ≠ y i :

48 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 48 Lernen mit strukturierten Ausgaben Gegeben: Wiederhole bis alle Sequenzen korrekt vorhergesagt werden.  Iteriere über alle Beispiele (x i, y i ).  Bestimme  Wenn (Margin-Verletzung) dann füge Constraint dem Working Set hinzu.  Löse Optimierungsproblem für Eingabe x i, Ausgabe y i, und negative Pseudo-Beispiele y (working set). Liefere w zurück.

49 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 49 Multiklassen-SVM Klassifikation bei mehr als zwei Klassen:  Multiklassen-Merkmale: 

50 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 50 Multiklassen-SVM Jede Klasse hat privaten Abschnitt des Gewichtsvektors: 

51 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 51 Multiklassen-SVM Jede Klasse hat privaten Abschnitt des Gewichtsvektors:  Beispiel:

52 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 52 Klassifikation mit Taxonomien Klassen in Baumstruktur: 

53 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 53 Klassifikation mit Taxonomien Jeder Knoten hat einen privaten Abschnitt des Gewichtsvektors. Pfade teilen sich Abschnitte, wenn sie gemeinsame Knoten beinhalten. 

54 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 54 Sequentielle Ein-/Ausgaben Z.B. Wortarterkennung:  Eigennamenerkennung, Informationsextraktion:  Gemeinsame Repräsentation von Ein- und Ausgabe.  “Curiosity kills the cat.” y=y= x=x= → “Barbie meets Ken.” y=y= x=x= →

55 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 55 Label-label: Label-Beobachtung: Gemeinsamer Merkmalsvektor  (x,y)=∑ t (…,φ 123 (y t,y t+1 ),…,φ 234 (x t,y t ),...) T Gewichtsvektor w=(…,w 123,…,w 234,…) T y1y1 y3y3 y4y4 y2y2 x1x1 x3x3 x2x2 x4x4 φ 123 (y t,y t+1 ) = [[y t =“ Noun ” y t+1 =“ Verb ”]] φ 234 (x t,y t ) = [[y t =“ Noun ” x t = “ cat ”]] ∑ t φ i (y t,y t+1 ). ∑ t φ i (x t,y t ). Curiosity kills the cat Sequentielle Ein-/Ausgaben Attribut für jedes Paar benachbarter Labels y t und y t+1.  Attribut für jedes Paar aus Eingabe und Ausgabe. 

56 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 56 Sequentielle Ein-/Ausgaben: Dekodierung Um eine Sequenz zu klassifizieren, muss  berechnet werden. Das argmax geht über alle möglichen Sequenzen (exponentiell viele in der Länge). summiert über Merkmale benachbarter Label-Paare und Merkmale von x i -y i - Paaren. Mit dynamischer Programmierung kann argmax in linearer Zeit berechnet werden (Viterbi).

57 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 57 Gemeinsamer Merkmalsvektor  (x,y)=∑ t (…,φ 123 (y t,y t+1 ),…,φ 234 (x t,y t ),...) T Finde argmax y w T  (x,y) effizient mit Transitionsmatrix A={a ,  } und Beobachtungsmatrix B x ={b t,  (x)}, ,   {,N,V,D}: HM SVM benutzt 2-best Viterbi Dekodierung. y1y1 y3y3 y4y4 y2y2 x1x1 x3x3 x2x2 x4x4 φ 123 (y t,y t+1 ) = [[y t =“ Noun ” y t+1 =“ Verb ”]] φ 234 (x t,y t ) = [[y t =“ Noun ” x t = “ John ”]] N N N VV V D D D Curiosity kills the cat N V D a N,V a V,D a D,N a,N b 4,N (x) b 2,N (x) b 3,N (x) b 1,N (x) Sequentielle Ein-/Ausgaben: Dekodierung

58 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 58 Viterbi-Algorithmus Definition: =Score, der in w T  (x,y) erzeugt wird, wenn y t =  und y t+1 = . Definition: =Score, der in w T  (x,y) erzeugt wird, wenn y t =  und Wort x t erscheint. Gesucht: 

59 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 59 Viterbi-Algorithmus, Theorem Theorem: Beweis: Lineare Bestimmung des höchst-scorenden Pfades mit dynamischer Programmierung.

60 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 60 w T  (x, ) ≥ w T  (x, ) Beispiel: POS-Tagging (Wortarterkennung) Satz x=“Curiosity kills the cat” Gewünscht: Explizit: argmax y w T  ( x, y ) = …… ZU VIELE!!! Lernen mit strukturierten Ausgaben

61 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 61 Lernen mit strukturierten Ausgaben Hidden Markov Support Vector Machine. Large-Margin-Ansatz:  = 1/|w|.  Iteratives Training.  Negative Constraints werden hinzugefügt, wenn beim Training Fehler auftritt. s.d.  i  y  y i w T (  (x i,y i ) -  (x i,y) ) ≥ 1 min ½ |w| 2 + C∑ i ξ i - ξ i  i ξ i ≥ 0.

62 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie 62 Lernen mit strukturierten Ausgaben Gegeben: Wiederhole bis alle Sequenzen korrekt vorhergesagt werden.  Iteriere über alle Beispiele (x i, y i ).  Bestimme  Wenn (Margin-Verletzung) dann füge Constraint dem Working Set hinzu.  Löse Optimierungsproblem für Eingabe x i, Ausgabe y i, und negative Pseudo-Beispiele y (working set). Liefere w zurück.

63 Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/Prasse/Dick: Sprachtechnologie Fragen? 63


Herunterladen ppt "Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Textklassifikation und Informationsextraktion Tobias Scheffer Peter Haider Paul."

Ähnliche Präsentationen


Google-Anzeigen