Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün.

Ähnliche Präsentationen


Präsentation zum Thema: "HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün."—  Präsentation transkript:

1 HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün

2 Rückblick Systeme mit Trainingsdaten füttern Ergebnisse müssen kontrolliert werden –ggf. durch back propagation verbessern IL-Systeme (inductive learning) bilden Buchstaben(-folgen) auf Phoneme ab PbA (Pronunciation by Analogy, s. AB I) vergleicht Zeichenketten auf orthographische Ähnlichkeit und verwendet die durch vorheriges Alignment den Ketten zugewiesenen Lautfolgen. Die Verkettung der Lautfolgen ergibt die Transkription.

3 Rückblick Liefern gute Ergebnisse für sprachspezifische Wörter

4 Pronunciation by Latent Analogy Weiterentwicklung von PbA Kein vorheriges Alignment Alignment nur zwischen Transkriptionen ganzer Wörter Die Wörter sind auf Grund orthographischer Ähnlichkeit zum Eingabewort ausgewählt Metrik aus der Analysis (Latent Semantic Analysis) dient als Instrument –bestimmt charakteristische Buchstabenstrings der Wörter –stellt ein Mass der Eindeutigkeit bestimmter Buchstabenketten zur Bestimmung von Wörtern dar

5 Pronunciation by Latent Analogy Ergebnis ist Menge von orthographischen Ankern, für jedes In-Vocabulary (IV) -Wort ein Anker

6 Orthographische Nachbarn V sei Menge der IV-Wörter, |V| = M T sei Menge der Substrings mit Länge n, |T| = N '-' steht für Wortanfang und -ende, gilt als Buchstabe mit Länge 1 (N x M) Matrix W N Zeilen, i-te Zeile für i-ten Substring t i M Spalten, j-te Spalte für j-tes Word v j

7 Orthographische Nachbarn w ij sagt aus zu welchem Mass Substring t i aus T im Wort v i aus V vorkommt SWZ von W: W = USV T U links singuläre Matrix, Reihenvektor u i V rechts singuläre Matrix, Reihenvektor v j Typische Grössen: R = 50 – 100, N = 10000, M = – , n = 3 (N x M) W(N x R) U (R x R) S (R x M) V T

8 Beispiel Orthographische Nachbarn Vokabular: rough, though, through Substrings mit der Länge n = 3 bilden: -ro rou oug ugh gh- -th tho hou thr hro rough (10 x 3) W thoughthrough -ro rou oug ugh gh- -th tho thr hou hro

9 Beispiel Orthographische Nachbarn SWZ (engl.: Singular Value Decomposition) mit R = 2 WU SVTVT

10 Beispiel Orthographische Nachbarn OOV-Wort: thorough Berchnung Vektor -ro rou oug ugh gh- -th tho thr hou hro thorough (10 x 1)

11 Beispiel Orthographische Nachbarn SWZ von, so dass U und S gleich bleiben: U S

12 Beispiel Orthographische Nachbarn Abstände des OOV-Wortes zu allen IV-Wörtern mit Cosinusfunktion berechen: IV-Wörter umgekehrt in absteigender Entfernung sortieren IV-Wörter innerhalb eines vorher bestimmten Radius bilden orthographische Nachbarschaft zu Eingabewort

13 Beispiel Orthographische Nachbarn -0,6 -0,4 -0,2 0,0 0,2 0,0 0,2 0,4 0,6 0,8 1,0 oug ugh gh- -th tho hou rou thr hro -ro though thorough through rough

14 Alignment Alignment von kompletten Aussprachen aus der orthographischen Nachbarschaft Alignment startet mit jenem Phonemsequenz, welches am nächsten zu einem Substring mit Begrenzung für Wortanfang liegt. Substring mit Begrenzung für Wortanfang ist der nächstgelegene am OOV-Wort Im Beispiel: -th through

15 Alignment Modifizierter komplizierter Algorithmus aus Bioinformatik –Findet Gruppe von Proteinen innerhalb einer Proteinkette –Identifikation von Genen in der DNA Seien φ 1...φ k...φ K und ψ 1...ψ l...ψ L Phonemstrings A(k,l) sind minimalen Kosten vom Alignment zwischen φ 1...φ k und ψ 1...ψ l C(k,l) sind Kosten für das Austauschen der Phoneme φ k und ψ l

16 Alignment g(i,k) bzw. h(j,l) sind Kosten für Lücke φ i...φ k im ersten bzw. ψ j...ψ l im zweiten String Rekursionsformel: A(k,0) = h(0,k), 1kK, und A(0,l) = g(0,l), 1lL

17 Alignment Kosten für Austauschen gleicher Phoneme gleich 0 Vokal-Konsonant-Austausch wird durch unendliche Kosten verboten Konsonant-Konsonant- bzw. Vokal-Vokal- Austausch genauso teuer wie Austausch einer Lücke Phonem, das am häufigsten an einer Stelle auftaucht wird in die Transkription übernommen

18 Beispiel-Alignment Tru:through rVfrough DoUthough doUdough T3`dthird rOtwrought T3`roUthorough

19 Vergleich Um zu zeigen, wie gute Ergebnisse PbLA liefert, wird es mit einem Entscheidungsbaumsystem verglichen Entscheidungsbaum hat 2000 Knoten Trainingskorpus besteht aus überwiegend westeuropäische Namen Testvokabular: 500 Namen aus grossem Namenslexikon versch. ethnischer Gruppen Ergebnis: 23,3% Phonemfehlerrate, 80,2% Wortfehlerrate

20 Vergleich PbLA: M = und N = 8257 bei n = 3 SWZ auf (8257 x 56514) Matrix W mit R = 100 Schwelle wurde so gewählt, dass durchschnittlich 200 orthographische Nachbarn für OOV-Worte gefunden wurden Bessere Ergebnisse: 13,4% Phonemfehlerrate, 38,0% Wortfehlerrate

21 Vergleich PbLA liefert bessere Ergebnisse Erfordert (fast) keine linguistische Vorkenntnisse, ausser Wissen über Vokale und Konsonanten, s. Kostenfunktion Keine Beaufsichtigung, weil kein Training nötig

22 Fragen?

23 Ende!


Herunterladen ppt "HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün."

Ähnliche Präsentationen


Google-Anzeigen