HS Transkription in Sprachsynthese und - erkennung

HS Transkription in Sprachsynthese und - erkennung
Analogiebildung II Yavuz Tüzün

Rückblick Systeme mit Trainingsdaten füttern
Ergebnisse müssen kontrolliert werden ggf. durch back propagation verbessern IL-Systeme (inductive learning) bilden Buchstaben(-folgen) auf Phoneme ab PbA (Pronunciation by Analogy, s. AB I) vergleicht Zeichenketten auf orthographische Ähnlichkeit und verwendet die durch vorheriges Alignment den Ketten zugewiesenen Lautfolgen. Die Verkettung der Lautfolgen ergibt die Transkription.

Rückblick Liefern gute Ergebnisse für sprachspezifische Wörter

Pronunciation by Latent Analogy
Weiterentwicklung von PbA Kein vorheriges Alignment Alignment nur zwischen Transkriptionen ganzer Wörter Die Wörter sind auf Grund orthographischer Ähnlichkeit zum Eingabewort ausgewählt Metrik aus der Analysis (Latent Semantic Analysis) dient als Instrument bestimmt charakteristische Buchstabenstrings der Wörter stellt ein Mass der Eindeutigkeit bestimmter Buchstabenketten zur Bestimmung von Wörtern dar

Pronunciation by Latent Analogy
Ergebnis ist Menge von orthographischen Ankern, für jedes „In-Vocabulary“ (IV) -Wort ein Anker

Orthographische Nachbarn
V sei Menge der IV-Wörter, |V| = M T sei Menge der Substrings mit Länge n, |T| = N '-' steht für Wortanfang und -ende, gilt als Buchstabe mit Länge 1 M Spalten, j-te Spalte für j-tes Word vj N Zeilen, i-te Zeile für i-ten Substring ti (N x M) Matrix W

Orthographische Nachbarn
wij sagt aus zu welchem Mass Substring ti aus T im Wort vi aus V vorkommt SWZ von W: W = USVT U links singuläre Matrix, Reihenvektor ui V rechts singuläre Matrix, Reihenvektor vj Typische Grössen: R = 50 – 100, N = 10000, M = – , n = 3 (N x M) W (N x R) U (R x R) S (R x M) VT

Beispiel Orthographische Nachbarn
Vokabular: „rough“, „though“, „through“ Substrings mit der Länge n = 3 bilden: -ro rou oug ugh gh- -th tho hou thr hro rough though through -ro 1 rou 1 1 oug 1 1 1 ugh 1 1 1 (10 x 3) W gh- 1 1 1 -th 1 1 tho 1 1 hou 1 thr 1 hro 1

SWZ (engl.: Singular Value Decomposition) mit R = 2 3 2 3 W U S VT 2 10 10

OOV-Wort: „thorough“ Berchnung Vektor thorough -ro rou 1 oug 1 ugh 1 (10 x 1) gh- 1 -th 1 tho 1 hou thr hro

SWZ von , so dass U und S gleich bleiben: 1 2 1 U S 2 10 10

Abstände des OOV-Wortes zu allen IV-Wörtern mit Cosinusfunktion berechen: IV-Wörter umgekehrt in absteigender Entfernung sortieren IV-Wörter innerhalb eines vorher bestimmten Radius bilden orthographische Nachbarschaft zu Eingabewort

-0, , , , ,2 tho though hou oug ugh gh- thorough -th rou thr hro -ro through rough 0, , , , , ,0

Alignment Alignment von kompletten Aussprachen aus der orthographischen Nachbarschaft Alignment startet mit jenem Phonemsequenz, welches am nächsten zu einem Substring mit Begrenzung für Wortanfang liegt. Substring mit Begrenzung für Wortanfang ist der nächstgelegene am OOV-Wort Im Beispiel: -th  through

Alignment Modifizierter komplizierter Algorithmus aus Bioinformatik
Findet Gruppe von Proteinen innerhalb einer Proteinkette Identifikation von Genen in der DNA Seien φ1...φk...φK und ψ1...ψl...ψL Phonemstrings A(k,l) sind minimalen Kosten vom Alignment zwischen φ1...φk und ψ1...ψl C(k,l) sind Kosten für das Austauschen der Phoneme φk und ψl

Alignment g(i,k) bzw. h(j,l) sind Kosten für Lücke φi...φk im ersten bzw. ψj...ψl im zweiten String Rekursionsformel: A(k,0) = h(0,k), 1≤k≤K, und A(0,l) = g(0,l), 1≤l≤L

Alignment Kosten für Austauschen gleicher Phoneme gleich 0
Vokal-Konsonant-Austausch wird durch unendliche Kosten verboten Konsonant-Konsonant- bzw. Vokal-Vokal-Austausch genauso teuer wie Austausch einer Lücke Phonem, das am häufigsten an einer Stelle auftaucht wird in die Transkription übernommen

Beispiel-Alignment T r u: through V f rough D oU though d dough 3`
third O t wrought thorough

Vergleich Um zu zeigen, wie gute Ergebnisse PbLA liefert, wird es mit einem Entscheidungsbaumsystem verglichen Entscheidungsbaum hat 2000 Knoten Trainingskorpus besteht aus überwiegend westeuropäische Namen Testvokabular: 500 Namen aus grossem Namenslexikon versch. ethnischer Gruppen Ergebnis: 23,3% Phonemfehlerrate, 80,2% Wortfehlerrate

Vergleich PbLA: M = 56514 und N = 8257 bei n = 3
SWZ auf (8257 x 56514) Matrix W mit R = 100 Schwelle wurde so gewählt, dass durchschnittlich 200 orthographische Nachbarn für OOV-Worte gefunden wurden Bessere Ergebnisse: 13,4% Phonemfehlerrate, 38,0% Wortfehlerrate

Vergleich PbLA liefert bessere Ergebnisse
Erfordert (fast) keine linguistische Vorkenntnisse, ausser Wissen über Vokale und Konsonanten, s. Kostenfunktion Keine Beaufsichtigung, weil kein Training nötig

Fragen?

HS Transkription in Sprachsynthese und - erkennung

Ähnliche Präsentationen

Präsentation zum Thema: "HS Transkription in Sprachsynthese und - erkennung"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

HS Transkription in Sprachsynthese und - erkennung

Ähnliche Präsentationen

Präsentation zum Thema: "HS Transkription in Sprachsynthese und - erkennung"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback