Artikulatorische Synthese

Artikulatorische Synthese
TaDA

Zur Erinnerung: 50 Kontrollfragen zu Herrn Reichels Teil:

Exkurs: Artikulatorische Phonologie
Sogenannte „Gesten“, definiert über eine Menge an verwandten Traktvariablen (z.B. TT constriction location und TT constriction degree), sind die Basiseinheiten phonologischer Kontraste (Browman & Goldstein, 1992)

Gestenpartituren Grundannahme:
Zwei lexikalische Einheiten unterscheiden sich dann, wenn sie sich in ihrer gestischen Zusammensetzung (gestural composition) unterscheiden d.h. Wortforminformation ist in Form von ‚gestural compositions‘ gespeichert.

„add“ Nicht spezifiziert: geschlossen Nicht spezifiziert: offen
Nicht spezifiziert: richtige Einstellungen für Stimmhaftigkeit

„had“

„bad“

„pad“

„Dad“

„pan“

„span“ CD CD CD CL CL CD Constriction Degree: (unspezifiziert) wide
narrow crit(ical) clo(sure) CL CD

„bad“ (phonologische Gesten)
CD: wide CD: closure „Tasks“ CD: closure -Gesten überlappen einander -Artikulatoren können nicht unendlich schnell ihre Zielkonfiguration („Task“) erreichen, sondern sich nur graduell annähern und entfernen (=Schwingung wie bei Masse und Feder) -die Geschwindigkeit hierbei variiert (Vokalgesten sind langsamer als Konsonantgesten, Kröger, 1993) „Task Dynamics“

Relatives Timing von realisierten Gesten:
man weiß außerdem, dass das relative Timing von Gesten sich am Silbenanfang und –ende unterscheidet: Am Silbenanfang in Phase (synchronisiert), am Silbenende nicht; d.h. die Gesten des Silbenonsets und des –nucleus starten (in etwa) gleichzeitig, während die Silbennucleusgeste i.d.R. früher endet als die Gesten, die der Silbencoda zugeordnet werden können

Task Dynamics und Kopplungsrelationen führen zu phonetischen Gestenpartituren wie hier:
Geschwindigkeits- unterschied des Ein- und Ausschwingens Onset und Nucleus in Phase (Kopplung) Coda nicht in Phase mit Nucleus

Gesten phonologisch vs. phonetisch
Die Gesten im Lexikon sind diskret und kategorial (Kästchen in der Darstellung) In der phonetischen Realisierung können mindestens zwei Parameter variieren: Grad der Überlappung Grad der zeitlichen Ausdehnung Phonologische Prozesse wie jene in /haːbən//haːbn//haːbm/ usw. sind (zumindest oft) nicht kategorial (qualitative Variation), sondern manche Gesten sind nur durch große Überlappung verdeckt (quantitative Variation), also noch vorhanden, aber nicht wahrnehmbar

Task Dynamics Application (TaDA)
TaDA ist die Software-Implementierung zu den vorgenannten Theorien

(engl.) Orthographie („ten“) oder phon. string

Runengl. Orthographie eingeben

Im Lexikon nachschauen (pdict.txt-Ausschnitt):
neck (N-EH1_K) necked (N-EH1_K T) necker (N-EH1_)(K-ER0_) necklace (N-EH1_)(K L-AH0_S) necklaces (N-EH1_)(K L-AH0_)(S-IH0_Z) necklacing (N-EH1_)(K L-AH0_)(S-IH0_NX) In sog. ARPABET sind hier Phonemfolgen und Syllabifizierung gespeichert

Gestenlexikon Seg2gest.txt: Gestenplanung für „N“: Für “EH”
ARPA Organ Osc TV Constr N TT clo TTCL ALV N TT clo TTCD CLO N TT rel TTCL REL N TT rel TTCD REL N Velum n VEL WIDE Für “EH” EH TB v TBCL PAL EH TB v TBCD V … und für “K”: K TB clo TBCL VEL K TB clo TBCD CLO K TB rel TBCD REL K Glottis h GLO WIDE K Velum clo VEL CLO

-Aufteilung in Onset, Nucleus, Coda
TVneck.O: % Input string: <neck> % Word 1: neck % arpabet: (N-EH1_K) % syllable 1: N-EH1_K % % onset cluster = <N> % segment 1 [N]: 'TTCD' 'ons1_rel1' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' 'ons1_rel1' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' 'ons1_clo1' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'VEL' 'ons1_n1' NA=1 1 1 'TTCD' 'ons1_clo1' JA=32,CL=32,CA=32,TL=1,TA= % nucleus cluster = <EH1> % segment 1 [EH]: 'TBCL' 'v1' JA=10,CL=1,CA=1 1 1 'TBCD' 'v1' JA=1,CL=1,CA=1 1 1 % coda cluster = <K> % segment 1 [K]: 'TBCD' 'cod1_rel1' JA=10,CL=1,CA=1 1 1 'TBCD' 'cod1_clo1' JA=100,CL=1,CA= 'GLO' 'cod1_h1' GW=1 0 0 'TBCL' 'cod1_clo1' JA=10,CL=1,CA= 'VEL' 'cod1_clo1' NA=1 0 0 -Aufteilung in Onset, Nucleus, Coda -Aufteilung dieser Einheiten (die immer ‚cluster‘ genannt werden, auch wenn sie nur aus einem Element bestehen) in Phoneme -Spezifikation dieser Phoneme durch Positions- und Anzahl-spezifische artikulatorische Parameter

Gestural Control Regimes
Constriction Location in Grad: 0° LABIAL, 90° PALATAL, 180° PHARYNGAL Constriction Degree in mm: Abstand zur Artikulationsstelle; (bei „CLO“ (Verschluss) etwas überschießend, mit leicht negativen Werten)

Gestural Control Regimes (2)
Gewichtung bei Konflikt mit adjazenten Lauten, die den gleichen Artikulator betreffen

Gestural Control Regimes (3)
Gewichtung der Artikulatoren: Höhere Zahl  „schwererer“ Artikulator („Masse“)  weniger, langsamere Bewegung (bei gleicher „Feder“)

Kopplung (definiert in coupling.ph)
% onset coupling relationships ONS_OBS ONS_CNS % onset clusters: 90 degree phase ONS_CNS ONS_REL % REL is sequential with respect to constr. ONS_VOC ONS_NAR % VOC gesture of /r/,/l/ sychronous with primary NAR constr. ONS_CRT ONS_H % GLO gesture is synchronous with frics ONS_CLO ONS_H % and also with stops ONS_CLO ONS_N % VEL gesture synchronous wih oral constr. ONS_CNS* V % all CNS gestures synchronous with V ONS_H V % GLO synchronous with V, if not coupled to CNS Letzte Zahl definiert die Kopplung in Grad

% vocalic coupling relationships V_RND V %rounding synchronous with V tongue constr.

% coda coupling relationships COD_C COD_C % coda clusters: 45 degrees COD_CNS COD_REL % REL is sequential with respect to constr. COD_CRT COD_H % GLO gesture is synchronous with frics COD_CLO COD_H % and with stops COD_N COD_CNS % VEL gesture anti-phase to oral constr. V COD_C % first coda CNS anti-phase to V % COD_VOC COD_NAR % VOC gesture sequential to NAR constr.

/cross-syllable/ COD_C ONS_CNS % applies if boundary is C$C V ONS_CNS % applies if boundary is V$C COD_C V % applies if boundary is C$V V V % applies if boundary is V$V

/cross-word/ COD_REL ONS_CNS % applies if boundary is C#C V ONS_CNS % applies if boundary is V#C COD_C V % applies if boundary is C#V V V % applies if boundary is V#V

Generiere „tract variable articulator time function“
Gestenpartitur

PHneck.O: %'OSC_ID' NatFreq m,n escap amp_init phase_init / riseramp plateau fallramp 'v1' NaN/ 'ons1_clo1' NaN/ 'ons1_rel1' NaN/ 'cod1_clo1' NaN/ 'cod1_rel1' NaN/ 'cod1_h1' NaN/ 'ons1_n1' NaN/ /coupling/ %'OSC_ID1' 'OSC_ID2' strength1(to OSC1) strength2(to OSC2) TargetRelPhase 'ons1_clo1' 'ons1_rel1' 'ons1_clo1' 'ons1_n1' 1 1 0 'ons1_clo1' 'v1' 1 1 0 'cod1_clo1' 'cod1_rel1' 'cod1_clo1' 'cod1_h1' 'v1' 'cod1_clo1' Drei letzte Spalten: ‚interne Gestenuhr‘, mit Anstiegsphase der Geste, Haltephase (Plateau) sowie Abstiegsphase Letzte Spalte zeigt Kopplungsrelationen der Gesten untereinander in Grad

Tvneck.G: 10 0 #die Zeit wird in Frames angegeben, wobei 1 Frame = 10 ms 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA=

Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= Startframe Endframe (und damit Zeitangabe)

Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= Zur Erinnerung: Hintergrund ist ein Masse-Feder-Modell Target (in mm), Abstand zum Artikulationsort Dämpfung (kann bei hohen Werten zu ‚undershoot‘ führen, d.h. das Ziel wird nicht erreicht) Steifigkeit (je höher, desto schneller kann die Bewegung sein)

Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= „Schwere“ des Artikulators

Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= Gewichtung bei Konflikt (= wenn der gleiche Artikulator in eine adjazente Andere Geste involviert ist)

Berechnetes Ansatzrohr
zu einen Zeitpunkt t Gestenplanung Gestenrealisierung

über HLSyn = Querschnitts“flächen“ im Ansatzrohr (eigentlich nur 2D) Daraus können HLSyn-Parameter abgeleitet werden

Durch Trick (Schwa nach „neck“ (eigentlich nicht statthaft, da dadurch die Kopplungsrelationen beeinflusst werden)) Klingt eher wie /ənε/, weil die systeminterne Synthese vom Schwa (der Ausgangslage aller Artikulatoren) ausgeht und die Verschlusslösung abgeschnitten wurde (bug im gegenwärtigen System)

Auch in HLSyn muss aber von Hand nacheditiert werden, da immer noch der initiale Schwa da ist

Phonemreihenfolge umkehren: Ken statt neck

Ohne Schwa:

Zum direkten Vergleich nochmals „neck“

Vergleich „neck“ vs. „Ken“
Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= TVken.G 10 0 'TBCL' JA=10,CL=1,CA= 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'VEL' NA=1 0 0 'VEL' NA=1 1 1 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA=

Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= TVken.G 10 0 'TBCL' JA=10,CL=1,CA= 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'VEL' NA=1 0 0 'VEL' NA=1 1 1 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= Trivialerweise unterscheiden sich die timing-Verhältnisse

TVneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= TVken.G 10 0 'TBCL' JA=10,CL=1,CA= 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'VEL' NA=1 0 0 'VEL' NA=1 1 1 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= „verrutscht“ Anderes „Ziel“ Es ändern sich aber auch die Target-, Steifigkeits- und Dämpfungswerte, was auch, aber eben nicht nur, an den Timingunterschieden liegt

Manipulationen in TaDA
... können in den erwähnten Textdateien vorgenommen werden In der phonetischen Realisierung (.G-Dateien), z.B. die Änderung eines Konstriktionstargets Grundlegender: bereits im Gestenlexikon (muss sogar gemacht werden, wenn man nicht amerik. Englisch untersucht) Vielleicht am interessantesten: coupling.ph manipulieren (z.B. Lasse Bombiens Experiment zu /kl/ und /kn/ mit Kopplungsvariation  ab wann wird Verdeckung relevant)

Beispiel /kl/-/kn/-Experiment Bombien
Wie Onset-Cluster-Gesten meistens (und konform mit Theorie), überlappen /k/- und /l/-Gesten bei /kl/ stark; in /kn/ weniger Überlappung! /kn/ also ‚schlechteres‘ Cluster (auch oft von Lautwandel betroffen, z.B. im Englischen, „knight“, „knee“ etc.)? Mögliche Gründe hierfür testen durch Variation der Gestenüberlappung vom /kn/-Wert zum /kl/-Wert  hauptsächlich: wird /kn/ bei /kl/-ähnlicher Überlappung überhaupt noch als Cluster wahrgenommen, oder wegen des Konflikts des velaren Verschlusses und der Velumsöffnung, der eine Plosivbildung unmöglich macht, als singleton-Onset /n/?

TaDA ist... Theoriegetrieben (Articulatory Phonology, u.a. Browman & Goldstein, 1992, Task Dynamics, u.a. Saltzman & Kelso, 1976) Dadurch ist es auch abhängig von den Theorien, d.h. es können eigentlich nur Hypothesen, die sich aus diesen Theorien ableiten lassen, getestet werden

TaDA ist... Sprachabhängig: auch articulatory phonology trifft natürlich nur Aussagen über Einzelsprachen; die Gestenpartituren sind somit sprachabhängig zu modellieren Beispiel: VOT-timingunterschiede zwischen Englisch und Spanisch sind schon im Gesten-Lexikon bzw. im Coupling-Lexikon vorgegeben Bedarf an Gesten- und couplinglexika für jede zu untersuchende Sprache (im Moment nur amerik. Englisch und mex. Spanisch implementiert; Manfred Pastätter erarbeitet zur Zeit eine standarddeutsche Version)

TaDA ist... Eigentlich nur zweidimensional, d.h. es gibt ähnlich Probleme z.B. bei der Erzeugung von /z/ und /l/ wie bei HLSyn (gemeinsames Merkmal: kleine Konstriktion)

Alternative: VocalTractLab (VTL, von P. Birkholz)
Eher daten- statt theoriegetriebene artikulatorische Sprachsynthese Dient auch der Visualisierung der Mechanismen der Artikulation und deren Zusammenhang zur Akustik Erlaubt freie Beeinflussung auch der zeitlichen Kontrolle der Artikulatoren in einer Gestenpartitur

VTL „wirklich“ dreidimensional
22 Freiheitsgrade bzw. Kontrollparameter, die die Position und Form der Artikulatoren variierbar halten 3 verschiedene Modelle für die Stimmlippenschwingung (hat TaDA nicht) „klassisches“ Zwei-Massen-Modell von Ishizaka und Flanagan (1972), geometrisches Modell (Titze, 1989) Ein modifiziertes Zwei-Massen-Modell (Birkholz et al a, b)

VTL Vokaltrakt modelliert nach echten Daten (Computertomographie) austauschbar durch Daten anderer Sprecher Artikulatorenbewegung entweder fei wählbar, oder auf Grundlage der Artikulationen des Modellsprechers, oder durch Übernahme artikulatorischer Daten (z.B. EMA-Daten) eines anderen Sprechers Original Resynthese der gleichen Artikulatorenbewegungen im Ansatzrohr des Modellsprechers

Artikulatorische Synthese

Ähnliche Präsentationen

Präsentation zum Thema: "Artikulatorische Synthese"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Artikulatorische Synthese

Ähnliche Präsentationen

Präsentation zum Thema: "Artikulatorische Synthese"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback