Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Artikulatorische Synthese

Ähnliche Präsentationen


Präsentation zum Thema: "Artikulatorische Synthese"—  Präsentation transkript:

1 Artikulatorische Synthese
TaDA

2 Zur Erinnerung: 50 Kontrollfragen zu Herrn Reichels Teil:

3 Exkurs: Artikulatorische Phonologie
Sogenannte „Gesten“, definiert über eine Menge an verwandten Traktvariablen (z.B. TT constriction location und TT constriction degree), sind die Basiseinheiten phonologischer Kontraste (Browman & Goldstein, 1992)

4 Gestenpartituren Grundannahme:
Zwei lexikalische Einheiten unterscheiden sich dann, wenn sie sich in ihrer gestischen Zusammensetzung (gestural composition) unterscheiden d.h. Wortforminformation ist in Form von ‚gestural compositions‘ gespeichert.

5 „add“ Nicht spezifiziert: geschlossen Nicht spezifiziert: offen
Nicht spezifiziert: richtige Einstellungen für Stimmhaftigkeit

6 „had“

7 „bad“

8 „pad“

9 „Dad“

10 „pan“

11 „span“ CD CD CD CL CL CD Constriction Degree: (unspezifiziert) wide
narrow crit(ical) clo(sure) CL CD

12 „bad“ (phonologische Gesten)
CD: wide CD: closure „Tasks“ CD: closure -Gesten überlappen einander -Artikulatoren können nicht unendlich schnell ihre Zielkonfiguration („Task“) erreichen, sondern sich nur graduell annähern und entfernen (=Schwingung wie bei Masse und Feder) -die Geschwindigkeit hierbei variiert (Vokalgesten sind langsamer als Konsonantgesten, Kröger, 1993) „Task Dynamics“

13 Relatives Timing von realisierten Gesten:
man weiß außerdem, dass das relative Timing von Gesten sich am Silbenanfang und –ende unterscheidet: Am Silbenanfang in Phase (synchronisiert), am Silbenende nicht; d.h. die Gesten des Silbenonsets und des –nucleus starten (in etwa) gleichzeitig, während die Silbennucleusgeste i.d.R. früher endet als die Gesten, die der Silbencoda zugeordnet werden können

14 Task Dynamics und Kopplungsrelationen führen zu phonetischen Gestenpartituren wie hier:
Geschwindigkeits- unterschied des Ein- und Ausschwingens Onset und Nucleus in Phase (Kopplung) Coda nicht in Phase mit Nucleus

15 Gesten phonologisch vs. phonetisch
Die Gesten im Lexikon sind diskret und kategorial (Kästchen in der Darstellung) In der phonetischen Realisierung können mindestens zwei Parameter variieren: Grad der Überlappung Grad der zeitlichen Ausdehnung Phonologische Prozesse wie jene in /haːbən//haːbn//haːbm/ usw. sind (zumindest oft) nicht kategorial (qualitative Variation), sondern manche Gesten sind nur durch große Überlappung verdeckt (quantitative Variation), also noch vorhanden, aber nicht wahrnehmbar

16 Task Dynamics Application (TaDA)
TaDA ist die Software-Implementierung zu den vorgenannten Theorien

17 (engl.) Orthographie („ten“) oder phon. string

18 Runengl. Orthographie eingeben

19 Im Lexikon nachschauen (pdict.txt-Ausschnitt):
neck (N-EH1_K) necked (N-EH1_K T) necker (N-EH1_)(K-ER0_) necklace (N-EH1_)(K L-AH0_S) necklaces (N-EH1_)(K L-AH0_)(S-IH0_Z) necklacing (N-EH1_)(K L-AH0_)(S-IH0_NX) In sog. ARPABET sind hier Phonemfolgen und Syllabifizierung gespeichert

20 Gestenlexikon Seg2gest.txt: Gestenplanung für „N“: Für “EH”
ARPA Organ Osc TV Constr N TT clo TTCL ALV N TT clo TTCD CLO N TT rel TTCL REL N TT rel TTCD REL N Velum n VEL WIDE Für “EH” EH TB v TBCL PAL EH TB v TBCD V … und für “K”: K TB clo TBCL VEL K TB clo TBCD CLO K TB rel TBCD REL K Glottis h GLO WIDE K Velum clo VEL CLO

21 -Aufteilung in Onset, Nucleus, Coda
TVneck.O: % Input string: <neck> % Word 1: neck % arpabet: (N-EH1_K) % syllable 1: N-EH1_K % % onset cluster = <N> % segment 1 [N]: 'TTCD' 'ons1_rel1' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' 'ons1_rel1' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' 'ons1_clo1' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'VEL' 'ons1_n1' NA=1 1 1 'TTCD' 'ons1_clo1' JA=32,CL=32,CA=32,TL=1,TA= % nucleus cluster = <EH1> % segment 1 [EH]: 'TBCL' 'v1' JA=10,CL=1,CA=1 1 1 'TBCD' 'v1' JA=1,CL=1,CA=1 1 1 % coda cluster = <K> % segment 1 [K]: 'TBCD' 'cod1_rel1' JA=10,CL=1,CA=1 1 1 'TBCD' 'cod1_clo1' JA=100,CL=1,CA= 'GLO' 'cod1_h1' GW=1 0 0 'TBCL' 'cod1_clo1' JA=10,CL=1,CA= 'VEL' 'cod1_clo1' NA=1 0 0 -Aufteilung in Onset, Nucleus, Coda -Aufteilung dieser Einheiten (die immer ‚cluster‘ genannt werden, auch wenn sie nur aus einem Element bestehen) in Phoneme -Spezifikation dieser Phoneme durch Positions- und Anzahl-spezifische artikulatorische Parameter

22 Gestural Control Regimes
Constriction Location in Grad: 0° LABIAL, 90° PALATAL, 180° PHARYNGAL Constriction Degree in mm: Abstand zur Artikulationsstelle; (bei „CLO“ (Verschluss) etwas überschießend, mit leicht negativen Werten)

23 Gestural Control Regimes (2)
Gewichtung bei Konflikt mit adjazenten Lauten, die den gleichen Artikulator betreffen

24 Gestural Control Regimes (3)
Gewichtung der Artikulatoren: Höhere Zahl  „schwererer“ Artikulator („Masse“)  weniger, langsamere Bewegung (bei gleicher „Feder“)

25 Kopplung (definiert in coupling.ph)
% onset coupling relationships ONS_OBS ONS_CNS % onset clusters: 90 degree phase ONS_CNS ONS_REL % REL is sequential with respect to constr. ONS_VOC ONS_NAR % VOC gesture of /r/,/l/ sychronous with primary NAR constr. ONS_CRT ONS_H % GLO gesture is synchronous with frics ONS_CLO ONS_H % and also with stops ONS_CLO ONS_N % VEL gesture synchronous wih oral constr. ONS_CNS* V % all CNS gestures synchronous with V ONS_H V % GLO synchronous with V, if not coupled to CNS Letzte Zahl definiert die Kopplung in Grad

26 Kopplung (definiert in coupling.ph)
% vocalic coupling relationships V_RND V %rounding synchronous with V tongue constr.

27 Kopplung (definiert in coupling.ph)
% coda coupling relationships COD_C COD_C % coda clusters: 45 degrees COD_CNS COD_REL % REL is sequential with respect to constr. COD_CRT COD_H % GLO gesture is synchronous with frics COD_CLO COD_H % and with stops COD_N COD_CNS % VEL gesture anti-phase to oral constr. V COD_C % first coda CNS anti-phase to V % COD_VOC COD_NAR % VOC gesture sequential to NAR constr.

28 Kopplung (definiert in coupling.ph)
/cross-syllable/ COD_C ONS_CNS % applies if boundary is C$C V ONS_CNS % applies if boundary is V$C COD_C V % applies if boundary is C$V V V % applies if boundary is V$V

29 Kopplung (definiert in coupling.ph)
/cross-word/ COD_REL ONS_CNS % applies if boundary is C#C V ONS_CNS % applies if boundary is V#C COD_C V % applies if boundary is C#V V V % applies if boundary is V#V

30 Generiere „tract variable articulator time function“
Gestenpartitur

31

32 PHneck.O: %'OSC_ID' NatFreq m,n escap amp_init phase_init / riseramp plateau fallramp 'v1' NaN/ 'ons1_clo1' NaN/ 'ons1_rel1' NaN/ 'cod1_clo1' NaN/ 'cod1_rel1' NaN/ 'cod1_h1' NaN/ 'ons1_n1' NaN/ /coupling/ %'OSC_ID1' 'OSC_ID2' strength1(to OSC1) strength2(to OSC2) TargetRelPhase 'ons1_clo1' 'ons1_rel1' 'ons1_clo1' 'ons1_n1' 1 1 0 'ons1_clo1' 'v1' 1 1 0 'cod1_clo1' 'cod1_rel1' 'cod1_clo1' 'cod1_h1' 'v1' 'cod1_clo1' Drei letzte Spalten: ‚interne Gestenuhr‘, mit Anstiegsphase der Geste, Haltephase (Plateau) sowie Abstiegsphase Letzte Spalte zeigt Kopplungsrelationen der Gesten untereinander in Grad

33 Tvneck.G: 10 0 #die Zeit wird in Frames angegeben, wobei 1 Frame = 10 ms 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA=

34 Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= Startframe Endframe (und damit Zeitangabe)

35 Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= Zur Erinnerung: Hintergrund ist ein Masse-Feder-Modell Target (in mm), Abstand zum Artikulationsort Dämpfung (kann bei hohen Werten zu ‚undershoot‘ führen, d.h. das Ziel wird nicht erreicht) Steifigkeit (je höher, desto schneller kann die Bewegung sein)

36 Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= „Schwere“ des Artikulators

37 Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= Gewichtung bei Konflikt (= wenn der gleiche Artikulator in eine adjazente Andere Geste involviert ist)

38 Berechnetes Ansatzrohr
zu einen Zeitpunkt t Gestenplanung Gestenrealisierung

39 über HLSyn = Querschnitts“flächen“ im Ansatzrohr (eigentlich nur 2D) Daraus können HLSyn-Parameter abgeleitet werden

40 Durch Trick (Schwa nach „neck“ (eigentlich nicht statthaft, da dadurch die Kopplungsrelationen beeinflusst werden)) Klingt eher wie /ənε/, weil die systeminterne Synthese vom Schwa (der Ausgangslage aller Artikulatoren) ausgeht und die Verschlusslösung abgeschnitten wurde (bug im gegenwärtigen System)

41 Auch in HLSyn muss aber von Hand nacheditiert werden, da immer noch der initiale Schwa da ist

42 Phonemreihenfolge umkehren: Ken statt neck

43 Ohne Schwa:

44 Zum direkten Vergleich nochmals „neck“

45 Vergleich „neck“ vs. „Ken“
Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= TVken.G 10 0 'TBCL' JA=10,CL=1,CA= 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'VEL' NA=1 0 0 'VEL' NA=1 1 1 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA=

46 Vergleich „neck“ vs. „Ken“
Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= TVken.G 10 0 'TBCL' JA=10,CL=1,CA= 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'VEL' NA=1 0 0 'VEL' NA=1 1 1 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= Trivialerweise unterscheiden sich die timing-Verhältnisse

47 Vergleich „neck“ vs. „Ken“
TVneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= TVken.G 10 0 'TBCL' JA=10,CL=1,CA= 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'VEL' NA=1 0 0 'VEL' NA=1 1 1 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= „verrutscht“ Anderes „Ziel“ Es ändern sich aber auch die Target-, Steifigkeits- und Dämpfungswerte, was auch, aber eben nicht nur, an den Timingunterschieden liegt

48 Manipulationen in TaDA
... können in den erwähnten Textdateien vorgenommen werden In der phonetischen Realisierung (.G-Dateien), z.B. die Änderung eines Konstriktionstargets Grundlegender: bereits im Gestenlexikon (muss sogar gemacht werden, wenn man nicht amerik. Englisch untersucht) Vielleicht am interessantesten: coupling.ph manipulieren (z.B. Lasse Bombiens Experiment zu /kl/ und /kn/ mit Kopplungsvariation  ab wann wird Verdeckung relevant)

49 Beispiel /kl/-/kn/-Experiment Bombien
Wie Onset-Cluster-Gesten meistens (und konform mit Theorie), überlappen /k/- und /l/-Gesten bei /kl/ stark; in /kn/ weniger Überlappung! /kn/ also ‚schlechteres‘ Cluster (auch oft von Lautwandel betroffen, z.B. im Englischen, „knight“, „knee“ etc.)? Mögliche Gründe hierfür testen durch Variation der Gestenüberlappung vom /kn/-Wert zum /kl/-Wert  hauptsächlich: wird /kn/ bei /kl/-ähnlicher Überlappung überhaupt noch als Cluster wahrgenommen, oder wegen des Konflikts des velaren Verschlusses und der Velumsöffnung, der eine Plosivbildung unmöglich macht, als singleton-Onset /n/?

50 TaDA ist... Theoriegetrieben (Articulatory Phonology, u.a. Browman & Goldstein, 1992, Task Dynamics, u.a. Saltzman & Kelso, 1976) Dadurch ist es auch abhängig von den Theorien, d.h. es können eigentlich nur Hypothesen, die sich aus diesen Theorien ableiten lassen, getestet werden

51 TaDA ist... Sprachabhängig: auch articulatory phonology trifft natürlich nur Aussagen über Einzelsprachen; die Gestenpartituren sind somit sprachabhängig zu modellieren Beispiel: VOT-timingunterschiede zwischen Englisch und Spanisch sind schon im Gesten-Lexikon bzw. im Coupling-Lexikon vorgegeben Bedarf an Gesten- und couplinglexika für jede zu untersuchende Sprache (im Moment nur amerik. Englisch und mex. Spanisch implementiert; Manfred Pastätter erarbeitet zur Zeit eine standarddeutsche Version)

52 TaDA ist... Eigentlich nur zweidimensional, d.h. es gibt ähnlich Probleme z.B. bei der Erzeugung von /z/ und /l/ wie bei HLSyn (gemeinsames Merkmal: kleine Konstriktion)

53 Alternative: VocalTractLab (VTL, von P. Birkholz)
Eher daten- statt theoriegetriebene artikulatorische Sprachsynthese Dient auch der Visualisierung der Mechanismen der Artikulation und deren Zusammenhang zur Akustik Erlaubt freie Beeinflussung auch der zeitlichen Kontrolle der Artikulatoren in einer Gestenpartitur

54 VTL „wirklich“ dreidimensional
22 Freiheitsgrade bzw. Kontrollparameter, die die Position und Form der Artikulatoren variierbar halten 3 verschiedene Modelle für die Stimmlippenschwingung (hat TaDA nicht) „klassisches“ Zwei-Massen-Modell von Ishizaka und Flanagan (1972), geometrisches Modell (Titze, 1989) Ein modifiziertes Zwei-Massen-Modell (Birkholz et al a, b)

55 VTL Vokaltrakt modelliert nach echten Daten (Computertomographie) austauschbar durch Daten anderer Sprecher Artikulatorenbewegung entweder fei wählbar, oder auf Grundlage der Artikulationen des Modellsprechers, oder durch Übernahme artikulatorischer Daten (z.B. EMA-Daten) eines anderen Sprechers Original Resynthese der gleichen Artikulatorenbewegungen im Ansatzrohr des Modellsprechers


Herunterladen ppt "Artikulatorische Synthese"

Ähnliche Präsentationen


Google-Anzeigen