Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Artikulatorische Synthese TaDA Zur Erinnerung: 50 Kontrollfragen zu Herrn Reichels Teil: muenchen.de/~reichelu/kurse/p6_2_synthese/synthese_fragen.pdf.

Ähnliche Präsentationen


Präsentation zum Thema: "Artikulatorische Synthese TaDA Zur Erinnerung: 50 Kontrollfragen zu Herrn Reichels Teil: muenchen.de/~reichelu/kurse/p6_2_synthese/synthese_fragen.pdf."—  Präsentation transkript:

1

2 Artikulatorische Synthese TaDA

3 Zur Erinnerung: 50 Kontrollfragen zu Herrn Reichels Teil: muenchen.de/~reichelu/kurse/p6_2_synthese/synthese_fragen.pdf

4 Exkurs: Artikulatorische Phonologie Sogenannte Gesten, definiert über eine Menge an verwandten Traktvariablen (z.B. TT constriction location und TT constriction degree), sind die Basiseinheiten phonologischer Kontraste (Browman & Goldstein, 1992)

5 Gestenpartituren Grundannahme: Zwei lexikalische Einheiten unterscheiden sich dann, wenn sie sich in ihrer gestischen Zusammensetzung (gestural composition) unterscheiden d.h. Wortforminformation ist in Form von gestural compositions gespeichert.

6 add Nicht spezifiziert: geschlossen Nicht spezifiziert: offen Nicht spezifiziert: richtige Einstellungen für Stimmhaftigkeit

7 had

8 bad

9 pad

10 Dad

11 pan

12 span CD CL CD CL CD CL CD Constriction Degree: (unspezifiziert) wide narrow crit(ical) clo(sure)

13 bad (phonologische Gesten) -Gesten überlappen einander -Artikulatoren können nicht unendlich schnell ihre Zielkonfiguration (Task) erreichen, sondern sich nur graduell annähern und entfernen (=Schwingung wie bei Masse und Feder) -die Geschwindigkeit hierbei variiert (Vokalgesten sind langsamer als Konsonantgesten, Kröger, 1993) Task Dynamics Tasks CD: wide CD: closure

14 Relatives Timing von realisierten Gesten: man weiß außerdem, dass das relative Timing von Gesten sich am Silbenanfang und –ende unterscheidet: Am Silbenanfang in Phase (synchronisiert), am Silbenende nicht; d.h. die Gesten des Silbenonsets und des –nucleus starten (in etwa) gleichzeitig, während die Silbennucleusgeste i.d.R. früher endet als die Gesten, die der Silbencoda zugeordnet werden können

15 Task Dynamics und Kopplungsrelationen führen zu phonetischen Gestenpartituren wie hier: Onset und Nucleus in Phase (Kopplung) Coda nicht in Phase mit Nucleus Geschwindigkeits- unterschied des Ein- und Ausschwingens

16 Gesten phonologisch vs. phonetisch Die Gesten im Lexikon sind diskret und kategorial (Kästchen in der Darstellung) In der phonetischen Realisierung können mindestens zwei Parameter variieren: – Grad der Überlappung – Grad der zeitlichen Ausdehnung Phonologische Prozesse wie jene in /haːbən/ /haːbn/ /haːbm/ usw. sind (zumindest oft) nicht kategorial (qualitative Variation), sondern manche Gesten sind nur durch große Überlappung verdeckt (quantitative Variation), also noch vorhanden, aber nicht wahrnehmbar

17 Task Dynamics Application (TaDA) TaDA ist die Software-Implementierung zu den vorgenannten Theorien

18 (engl.) Orthographie (ten) oder phon. string

19 Run engl. Orthographie eingeben

20 Im Lexikon nachschauen (pdict.txt-Ausschnitt): neck(N-EH1_K) necked(N-EH1_K T) necker(N-EH1_)(K-ER0_) necklace(N-EH1_)(K L-AH0_S) necklaces(N-EH1_)(K L-AH0_)(S-IH0_Z) necklacing(N-EH1_)(K L-AH0_)(S-IH0_NX) In sog. ARPABET sind hier Phonemfolgen und Syllabifizierung gespeichert

21 Gestenlexikon Seg2gest.txt: Gestenplanung für N: ARPAOrganOscTVConstr NTTcloTTCL ALV NTTcloTTCDCLO NTTrelTTCL REL NTTrelTTCDREL NVelumnVEL WIDE Für EH EHTBvTBCLPAL EHTBvTBCDV … und für K: KTBcloTBCL VEL KTBcloTBCDCLO KTBrelTBCDREL KGlottishGLOWIDE KVelumcloVELCLO

22 TVneck.O: % Input string: % Word 1:neck % arpabet:(N-EH1_K) % syllable 1:N-EH1_K % % onset cluster = % segment 1 [N]: 'TTCD' 'ons1_rel1' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' 'ons1_rel1' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' 'ons1_clo1' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'VEL' 'ons1_n1' NA=1 1 1 'TTCD' 'ons1_clo1' JA=32,CL=32,CA=32,TL=1,TA= % % nucleus cluster = % segment 1 [EH]: 'TBCL' 'v1' JA=10,CL=1,CA=1 1 1 'TBCD' 'v1' JA=1,CL=1,CA=1 1 1 % % coda cluster = % segment 1 [K]: 'TBCD' 'cod1_rel1' JA=10,CL=1,CA=1 1 1 'TBCD' 'cod1_clo1' JA=100,CL=1,CA= 'GLO' 'cod1_h1' GW=1 0 0 'TBCL' 'cod1_clo1' JA=10,CL=1,CA= 'VEL' 'cod1_clo1' NA= Aufteilung in Onset, Nucleus, Coda -Aufteilung dieser Einheiten (die immer cluster genannt werden, auch wenn sie nur aus einem Element bestehen) in Phoneme -Spezifikation dieser Phoneme durch Positions- und Anzahl-spezifische artikulatorische Parameter

23 Gestural Control Regimes Constriction Location in Grad: 0° LABIAL, 90° PALATAL, 180° PHARYNGAL Constriction Degree in mm: Abstand zur Artikulationsstelle; (bei CLO (Verschluss) etwas überschießend, mit leicht negativen Werten)

24 Gestural Control Regimes (2) Gewichtung bei Konflikt mit adjazenten Lauten, die den gleichen Artikulator betreffen

25 Gestural Control Regimes (3) Gewichtung der Artikulatoren: Höhere Zahl schwererer Artikulator (Masse) weniger, langsamere Bewegung (bei gleicher Feder)

26 Kopplung (definiert in coupling.ph) % onset coupling relationships ONS_OBS ONS_CNS1 1 90% onset clusters: 90 degree phase ONS_CNS ONS_REL1 1 65% REL is sequential with respect to constr. ONS_VOC ONS_NAR1 1 0% VOC gesture of /r/,/l/ sychronous with primary NAR constr. ONS_CRT ONS_H % GLO gesture is synchronous with frics ONS_CLO ONS_H1 1 20% and also with stops ONS_CLO ONS_N1 1 0% VEL gesture synchronous wih oral constr. ONS_CNS* V1 1 0% all CNS gestures synchronous with V ONS_H V1 1 0% GLO synchronous with V, if not coupled to CNS Letzte Zahl definiert die Kopplung in Grad

27 Kopplung (definiert in coupling.ph) % vocalic coupling relationships V_RNDV 1 1 0%rounding synchronous with V tongue constr.

28 Kopplung (definiert in coupling.ph) % coda coupling relationships COD_CCOD_C1 1 45% coda clusters: 45 degrees COD_CNSCOD_REL % REL is sequential with respect to constr. COD_CRTCOD_H1 1 20% GLO gesture is synchronous with frics COD_CLOCOD_H1 1 20% and with stops COD_NCOD_CNS1 1 45% VEL gesture anti-phase to oral constr. VCOD_C % first coda CNS anti-phase to V % COD_VOC COD_NAR % VOC gesture sequential to NAR constr.

29 Kopplung (definiert in coupling.ph) /cross-syllable/ COD_CONS_CNS1 1 45% applies if boundary is C$C VONS_CNS % applies if boundary is V$C COD_CV1 1 0% applies if boundary is C$V VV % applies if boundary is V$V

30 Kopplung (definiert in coupling.ph) /cross-word/ COD_RELONS_CNS 1 1 0% applies if boundary is C#C VONS_CNS % applies if boundary is V#C COD_CV1 1 0% applies if boundary is C#V VV % applies if boundary is V#V

31 Generiere tract variable articulator time function Gestenpartitur

32

33 PHneck.O: %'OSC_ID' NatFreq m,n escap amp_init phase_init / riseramp plateau fallramp 'v1' NaN/ 'ons1_clo1' NaN/ 'ons1_rel1' NaN/ 'cod1_clo1' NaN/ 'cod1_rel1' NaN/ 'cod1_h1' NaN/ 'ons1_n1' NaN/ /coupling/ %'OSC_ID1' 'OSC_ID2' strength1(to OSC1) strength2(to OSC2) TargetRelPhase 'ons1_clo1' 'ons1_rel1' 'ons1_clo1' 'ons1_n1' 'ons1_clo1' 'v1' 'cod1_clo1' 'cod1_rel1' 'cod1_clo1' 'cod1_h1' 'v1' 'cod1_clo1' Letzte Spalte zeigt Kopplungsrelationen der Gesten untereinander in Grad Drei letzte Spalten: interne Gestenuhr, mit Anstiegsphase der Geste, Haltephase (Plateau) sowie Abstiegsphase

34 Tvneck.G: 10 0 #die Zeit wird in Frames angegeben, wobei 1 Frame = 10 ms 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA=

35 Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= StartframeEndframe (und damit Zeitangabe)

36 Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= Target (in mm), Abstand zum Artikulationsort Steifigkeit (je höher, desto schneller kann die Bewegung sein) Dämpfung (kann bei hohen Werten zu undershoot führen, d.h. das Ziel wird nicht erreicht) Zur Erinnerung: Hintergrund ist ein Masse-Feder-Modell

37 Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= Schwere des Artikulators

38 Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= Gewichtung bei Konflikt (= wenn der gleiche Artikulator in eine adjazente Andere Geste involviert ist)

39 Gestenplanung Gestenrealisierung Berechnetes Ansatzrohr zu einen Zeitpunkt t

40 = Querschnittsflächen im Ansatzrohr (eigentlich nur 2D) Daraus können HLSyn-Parameter abgeleitet werden über HLSyn

41 Klingt eher wie /ənε/, weil die systeminterne Synthese vom Schwa (der Ausgangslage aller Artikulatoren) ausgeht und die Verschlusslösung abgeschnitten wurde (bug im gegenwärtigen System) Durch Trick (Schwa nach neck (eigentlich nicht statthaft, da dadurch die Kopplungsrelationen beeinflusst werden))

42 Auch in HLSyn muss aber von Hand nacheditiert werden, da immer noch der initiale Schwa da ist

43 Phonemreihenfolge umkehren: Ken statt neck

44 Ohne Schwa:

45 Zum direkten Vergleich nochmals neck

46 Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= TVken.G 10 0 'TBCL' JA=10,CL=1,CA= 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'VEL' NA=1 0 0 'VEL' NA=1 1 1 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= Vergleich neck vs. Ken

47 Tvneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= TVken.G 10 0 'TBCL' JA=10,CL=1,CA= 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'VEL' NA=1 0 0 'VEL' NA=1 1 1 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= Vergleich neck vs. Ken Trivialerweise unterscheiden sich die timing-Verhältnisse

48 TVneck.G: 10 0 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCL' JA=10,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'VEL' NA=1 1 1 'VEL' NA=1 0 0 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= TVken.G 10 0 'TBCL' JA=10,CL=1,CA= 'TBCL' JA=10,CL=1,CA=1 1 1 'TBCD' JA=10,CL=1,CA=1 1 1 'TBCD' JA=100,CL=1,CA= 'TBCD' JA=1,CL=1,CA=1 1 1 'VEL' NA=1 0 0 'VEL' NA=1 1 1 'GLO' GW=1 0 0 'TTCL' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCL' JA=32,CL=32,CA=32,TL=1,TA=1 1 1 'TTCD' JA=512,CL=512,CA=512,TL=1,TA=1 1 1 'TTCD' JA=32,CL=32,CA=32,TL=1,TA= Vergleich neck vs. Ken Es ändern sich aber auch die Target-, Steifigkeits- und Dämpfungswerte, was auch, aber eben nicht nur, an den Timingunterschieden liegt verrutscht Anderes Ziel

49 Manipulationen in TaDA... können in den erwähnten Textdateien vorgenommen werden – In der phonetischen Realisierung (.G-Dateien), z.B. die Änderung eines Konstriktionstargets – Grundlegender: bereits im Gestenlexikon (muss sogar gemacht werden, wenn man nicht amerik. Englisch untersucht) – Vielleicht am interessantesten: coupling.ph manipulieren (z.B. Lasse Bombiens Experiment zu /kl/ und /kn/ mit Kopplungsvariation ab wann wird Verdeckung relevant)

50 Beispiel /kl/-/kn/-Experiment Bombien Wie Onset-Cluster-Gesten meistens (und konform mit Theorie), überlappen /k/- und /l/-Gesten bei /kl/ stark; in /kn/ weniger Überlappung! /kn/ also schlechteres Cluster (auch oft von Lautwandel betroffen, z.B. im Englischen, knight, knee etc.)? Mögliche Gründe hierfür testen durch Variation der Gestenüberlappung vom /kn/-Wert zum /kl/-Wert hauptsächlich: wird /kn/ bei /kl/-ähnlicher Überlappung überhaupt noch als Cluster wahrgenommen, oder wegen des Konflikts des velaren Verschlusses und der Velumsöffnung, der eine Plosivbildung unmöglich macht, als singleton-Onset /n/?

51 TaDA ist... Theoriegetrieben (Articulatory Phonology, u.a. Browman & Goldstein, 1992, Task Dynamics, u.a. Saltzman & Kelso, 1976) Dadurch ist es auch abhängig von den Theorien, d.h. es können eigentlich nur Hypothesen, die sich aus diesen Theorien ableiten lassen, getestet werden

52 TaDA ist... Sprachabhängig: auch articulatory phonology trifft natürlich nur Aussagen über Einzelsprachen; die Gestenpartituren sind somit sprachabhängig zu modellieren Beispiel: VOT-timingunterschiede zwischen Englisch und Spanisch sind schon im Gesten-Lexikon bzw. im Coupling-Lexikon vorgegeben Bedarf an Gesten- und couplinglexika für jede zu untersuchende Sprache (im Moment nur amerik. Englisch und mex. Spanisch implementiert; Manfred Pastätter erarbeitet zur Zeit eine standarddeutsche Version)

53 TaDA ist... Eigentlich nur zweidimensional, d.h. es gibt ähnlich Probleme z.B. bei der Erzeugung von /z/ und /l/ wie bei HLSyn (gemeinsames Merkmal: kleine Konstriktion)

54 Alternative: VocalTractLab (VTL, von P. Birkholz) Eher daten- statt theoriegetriebene artikulatorische Sprachsynthese Dient auch der Visualisierung der Mechanismen der Artikulation und deren Zusammenhang zur Akustik Erlaubt freie Beeinflussung auch der zeitlichen Kontrolle der Artikulatoren in einer Gestenpartitur

55 VTL wirklich dreidimensional 22 Freiheitsgrade bzw. Kontrollparameter, die die Position und Form der Artikulatoren variierbar halten 3 verschiedene Modelle für die Stimmlippenschwingung (hat TaDA nicht) – klassisches Zwei-Massen-Modell von Ishizaka und Flanagan (1972), – geometrisches Modell (Titze, 1989) – Ein modifiziertes Zwei-Massen-Modell (Birkholz et al a, b)

56 VTL – Vokaltrakt modelliert nach echten Daten (Computertomographie) austauschbar durch Daten anderer Sprecher – Artikulatorenbewegung entweder fei wählbar, oder auf Grundlage der Artikulationen des Modellsprechers, oder durch Übernahme artikulatorischer Daten (z.B. EMA-Daten) eines anderen Sprechers Original Resynthese der gleichen Artikulatorenbewegungen im Ansatzrohr des Modellsprechers


Herunterladen ppt "Artikulatorische Synthese TaDA Zur Erinnerung: 50 Kontrollfragen zu Herrn Reichels Teil: muenchen.de/~reichelu/kurse/p6_2_synthese/synthese_fragen.pdf."

Ähnliche Präsentationen


Google-Anzeigen