Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Aligning pitch targets in speech synthesis: effects of syllable structure T. Rietveld and C. Gussenhoven Präsentiert von Anja Moos.

Ähnliche Präsentationen


Präsentation zum Thema: "Aligning pitch targets in speech synthesis: effects of syllable structure T. Rietveld and C. Gussenhoven Präsentiert von Anja Moos."—  Präsentation transkript:

1 Aligning pitch targets in speech synthesis: effects of syllable structure T. Rietveld and C. Gussenhoven Präsentiert von Anja Moos

2 Hypothese: Die perzeptive Diskriminierung eines frühen bzw. späten Falls in einer flat hat Kontur im Niederländischen wird von der Silbenstruktur beeinflusst. Die perzeptive Diskriminierung eines frühen bzw. späten Falls in einer flat hat Kontur im Niederländischen wird von der Silbenstruktur beeinflusst. (vergleiche Figure 1) Mögliche Faktoren: Silbenlänge, folgende unakzentuierte Silben, Onsetdauer, Stimmhaftigkeit in Onset und Coda Mögliche Faktoren: Silbenlänge, folgende unakzentuierte Silben, Onsetdauer, Stimmhaftigkeit in Onset und Coda

3 Daten zum Experiment: Synthetischer Leitsatz: Maar ARNhem ligt in X-land Synthetischer Leitsatz: Maar ARNhem ligt in X-land In X-land variiert Onset (vergleiche Table I) und Coda (/m/ vs. /p/), Vokal immer /o:/ In X-land variiert Onset (vergleiche Table I) und Coda (/m/ vs. /p/), Vokal immer /o:/ P-center (=perceptual center) je nach Silbenstruktur errechnet P-center (=perceptual center) je nach Silbenstruktur errechnet

4 Intonationskontur der 12 Sätze: 100 ms langer Anstieg in ARN, 100 ms langer Fall in X Intonationskontur der 12 Sätze: 100 ms langer Anstieg in ARN, 100 ms langer Fall in X Der Zeitpunkt des Falls wurde 10 x um 20 ms verschoben: 1.x endet er 10 ms vor dem Vokalbeginn, 10.x 35 ms nach Vokalende (vergleiche Figure 2) Der Zeitpunkt des Falls wurde 10 x um 20 ms verschoben: 1.x endet er 10 ms vor dem Vokalbeginn, 10.x 35 ms nach Vokalende (vergleiche Figure 2) 120 Stimuli Perzeptiv wurde die erste Version als downstepped erkannt, letztere als non- downstepped Perzeptiv wurde die erste Version als downstepped erkannt, letztere als non- downstepped

5 Experimentsdurchführung: 27 Teilnehmer 27 Teilnehmer Aufnahmen randomisiert Aufnahmen randomisiert Vorherige Einweisung und Übung an Hand von 10 Minimalpaaren (was die Kontur betrifft) Vorherige Einweisung und Übung an Hand von 10 Minimalpaaren (was die Kontur betrifft) Alle 20 Stimuli wurden erneut zwei Minimalpaare eingespielt Alle 20 Stimuli wurden erneut zwei Minimalpaare eingespielt

6 Ergebnisse: PSE (="Point of Subjective Equality") = Durchschnittswert der Beurteilungen der Pbn, ob downstep vorliegt oder nicht PSE (="Point of Subjective Equality") = Durchschnittswert der Beurteilungen der Pbn, ob downstep vorliegt oder nicht Mit einer Ausnahme ist der PSE der stimmlosen Coda immer früher (Fig. 3) Mit einer Ausnahme ist der PSE der stimmlosen Coda immer früher (Fig. 3) Um PSE vorhersagen zu können, wurden mit den Kategorien +/- stimmhafte Coda, Onsetdauer, Stimmhaftigkeitsdauer im Onset und P-Center multiple Regressionsanalysen durchgeführt Um PSE vorhersagen zu können, wurden mit den Kategorien +/- stimmhafte Coda, Onsetdauer, Stimmhaftigkeitsdauer im Onset und P-Center multiple Regressionsanalysen durchgeführt

7 Signifikant sind alle Variablen außer P- Center Signifikant sind alle Variablen außer P- Center Stimmhafte Codaspäterer PSE Stimmhafte Codaspäterer PSE Längerer Onsetfrüherer PSE Längerer Onsetfrüherer PSE Längere Stimmhaftigkeit im Onset früherer PSE Längere Stimmhaftigkeit im Onset früherer PSE (Die Produkt-Moment-Korrelation ergab: PSE korreliert mit Onsetdauer und P-Center mit Stimmhaftigkeitsdauer im Onset) (Die Produkt-Moment-Korrelation ergab: PSE korreliert mit Onsetdauer und P-Center mit Stimmhaftigkeitsdauer im Onset)

8 Fazit: Der PSE wird von der Silbenstruktur beeinflusst Der PSE wird von der Silbenstruktur beeinflusst Der Punkt der Alignierung kann also nicht fix z.B. am Silbenonset festgemacht werden. Er muss sich vielmehr berechnen aus Onsetdauer und Stimmhaftigkeit in Onset und Coda Der Punkt der Alignierung kann also nicht fix z.B. am Silbenonset festgemacht werden. Er muss sich vielmehr berechnen aus Onsetdauer und Stimmhaftigkeit in Onset und Coda !Vorsicht: Die Daten beruhen auf synthetischem Sprachmaterial! !Vorsicht: Die Daten beruhen auf synthetischem Sprachmaterial!

9 Folgehandlung: Im Sprachsyntheseprogramm RIAS wird der Punkt der Alignierung für jeden Konsonanten im Onset 15 ms nach links verschoben, für jedes stimmhafte Segment darin weitere 15 ms nach links, und für einen Sonoranten in der Coda 15 ms nach rechts. Im Sprachsyntheseprogramm RIAS wird der Punkt der Alignierung für jeden Konsonanten im Onset 15 ms nach links verschoben, für jedes stimmhafte Segment darin weitere 15 ms nach links, und für einen Sonoranten in der Coda 15 ms nach rechts.

10 Effects of Time Pressure in the Phonetic Realization of the Dutch Accent-Lending Pitch Rise and Fall J.Caspers and V.J. van Heuven

11 Hypothese: Die wichtigsten Kriterien der Intonation bei Akzenten, wie Kontur, Höhe und Alignierung, bleiben auch in schneller Sprache erhalten. So kann man aus in Zeitdruck gesprochenen Aufnahmen Schlüsse ziehen, welche Kriterien unverändert bleiben. Die wichtigsten Kriterien der Intonation bei Akzenten, wie Kontur, Höhe und Alignierung, bleiben auch in schneller Sprache erhalten. So kann man aus in Zeitdruck gesprochenen Aufnahmen Schlüsse ziehen, welche Kriterien unverändert bleiben. Mögliche Kompensationsstrategien: Tilgung von Intonationsbewegungen an Akzenten und Grenzen oder Anpassung derselben. Mögliche Kompensationsstrategien: Tilgung von Intonationsbewegungen an Akzenten und Grenzen oder Anpassung derselben.

12 Daten zum Experiment: Untersucht wurde der Anstieg 1 (abrupt, full-size and early in the syllable) und der Fall A ( abrupt, full-size and late in the syllable) Untersucht wurde der Anstieg 1 (abrupt, full-size and early in the syllable) und der Fall A ( abrupt, full-size and late in the syllable) Hierbei wurden die Form (Höhe, Dauer und Steilheit der Bewegungen), die durchschnittliche F 0 -Kontur und die Alignierung unter die Lupe genommen Hierbei wurden die Form (Höhe, Dauer und Steilheit der Bewegungen), die durchschnittliche F 0 -Kontur und die Alignierung unter die Lupe genommen

13 Experimentsdurchführung: Arten des Zeitdrucks: Arten des Zeitdrucks: I. Pbn sollen so schnell wie möglich sprechen II. Kurz- vs. Langvokal (/a:/ vs. / A /) III. Mehrere Konturbewegungen auf wenige Silben verteilt (vergleiche Fig. 1) Pbn waren die Autoren (also nicht naiv) Pbn waren die Autoren (also nicht naiv)

14 Ergebnisse: Form des Anstiegs und Falls: (Table 1-3) Form des Anstiegs und Falls: (Table 1-3) I. Dauer nimmt ab und Steilheit nimmt zu. Umfang scheint zu sinken. II. Beim Kurzvokal Bewegung kürzer, steiler und im Umfang größer. III. Umfang verkleinert sich. Der Anstieg ist kürzer und steiler (nicht so der Fall). Die Zeit, nicht der Frequenzumfang wird komprimiert.

15 Tonhöhe: Tonhöhe: I. und II. unbedeutend III. Peaks und Valleys sind höher. Verringerung des F 0 -Umfangs wurde nicht bestätigt. Genaue Höhe der Akzenttöne ist unbedeutend.

16 Alignierung vom Anstieg (Fig. 2): Alignierung vom Anstieg (Fig. 2): Der Beginn des Anstiegs ist in allen Zeitdrucktypen relativ zum Silbenonset gesehen circa zum gleichen Zeitpunkt. Alignierung vom Fall (Fig. 3): Alignierung vom Fall (Fig. 3): Keine fixe Alignigerung in Bezug auf die Silbenstruktur. Ein vorangehender Anstieg schiebt den Fall nach hinten. Beim Anstieg ist der Ankerpunkt wichtig, beim Fall eher die Form.

17 Fazit: Entgegen anderer Untersuchungen wurde festgestellt, dass der Ankerpunkt nicht der Peak und das Intensitätsmaximum ist, sondern dass der Beginn des Anstiegs mit dem Beginn der Silbe synchron zu setzen ist. Entgegen anderer Untersuchungen wurde festgestellt, dass der Ankerpunkt nicht der Peak und das Intensitätsmaximum ist, sondern dass der Beginn des Anstiegs mit dem Beginn der Silbe synchron zu setzen ist.


Herunterladen ppt "Aligning pitch targets in speech synthesis: effects of syllable structure T. Rietveld and C. Gussenhoven Präsentiert von Anja Moos."

Ähnliche Präsentationen


Google-Anzeigen