Aligning pitch targets in speech synthesis: effects of syllable structure T. Rietveld and C. Gussenhoven Präsentiert von Anja Moos.

Slides:



Advertisements
Ähnliche Präsentationen
Die Phonetik der Gipfel-Synchronisierung Jonathan Harrington Eine Zusammenfassung von: Silverman & Pierrehumbert (1990), the timing of prenuclear high.
Advertisements

Inwiefern werden Formanten wegen der Telefonsprache unzuverlässig?
Empirisches Praktikum
Hauptseminar Prosodie
Jonathan Harrington H*, L+H*, !H*, H+L*, L*+H H*, H+L*, L*+H unterscheiden sich akustisch in der Synchronisierung des f0-Gipfels mit dem (primär betonten)
Jonathan Harrington H*, L+H*, !H*, H+L*, L*+H Zuerst: A-M Modell (zur Erinnerung…)
Die Satzprosodie Phrasengrenzen, Akzentuierung, Intonation.
Quellen-Filter Theorie der Sprachproduktion
Die phonetischen Merkmale von Vokalen
noise „Phonetic details“ in Vokal-Frikativ-Sequenzen
Training zur Aussprache von prosodischen Mustern
Autosegmental-Metrische Phonologie und ToBI
Modul H Die folgenden Abbildungen und Textpassagen stammen aus: Ralf Benzmüller, Martine Grice Trainingsmaterialien zur Etikettierung deutscher.
Tina John Ebenen und Links in Sprachdatenbanken. Ebenen = Symbole werden mit der Zeit in einer Ebene verbunden. Namen der Ebenen Symbole der Word-Ebene.
EmPra Der Einfluss und die Verarbeitung von emotionalen Reizen
Bistra Andreeva, Institut für Phonetik, Universität des Saarlandes.
Voice Onset Time (VOT) n ip006rb.001 laden Die Lallphase dauert nicht lange ip001rb.001 laden Peter tippt auf die Kieler - Wie unterscheidet sich [d] in.
Phonetische Dauermessungen n c:\daten\instrpho\ip006rb.001 in Fenster A laden Die Lallphase dauert nicht lange c:\daten\instrpho\ip001rb.001 in Fenster.
Der tief-akzentuierte Tonakzent im Estnischen. Venedig Referentin Nele Salveste.
Versuch zur Vokalnormalisierung
Adaptive Dispersion in der Wahrnehmung von Vokale
Perzeptuelle Kompensation von Koartikulation bei japanischen Wachteln A. J. Lotto, K. R. Kluender, L. L. Holt. Perceptual compensation for coarticulation.
Mikro und Makroprosodie
Wie wird die koartikulatorische Nasalisierung im Signal wahrgenommen?
Die Varianzanalyse Jonathan Harrington.
Mixed Models Jonathan Harrington library(ez) library(lme4)
Tonale Kategorien, Synchronisierung und Nachahmung
Deklination, Downstep, finale Senkung Jonathan Harrington.
„Lautwandel und Grundfrequenz“
1. Satzbetonung, Töne, und Grundfrequenz
Prosodie und Intonation: ein Überblick
Die Prosodie Jonathan Harrington Felicitas Kleber.
Intonationsunterschiede zwischen dem Nord- und Süddeutschen
Die Anatomie der Grundfrequenz Jonathan Harrington.
Jonathan Harrington Komprimierung der Vokaldauer.
1 C.Fowler Analyse der Wahrnehmung von Koartikulierter Sprache LMU-München - IPSK WS 06/07 HS Modelle der Sprachproduktion und –perzeption Prof. J.M.
Ist Intonation kategorial? Empirische Methoden und Evidenzen
Das ‚Perceptual Magnet Model‘ von Patricia Kuhl
Jonathan Harrington Bitonale Akzente. Bedeutungsunterschiede wegen unterschiedlicher f0-Vokal-Synchronisierungen werden im AM-System durch bitonale Akzente.
Hauptseminar Soziophonetik Prof. Dr. Harrington Marina Meixner
Artikulationsstelle, F2-Locus, Locusgleichungen Jonathan Harrington.
Jonathan Harrington Downstep ist eine phonetische Regel, in der H-Töne in derselben Phrase wegen eines davor kommenden H-Tons gesenkt werden. Die Wirkung.
Transkription der Intonation mit GTOBI
Jonathan Harrington Downstep ist eine phonetische Regel, in der H-Töne in derselben Phrase wegen eines davor kommenden H-Tons gesenkt werden. Die Wirkung.
Was ist die artikulatorische Grundlage von Locus-Gleichungen? Hauptseminar: Modelle der Sprachproduktion & - perzeption Dozent: Prof. Dr. Jonathan Harrington.
Was ist laut Stevens die Beziehung zwischen dem akustischen Signal, distinktiven Merkmalen und dem Lexikon?
Alexander Füller und Burkard Glaab1 The Hamburg Short Psychotherapy Comparison Experiment (Meyer et al. 1981) Ein Wirksamkeitsvergleich von zeitlich begrenzter.
Kategoriale Wahrnehmung
Effects of 3-D complexity on the perception of 2-D depictions of objects (Flip Phillips, Colin H Thomson, Martin G Voshell, 2004) Seminar: Bildwahrnehmung.
Abschlussvortrag zur Studienarbeit
Die synchronen Grundlagen des Lautwandels Jonathan Harrington.
EMA in Emu-R Jonathan Harrington
Verarbeitung von Implikaturen iv Ist die Interpretation von skalaren Implikaturen gegenüber der wörtlichen Interpretation verzögert? Grodner et al
1 Branko Tošović SLAWISCHE PHONEMSYSTEME TSCHECHISCH ČESKÝ JAZYK ČEŠTINA.
Lernprogramm : „Quadratische Funktionen“
Zusammenfassung von Hombert et al (1979) und Löfqvist (1989)
Elman-Netzwerke Wintersemester 2004/05 Seminar Kindlicher Spracherwerb C. Friedrich & R. Assadollahi vorgestellt von Christian Scharinger & Guido Heinecke.
Entwicklung Schreiben
Methoden Die klassische Methode der Psycholinguistik (genauso wie der experimentellen Psychologie im Allgemeinen) ist die Messung von Reaktionszeiten.
Zum Einfluss subjektiver und objektiver Merkmale auf die Wiedererkennung von Werbeplakaten Antje Bauer & Stefanie Frehse Institut für Allgemeine Psychologie.
EEG-Korrelate der Aktivierung kortikaler Objektrepräsentationen-1
Jonathan Harrington: "Die phonetischen Grundlagen des Lautwandels“
Lauterwerb siehe auch Wode, 1988, Kapitel 9.3.
Die Varianzanalyse Jonathan Harrington library(ggplot2) library(ez)
Titel des wissenschaftlichen Projekts
Signifikanz – was ist das überhaupt?
Mikro und Makroprosodie
Titel des Wissenschaftsprojekts
H*, L+H*, !H*, H+L*, L*+H Jonathan Harrington
Titel des wissenschaftlichen Projekts
 Präsentation transkript:

Aligning pitch targets in speech synthesis: effects of syllable structure T. Rietveld and C. Gussenhoven Präsentiert von Anja Moos

Hypothese: Die perzeptive Diskriminierung eines frühen bzw. späten Falls in einer flat hat Kontur im Niederländischen wird von der Silbenstruktur beeinflusst. Die perzeptive Diskriminierung eines frühen bzw. späten Falls in einer flat hat Kontur im Niederländischen wird von der Silbenstruktur beeinflusst. (vergleiche Figure 1) Mögliche Faktoren: Silbenlänge, folgende unakzentuierte Silben, Onsetdauer, Stimmhaftigkeit in Onset und Coda Mögliche Faktoren: Silbenlänge, folgende unakzentuierte Silben, Onsetdauer, Stimmhaftigkeit in Onset und Coda

Daten zum Experiment: Synthetischer Leitsatz: Maar ARNhem ligt in X-land Synthetischer Leitsatz: Maar ARNhem ligt in X-land In X-land variiert Onset (vergleiche Table I) und Coda (/m/ vs. /p/), Vokal immer /o:/ In X-land variiert Onset (vergleiche Table I) und Coda (/m/ vs. /p/), Vokal immer /o:/ P-center (=perceptual center) je nach Silbenstruktur errechnet P-center (=perceptual center) je nach Silbenstruktur errechnet

Intonationskontur der 12 Sätze: 100 ms langer Anstieg in ARN, 100 ms langer Fall in X Intonationskontur der 12 Sätze: 100 ms langer Anstieg in ARN, 100 ms langer Fall in X Der Zeitpunkt des Falls wurde 10 x um 20 ms verschoben: 1.x endet er 10 ms vor dem Vokalbeginn, 10.x 35 ms nach Vokalende (vergleiche Figure 2) Der Zeitpunkt des Falls wurde 10 x um 20 ms verschoben: 1.x endet er 10 ms vor dem Vokalbeginn, 10.x 35 ms nach Vokalende (vergleiche Figure 2) 120 Stimuli Perzeptiv wurde die erste Version als downstepped erkannt, letztere als non- downstepped Perzeptiv wurde die erste Version als downstepped erkannt, letztere als non- downstepped

Experimentsdurchführung: 27 Teilnehmer 27 Teilnehmer Aufnahmen randomisiert Aufnahmen randomisiert Vorherige Einweisung und Übung an Hand von 10 Minimalpaaren (was die Kontur betrifft) Vorherige Einweisung und Übung an Hand von 10 Minimalpaaren (was die Kontur betrifft) Alle 20 Stimuli wurden erneut zwei Minimalpaare eingespielt Alle 20 Stimuli wurden erneut zwei Minimalpaare eingespielt

Ergebnisse: PSE (="Point of Subjective Equality") = Durchschnittswert der Beurteilungen der Pbn, ob downstep vorliegt oder nicht PSE (="Point of Subjective Equality") = Durchschnittswert der Beurteilungen der Pbn, ob downstep vorliegt oder nicht Mit einer Ausnahme ist der PSE der stimmlosen Coda immer früher (Fig. 3) Mit einer Ausnahme ist der PSE der stimmlosen Coda immer früher (Fig. 3) Um PSE vorhersagen zu können, wurden mit den Kategorien +/- stimmhafte Coda, Onsetdauer, Stimmhaftigkeitsdauer im Onset und P-Center multiple Regressionsanalysen durchgeführt Um PSE vorhersagen zu können, wurden mit den Kategorien +/- stimmhafte Coda, Onsetdauer, Stimmhaftigkeitsdauer im Onset und P-Center multiple Regressionsanalysen durchgeführt

Signifikant sind alle Variablen außer P- Center Signifikant sind alle Variablen außer P- Center Stimmhafte Codaspäterer PSE Stimmhafte Codaspäterer PSE Längerer Onsetfrüherer PSE Längerer Onsetfrüherer PSE Längere Stimmhaftigkeit im Onset früherer PSE Längere Stimmhaftigkeit im Onset früherer PSE (Die Produkt-Moment-Korrelation ergab: PSE korreliert mit Onsetdauer und P-Center mit Stimmhaftigkeitsdauer im Onset) (Die Produkt-Moment-Korrelation ergab: PSE korreliert mit Onsetdauer und P-Center mit Stimmhaftigkeitsdauer im Onset)

Fazit: Der PSE wird von der Silbenstruktur beeinflusst Der PSE wird von der Silbenstruktur beeinflusst Der Punkt der Alignierung kann also nicht fix z.B. am Silbenonset festgemacht werden. Er muss sich vielmehr berechnen aus Onsetdauer und Stimmhaftigkeit in Onset und Coda Der Punkt der Alignierung kann also nicht fix z.B. am Silbenonset festgemacht werden. Er muss sich vielmehr berechnen aus Onsetdauer und Stimmhaftigkeit in Onset und Coda !Vorsicht: Die Daten beruhen auf synthetischem Sprachmaterial! !Vorsicht: Die Daten beruhen auf synthetischem Sprachmaterial!

Folgehandlung: Im Sprachsyntheseprogramm RIAS wird der Punkt der Alignierung für jeden Konsonanten im Onset 15 ms nach links verschoben, für jedes stimmhafte Segment darin weitere 15 ms nach links, und für einen Sonoranten in der Coda 15 ms nach rechts. Im Sprachsyntheseprogramm RIAS wird der Punkt der Alignierung für jeden Konsonanten im Onset 15 ms nach links verschoben, für jedes stimmhafte Segment darin weitere 15 ms nach links, und für einen Sonoranten in der Coda 15 ms nach rechts.

Effects of Time Pressure in the Phonetic Realization of the Dutch Accent-Lending Pitch Rise and Fall J.Caspers and V.J. van Heuven

Hypothese: Die wichtigsten Kriterien der Intonation bei Akzenten, wie Kontur, Höhe und Alignierung, bleiben auch in schneller Sprache erhalten. So kann man aus in Zeitdruck gesprochenen Aufnahmen Schlüsse ziehen, welche Kriterien unverändert bleiben. Die wichtigsten Kriterien der Intonation bei Akzenten, wie Kontur, Höhe und Alignierung, bleiben auch in schneller Sprache erhalten. So kann man aus in Zeitdruck gesprochenen Aufnahmen Schlüsse ziehen, welche Kriterien unverändert bleiben. Mögliche Kompensationsstrategien: Tilgung von Intonationsbewegungen an Akzenten und Grenzen oder Anpassung derselben. Mögliche Kompensationsstrategien: Tilgung von Intonationsbewegungen an Akzenten und Grenzen oder Anpassung derselben.

Daten zum Experiment: Untersucht wurde der Anstieg 1 (abrupt, full-size and early in the syllable) und der Fall A ( abrupt, full-size and late in the syllable) Untersucht wurde der Anstieg 1 (abrupt, full-size and early in the syllable) und der Fall A ( abrupt, full-size and late in the syllable) Hierbei wurden die Form (Höhe, Dauer und Steilheit der Bewegungen), die durchschnittliche F 0 -Kontur und die Alignierung unter die Lupe genommen Hierbei wurden die Form (Höhe, Dauer und Steilheit der Bewegungen), die durchschnittliche F 0 -Kontur und die Alignierung unter die Lupe genommen

Experimentsdurchführung: Arten des Zeitdrucks: Arten des Zeitdrucks: I. Pbn sollen so schnell wie möglich sprechen II. Kurz- vs. Langvokal (/a:/ vs. / A /) III. Mehrere Konturbewegungen auf wenige Silben verteilt (vergleiche Fig. 1) Pbn waren die Autoren (also nicht naiv) Pbn waren die Autoren (also nicht naiv)

Ergebnisse: Form des Anstiegs und Falls: (Table 1-3) Form des Anstiegs und Falls: (Table 1-3) I. Dauer nimmt ab und Steilheit nimmt zu. Umfang scheint zu sinken. II. Beim Kurzvokal Bewegung kürzer, steiler und im Umfang größer. III. Umfang verkleinert sich. Der Anstieg ist kürzer und steiler (nicht so der Fall). Die Zeit, nicht der Frequenzumfang wird komprimiert.

Tonhöhe: Tonhöhe: I. und II. unbedeutend III. Peaks und Valleys sind höher. Verringerung des F 0 -Umfangs wurde nicht bestätigt. Genaue Höhe der Akzenttöne ist unbedeutend.

Alignierung vom Anstieg (Fig. 2): Alignierung vom Anstieg (Fig. 2): Der Beginn des Anstiegs ist in allen Zeitdrucktypen relativ zum Silbenonset gesehen circa zum gleichen Zeitpunkt. Alignierung vom Fall (Fig. 3): Alignierung vom Fall (Fig. 3): Keine fixe Alignigerung in Bezug auf die Silbenstruktur. Ein vorangehender Anstieg schiebt den Fall nach hinten. Beim Anstieg ist der Ankerpunkt wichtig, beim Fall eher die Form.

Fazit: Entgegen anderer Untersuchungen wurde festgestellt, dass der Ankerpunkt nicht der Peak und das Intensitätsmaximum ist, sondern dass der Beginn des Anstiegs mit dem Beginn der Silbe synchron zu setzen ist. Entgegen anderer Untersuchungen wurde festgestellt, dass der Ankerpunkt nicht der Peak und das Intensitätsmaximum ist, sondern dass der Beginn des Anstiegs mit dem Beginn der Silbe synchron zu setzen ist.