Christine Mooshammer & Jennifer Schneeberg

Stimmliche Charakteristika bei globaler und lokaler Lautstärkevariation
Christine Mooshammer & Jennifer Schneeberg Institut für Phonetik und digitale Sprachverarbeitung Christian-Albrechts-Universität Kiel Deutschland

Einführung Globale Lautstärkeerhöhung
primär: größerer subglottaler Luftdruck Schnelleres Schließen der Stimmlippen (höhere f0) Flacher abfallendes Quellspektrum sekundär: supralaryngale Artikulation Längung der Vokale Tieferer Kiefer bei Vokalen und damit höherer F1 There is general agreement that global vocal effort changes are mainly produced by a change in subglottal pressure. An increase in subglottal pressure is accompanied by a higher f0, a quicker adduction and longer closed phase. DAGA 2005 München

Einführung Lokale Lautstärkeänderung: = linguistisch bedingt: Akzentuierung Wortakzent in Sprachen mit dynamischen Akzent (z.B. „Tenor“) Intensität als Hauptmerkmal neben Dauer und Grundfrequenz (s. Sweet 1906, Sluijter et al. 1996) kontrolliert durch subglottalen Luftdruck Nachweis: Änderung des spectral tilts Gilt auch in deakzentuierter Position, d.h. ohne Grundfrequenzunterschiede There is general agreement that global vocal effort changes are mainly produced by a change in subglottal pressure. An increase in subglottal pressure is accompanied by a higher f0, a quicker adduction and longer closed phase. DAGA 2005 München

Einführung  Satzbetonung: realisiert durch melodische Unterschiede mittels Anpassung der Stimmlippenspannung Hypothesen: Nur lexikalischer Wortakzent bewirkt ähnliche Änderungen in den stimmlichen Parametern wie globale Lautstärkeänderungen, nicht aber der Satzakzent. Unterschiede in der Wortbetonung sind unabhängig davon, ob das Wort satzbetont ist oder nicht. More specifically, levels of prominence should differ in the affected parameters. In Germanic languages lexical stress should affect parameters which are also affected by global vocal effort changes,i.e. stressed syllables should be produced with higher intensity levels, a quicker closing of the vocal folds and a longer closed phase. Focus or sentence accent is more restricted to melodic variation and characterized by f0 movements. Therefore our second hypothesis is that the effect of lexical stress on the EGG parameters should be more similar to the effects of global effort changes compared to the effects of focus. DAGA 2005 München

Korpus 1. Wortakzent / le / / ze / Stressed [+S] Unstressed [-S] Lena
Lenor /len/ / ze / Sehnen /zen/ Senat /zenat/ Lexical word stress was varied by using word pairs where the first syllable was either stressed or unstressed, e.g. Lena with stress on the first syllable or Lenor with stress on the second syllable and the first syllable being unstressed. The test sequence was always the first syllable and either /le/ or /ze/. These words were embedded in the before mentioned question answer paradigm. All dialogues were repeated 8 times. DAGA 2005 München

Korpus 2. Satzbetonung: Frage-Antwort Paradigma (durch Variation des Fokus + Emphase) FOCUS [+F] Q: Wolltest Du Dir Friedas Buch ausleihen? A: Nein, ich wollte Lenas Buch ausleihen. NON-FOCUS [-F] Q: Wie findest Du Lena? A: Ich hasse Lena und ihre Schusseligkeit. To elicit variations of focus, word stress and vocal effort a question-answer paradigm was used, where the questions were presented via headphones. An example for a contrast in focus is Wolltest Du Dir Friedas Buch ausleihen? Which means: Did you want to borrow Frieda‘s book? The answer, presented on a monitor is Nein, ich wollte Lenas Buch ausleihen. No, I wanted to borrow Lena‘s book. Here the test word Lena is in focussed position. An example for unaccented condition is the question answer pair Wie findest Du Lena? Which means How do you like Lena? In the answer Ich hasse Lena und ihre Schusseligkeit which means I hate Lena and her absent-mindedness. The test word is in postfocal position after the emphasized word HASSE. This condition is called unfocused henceforth. DAGA 2005 München

Korpus 3. Globale Lautstärkevariation
Sätze mit wortbetonten, fokussierten Testsequenzen wurden in drei Lautstärkebedingungen gesprochen: Normal (N) laut: „Sprich laut ohne zu schreien“ (L) leise: „Sprich leise ohne zu flüstern“ (S) 8 bis 9 Wiederholungen Changes in focus and word stress are compared to global vocal effort changes. Only sentences with focused and stressed test sequences were repeated in different loudness conditions. For speaking up the subjects were instructed to speak as loud as possible without shouting. For soft voice speakers should speak soft without whispering. All sentences were repeated 8 to 9 times DAGA 2005 München

Aufnahmen 6 Sprecher aus Norddeutschland (20-30 Jahre alt, Nichtraucher, männlich) Akustik und Glottissignal (Lx) mittels Laryngographie (Glottal Enterprises) Die erste Ableitung des Lx-Signals (DEGG) wurde mittels Differenzierung berechnet. Akustische Etikettierung mit Praat DAGA 2005 München

Messungen Lx Halbautomatische Etikettierung mittels EMU/R
Alle Perioden während des Vokals /e/ Analysierte Parameter: a) f0 basierend auf dem DEGG Signal b) RMS basierend auf dem Audio-Signal c) Open Quotient OQ d) Speed Quotient SQ e) Steigungen der Öffnungs- und Schließungsbewegungen (Oslope, Cslope) DAGA 2005 München

Messungen top2 top1 Open Quotient: 100*top/T
Problem: Festlegung des Zeitpunkts der Öffnung: T top2 2. 4/7 Schwellwert (Howard‘s method) = top2 top1 1. Negativer Gipfel der ersten Ableitung = top1 Open quotient was defined as the duration of the open phase relative to the period. Beginning and end of the period is defined by the first peak of the maximal peak in the first derivative. Due to the very well-known difficulties in detecting the instance of glottal opening in the EGG signal two variants were computed. The first one uses the negative peak of the derivative for defining glottal opening, the second one uses a 4/7 threshold criterion as suggested by Howard. Additionally the peaks of the first derivative were measured for glottal opening and closing. DAGA 2005 München

Messungen Speed Quotient: 100*tcl/top Schließung Öffnung Oslope Cslope
(10% Schwellwert) Oslope Cslope The speed quotient, indicating the symmetry of the glottal pulse, was computed as the ratio between the closing duration and the opening duration. The beginning of closing was defined by the peak of the derivative, for all other instances a 10% threshold criterion was used. The closing and opening slopes were computed as the steepness of these phases and called c-slope and o-slope top tcl DAGA 2005 München

Problem: Trennung der Einflüsse des subglottalen Luftdrucks und der Stimmlippenspannung auf die EGG Parameter  Vorhersagen (basierend auf Marasek (1997), Zwei-Massen-Modell -> Lx-Signal aus Glottisfläche) Parameter Stress  Loudness Focus Pitch OQ   SQ () Cslope = Oslope Loudness and pitch changes should influence different sets of EGG parameters. This was found in modelling studies by e.g. Marasek or Fant. As can be seen in the table OQ and SQ do not provide a good means for discerning the effects of subglottal pressure and vocal fold tension. In the case of the open quotient the effects of loudness and pitch are in the opposite direction and for SQ the effect of loudness on the EGG waveform is not clearly defined. The peaks and the slopes of the opening and closing phase seem to provide a better means. As was found by Christoph Marasek both slopes should increase for an increased subglottal pressure but should not change for increased vocal fold tension. DAGA 2005 München

Stimmparameter: globale Lautstärke
Für alle Sprecher signifikante Unterschiede zwischen den Lautstärkeniveaus Intensität Bei lautem Sprechen: höhere f0 und größerer Bereich Signifikant tiefere f0 bei leisem Sprechen Grundfrequenz DAGA 2005 München

Stimmparameter: globale Lautstärke
OQ vergrößert sich von laut und normal nach leise Konsistent für alle Sprecher Open Quotient Signifikant steilere Steigungen für lautes Sprechen Konsistent für laut-normal Nur 3 Spr. für normal-leise Steigung der Öffnungsbewegung DAGA 2005 München

Stimmparameter: Prominenz
Grundfrequenz Fokus Non-Fokus Intensität Fokus Non-Fokus /l/: Wortakzent bewirkt höhere Intensität bei +F und –F /z/: höhere Intensität bei –F nur bei 3 Sprechern Konsonanteneffekt bei [-F]: /l/: F0 unterscheidet sich für Wortakzent (aufgrund von 2 Sprechern)f0_stress.jpg /z/: F0 Neutralisation DAGA 2005 München

Open Quotient Vorhersagen: Wortakzent: [+S]<[-S] Fokus: [+F]>[-F] Fokus Non-Fokus Wortakzent: niedrigerer OQ für [+S] ähnlich laut-normal Fokus: meist niedriger für [+F] entgegen Vorhersage DAGA 2005 München

Vorhersagen: Wortakzent: [+S]>[-S] Fokus: [+F]=[-F] Steigung der Öffnungsbewegung Fokus Non-Fokus Wortakzent: [+F]: vier Sprecher zeigen steilere Steigungen für [+S] [-F]: 4 Sprecher /l/, nur 1 Sprecher /z/ Fokus: In beiden Bedingungen meist signifikanter Anstieg der Steigung für [+F] DAGA 2005 München

Zsf.: Stimmparameter Lautes Sprechen: erhöhter subglottaler Luftdruck
Leises Sprechen: weniger konsistente Druckunterschiede  Änderung der Stimmqualität zu behaucht? Wortakzent: Evidenz für höheren subglottalen Luftdruck nur bei fokussierten Wörter und hauptsächlich nach /l/ Fokus: kaum Hinweise auf geänderte Stimmlippen-spannung, dafür Evidenz für erhöhten Luftdruck Tentative Erklärung: Bestimmung des Zeitpunkts der glottalen Öffnung Verwendete Parameter könnten abhängig von der Grundfrequenz sein (z.B. Steigungen). DAGA 2005 München

2. Formanalyse  Alternativer holistischer Ansatz: gesamte Wellenform bildet die Basis, z.B. PCA (Mokhtari et al. 2003) oder Functional Data Analysis (FDA, z.B. Ramsay) Input: Mittlere zwei Perioden Zeit- und amplituden- normalisiert 317 Items Verarbeitung: Berechnung von Spline Funktionen DAGA 2005 München

Hauptkomponentenanalyse:
Positiv: längere Geschlossenphase, steile Verschließbewegung, linksschief Negativ: lange Offenphase, langsamere Verschließbewegung, symmetrischer Impuls Hauptkomponente (64.3 %) Faktorscores Lautstärke: Laut: pos. Werte Normal: Werte um null Leise: neg. Werte Wortakzent: „Lena“: positive Werte „Lenor“: negative Werte Fokus: kein Unterschied Lena Lenor Lautstärke X Normal to loud: parameters indicate that besides an increased subglottal pressure laryngeal configurations are also adjusted to produce loud speech. DAGA 2005 München

X Lautstärke Signifikant für 5 Sprecher
Lena Lenor Lautstärke X Signifikant für 5 Sprecher Prominenz: keine signifikanten Effekte Beispiele für Lena vs. Lenor DAGA 2005 München

Prominenz:signifikanten Effekte bei DP
Lautstärke: signifikante Effekte bei 5 Sprechern Sehnen Senat Sehnen Senat Beispiele für Sehnen vs. Senat DAGA 2005 München

Schlussfolgerungen Globale Lautstärkeveränderung: verändert die Form des glottalen Pulses Wortakzent: Sehr inkonsistente Effekte Nur für einen Sprecher in die erwartete Richtung Nachdem f0- und Amplitudenunterschiede entfernt wurden, ergeben sich keine Effekte für Wortakzent DAGA 2005 München

Schlussfolgerungen (cont.)
Warum keine Effekte bei Prominenz? Unterschiede könnten zu subtil sein, um sich signifikant niederzuschlagen.  Keine klare Tendenz erkennbar Unterschiede zeigen sich nicht im Lx Signal aufgrund der bekannten Probleme  Lautstärkeeffekte sind sehr konsistent 3. Wortakzent wird nicht durch Änderung des subglottalen Luftdrucks realisiert  Neue Hypothese: Flacherer Abfall bei wortbetonten Vokalen ist eine Folge der laryngalen und/oder supralaryngalen Artikulation DAGA 2005 München

??? Abhängig von Grundfrequenz ???
Ausblick Parameter des spektralen Abfalls spectral balance, spectral tilt und spectral emphasis ??? Abhängig von Grundfrequenz ??? Systematischer Vergleich zwischen verschiedenen Maßen mittels Synthese Supralaryngale Artikulation: Parameter wie Dauern und Formanten Vorläufige Ergebnisse: große Unterschiede bei Wortakzent, aber nicht in Richtung lautes Sprechen nur selten konsistente Unterschiede für Fokus Erhebung von artikulatorischen Daten DAGA 2005 München

Christine Mooshammer & Jennifer Schneeberg

Ähnliche Präsentationen

Präsentation zum Thema: "Christine Mooshammer & Jennifer Schneeberg"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Christine Mooshammer & Jennifer Schneeberg

Ähnliche Präsentationen

Präsentation zum Thema: "Christine Mooshammer & Jennifer Schneeberg"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback