Christine Mooshammer & Jennifer Schneeberg

Slides:



Advertisements
Ähnliche Präsentationen
Aufbau, Abfrage, Analyse von Sprachdatenbanken
Advertisements

Inwiefern werden Formanten wegen der Telefonsprache unzuverlässig?
Die Satzprosodie Phrasengrenzen, Akzentuierung, Intonation.
Die akustische Analyse von Sprachlauten.
Quellen-Filter Theorie der Sprachproduktion
Die phonetischen Merkmale von Vokalen
noise „Phonetic details“ in Vokal-Frikativ-Sequenzen
Die akustische Analyse von Sprachlauten
Spektra von periodischen Signalen. Resonanz.
Formant-Analysen von Vokalen
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen Signalverarbeitung abgeleitete Signale.
Gleich oder verschieden
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Grundlagen der Analyse von Sprachdatenbanken
Wintersemester 2010 Bistra Andreeva FR 4.7 Phonetik Universität des Saarlandes Einf. in die Instrumentalphonetik Prosodie.
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Bistra Andreeva, Institut für Phonetik, Universität des Saarlandes.
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Einführung in die Phonetik und Phonologie
Übung Akustische Phonetik
Adaptive Dispersion in der Wahrnehmung von Vokale
Mikro und Makroprosodie
Die Varianzanalyse Jonathan Harrington.
Die Funktion und Form der Intonation
Mixed Models Jonathan Harrington library(ez) library(lme4)
Berechnung von digitalen Signalen
Deklination, Downstep, finale Senkung Jonathan Harrington.
Berechnung von digitalen Signalen Jonathan Harrington.
„Lautwandel und Grundfrequenz“
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
1. Satzbetonung, Töne, und Grundfrequenz
Prosodie und Intonation: ein Überblick
Prosodie und Intonation: ein Überblick
Die Prosodie Jonathan Harrington Felicitas Kleber.
Intonationsunterschiede zwischen dem Nord- und Süddeutschen
Die Anatomie der Grundfrequenz Jonathan Harrington.
1 C.Fowler Analyse der Wahrnehmung von Koartikulierter Sprache LMU-München - IPSK WS 06/07 HS Modelle der Sprachproduktion und –perzeption Prof. J.M.
Jonathan Harrington Bitonale Akzente. Bedeutungsunterschiede wegen unterschiedlicher f0-Vokal-Synchronisierungen werden im AM-System durch bitonale Akzente.
Die Normalisierung und Wahrnehmung eines fremden Akzents Datum: Referentin: Carolin Funk Dozent: Prof. Dr. Jonathan Harrington Hauptseminar:
Alkohol und die gesprochene Sprache im Falle der Exxon Valdez
Grundlagen der Analyse von Sprachdatenbanken
Etikettierungsebenen Jonathan Harrington. Das Ziel Etikettierungen verschiedener Ebenen aufzubauen, und miteinander zu verlinken.
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Was ist die artikulatorische Grundlage von Locus-Gleichungen? Hauptseminar: Modelle der Sprachproduktion & - perzeption Dozent: Prof. Dr. Jonathan Harrington.
Referat von Dominique Vornwald
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Erwerbskarrieren in Ostdeutschland – 20 Jahre nach der Deutschen Einheit und darüber hinaus - Korreferat – Birgit Schultz IWH/IAB-Workshop: 20.
F FnFn z Prof. Dr. Johann Graf Lambsdorff Universität Passau SS a. Anhang zur Bestimmung der optimalen Taylor-Regel.
Kategoriale Wahrnehmung
Tutorium
Vorlesung: ANOVA I
Emotionsanalyse anhand der Sprache, Mimik und Gestik
Dummy-Variablen Gleicher Lohn bei gleicher Qualifikation: Frauen verdienen im Durchschnitt zwar weniger als Männer, aber ist die Ursache dafür in der Diskriminierung.
2. Methoden 3.1 Behavioral 1. Hintergrund 3. Ergebnisse Die Ergebnisse der behavioralen und psychophysiologischen Daten weisen in unterschiedliche Richtungen.
HLSyn – eine Kurzeinführung
Ausgleichungsrechnung II
Kapitel 16 Ökonometrische Modelle
Ökonometrie I Modellvergleich (Übersicht) Ökonometrie I2 Vergleich von Modellen Fragestellungen für Modellvergleich 1.Fehlende Regressoren.
Was ist eine Funktion? Eine Zuordnung,
Zusammenfassung von Hombert et al (1979) und Löfqvist (1989)
Plosive [a d a] [a t a] [a th a]
Vom graphischen Differenzieren
setzt Linearität des Zusammenhangs voraus
Visualisierungsmethoden zur
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Plosive [a d a] [a t a] [a th a]
 Präsentation transkript:

Stimmliche Charakteristika bei globaler und lokaler Lautstärkevariation Christine Mooshammer & Jennifer Schneeberg Institut für Phonetik und digitale Sprachverarbeitung Christian-Albrechts-Universität Kiel Deutschland

Einführung Globale Lautstärkeerhöhung primär: größerer subglottaler Luftdruck Schnelleres Schließen der Stimmlippen (höhere f0) Flacher abfallendes Quellspektrum sekundär: supralaryngale Artikulation Längung der Vokale Tieferer Kiefer bei Vokalen und damit höherer F1 There is general agreement that global vocal effort changes are mainly produced by a change in subglottal pressure. An increase in subglottal pressure is accompanied by a higher f0, a quicker adduction and longer closed phase. DAGA 2005 München

Einführung Lokale Lautstärkeänderung: = linguistisch bedingt: Akzentuierung Wortakzent in Sprachen mit dynamischen Akzent (z.B. „Tenor“) Intensität als Hauptmerkmal neben Dauer und Grundfrequenz (s. Sweet 1906, Sluijter et al. 1996) kontrolliert durch subglottalen Luftdruck Nachweis: Änderung des spectral tilts Gilt auch in deakzentuierter Position, d.h. ohne Grundfrequenzunterschiede There is general agreement that global vocal effort changes are mainly produced by a change in subglottal pressure. An increase in subglottal pressure is accompanied by a higher f0, a quicker adduction and longer closed phase. DAGA 2005 München

Einführung  Satzbetonung: realisiert durch melodische Unterschiede mittels Anpassung der Stimmlippenspannung Hypothesen: Nur lexikalischer Wortakzent bewirkt ähnliche Änderungen in den stimmlichen Parametern wie globale Lautstärkeänderungen, nicht aber der Satzakzent. Unterschiede in der Wortbetonung sind unabhängig davon, ob das Wort satzbetont ist oder nicht. More specifically, levels of prominence should differ in the affected parameters. In Germanic languages lexical stress should affect parameters which are also affected by global vocal effort changes,i.e. stressed syllables should be produced with higher intensity levels, a quicker closing of the vocal folds and a longer closed phase. Focus or sentence accent is more restricted to melodic variation and characterized by f0 movements. Therefore our second hypothesis is that the effect of lexical stress on the EGG parameters should be more similar to the effects of global effort changes compared to the effects of focus. DAGA 2005 München

Korpus 1. Wortakzent / le / / ze / Stressed [+S] Unstressed [-S] Lena Lenor /len/ / ze / Sehnen /zen/ Senat /zenat/ Lexical word stress was varied by using word pairs where the first syllable was either stressed or unstressed, e.g. Lena with stress on the first syllable or Lenor with stress on the second syllable and the first syllable being unstressed. The test sequence was always the first syllable and either /le/ or /ze/. These words were embedded in the before mentioned question answer paradigm. All dialogues were repeated 8 times. DAGA 2005 München

Korpus 2. Satzbetonung: Frage-Antwort Paradigma (durch Variation des Fokus + Emphase) FOCUS [+F] Q: Wolltest Du Dir Friedas Buch ausleihen? A: Nein, ich wollte Lenas Buch ausleihen. NON-FOCUS [-F] Q: Wie findest Du Lena? A: Ich hasse Lena und ihre Schusseligkeit. To elicit variations of focus, word stress and vocal effort a question-answer paradigm was used, where the questions were presented via headphones. An example for a contrast in focus is Wolltest Du Dir Friedas Buch ausleihen? Which means: Did you want to borrow Frieda‘s book? The answer, presented on a monitor is Nein, ich wollte Lenas Buch ausleihen. No, I wanted to borrow Lena‘s book. Here the test word Lena is in focussed position. An example for unaccented condition is the question answer pair Wie findest Du Lena? Which means How do you like Lena? In the answer Ich hasse Lena und ihre Schusseligkeit which means I hate Lena and her absent-mindedness. The test word is in postfocal position after the emphasized word HASSE. This condition is called unfocused henceforth. DAGA 2005 München

Korpus 3. Globale Lautstärkevariation Sätze mit wortbetonten, fokussierten Testsequenzen wurden in drei Lautstärkebedingungen gesprochen: Normal (N) laut: „Sprich laut ohne zu schreien“ (L) leise: „Sprich leise ohne zu flüstern“ (S) 8 bis 9 Wiederholungen Changes in focus and word stress are compared to global vocal effort changes. Only sentences with focused and stressed test sequences were repeated in different loudness conditions. For speaking up the subjects were instructed to speak as loud as possible without shouting. For soft voice speakers should speak soft without whispering. All sentences were repeated 8 to 9 times DAGA 2005 München

Aufnahmen 6 Sprecher aus Norddeutschland (20-30 Jahre alt, Nichtraucher, männlich) Akustik und Glottissignal (Lx) mittels Laryngographie (Glottal Enterprises) Die erste Ableitung des Lx-Signals (DEGG) wurde mittels Differenzierung berechnet. Akustische Etikettierung mit Praat DAGA 2005 München

Messungen Lx Halbautomatische Etikettierung mittels EMU/R Alle Perioden während des Vokals /e/ Analysierte Parameter: a) f0 basierend auf dem DEGG Signal b) RMS basierend auf dem Audio-Signal c) Open Quotient OQ d) Speed Quotient SQ e) Steigungen der Öffnungs- und Schließungsbewegungen (Oslope, Cslope) DAGA 2005 München

Messungen top2 top1 Open Quotient: 100*top/T Problem: Festlegung des Zeitpunkts der Öffnung: T top2 2. 4/7 Schwellwert (Howard‘s method) = top2 top1 1. Negativer Gipfel der ersten Ableitung = top1 Open quotient was defined as the duration of the open phase relative to the period. Beginning and end of the period is defined by the first peak of the maximal peak in the first derivative. Due to the very well-known difficulties in detecting the instance of glottal opening in the EGG signal two variants were computed. The first one uses the negative peak of the derivative for defining glottal opening, the second one uses a 4/7 threshold criterion as suggested by Howard. Additionally the peaks of the first derivative were measured for glottal opening and closing. DAGA 2005 München

Messungen Speed Quotient: 100*tcl/top Schließung Öffnung Oslope Cslope (10% Schwellwert) Oslope Cslope The speed quotient, indicating the symmetry of the glottal pulse, was computed as the ratio between the closing duration and the opening duration. The beginning of closing was defined by the peak of the derivative, for all other instances a 10% threshold criterion was used. The closing and opening slopes were computed as the steepness of these phases and called c-slope and o-slope top tcl DAGA 2005 München

Problem: Trennung der Einflüsse des subglottalen Luftdrucks und der Stimmlippenspannung auf die EGG Parameter  Vorhersagen (basierend auf Marasek (1997), Zwei-Massen-Modell -> Lx-Signal aus Glottisfläche) Parameter Stress  Loudness Focus Pitch OQ   SQ () Cslope = Oslope Loudness and pitch changes should influence different sets of EGG parameters. This was found in modelling studies by e.g. Marasek or Fant. As can be seen in the table OQ and SQ do not provide a good means for discerning the effects of subglottal pressure and vocal fold tension. In the case of the open quotient the effects of loudness and pitch are in the opposite direction and for SQ the effect of loudness on the EGG waveform is not clearly defined. The peaks and the slopes of the opening and closing phase seem to provide a better means. As was found by Christoph Marasek both slopes should increase for an increased subglottal pressure but should not change for increased vocal fold tension. DAGA 2005 München

Stimmparameter: globale Lautstärke Für alle Sprecher signifikante Unterschiede zwischen den Lautstärkeniveaus Intensität Bei lautem Sprechen: höhere f0 und größerer Bereich Signifikant tiefere f0 bei leisem Sprechen Grundfrequenz DAGA 2005 München

Stimmparameter: globale Lautstärke OQ vergrößert sich von laut und normal nach leise Konsistent für alle Sprecher Open Quotient Signifikant steilere Steigungen für lautes Sprechen Konsistent für laut-normal Nur 3 Spr. für normal-leise Steigung der Öffnungsbewegung DAGA 2005 München

Stimmparameter: Prominenz Grundfrequenz Fokus Non-Fokus Intensität Fokus Non-Fokus /l/: Wortakzent bewirkt höhere Intensität bei +F und –F /z/: höhere Intensität bei –F nur bei 3 Sprechern Konsonanteneffekt bei [-F]: /l/: F0 unterscheidet sich für Wortakzent (aufgrund von 2 Sprechern)f0_stress.jpg /z/: F0 Neutralisation DAGA 2005 München

Stimmparameter: Prominenz Open Quotient Vorhersagen: Wortakzent: [+S]<[-S] Fokus: [+F]>[-F] Fokus Non-Fokus Wortakzent: niedrigerer OQ für [+S] ähnlich laut-normal Fokus: meist niedriger für [+F] entgegen Vorhersage DAGA 2005 München

Stimmparameter: Prominenz Vorhersagen: Wortakzent: [+S]>[-S] Fokus: [+F]=[-F] Steigung der Öffnungsbewegung Fokus Non-Fokus Wortakzent: [+F]: vier Sprecher zeigen steilere Steigungen für [+S] [-F]: 4 Sprecher /l/, nur 1 Sprecher /z/ Fokus: In beiden Bedingungen meist signifikanter Anstieg der Steigung für [+F] DAGA 2005 München

Zsf.: Stimmparameter Lautes Sprechen: erhöhter subglottaler Luftdruck Leises Sprechen: weniger konsistente Druckunterschiede  Änderung der Stimmqualität zu behaucht? Wortakzent: Evidenz für höheren subglottalen Luftdruck nur bei fokussierten Wörter und hauptsächlich nach /l/ Fokus: kaum Hinweise auf geänderte Stimmlippen-spannung, dafür Evidenz für erhöhten Luftdruck Tentative Erklärung: Bestimmung des Zeitpunkts der glottalen Öffnung Verwendete Parameter könnten abhängig von der Grundfrequenz sein (z.B. Steigungen). DAGA 2005 München

2. Formanalyse  Alternativer holistischer Ansatz: gesamte Wellenform bildet die Basis, z.B. PCA (Mokhtari et al. 2003) oder Functional Data Analysis (FDA, z.B. Ramsay) Input: Mittlere zwei Perioden Zeit- und amplituden- normalisiert 317 Items Verarbeitung: Berechnung von Spline Funktionen DAGA 2005 München

Hauptkomponentenanalyse: Positiv: längere Geschlossenphase, steile Verschließbewegung, linksschief Negativ: lange Offenphase, langsamere Verschließbewegung, symmetrischer Impuls Hauptkomponente (64.3 %) Faktorscores Lautstärke: Laut: pos. Werte Normal: Werte um null Leise: neg. Werte Wortakzent: „Lena“: positive Werte „Lenor“: negative Werte Fokus: kein Unterschied Lena Lenor Lautstärke X Normal to loud: parameters indicate that besides an increased subglottal pressure laryngeal configurations are also adjusted to produce loud speech. DAGA 2005 München

X Lautstärke Signifikant für 5 Sprecher Lena Lenor Lautstärke X Signifikant für 5 Sprecher Prominenz: keine signifikanten Effekte Beispiele für Lena vs. Lenor DAGA 2005 München

Prominenz:signifikanten Effekte bei DP Lautstärke: signifikante Effekte bei 5 Sprechern Sehnen Senat Sehnen Senat Beispiele für Sehnen vs. Senat DAGA 2005 München

Schlussfolgerungen Globale Lautstärkeveränderung: verändert die Form des glottalen Pulses Wortakzent: Sehr inkonsistente Effekte Nur für einen Sprecher in die erwartete Richtung Nachdem f0- und Amplitudenunterschiede entfernt wurden, ergeben sich keine Effekte für Wortakzent DAGA 2005 München

Schlussfolgerungen (cont.) Warum keine Effekte bei Prominenz? Unterschiede könnten zu subtil sein, um sich signifikant niederzuschlagen.  Keine klare Tendenz erkennbar Unterschiede zeigen sich nicht im Lx Signal aufgrund der bekannten Probleme  Lautstärkeeffekte sind sehr konsistent 3. Wortakzent wird nicht durch Änderung des subglottalen Luftdrucks realisiert  Neue Hypothese: Flacherer Abfall bei wortbetonten Vokalen ist eine Folge der laryngalen und/oder supralaryngalen Artikulation DAGA 2005 München

??? Abhängig von Grundfrequenz ??? Ausblick Parameter des spektralen Abfalls spectral balance, spectral tilt und spectral emphasis ??? Abhängig von Grundfrequenz ??? Systematischer Vergleich zwischen verschiedenen Maßen mittels Synthese Supralaryngale Artikulation: Parameter wie Dauern und Formanten Vorläufige Ergebnisse: große Unterschiede bei Wortakzent, aber nicht in Richtung lautes Sprechen nur selten konsistente Unterschiede für Fokus Erhebung von artikulatorischen Daten DAGA 2005 München