Akustische Modelle der Sprachproduktion

Slides:



Advertisements
Ähnliche Präsentationen
Spektrale Analysen in EMU-R: eine Einführung
Advertisements

Schall – Töne, Klänge und Geräusche
Grundlagen der Schallausbreitung
Erzwungene Schwingung
Die akustische Analyse von Sprachlauten.
Quellen-Filter Theorie der Sprachproduktion
Die akustische Analyse von Sprachlauten
Spektra von periodischen Signalen. Resonanz.
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Sitzung 9 FRIKATIVE /Tondateien/Frikative/bach-traegt-wenig-wasser.wav: Der Bach trägt dieses Jahr wenig Wasser. /Tondateien/Frikative/schickt-er-blumengruesse.wav:
Spektrogramm und Spektrum
Einführung in die Phonetik und Phonologie
Spektrogramm und Spektrum Sitzung 8 Welche Konsonanten sind für sich alleine identifizierbar? -Alle Konsonanten ausser [pt] in tippt, weil das [p] nicht.
Die akustische Analyse von Sprachlauten
Übung Akustische Phonetik
Spektrale Analysen in EMU-R: eine Einführung Jonathan Harrington.
Spektrale Analysen in EMU-R: eine Einführung
Hauptseminar: Speaker Characteristics Venice International University
Berechnung von digitalen Signalen
Berechnung von digitalen Signalen Jonathan Harrington.
Spektrale Analysen in EMU-R: eine Einführung
Vokale und die Quantaltheorie
Berechnung von stehenden Wellen
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Was sind die unterschiedlichen Vorhersagen der Quantal Theory (QT) und der Theory of Adaptive Dispersion (TAD) bezüglich der Verteilung der Vokale in den.
Was ist laut Stevens die Beziehung zwischen dem akustischen Signal, distinktiven Merkmalen und dem Lexikon?
Spektralanalyse Spektralanalyse ist derart wichtig in allen Naturwissenschaften, dass man deren Bedeutung nicht überbewerten kann! Mit der Spektralanalyse.
Betreuer: Christian Brose Projektlabor SS'08 ( )
Zeitreihenanalyse WS 2004/2005 Michael Hauhs / Gunnar Lischeid
Akustik nur in 7 I.
Akustik Untersuchung des Schalls
Digital Audio Medientyp digital audio representation
Digital Audio Medientyp digital audio representation
Gegenstück D/A-Wandlung
FRAGENKATALOG GRUNDLAGEN DES SCHALLS
Überlagerung von harmonischen Schwingungen
HLSyn – eine Kurzeinführung
Signaltheorie Modulationsarten Betriebsarten Rauschsperren.
Übung zur Vorlesung Signalverarbeitung Einführung
Analyse nach harmonischen Schwingungen
Stimulierzeugung in praat
Die Fourier-Analyse Durch die Fourier-Analyse wird ein Sprachsignal in Sinusoiden zunehmender Frequenz zerlegt, sodass wenn diese summiert werden, das.
Physiologie Frequenz, Amplitude, Phasen
Erzwungene Schwingungen
Österreichische Akademie der Wissenschaften (ÖAW) / Institut für Weltraumforschung (IWF) Schmiedlstraße 6, 8042 Graz, Austria, Tel.: +43/316/ ,
AKUSTISCHE PHONETIK.
Akustische Modelle der Sprachproduktion
ISO/OSI Referenzmodell
Sprachproduktion und Sprachwahrnehmung
Kalibrierung eines Mikrofons unter DASYLab
Eine kleine Einführung für Studierende der Psychologie
DER SCHWINGKREIS.
Schwingungen und Wellen
Plosive [a d a] [a t a] [a th a]
prof. dr. dieter steinmannfachhochschule trier © prof. dr. dieter steinmann ISO/OSI Referenzmodell Physical.
Medizinischen Physik V1: Signalaufnahme und Fourieranalyse
Analog-Digital-Wandler
6. Sitzung Das menschliche Ohr Anatomie und Funktion
3. Sitzung K3.1 Phonetik und Phonologie II
2. Sitzung K3.1 Phonetik und Phonologie II
ST X : What You Hear Is What You See Acoustics Research Institute of the Austrian Academy of Sciences: A-1010 Wien; Liebiggasse 5. Tel /
Atomphysik für den Schulunterricht
Obertonreihen & stehende Schallwellen
Tutorial Messtechnik - Spektralanalyse, Signaltheorie -
Plosive [a d a] [a t a] [a th a]
4. Sitzung Akustik III K3.1 Phonetik und Phonologie II
Kapitel 6: Einführung in die DFT
Spektrogramm und Spektrum Sitzung 8 Spektrogramm und Spektrum Date ip003rb.wav laden Formantwerte (F1 und F2) vom /a:/ im ‘mal’ ablesen Formantwerte.
Plosive [a d a] [a t a] [a th a]
 Präsentation transkript:

Akustische Modelle der Sprachproduktion Inhalt Grundlagen, Begriffe Signal, System, Frequenz, Amplitude, Phase, Spektrum Abtastung, Quantisierung Akustische Modelle der Sprachproduktion Röhrenmodell Quelle-Filter-Modell Formantverschiebung (Perturbation Model) spektrale Merkmale der Lautklassen Spektralanalyse Grundfrequenzanalyse

beschäftigt sich mit der Signalverarbeitung und Sprachkommunikation Sprachakustik beschäftigt sich mit der Signalverarbeitung und Sprachkommunikation Gebiete: Spracherzeugung, Vokaltraktmodelle Sprachsignalanalyse Sprachwahrnehmung, Sprachverständlichkeit und -güte Sprach- und Toncodierung Sprachsynthese Störsignalunterdrückung, robuste Sprachsignalverarbeitung Spracherkennung Sprechererkennung

Grundlagen und Begriffe Signal analoges (zeit- und wertekontinuierlich) modulierte Signale: amplituden-, frequenzmoduliert digitales (zeitdiskret und wertediskret) Signalparameter Frequenz Amplitude Phase Dämpfung System Spektrum

Frequenz, Amplitude, Phase Frequenz = 1 / Periodendauer = wie oft pro Sekunde wiederholt sich die Schwingung Einheit 1/s = Hertz = Hz Amplitude = Grad der Auslenkung Phase [Grad] = Schwingungszustand der Welle an best. Ort zu best. Zeitpunkt Amplitude = maximale Auslenkung der Schwingung/Welle Bei Schall: Spannung, die vom Mikrofon geliefert wird

Wellen mit gleicher Phase Phasenverschiebung Wellen mit gleicher Phase Wellen mit verschiedener Phasenlage Auslöschung Staubsauger

Analoge und digitale Signale

Amplitudenmodulation (AM) amplitudenmoduliertes Signal hochfrequentes Trägersignal niederfrequentes Nutzsignal einfache Erzeugung und Rückgewinnung Träger- und Nutzfrequenz werden multipliziert und dann zur Trägerfrequenz addiert Modulationsgrad wie stark die Amplitude beeinflusst wird Warum Amplitudenmodulation: Um mehrere Nutzsignale gleichzeitig in einem verfügbaren Frequenzband zu übertragen sehr weite Übertragung von niederfrequenten Signalen Beispiel: Rundfunk-AM (Lang-Mittel-Kurzwelle) – jeder Sender 2x4,5kHz = 9 kHz Bandbreite CB-Funk Amateurfunk Flugnavigation Addition = Überlagerung = Interferenz

Frequenzmodulation (FM) frequenzmoduliertes Signal Nutzsignal verändert die Frequenz des Trägersignals (Phase wird ebenfalls beeinflusst) Vorteile gegenüber AM: größerer Dynamikumfang des Nutzsignals möglich geringere Störanfälligkeit Anwendung: Funktechnik: störungsarme, drahtlose Übertragung von Rundfunkprogrammen (UKW), Sprechfunk Fernsehton, bei SECAM auch Farbinformation Videosignal beim Videorekorder (auch Ton bei Hifi-Video) Messtechnik, Rasterverfahren der Drucktechnik Sprechfunk = Handfunkgeräte, Mobilfunkgeräte und Feststationen z.B. CB-Funk, Taxi-Funk, teilweise Bahn-Funk, Walkie-Talkies, BOS-Funk (Behörden und Organisationen), Bündelfunk, Flugfunk, Seefunk, teilweise Amateurfunk ... Rasterverfahren in der Drucktechnik: frequenzmodulierte Rasterung: sehr kleine Bildpunkte, gleiche Größe, unterschiedlich dichte Streuung der Punkte helle Stellen: wenige Punkte, dunkle Stellen: viele Punkte  detailreichere Wiedergabe,  Vermeidung von Moiré-Effekten Ermöglicht geringere Auflösung bei gleicher Qualität Amplitudenmodulierte Rasterung: Variation der Punktgrößen und Rasterwinkel FM in der Natur: best. den charakt. Klangeindruck von Klangkörpern mit großen Flächen (z.B. Glocken, Gong, Röhren, Platten, Bleche) im Unterschied zu eindimensionalen Schwingkörpern (Saiten, Orgelpfeifen) Metallblech = steif, wehrt sich gegen Verbiegen wellenförmiges Metallblech – ist quer zu den Wellen noch steifer

Bild FM Modulation: mit einem abstimmbaren Schwingkreis (Änderung der Resonanzfrequenz) Demodulation: erst Amplitude konstant machen (kann durch Übertragungsfehler schwanken, steckt aber keine Info drin) meist nicht direkt, sondern über Umwandlung in AM oder Pulsmodulation Kenngrößen: Frequenzhub (=Änderung der Trägerfrequenz) Änderung des Phasenwinkels

Frequenzmoduliertes Signal Gestrichelt = Nutzsignal Linie = moduliertes Signal Nutzsignal = Kosinus Trägersignal hat 15fache Frequenz des Nutzsignals am Min. des Nutzsignals ist die Frequenz des modulierten Signals am geringsten am Nulldurchgang des Nutzsignals haben unmoduliertes Trägersignal und unmoduliertes Signal die gleiche Frequenz Frequenz des Nutzsignals wird durch die f-Änderung des Trägers bestimmt Amplitude des Trägers ist abhängig von der f-Änderung (Hub) (beide direkt proportional) je größer f und A des Nutzsignals sind, desto mehr Bandbreite wird benötigt

ungedämpfte Schwingung gedämpfte Schwingung Dämpfung ungedämpfte Schwingung in der Natur nicht vorhanden, nur technisch erzeugt gedämpfte Schwingung Normalfall gleichbleibende vs. abnehmende Amplitude je stärker die Dämpfung, desto schneller nimmt die Amplitude ab Ursache: Energieverlust durch Reibung, Wärmeentwicklung ...

Systeme in der Signalverarbeitung Eingangssignal wird verändert wieder ausgegeben Ausgangssignal ist Funktion des Eingangssignals  Übertragungsfunktion  Transformationsvorschrift  Operator Eigenschaften: Komplexität Dynamik Wechselwirkung mit dem Umfeld Determiniertheit Stabilität Energiezufuhr diskret – kontinuierlich zeitvariant – zeitinvariant Linearität geregelt – ungeregelt adaptiv autonom denkend Lernend ...

Aufbau eines Systems

A/D- und D/A-Wandlung A/D-Wandlung = Digitalisierung analoges Signal wird in ein digitales Signal umgewandelt = Sampling und Quantisierung

Abtastung (Sampling) Input: Output: zeitkontinuierliches und wertekontinierliches Signal Output: zeitdiskretes, wertekontinuierliches Signal

Abtastrate / Samplingfrequenz Signal: 100 Hz Abtastung: oben: 2 kHz mitte: 1 kHz unten: 400 Hz Abtastung erfolgt gleichmäßig = stets in gleichen Intervallen/Abständen

für Sprachanalysen übliche Abtastfrequenz: 16 kHz Abtasttheorem nach Nyquist/Shannon besagt, dass ein analoges Signal nach einer Digitalisierung wieder vollständig rekonstruierbar ist, wenn die Abtastfrequenz mindestens doppelt so hoch wie die größte enthaltene Signalfrequenz ist fabtast > 2 fmax für Sprachanalysen übliche Abtastfrequenz: 16 kHz weil das Sprachsignal nur Frequenzen bis etwa 7 kHz enthält Beispiele, wie ein rekonstruiertes Signal bei verschiedenen Abtastraten aussieht

Vom analogen zum digitalen Signal analoges Signal Abtastung Zeit wird diskret Quantisierung Werte werden diskret

Quantisierung Je mehr Stufen (Auflösung) – desto kleiner der Quantisierungsfehler wird auch bei der Bild- und Videokompression angewendet

Quantisierungsfehler entsteht sowohl bei A/D- als auch bei D/A-Wandlung durch Ab- und Aufrundung der analogen Werte zu den diskreten Werten (3,2 <> 2 ...) = Rundungsfehler

(meist grafische) Darstellung der Eigenschaften eines Signals Spektrum (meist grafische) Darstellung der Eigenschaften eines Signals spektrale Eigenschaften = Energie aller enthaltenen Frequenzen eines Signals Linienspektrum

Spektren verschiedener Signale Rechteck: nur ungerade

aua

Beispiele Signal und Wasserfallspektrogramm Wasserfalldarstellung

Akustische Modelle der Sprachproduktion Quelle-Filter-Modell Röhrenmodell Perturbation Model (Formantverschiebung)

Quelle-Filter-Modell Quelle = Anregungssignal oder Primärsignal im Kehlkopf erzeugter Primärschall Grundfrequenz mit ihren Vielfachen (Obertöne, Harmonische) Spektrum ähnelt einer Sägezahnschwingung (Dämpfung von -12 dB / Oktave) Filter = Artikulationstrakt Veränderung der Anregungssignals durch Resonanzfrequenzen (Dämpfung bestimmter Frequenzbereiche) Filterfunktion verändert sich ständig mit der Artikulation (aber: Gesamtverstärkung von +6 dB / Oktave) Engstellen wirken als zusätzliche Rauschgeneratoren (nicht-periodische Schwingungen) an den Lippen abgestrahltes Schallsignal = Ergebnis der Faltung von Quellsignal und Filterfunktion gewöhnlich: spectral slope von –6 dB / Oktave Spectral slope / spectral tilt = Energieabfall von den tiefen zu den hohen Frequenzen Quelle = von den Stimmlippen erzeugte quasiperiodische Schwingungen ist keine Sinusschwingung besteht aus F0 und Obertönen (Harmonischen) hat sehr hohen Schallpegel (theoret. Bis zu 150 dB, kann man nicht messen) normalerweise im Kehlkopf erzeugt, kann aber auch im Mund- und Rachenraum entstehen (z.B. Plosive, Frikative), dann mit flacherem Spektrum unterliegt der Filterfunktion Luftsäule als Sekundärschwinger durch Artikulation vielfälig formbar wird durch das Primärsignal in Schwingung versetzt  Filterung Filter = Artikulationstrakt Resonanzeigenschaften aufgrund der vielfältig gegliederten Oberfläche, weichem Gewebe, Schleimhaut und Schleim Dämpfung aller Teilschwingungen des Primärsignals, hohe f mehr als tiefe  Filterfunktion + 6 dB/Oktave Eigen- und Resonanzfrequenzen  geringere Dämpfung  Formanten Operation: Faltung

Schematische Darstellung

Quelle-Filter-Modell Breitbandiges Spektrum des Quellsignals Linienspektrum Pegelabfall pro Oktave etwa 12 dB noch ohne Formanten

Literatur zum Quelle-Filter-Modell Gunnar Fant (1960): Acoustic theory of speech production Gerold Ungeheuer (1962): Elemente einer akustischen Theorie der Vokalartikulation

sind Energiemaxima im Spektrum Formanten sind Energiemaxima im Spektrum entstehen aufgrund der Resonanzeigenschaften des Artikulationstraktes abhängig von Größe und Form des Artikulationstraktes sind unabhängig von der Grundfrequenz kennzeichnend für Vokale sind der 1. und 2. Formant bestimmen die Klangfarbe und damit den Vokal sind am stärksten variabel abhängig von Kieferöffnung (F1) und Artikulationsstelle (vorn-hinten, F2) Bandbreite Mittenfrequenz wird als Formantfrequenz angegeben Formanten = Frequenzbänder, die eine höhere Intensität im Spektrum aufweisen Mittenfrequenz ist gleichzeitig die mit der höchsten Energie

Röhrenmodell Modellierung des Vokaltrakts aus Rohrstücken mit verschiedenen Durchmessern

vereinfachtes Röhrenmodell Annahme: gesamter Vokaltrakt ist eine homogene Röhre von 17cm Länge Durchmesser ist relativ gering zur Länge gleichbleibender Querschnitt Glottis = schallhartes, geschlossenes Ende  totale Reflexion Lippen = offenes Ende

Stehende Wellen entstehen durch Überlagerung von 2 gegenläufigen Wellen (gleiche f, gleiche A) aus 2 Quellen durch Reflexion einer Welle an einem Hindernis Beispiel: einseitig geschlossenes Rohr geschlossene Seite ist Hindernis  Reflexion Anwendung: Musikinstrumente Vermeidung: Konzertsaal Musikinstrumente: Resonanzeffekt wird zur charakteristischen Klangbildung genutzt = erwünscht Konzertsaal: Resonanz ist unerwünscht alle Frequenzen sollen gleichmäßig stark gedämpft werden Computernetzwerk: damit keine Resonanzen in der Leitung auftreten, wird beim Coaxialkabel (BNC, Busstruktur) ein Abschlusswiderstand benötigt Wellenknoten und Wellenbäuche keine fortschreitende Welle mehr da = kein Energietransport mehr möglich

= 1. Eigenfreuenz (Resonanz, stehende Welle) des Rohres Berechnung des 1. Formanten des schwa-Lautes (im vereinfachten Röhrenmodell) = 1. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei ¼ der Wellenlänge f = c / λ = 340 m/s : (17cm * 4) = 500 Hz

= 2. Eigenfreuenz (Resonanz, stehende Welle) des Rohres 2. Formant = 2. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei ¾ der Wellenlänge f = c / λ = 340 m/s : (17cm * 4/3) = 1500 Hz

Rohr mit 1.3.5. stehender Welle

3. Formant sowie alle weiteren = 3. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei 5/4 der Wellenlänge F3 = c / λ = 340 m/s : (17cm * 4/5) = 2500 Hz F4 = c / λ = 340 m/s : (17cm * 4/7) = 3500 Hz F5 = c / λ = 340 m/s : (17cm * 4/9) = 4500 Hz ...

Dynamische Querschnittsveränderungen Resonanzfrequenzen des nicht querschnittsneutralen Artikulationstraktes lassen sich nicht wie beim neutralen Rohr veranschaulichen beim Sprechen: dynamische Veränderungen des Querschnitts beeinflussen die Frequenzen der Resonanzen Verengung an den Lippen oder an der Glottis: Absenkung der Frequenzen

Formantverschiebung (Perturbation Model)

Spektrale Eigenschaften: Vokale Formanten Einfluss Kieferöffnung auf 1. Formanten: große Öffnung  hoher F1 z.B. / a / kleine Öffnung  niedriger F1 z.B. / i / Einfluss Artikulationsstelle auf den 2. Formanten: vorn an den Lippen  hoher F2 z.B. / i / hinten am Rachen  niedriger F2 z.B. / u / Begriff Formant wurde 1929 von Erich Schumann in seiner Habilitationsschrift in Berlin eingeführt

Sonagramme i, u, a

Zusammenhang zwischen artikulatorischen und akustischen Eigenschaften der Vokale

Spektrale Eigenschaften: Frikative

Spektrale Eigenschaften: Plosive

Spektrale Eigenschaften: Nasale

Überlagerung von Sinuswellen Überlagerund von Sinustönen verschiedener Frequenz  Addition der Einzeltöne = komplexes Signal Einfluss der Phasenlage

Spektralanalyse Grundlage: jedes beliebige komplexe Signal kann in Komponenten zerlegt werden, die nur aus Sinusschwingungen bestehen Summe der Sinusanteil = Gesamtsignal Fourier-Analyse: = schrittweises Abtasten des Signals nach Komponentfrequenzen Vorgehen: 1. Fensterung 2. syst. Vergleich mit Sinusschwingungen der Frequenzen, die in das Fenster passen  Abhängigkeit von Frequenz- und Zeitauflösung Ergebnis: Kurz- oder Langzeitspektrum Kleinste in einem Fenster enthaltene Sinuskomponente: fmin = Abtastrate / Fensterbreite in Punkten = 1 / Fensterbreite in Sekunden (Fensterbreite in Sek = Punkte : Abtastrate) Beispiel: Abtastrate = 16 kHz, Fensterbreite = 512 fmin = 16000 : 512 = 1 : 0.032 = 31.25 Hz = Bandbreite Frequenzintervall = fmin 2. Sinuskomponente = 2 * fmin = 62.5 Hz 3. Sinuskomponente = 3 * fmin = 93.75 Hz usw. Frequenzmaximum = fmax = Nyquist-Frequenz = 16000 : 2 = 8000 Anzahl der abgetasteten Sinuskomponenten = 8000 / fmin = 8000 : 31.25 = 256 (= Hälfte der Fensterbreite)

Aneinanderreihung vieler Kurzzeitspektren Spektrogramm Aneinanderreihung vieler Kurzzeitspektren zusätzlich zeitliche Dimension Darstellung quasi-dreidimensional (oder seltener als Wasserfallspektrogramm = perspektivisch) dazu notwendig: viele Spektralanalysen in kurzen, sich leicht überlappenden Zeitintervallen  Fensterung

Fensterbreite = zeitliche Auflösung Fensterung notwendig, weil das Signal (normalerweise) nicht periodisch ist, aber nur periodische Signale per Fourieranalyse in ihre Komponenten zerlegt werden können Fensterung = zeitliche Aufteilung des Signals in gleich große Abschnitte, von denen jeder als periodisch angesehen wird Analyse wird für jedes Fenster durchgeführt, sodass für jeden Abschnitt als Ergebnis ein Spektrum vorliegt Fensterbreite = zeitliche Auflösung bestimmt die Frequenzauflösung (indirekt proportional) nicht frei wählbar  muss Zweierpotenz sein an den Rändern des Fensters kommt es zu Störungen Störungen: = abrupte Amplitudenänderungen, falls nicht zufällig die gewählte Fensterbreite der Dauer einer Periode oder einem ganzzahligen Vielfachen davon entspricht Auswirkungen: Spektrum enthält Nebengipfel, die nicht im Signal vorhanden sind Abhilfe: statt Rechteckfenster – Fenster mit kontinuierlich steigenden und fallenden Rändern (z.B. Hamming, Hanning, Blackman ...)

Fensterfunktionen Arten Kriterien Rechteck Dreieck Hamming Hanning Blackman Weitere Kriterien Symmetrie Breite der Hauptkeule (möglichst schmal) Anzahl und Amplituden der Nebenkeulen (mögl. niedrige Ampl.) Maximaler Abtastfehler

Bild Fenstertypen Eigenschaften werden im Frequenzgang sichtbar

Grundfrequenzanalyse

Auslenkung Geschwindigkeit Beschleunigung (Schnelle) Schalldruck)