Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Akustische Modelle der Sprachproduktion

Ähnliche Präsentationen


Präsentation zum Thema: "Akustische Modelle der Sprachproduktion"—  Präsentation transkript:

1 Akustische Modelle der Sprachproduktion
Inhalt Grundlagen, Begriffe Signal, System, Frequenz, Amplitude, Phase, Spektrum Abtastung, Quantisierung Akustische Modelle der Sprachproduktion Röhrenmodell Quelle-Filter-Modell Formantverschiebung (Perturbation Model) spektrale Merkmale der Lautklassen Spektralanalyse Grundfrequenzanalyse

2 beschäftigt sich mit der Signalverarbeitung und Sprachkommunikation
Sprachakustik beschäftigt sich mit der Signalverarbeitung und Sprachkommunikation Gebiete: Spracherzeugung, Vokaltraktmodelle Sprachsignalanalyse Sprachwahrnehmung, Sprachverständlichkeit und -güte Sprach- und Toncodierung Sprachsynthese Störsignalunterdrückung, robuste Sprachsignalverarbeitung Spracherkennung Sprechererkennung

3 Grundlagen und Begriffe
Signal analoges (zeit- und wertekontinuierlich) modulierte Signale: amplituden-, frequenzmoduliert digitales (zeitdiskret und wertediskret) Signalparameter Frequenz Amplitude Phase Dämpfung System Spektrum

4 Frequenz, Amplitude, Phase
Frequenz = 1 / Periodendauer = wie oft pro Sekunde wiederholt sich die Schwingung Einheit 1/s = Hertz = Hz Amplitude = Grad der Auslenkung Phase [Grad] = Schwingungszustand der Welle an best. Ort zu best. Zeitpunkt Amplitude = maximale Auslenkung der Schwingung/Welle Bei Schall: Spannung, die vom Mikrofon geliefert wird

5 Wellen mit gleicher Phase
Phasenverschiebung Wellen mit gleicher Phase Wellen mit verschiedener Phasenlage Auslöschung Staubsauger

6 Analoge und digitale Signale

7 Amplitudenmodulation (AM)
amplitudenmoduliertes Signal hochfrequentes Trägersignal niederfrequentes Nutzsignal einfache Erzeugung und Rückgewinnung Träger- und Nutzfrequenz werden multipliziert und dann zur Trägerfrequenz addiert Modulationsgrad wie stark die Amplitude beeinflusst wird Warum Amplitudenmodulation: Um mehrere Nutzsignale gleichzeitig in einem verfügbaren Frequenzband zu übertragen sehr weite Übertragung von niederfrequenten Signalen Beispiel: Rundfunk-AM (Lang-Mittel-Kurzwelle) – jeder Sender 2x4,5kHz = 9 kHz Bandbreite CB-Funk Amateurfunk Flugnavigation Addition = Überlagerung = Interferenz

8 Frequenzmodulation (FM)
frequenzmoduliertes Signal Nutzsignal verändert die Frequenz des Trägersignals (Phase wird ebenfalls beeinflusst) Vorteile gegenüber AM: größerer Dynamikumfang des Nutzsignals möglich geringere Störanfälligkeit Anwendung: Funktechnik: störungsarme, drahtlose Übertragung von Rundfunkprogrammen (UKW), Sprechfunk Fernsehton, bei SECAM auch Farbinformation Videosignal beim Videorekorder (auch Ton bei Hifi-Video) Messtechnik, Rasterverfahren der Drucktechnik Sprechfunk = Handfunkgeräte, Mobilfunkgeräte und Feststationen z.B. CB-Funk, Taxi-Funk, teilweise Bahn-Funk, Walkie-Talkies, BOS-Funk (Behörden und Organisationen), Bündelfunk, Flugfunk, Seefunk, teilweise Amateurfunk ... Rasterverfahren in der Drucktechnik: frequenzmodulierte Rasterung: sehr kleine Bildpunkte, gleiche Größe, unterschiedlich dichte Streuung der Punkte helle Stellen: wenige Punkte, dunkle Stellen: viele Punkte  detailreichere Wiedergabe,  Vermeidung von Moiré-Effekten Ermöglicht geringere Auflösung bei gleicher Qualität Amplitudenmodulierte Rasterung: Variation der Punktgrößen und Rasterwinkel FM in der Natur: best. den charakt. Klangeindruck von Klangkörpern mit großen Flächen (z.B. Glocken, Gong, Röhren, Platten, Bleche) im Unterschied zu eindimensionalen Schwingkörpern (Saiten, Orgelpfeifen) Metallblech = steif, wehrt sich gegen Verbiegen wellenförmiges Metallblech – ist quer zu den Wellen noch steifer

9 Bild FM Modulation: mit einem abstimmbaren Schwingkreis (Änderung der Resonanzfrequenz) Demodulation: erst Amplitude konstant machen (kann durch Übertragungsfehler schwanken, steckt aber keine Info drin) meist nicht direkt, sondern über Umwandlung in AM oder Pulsmodulation Kenngrößen: Frequenzhub (=Änderung der Trägerfrequenz) Änderung des Phasenwinkels

10 Frequenzmoduliertes Signal
Gestrichelt = Nutzsignal Linie = moduliertes Signal Nutzsignal = Kosinus Trägersignal hat 15fache Frequenz des Nutzsignals am Min. des Nutzsignals ist die Frequenz des modulierten Signals am geringsten am Nulldurchgang des Nutzsignals haben unmoduliertes Trägersignal und unmoduliertes Signal die gleiche Frequenz Frequenz des Nutzsignals wird durch die f-Änderung des Trägers bestimmt Amplitude des Trägers ist abhängig von der f-Änderung (Hub) (beide direkt proportional) je größer f und A des Nutzsignals sind, desto mehr Bandbreite wird benötigt

11 ungedämpfte Schwingung gedämpfte Schwingung
Dämpfung ungedämpfte Schwingung in der Natur nicht vorhanden, nur technisch erzeugt gedämpfte Schwingung Normalfall gleichbleibende vs. abnehmende Amplitude je stärker die Dämpfung, desto schneller nimmt die Amplitude ab Ursache: Energieverlust durch Reibung, Wärmeentwicklung ...

12 Systeme in der Signalverarbeitung
Eingangssignal wird verändert wieder ausgegeben Ausgangssignal ist Funktion des Eingangssignals  Übertragungsfunktion  Transformationsvorschrift  Operator Eigenschaften: Komplexität Dynamik Wechselwirkung mit dem Umfeld Determiniertheit Stabilität Energiezufuhr diskret – kontinuierlich zeitvariant – zeitinvariant Linearität geregelt – ungeregelt adaptiv autonom denkend Lernend ...

13 Aufbau eines Systems

14 A/D- und D/A-Wandlung A/D-Wandlung = Digitalisierung analoges Signal wird in ein digitales Signal umgewandelt = Sampling und Quantisierung

15 Abtastung (Sampling) Input: Output:
zeitkontinuierliches und wertekontinierliches Signal Output: zeitdiskretes, wertekontinuierliches Signal

16 Abtastrate / Samplingfrequenz
Signal: 100 Hz Abtastung: oben: 2 kHz mitte: 1 kHz unten: 400 Hz Abtastung erfolgt gleichmäßig = stets in gleichen Intervallen/Abständen

17 für Sprachanalysen übliche Abtastfrequenz: 16 kHz
Abtasttheorem nach Nyquist/Shannon besagt, dass ein analoges Signal nach einer Digitalisierung wieder vollständig rekonstruierbar ist, wenn die Abtastfrequenz mindestens doppelt so hoch wie die größte enthaltene Signalfrequenz ist fabtast > 2 fmax für Sprachanalysen übliche Abtastfrequenz: 16 kHz weil das Sprachsignal nur Frequenzen bis etwa 7 kHz enthält Beispiele, wie ein rekonstruiertes Signal bei verschiedenen Abtastraten aussieht

18 Vom analogen zum digitalen Signal
analoges Signal Abtastung Zeit wird diskret Quantisierung Werte werden diskret

19 Quantisierung Je mehr Stufen (Auflösung) – desto kleiner der Quantisierungsfehler wird auch bei der Bild- und Videokompression angewendet

20 Quantisierungsfehler
entsteht sowohl bei A/D- als auch bei D/A-Wandlung durch Ab- und Aufrundung der analogen Werte zu den diskreten Werten (3,2 <> 2 ...) = Rundungsfehler

21 (meist grafische) Darstellung der Eigenschaften eines Signals
Spektrum (meist grafische) Darstellung der Eigenschaften eines Signals spektrale Eigenschaften = Energie aller enthaltenen Frequenzen eines Signals Linienspektrum

22 Spektren verschiedener Signale
Rechteck: nur ungerade

23 aua

24 Beispiele Signal und Wasserfallspektrogramm
Wasserfalldarstellung

25 Akustische Modelle der Sprachproduktion
Quelle-Filter-Modell Röhrenmodell Perturbation Model (Formantverschiebung)

26 Quelle-Filter-Modell
Quelle = Anregungssignal oder Primärsignal im Kehlkopf erzeugter Primärschall Grundfrequenz mit ihren Vielfachen (Obertöne, Harmonische) Spektrum ähnelt einer Sägezahnschwingung (Dämpfung von -12 dB / Oktave) Filter = Artikulationstrakt Veränderung der Anregungssignals durch Resonanzfrequenzen (Dämpfung bestimmter Frequenzbereiche) Filterfunktion verändert sich ständig mit der Artikulation (aber: Gesamtverstärkung von +6 dB / Oktave) Engstellen wirken als zusätzliche Rauschgeneratoren (nicht-periodische Schwingungen) an den Lippen abgestrahltes Schallsignal = Ergebnis der Faltung von Quellsignal und Filterfunktion gewöhnlich: spectral slope von –6 dB / Oktave Spectral slope / spectral tilt = Energieabfall von den tiefen zu den hohen Frequenzen Quelle = von den Stimmlippen erzeugte quasiperiodische Schwingungen ist keine Sinusschwingung besteht aus F0 und Obertönen (Harmonischen) hat sehr hohen Schallpegel (theoret. Bis zu 150 dB, kann man nicht messen) normalerweise im Kehlkopf erzeugt, kann aber auch im Mund- und Rachenraum entstehen (z.B. Plosive, Frikative), dann mit flacherem Spektrum unterliegt der Filterfunktion Luftsäule als Sekundärschwinger durch Artikulation vielfälig formbar wird durch das Primärsignal in Schwingung versetzt  Filterung Filter = Artikulationstrakt Resonanzeigenschaften aufgrund der vielfältig gegliederten Oberfläche, weichem Gewebe, Schleimhaut und Schleim Dämpfung aller Teilschwingungen des Primärsignals, hohe f mehr als tiefe  Filterfunktion + 6 dB/Oktave Eigen- und Resonanzfrequenzen  geringere Dämpfung  Formanten Operation: Faltung

27 Schematische Darstellung

28 Quelle-Filter-Modell
Breitbandiges Spektrum des Quellsignals Linienspektrum Pegelabfall pro Oktave etwa 12 dB noch ohne Formanten

29 Literatur zum Quelle-Filter-Modell
Gunnar Fant (1960): Acoustic theory of speech production Gerold Ungeheuer (1962): Elemente einer akustischen Theorie der Vokalartikulation

30 sind Energiemaxima im Spektrum
Formanten sind Energiemaxima im Spektrum entstehen aufgrund der Resonanzeigenschaften des Artikulationstraktes abhängig von Größe und Form des Artikulationstraktes sind unabhängig von der Grundfrequenz kennzeichnend für Vokale sind der 1. und 2. Formant bestimmen die Klangfarbe und damit den Vokal sind am stärksten variabel abhängig von Kieferöffnung (F1) und Artikulationsstelle (vorn-hinten, F2) Bandbreite Mittenfrequenz wird als Formantfrequenz angegeben Formanten = Frequenzbänder, die eine höhere Intensität im Spektrum aufweisen Mittenfrequenz ist gleichzeitig die mit der höchsten Energie

31 Röhrenmodell Modellierung des Vokaltrakts aus Rohrstücken mit verschiedenen Durchmessern

32 vereinfachtes Röhrenmodell
Annahme: gesamter Vokaltrakt ist eine homogene Röhre von 17cm Länge Durchmesser ist relativ gering zur Länge gleichbleibender Querschnitt Glottis = schallhartes, geschlossenes Ende  totale Reflexion Lippen = offenes Ende

33 Stehende Wellen entstehen durch Überlagerung von 2 gegenläufigen Wellen (gleiche f, gleiche A) aus 2 Quellen durch Reflexion einer Welle an einem Hindernis Beispiel: einseitig geschlossenes Rohr geschlossene Seite ist Hindernis  Reflexion Anwendung: Musikinstrumente Vermeidung: Konzertsaal Musikinstrumente: Resonanzeffekt wird zur charakteristischen Klangbildung genutzt = erwünscht Konzertsaal: Resonanz ist unerwünscht alle Frequenzen sollen gleichmäßig stark gedämpft werden Computernetzwerk: damit keine Resonanzen in der Leitung auftreten, wird beim Coaxialkabel (BNC, Busstruktur) ein Abschlusswiderstand benötigt Wellenknoten und Wellenbäuche keine fortschreitende Welle mehr da = kein Energietransport mehr möglich

34 = 1. Eigenfreuenz (Resonanz, stehende Welle) des Rohres
Berechnung des 1. Formanten des schwa-Lautes (im vereinfachten Röhrenmodell) = 1. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei ¼ der Wellenlänge f = c / λ = 340 m/s : (17cm * 4) = 500 Hz

35 = 2. Eigenfreuenz (Resonanz, stehende Welle) des Rohres
2. Formant = 2. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei ¾ der Wellenlänge f = c / λ = 340 m/s : (17cm * 4/3) = 1500 Hz

36 Rohr mit 1.3.5. stehender Welle

37 3. Formant sowie alle weiteren
= 3. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei 5/4 der Wellenlänge F3 = c / λ = 340 m/s : (17cm * 4/5) = 2500 Hz F4 = c / λ = 340 m/s : (17cm * 4/7) = 3500 Hz F5 = c / λ = 340 m/s : (17cm * 4/9) = 4500 Hz ...

38 Dynamische Querschnittsveränderungen
Resonanzfrequenzen des nicht querschnittsneutralen Artikulationstraktes lassen sich nicht wie beim neutralen Rohr veranschaulichen beim Sprechen: dynamische Veränderungen des Querschnitts beeinflussen die Frequenzen der Resonanzen Verengung an den Lippen oder an der Glottis: Absenkung der Frequenzen

39 Formantverschiebung (Perturbation Model)

40 Spektrale Eigenschaften: Vokale
Formanten Einfluss Kieferöffnung auf 1. Formanten: große Öffnung  hoher F1 z.B. / a / kleine Öffnung  niedriger F1 z.B. / i / Einfluss Artikulationsstelle auf den 2. Formanten: vorn an den Lippen  hoher F2 z.B. / i / hinten am Rachen  niedriger F2 z.B. / u / Begriff Formant wurde 1929 von Erich Schumann in seiner Habilitationsschrift in Berlin eingeführt

41 Sonagramme i, u, a

42 Zusammenhang zwischen artikulatorischen und akustischen Eigenschaften der Vokale

43 Spektrale Eigenschaften: Frikative

44 Spektrale Eigenschaften: Plosive

45 Spektrale Eigenschaften: Nasale

46 Überlagerung von Sinuswellen
Überlagerund von Sinustönen verschiedener Frequenz  Addition der Einzeltöne = komplexes Signal Einfluss der Phasenlage

47 Spektralanalyse Grundlage: jedes beliebige komplexe Signal kann in Komponenten zerlegt werden, die nur aus Sinusschwingungen bestehen Summe der Sinusanteil = Gesamtsignal Fourier-Analyse: = schrittweises Abtasten des Signals nach Komponentfrequenzen Vorgehen: 1. Fensterung 2. syst. Vergleich mit Sinusschwingungen der Frequenzen, die in das Fenster passen  Abhängigkeit von Frequenz- und Zeitauflösung Ergebnis: Kurz- oder Langzeitspektrum Kleinste in einem Fenster enthaltene Sinuskomponente: fmin = Abtastrate / Fensterbreite in Punkten = 1 / Fensterbreite in Sekunden (Fensterbreite in Sek = Punkte : Abtastrate) Beispiel: Abtastrate = 16 kHz, Fensterbreite = 512 fmin = : 512 = 1 : = Hz = Bandbreite Frequenzintervall = fmin 2. Sinuskomponente = 2 * fmin = 62.5 Hz 3. Sinuskomponente = 3 * fmin = Hz usw. Frequenzmaximum = fmax = Nyquist-Frequenz = : 2 = 8000 Anzahl der abgetasteten Sinuskomponenten = 8000 / fmin = 8000 : = 256 (= Hälfte der Fensterbreite)

48 Aneinanderreihung vieler Kurzzeitspektren
Spektrogramm Aneinanderreihung vieler Kurzzeitspektren zusätzlich zeitliche Dimension Darstellung quasi-dreidimensional (oder seltener als Wasserfallspektrogramm = perspektivisch) dazu notwendig: viele Spektralanalysen in kurzen, sich leicht überlappenden Zeitintervallen  Fensterung

49 Fensterbreite = zeitliche Auflösung
Fensterung notwendig, weil das Signal (normalerweise) nicht periodisch ist, aber nur periodische Signale per Fourieranalyse in ihre Komponenten zerlegt werden können Fensterung = zeitliche Aufteilung des Signals in gleich große Abschnitte, von denen jeder als periodisch angesehen wird Analyse wird für jedes Fenster durchgeführt, sodass für jeden Abschnitt als Ergebnis ein Spektrum vorliegt Fensterbreite = zeitliche Auflösung bestimmt die Frequenzauflösung (indirekt proportional) nicht frei wählbar  muss Zweierpotenz sein an den Rändern des Fensters kommt es zu Störungen Störungen: = abrupte Amplitudenänderungen, falls nicht zufällig die gewählte Fensterbreite der Dauer einer Periode oder einem ganzzahligen Vielfachen davon entspricht Auswirkungen: Spektrum enthält Nebengipfel, die nicht im Signal vorhanden sind Abhilfe: statt Rechteckfenster – Fenster mit kontinuierlich steigenden und fallenden Rändern (z.B. Hamming, Hanning, Blackman ...)

50 Fensterfunktionen Arten Kriterien Rechteck Dreieck Hamming Hanning
Blackman Weitere Kriterien Symmetrie Breite der Hauptkeule (möglichst schmal) Anzahl und Amplituden der Nebenkeulen (mögl. niedrige Ampl.) Maximaler Abtastfehler

51 Bild Fenstertypen Eigenschaften werden im Frequenzgang sichtbar

52 Grundfrequenzanalyse

53 Auslenkung Geschwindigkeit Beschleunigung (Schnelle) Schalldruck)


Herunterladen ppt "Akustische Modelle der Sprachproduktion"

Ähnliche Präsentationen


Google-Anzeigen