Gegenstück D/A-Wandlung

Slides:



Advertisements
Ähnliche Präsentationen
Spektrale Analysen in EMU-R: eine Einführung
Advertisements

Schall – Töne, Klänge und Geräusche
Eine RDF Konvention für die Beschreibung phonetischer Ressourcen im Semantic Web Hauptseminar: Historisch-Kulturwissenschaftliche Objekte im Semantic Web.
Die akustische Analyse von Sprachlauten.
Quellen-Filter Theorie der Sprachproduktion
Die phonetischen Merkmale von Vokalen
Die akustische Analyse von Sprachlauten
Spektra von periodischen Signalen. Resonanz.
Einf. in die Instrumentalphonetik
Wintersemester 2010 Bistra Andreeva FR 4.7 Phonetik Universität des Saarlandes Einf. in die Instrumentalphonetik.
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
FRIKATIVE Sitzung 9 Welche Konsonanten sind für sich alleine identifizierbar? -Alle Konsonanten ausser [pt] in tippt, weil das [p] nicht gelöst wird und.
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Sitzung 9 FRIKATIVE /Tondateien/Frikative/bach-traegt-wenig-wasser.wav: Der Bach trägt dieses Jahr wenig Wasser. /Tondateien/Frikative/schickt-er-blumengruesse.wav:
Spektrogramm und Spektrum
Einführung in die Phonetik und Phonologie
Spektrogramm und Spektrum Sitzung 8 Welche Konsonanten sind für sich alleine identifizierbar? -Alle Konsonanten ausser [pt] in tippt, weil das [p] nicht.
Die akustische Analyse von Sprachlauten
Übung Akustische Phonetik
Spektrale Analysen in EMU-R: eine Einführung Jonathan Harrington.
Spektrale Analysen in EMU-R: eine Einführung
Hauptseminar: Speaker Characteristics Venice International University
Berechnung von digitalen Signalen
Berechnung von digitalen Signalen Jonathan Harrington.
Spektrale Analysen in EMU-R: eine Einführung
Vokale und die Quantaltheorie
Berechnung von stehenden Wellen
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Was ist die artikulatorische Grundlage von Locus-Gleichungen? Hauptseminar: Modelle der Sprachproduktion & - perzeption Dozent: Prof. Dr. Jonathan Harrington.
Was sind die unterschiedlichen Vorhersagen der Quantal Theory (QT) und der Theory of Adaptive Dispersion (TAD) bezüglich der Verteilung der Vokale in den.
Was ist laut Stevens die Beziehung zwischen dem akustischen Signal, distinktiven Merkmalen und dem Lexikon?
Zeitreihenanalyse WS 2004/2005 Michael Hauhs / Gunnar Lischeid
Akustik nur in 7 I.
Akustik Untersuchung des Schalls
Digital Audio Medientyp digital audio representation
Digital Audio Medientyp digital audio representation
Komprimierung von Sprachdaten mit LPC10 auf einem dsPIC
Überlagerung von harmonischen Schwingungen
HLSyn – eine Kurzeinführung
Analyse nach harmonischen Schwingungen
Stimulierzeugung in praat
Die Fourier-Analyse Durch die Fourier-Analyse wird ein Sprachsignal in Sinusoiden zunehmender Frequenz zerlegt, sodass wenn diese summiert werden, das.
Physiologie Frequenz, Amplitude, Phasen
Österreichische Akademie der Wissenschaften (ÖAW) / Institut für Weltraumforschung (IWF) Schmiedlstraße 6, 8042 Graz, Austria, Tel.: +43/316/ ,
AKUSTISCHE PHONETIK.
Analog-Digital Umsetzer NI USB 6009 Blockschaltbild
Akustische Modelle der Sprachproduktion
ISO/OSI Referenzmodell
Kalibrierung eines Mikrofons unter DASYLab
Eine kleine Einführung für Studierende der Psychologie
Sampling, Rekonstruktion
Phonation = Stimmtonerzeugung Anatomisch:
Akustische Modelle der Sprachproduktion
Plosive [a d a] [a t a] [a th a]
Medizinischen Physik V1: Signalaufnahme und Fourieranalyse
6. Sitzung Das menschliche Ohr Anatomie und Funktion
3. Sitzung K3.1 Phonetik und Phonologie II
2. Sitzung K3.1 Phonetik und Phonologie II
ST X : What You Hear Is What You See Acoustics Research Institute of the Austrian Academy of Sciences: A-1010 Wien; Liebiggasse 5. Tel /
Atomphysik für den Schulunterricht
Obertonreihen & stehende Schallwellen
Tutorial Messtechnik - Spektralanalyse, Signaltheorie -
Plosive [a d a] [a t a] [a th a]
4. Sitzung Akustik III K3.1 Phonetik und Phonologie II
Kapitel 6: Einführung in die DFT
Zusammenfassung der Analysekriterien im Oszilogramm
Spektrogramm und Spektrum Sitzung 8 Spektrogramm und Spektrum Date ip003rb.wav laden Formantwerte (F1 und F2) vom /a:/ im ‘mal’ ablesen Formantwerte.
Zusammenfassung der Analysekriterien im Oszilogramm
Plosive [a d a] [a t a] [a th a]
 Präsentation transkript:

Gegenstück D/A-Wandlung A/D- und D/A-Wandlung A/D-Wandlung = Digitalisierung analoges Signal wird in ein digitales Signal umgewandelt = Sampling und Quantisierung mittels A/D-Wandler (A/D-Converter = ADC) Auflösung in Bit Geschwindigkeit um digitale Weiterverarbeitung und Speicherung zu ermöglichen Gegenstück D/A-Wandlung mittels D/A-Wandler (D/A-Converter = DAC) Auflösung = Anzahl der Bits, die zur Darstellung des Signals verwendet werden bestimmt den Quantisierungsfehler Auch wichtig: Signal-Rausch-Verhältnis und Dynamikumfang in dB

Vom analogen zum digitalen Signal analoges Signal Abtastung Zeit wird diskret Quantisierung Werte werden diskret

Abtastrate = Anzahl der Abtastungen pro Sekunde Abtastung (Sampling) Input: zeitkontinuierliches und wertekontinierliches Signal Output: zeitdiskretes, wertekontinuierliches Signal Abtastrate = Anzahl der Abtastungen pro Sekunde Def: Registrierung von Messwerten zu diskreten, meist äquidistanten Zeitpunkten Signal: Zeitkontinuierlich  zeitdiskret Bsp: ISDN: Abtastrate 8 kHz Ideale Abtastung: genau zum Abtastzeitpunkt wird der Wert des Signals erfasst Reale Abtastung: ideal nicht möglich  Signal wird über einen Zeitraum um den eigentlichen Abtastzeitpunkt herum akkumuliert (Sample-and-Hold-Schaltung) Rückgewinnung aus dem Spektrum nicht exakt möglich, weil idealer Tiefpassfilter nicht existiert (Flankensteilheit ist begrenzt)  Oversampling

Abtastrate / Samplingfrequenz Signal: 100 Hz Abtastung: oben: 2 kHz mitte: 1 kHz unten: 400 Hz Abtastung erfolgt gleichmäßig = stets in gleichen Intervallen/Abständen

für Sprachanalysen übliche Abtastfrequenz: 16 kHz Abtasttheorem nach Nyquist/Shannon besagt, dass ein analoges Signal nach einer Digitalisierung wieder vollständig rekonstruierbar ist, wenn die Abtastfrequenz mindestens doppelt so hoch wie die größte enthaltene Signalfrequenz ist fabtast > 2 fmax sonst tritt Aliasing auf (hohe Frequenzen werden als niedrigere Frequenzen interpetiert) für Sprachanalysen übliche Abtastfrequenz: 16 kHz weil das Sprachsignal nur Frequenzen bis etwa 7 kHz enthält Zur Vermeidung von Alias-Effekten  Signal vorher tiefpassfiltern  sicher, dass keine zu hohen Frequenzen mehr drin sind - - - > dieses Vorgehen heißt Anti-Aliasing Beispiele, wie ein rekonstruiertes Signal bei verschiedenen Abtastraten aussieht

Quantisierung Ist 2. Schritt bei der Digitalisierung (nach Abtastung) Def: Darstellung einer Größe in einem System, in dem sie nur diskrete Werte annehmen kann Anw: Bild- und Videokompression, Messtechnik, allg. Signalverarbeitung Früher: ablesen, aufschreiben, speichern Heute: nur noch im Computer Probleme: Linearität, Quantisierungsrauschen Je mehr Stufen (Auflösung) – desto kleiner der Quantisierungsfehler

Quantisierungsfehler entsteht sowohl bei A/D- als auch bei D/A-Wandlung durch Ab- und Aufrundung der analogen Werte zu den diskreten Werten (3,2 <> 2 ...) = Rundungsfehler = Abtastfehler, der aus der Differenz zwischen dem tatsächlichen Signalwert und dem quantisierten Wert besteht hörbar und störend, wenn die Amplitude des Signals klein im Verhältnis zum max. darstellbaren digitalen Wert ist  weil geringer Signal-Rausch-Abstand Bsp: Sampler – Ton geht am Ende in knisterndes Rauschen über Qualitätsparameter Signal-Rausch-Abstand SNR theoretisch maximal erreichbar bei: 8-Bit-Wandler: 50 dB 10-Bit-Wandler: 62 dB 12  74, 14  86, 16  98,1, 20  122,2, 24  146,2 dB Zur Verbesserung: nichtlineare Quanten (kleine Werte mit großer Auflösung = viele Bit, große Werte mit kleiner Auflösung = wenig Bit)

(meist grafische) Darstellung der Eigenschaften eines Signals Spektrum (meist grafische) Darstellung der Eigenschaften eines Signals spektrale Eigenschaften = Energie aller enthaltenen Frequenzen eines Signals 200 Hz 100 Hz Linienspektrum

Spektren verschiedener Signale Rechteck: nur ungerade

aua Oszillogramm und (Langzeit-)Spektrum

Beispiele Signal und Wasserfallspektrogramm Wasserfalldarstellung

Beispiel Spektrogramm Quasi-3-D-Darstellung

Akustische Modelle der Sprachproduktion Quelle-Filter-Modell Röhrenmodell Perturbation Model (Formantverschiebung)

Quelle–Filter–Modell Schematische Darstellung

Quelle-Filter-Modell Quelle = Anregungssignal oder Primärsignal im Kehlkopf erzeugter Primärschall Grundfrequenz mit ihren Vielfachen (Obertöne, Harmonische) Spektrum ähnelt dem Spektrum der Sägezahnschwingung (Dämpfung von -12 dB / Oktave) Filter = Artikulationstrakt Veränderung der Anregungssignals durch Resonanzfrequenzen (Dämpfung bestimmter Frequenzbereiche) Filterfunktion verändert sich ständig mit der Artikulation (aber: Gesamtverstärkung von +6 dB / Oktave) Engstellen wirken als zusätzliche Rauschgeneratoren (nicht-periodische Schwingungen) an den Lippen abgestrahltes Schallsignal = Ergebnis der Faltung von Quellsignal und Filterfunktion gewöhnlich: spectral slope von –6 dB / Oktave Quelle = von den Stimmlippen erzeugte quasiperiodische Schwingungen ist keine Sinusschwingung besteht aus F0 und Obertönen (Harmonischen) hat sehr hohen Schallpegel (theoret. Bis zu 150 dB, kann man nicht messen) normalerweise im Kehlkopf erzeugt, kann aber auch im Mund- und Rachenraum entstehen (z.B. Plosive, Frikative), dann mit flacherem Spektrum unterliegt der Filterfunktion Luftsäule als Sekundärschwinger durch Artikulation vielfältig formbar wird durch das Primärsignal in Schwingung versetzt  Filterung Filter = Artikulationstrakt Resonanzeigenschaften aufgrund der vielfältig gegliederten Oberfläche, weichem Gewebe, Schleimhaut und Schleim Dämpfung aller Teilschwingungen des Primärsignals, hohe f mehr als tiefe  Filterfunktion + 6 dB/Oktave Eigen- und Resonanzfrequenzen  geringere Dämpfung  Formanten Operation: Faltung Spectral slope / spectral tilt = Energieabfall von den tiefen zu den hohen Frequenzen

Quelle-Filter-Modell Breitbandiges Spektrum des Quellsignals Linienspektrum Pegelabfall pro Oktave etwa 12 dB noch ohne Formanten Filterfunktion Ergebnis = Schallabstrahlung an den Lippen

Literatur zum Quelle-Filter-Modell Gunnar Fant (1960): Acoustic theory of speech production Gerold Ungeheuer (1962): Elemente einer akustischen Theorie der Vokalartikulation

Röhrenmodell Modellierung des Vokaltrakts aus Rohrstücken mit verschiedenen Durchmessern

vereinfachtes Röhrenmodell Annahme: gesamter Vokaltrakt ist eine homogene Röhre von 17cm Länge Durchmesser ist relativ gering zur Länge gleichbleibender Querschnitt Glottis = schallhartes, geschlossenes Ende  totale Reflexion Lippen = offenes Ende

Stehende Wellen entstehen durch Überlagerung von 2 gegenläufigen Wellen (gleiche f, gleiche A) aus 2 Quellen durch Reflexion einer Welle an einem Hindernis Beispiel: einseitig geschlossenes Rohr geschlossene Seite ist Hindernis  Reflexion Anwendung: Musikinstrumente Vermeidung: Konzertsaal Musikinstrumente: Resonanzeffekt wird zur charakteristischen Klangbildung genutzt = erwünscht Konzertsaal: Resonanz ist unerwünscht alle Frequenzen sollen gleichmäßig stark gedämpft werden Computernetzwerk: damit keine Resonanzen in der Leitung auftreten, wird beim Coaxialkabel (BNC, Busstruktur) ein Abschlusswiderstand benötigt Wellenknoten und Wellenbäuche keine fortschreitende Welle mehr da = kein Energietransport mehr möglich

sind Energiemaxima im Spektrum Formanten sind Energiemaxima im Spektrum entstehen aufgrund der Resonanzeigenschaften des Artikulationstraktes abhängig von Größe und Form des Artikulationstraktes sind unabhängig von der Grundfrequenz kennzeichnend für Vokale sind der 1. und 2. Formant bestimmen die Klangfarbe und damit den Vokal sind am stärksten variabel abhängig von Kieferöffnung (F1) und Artikulationsstelle (vorn-hinten, F2) Bandbreite Mittenfrequenz wird als Formantfrequenz angegeben Formanten = Frequenzbänder, die eine höhere Intensität im Spektrum aufweisen Mittenfrequenz ist gleichzeitig die mit der höchsten Energie Bandbreite: Artiklationstrakt ist kein verlustfrei refelektierendes Rohr  keine einzelnen Resonanzfrequenzen, sondern Frequenzbänder = Formanten mit gewisser Bandbreite

= 1. Eigenfreuenz (Resonanz, stehende Welle) des Rohres Berechnung des 1. Formanten des schwa-Lautes (im vereinfachten Röhrenmodell) = 1. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei ¼ der Wellenlänge f = c / λ = 340 m/s : (17cm * 4) = 500 Hz

= 2. Eigenfreuenz (Resonanz, stehende Welle) des Rohres 2. Formant = 2. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei ¾ der Wellenlänge f = c / λ = 340 m/s : (17cm * 4/3) = 1500 Hz

Rohr mit 1.3.5. stehender Welle

3. Formant sowie alle weiteren = 3. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei 5/4 der Wellenlänge F3 = c / λ = 340 m/s : (17cm * 4/5) = 2500 Hz F4 = c / λ = 340 m/s : (17cm * 4/7) = 3500 Hz F5 = c / λ = 340 m/s : (17cm * 4/9) = 4500 Hz allgemeine Formel: Fn = c (n-1) / 4 L

Dynamische Querschnittsveränderungen Resonanzfrequenzen des nicht querschnittsneutralen Artikulationstraktes lassen sich nicht wie beim neutralen Rohr veranschaulichen beim Sprechen: dynamische Veränderungen des Querschnitts beeinflussen die Frequenzen der Resonanzen Verengung an den Lippen oder Erweiterung an der Glottis: Absenkung der Frequenz des 1. Formanten

Einfluss lokaler Querschnittsveränderungen auf die Lage der Formanten nach Tillmann (1980) Einfluss auf 1. Formanten: Verengung in der vorderen Hälfte (Mitte bis Lippen)  Absenkung Erweiterung in der hinteren Hälfte (Mitte bis Glottis)  Absenkung und umgekehrt Einfluss auf 2. Formanten: Verengung im vorderen Sechstel  Absenkung F2 Erweiterung im hinteren Sechstel  Absenkung F2 Verengung im Drittel vor der Mitte (zu den Lippen hin)  Erhöhung F2 Erweiterung im Drittel nach der Mitte (zur Glottis hin)  Erhöhung F2 Einfluss auf 3. Formanten: Sigma  Querschnittsfläche, L  Rohrlänge

Formantverschiebung (Perturbation Model) Erhöhung (+) bzw. Verminderung (-) der ersten drei Formanten aufgrund der Verschiebung der lokalen Verengung des Artikulationstraktes kann die Lage der Formanten bei Vokalen erklären Ausgangspunkt: Neutralvokal schwa Lage der schwa-Formanten wird verändert durch lokale Querschnittsveränderungen (Perturbationen) durch dieses Modell: Akustisches Vokalsystem = Abbildung der geometrischen Veränderungen gegenüber dem neutralen Rohr in die Verschiebung der Resonanzen aus der Neutrallage daraus folgt: Abb. der artikulatorischen Geometrie  spektrale Eigenschaften des resultierenden Sprachschalls ist eindeutig, aber nicht eineindeutig d.h. ein Schall gegebener spektraler Komposition kann durch sehr verschiedene geometrische Artikulationstraktkonfigurationen (Formen) hervorgebracht werden außerdem: 3 Formanten reichen für die phonetische Analyse aus, weil willkürliche Beeinflussung der Lage ist bei höheren nicht möglich, - weil lokale Veränderungen präzise an eng umgrenzten Stellen statt- finden müssten, die nur bei feinmotorisch komplexen konsonantischen Artikulationen vorkommen können globale Zungenlageveränderungen (Vokale) heben sich wegen ihres wechselseitigen Einflusses gegenseitig auf Und daraus ist herzuleiten: Art der Formanttransitionen bei Plosiven (s. Bild Pomp-Marsh S. 112)

Spektrale Eigenschaften: Vokale Formanten Einfluss Kieferöffnung auf 1. Formanten: große Öffnung  hoher F1 z.B. / a / kleine Öffnung  niedriger F1 z.B. / i / Einfluss Artikulationsstelle auf den 2. Formanten: vorn an den Lippen  hoher F2 z.B. / i / hinten am Rachen  niedriger F2 z.B. / u / Begriff Formant wurde 1929 von Erich Schumann in seiner Habilitationsschrift in Berlin eingeführt

Sonagramme i, u, a

Zusammenhang zwischen artikulatorischen und akustischen Eigenschaften der Vokale

Spektrale Eigenschaften: Glides und Liquide sind Sonoranten und damit den Vokalen sehr ähnlich periodisch, energiereich, aber etwas schwächer als Vokale größter Teil der Energie steckt in den unteren Formanten Glides = Halbvokale, z.B. /j/ sind transient, haben kürzere stationäre Phase als Vokale Liquide, z.B. /l/ und /r/ sehr ähnlich zu Vokalen, nur sind ihre Formanten etwas schwächer /l/ hat Antiresonanz im Bereich von F2-F4 schwächer als Vokale, weil stärkere Verengung im Vokaltrakt, aber noch nicht so stark, dass hörbares Rauschen entstehen würde

Beispiele Liquide, Glides - Sonagramme

Spektrale Eigenschaften: Nasale Ähnlichkeit zu Vokalspektren, aber schwächer weil zusätzliche Dämpfung im Nasenraum Formanten erscheinen nicht nur in 1-kHz-Abständen, sondern etwa alle 850 Hz weil insgesamt größere Länge des Artikulationstraktes F1 bei 250 Hz dominiert, F2 ist sehr schwach, F3 bei 2200 Hz „Antiformanten“ (keine Energie) zwischen 750-1250 Hz bei /m/ 1450-2200 bei /n/ über 3 kHz bei /N/ Sprünge im Spektrum bei Zu- und Abschaltung des Nasenraumes (Änderung der Stellung des Gaumensegels = Velum) Dämpfung im Nasenraum ist stark, weil: große Oberfläche  erhöht die Wärmeableitung hohe Viskosität (=zähflüssig)  sehr starke Dämpfung  Formantbandbreiten sind größer als bei anderen Sonoranten Antiformanten: menschliches Hörsystem kann spektrale Nullen nicht gut auflösen  Erkennung des Artikulationsortes passiert mehr über Transitionen sehr oft wird das Gaumensegel schon vor der eigentlichen Nasalartikulation gesenkt  nasale Vokale selten wird das Gaumensegel zu spät gehoben nasalierte Vokale haben eine zusätzliche Resonanz in der Nähe von F1, wobei F1 schwächer wird und seine Frequenz ansteigt

Beispiele Nasale - Sonagramme

Spektrale Eigenschaften: Frikative Spektren sind sehr verschieden von denen der Sonoranten: aperiodisch geringere Intensität aufgrund einer starken Verengung im Vokaltrakt, an der starke Verwirbelungen (Turbulenzen) auftreten, die sich in Rauschen äußern größter Teil der Energie in den hohen Frequenzen mit oder ohne Stimmbeteiligung  voice bar

keine Stimmbeteiligung  kein Primärschall Stimmlose Frikative keine Stimmbeteiligung  kein Primärschall Rauschquelle im Artikulationstrakt nur der Teil des Artikulationstraktes, der zwischen Engstelle und Lippenöffnung liegt, wird zum Schwingen angeregt  wenig tieffrequente Anteile im Signal Hochpass-Spektren mit Grenzfrequenz, die ungefähr umgekehrt proportional zur Länge des angeregten Mundraumes ist Intensität: palatale Frikative (s, S ) sind am energiereichsten dentale und labiale Frikative besitzen die geringste Energie alveolare Frikative liegen dazwischen /h/ hat ebenfalls wenig Energie, da an der Glottis normalerweise ein schwächeres Rauschen als bei oralen Konstriktionen erzeugt wird

Voice-bar (Stimmbalken) Stimmhafte Frikative mit Stimmbeteiligung  2 akustische Quellen Primärschall und Rauschen aufgrund der oralen Verengung Voice-bar (Stimmbalken) = energiereiches Frequenzband bei etwa 150 Hz (F0) und können Formantstrukturen aufweisen, falls die stimmliche Anregung alle Resonanzen des Vokaltraktes anregt weitere Eigenschaften: /v/ ist fast periodisch, mit nur geringem Rauschanteil /z/ und /Z/ weisen starke Energie besonders im hochfrequenten Bereich auf (wie /s/ und /S/)

Beispiele Frikative - Sonagramme

Spektrale Eigenschaften: Plosive akustisch komplex, kein stationäres Spektrum Phasen: Verschluss, Burst, (Friktion), Aspiration Verschlussphase ist entweder ruhig (keine Energie im Spektrum sichtbar) oder deutliche Voicebar (bei stimmhaften Plosiven) meist geringe Energie für 20-120 ms während des Verschlusses Phase der Verschlusslösung kurze Geräusch-Explosionsphase regt alle Resonanzfrequenzen an, am stärrksten die, die denen eines Frikativs am gleichen Artikulationsort entsprechen Plosive am Silbenende sind oft ungelöst = kein Burst, keine Aspiration Burst ist bei alveolaren Plosiven breitbandig Loki /t/ bei 3.9 kHz (d etwas tiefer) Bei /k/-Allophonen sehr unterschiedliche Spektren kompakter Peak bei 2.7 kHz vor vorderen Vokalen 3 kHz vor hinteren Vokalen außerdem ein niedrigerer Peak bei 1.8 kHz vor ungerundeten Vokalen 1.2 kHz vor gerundeten Vokalen

Plosive II Friktionsphase Aspirationsphase Friktionsgeräusch an der sich öffnenden Verengung für weitere 10-40 ms (stimmhaft, bei stimmlosen länger) Anregung höherer Resonanzfrequenzen, weil die Artikulationsposition für den nachfolgenden Sonoranten eingenommen wird Aspirationsphase normalerweise nur bei stimmlosen Plosiven (kann in einigen Sprachen auch bei stimmhaften Plosiven auftreten) nicht-aspirierte Plosive weisen bei tiefen Frequenzen geringe periodische Energie auf

Beispiele Plosive - Sonagramme

Spektralanalyse Grundlage: jedes beliebige komplexe Signal kann in Komponenten zerlegt werden, die nur aus Sinusschwingungen bestehen Summe der Sinusanteile = Gesamtsignal Fourier-Analyse: = schrittweises Abtasten des Signals nach Komponentfrequenzen Vorgehen: 1. Fensterung 2. syst. Vergleich mit Sinusschwingungen der Frequenzen, die in das Fenster passen  Abhängigkeit von Frequenz- und Zeitauflösung Ergebnis: Kurz- oder Langzeitspektrum Kleinste in einem Fenster enthaltene Sinuskomponente: fmin = Abtastrate / Fensterbreite in Punkten = 1 / Fensterbreite in Sekunden (Fensterbreite in Sek = Punkte : Abtastrate) Beispiel: Abtastrate = 16 kHz, Fensterbreite = 512 fmin = 16000 : 512 = 1 : 0.032 = 31.25 Hz = Bandbreite Frequenzintervall = fmin 2. Sinuskomponente = 2 * fmin = 62.5 Hz 3. Sinuskomponente = 3 * fmin = 93.75 Hz usw. Frequenzmaximum = fmax = Nyquist-Frequenz = 16000 : 2 = 8000 Anzahl der abgetasteten Sinuskomponenten = 8000 / fmin = 8000 : 31.25 = 256 (= Hälfte der Fensterbreite)

Überlagerung von Sinuswellen Überlagerung von Sinustönen verschiedener Frequenz  Addition der Einzeltöne = komplexes Signal Einfluss der Phasenlage

Aneinanderreihung vieler Kurzzeitspektren Spektrogramm Aneinanderreihung vieler Kurzzeitspektren zusätzlich zeitliche Dimension Darstellung quasi-dreidimensional (oder seltener als Wasserfallspektrogramm = perspektivisch) dazu notwendig: viele Spektralanalysen in kurzen, sich leicht überlappenden Zeitintervallen  Fensterung Ergebnis: je nach gewählter Zeit- und Frequenzauflösung Schmalbandspektrogramm oder Breitbandspektrogramm

Breitbandspektrogramm zeigt Eigenschaften des Filters = Resonanzfunktion des Artikulationstraktes  Formanten Schmalbandspektrogramm zeigt Eigenschaften des Quellsignals = Harmonische klassisch: >= 300 Hz Bandbreite war Breitbandsonagramm weil: Sonagraph mit festen Filtern gebaut war heute digital alle Zwischenstufen möglich, die sich aus 2er-Potenzen ergeben Grund: Abtasttheorem Fensterung notwendig, weil Signal nicht periodisch ist Fenster hat begrenzte Dauer  max. abtastbare Frequenz vorgegeben z.B. Fensterbreite = 10ms  größte Frequenz = 100 Hz = Bandbreite  Frequenzauflösung (nicht die darstellbare)

Fensterbreite = zeitliche Auflösung Fensterung notwendig, weil das Signal (normalerweise) nicht periodisch ist, aber nur periodische Signale per Fourieranalyse in ihre Komponenten zerlegt werden können Fensterung = zeitliche Aufteilung des Signals in gleich große Abschnitte, von denen jeder als periodisch angesehen wird Analyse wird für jedes Fenster durchgeführt, sodass für jeden Abschnitt als Ergebnis ein Spektrum vorliegt Fensterbreite = zeitliche Auflösung bestimmt die Frequenzauflösung (indirekt proportional) nicht frei wählbar  muss Zweierpotenz sein an den Rändern des Fensters kommt es zu Störungen Störungen: = abrupte Amplitudenänderungen, falls nicht zufällig die gewählte Fensterbreite der Dauer einer Periode oder einem ganzzahligen Vielfachen davon entspricht Auswirkungen: Spektrum enthält Nebengipfel, die nicht im Signal vorhanden sind Abhilfe: statt Rechteckfenster – Fenster mit kontinuierlich steigenden und fallenden Rändern (z.B. Hamming, Hanning, Blackman ...)

Fensterfunktionen Arten Kriterien Rechteck Dreieck Hamming Hanning Blackman sowie weitere, aber am besten ist Gauß Kriterien Symmetrie Breite der Hauptkeule (möglichst schmal) Anzahl und Amplituden der Nebenkeulen (mögl. niedrige Ampl.) Maximaler Abtastfehler

Bild Fenstertypen Eigenschaften werden im Frequenzgang sichtbar