Berechnung von digitalen Signalen

Slides:



Advertisements
Ähnliche Präsentationen
Aufbau, Abfrage, Analyse von Sprachdatenbanken
Advertisements

Spektrale Analysen in EMU-R: eine Einführung
Morphem und Allomorph Jonathan Harrington.
Die Satzprosodie Phrasengrenzen, Akzentuierung, Intonation.
Die akustische Analyse von Sprachlauten.
Quellen-Filter Theorie der Sprachproduktion
Die akustische Analyse von Sprachlauten
Spektra von periodischen Signalen. Resonanz.
Formant-Analysen von Vokalen
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen Signalverarbeitung abgeleitete Signale.
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Spektrogramm und Spektrum
Anschließen des Rekorders n Anschließen des Kassetten- oder DAT -Recorders: n Die beiden Ausgänge (line out) des Rekorders werden mit den Eingängen (line.
Spektrogramm und Spektrum Sitzung 8 Welche Konsonanten sind für sich alleine identifizierbar? -Alle Konsonanten ausser [pt] in tippt, weil das [p] nicht.
Laden einer Signaldatei
Aufnahmen n An dem ersten CSL-Gerät ist keine Aufnahme möglich Sitzung 2.
Laden einer Signaldatei n Datei ip001rb.001 im Verzeichnis /proj/courses/InstrPhon-ss12/DATEN laden Sitzung 3.
Starten von Multi-Speech Starten des Systems: n PC einschalten n Icon für Multi-Speech auf dem Desktop anklicken n Multi-Speech Main Program wählen Sitzung.
Die akustische Analyse von Sprachlauten
Übung Akustische Phonetik
Logische Vektoren in R Jonathan Harrington.
Spektrale Analysen in EMU-R: eine Einführung Jonathan Harrington.
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Formant-Analysen von Vokalen
Spektrale Analysen in EMU-R: eine Einführung
Mixed Models Jonathan Harrington library(ez) library(lme4)
Grundlagen der R Programmiersprache
Berechnung von digitalen Signalen Jonathan Harrington.
Spektrale Analysen in EMU-R: eine Einführung
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Vokale und die Quantaltheorie
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
1. Satzbetonung, Töne, und Grundfrequenz
Abfragen aus einer Sprachdatenbank Jonathan Harrington.
Frequenz- und Zeitauflösung
Parametrisierung von Spektra
Abfragen aus einer Sprachdatenbank Jonathan Harrington.
Grundlagen der Analyse von Sprachdatenbanken
Etikettierungsebenen Jonathan Harrington. Das Ziel Etikettierungen verschiedener Ebenen aufzubauen, und miteinander zu verlinken.
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Die Nulldurchgangsrate
Digital Audio Medientyp digital audio representation
Digital Audio Medientyp digital audio representation
Gegenstück D/A-Wandlung
HLSyn – eine Kurzeinführung
Druckerinstallation HP1050C
Stimulierzeugung in praat
Die Fourier-Analyse Durch die Fourier-Analyse wird ein Sprachsignal in Sinusoiden zunehmender Frequenz zerlegt, sodass wenn diese summiert werden, das.
Bestimmen von Prozentwert, Grundwert und Prozentsatz
Herleitung DFT Spektrum zeitdiskretes Signal (periodisch) DFT IDFT
Analog-Digital Umsetzer NI USB 6009 Blockschaltbild
Analyse von Spektra 2 Jonathan Harrington 1. Wiederholung: Spektra in R einlesen 2. Einige grundlegende Funktionen 3. Zugriff auf Spektralwerte 4. Spektrale-Abbildungen.
Zusammenfassung von Hombert et al (1979) und Löfqvist (1989)
Kalibrierung eines Mikrofons unter DASYLab
Akustische Modelle der Sprachproduktion
Plosive [a d a] [a t a] [a th a]
Übung 4 - MdMT Methoden der Medizintechnik Übung zur Vorlesung Folge 4 – Signale verarbeiten I Audiodaten einlesen.
Verbindung zwischen Praat und EMU Tina John. Etikettierungen: Praat zu EMU labeller 1. Praat Etikettierung4. EMU Etikettierung 2. labConvert: Konvertiert.
Analog-Digital-Wandler
3. Sitzung K3.1 Phonetik und Phonologie II
Etikettierungsstrukturen und Abfragen in Emu Jonathan Harrington.
Sommersemester 2012 Bistra Andreeva FR 4.7 Phonetik Universität des Saarlandes Einführung in die Instrumentalphonetik.
Einf. in die Instrumentalphonetik Sommersemester 2015 Bistra Andreeva FR 4.7 Computerlinguistik & Phonetik Universität des Saarlandes
Plosive [a d a] [a t a] [a th a]
Kapitel 6: Einführung in die DFT
Plosive [a d a] [a t a] [a th a]
 Präsentation transkript:

Berechnung von digitalen Signalen Jonathan Harrington

Analog Signale 1. Digitalisierung: Abtasten, Quantisierung Praat Digitale Zeitsignale EMU-tkassp 2. Anwendung von einem Fenster Zeitsignal-Aufteilung 3. Anwendung von einem Parameter EMU-tkassp Abgeleitete oder parametrisierte Signale (z.B. Formanten, Grundfrequenz)

1. Digitalisierung Abtasten = die digitale Aufteilung der Zeitachse Amplitude Dauer (ms) Die Abtastperiode (T, in Sekunden): die (konstante) Dauer zwischen den digitalen Werten. Hier gibt es ein Punkt pro ms, die Abtastperiode = 0.001 s Die Abtastfrequenz (fs, Hz) = 1/T (T in Sekunden) = 1/0.001 = 1000 Hz

Digitalisierung (fortgesetzt) Quantisierung = Die digitale Aufteilung der Amplituden-Achse 1 2 0 1 4 -1 0 1 2 3 8 -3 –2 –1 0 1 2 3 4 n-bit Quantisierung bedeutet, dass die Amplitudenachse in 2n Stufen aufgeteilt wird bit mögliche Werte der Amplitudenachse Stufen Für die gesprochene Sprache: typischerweise mindestens 12-bit Quantisierung (-2047 bis 2048)

Quantisierung 3-bit Quantisierung, fs = 1000 Hz Dauer (ms) 5 10 15 20 5 10 15 20 -4 -2 2 4 Dauer (ms)

Digitalisierung: Nyquists Theorie (1928) Im digitalen Signal erscheinen nur alle Frequenzen im Analogsignal bis zur Hälfte der Abtastfrequenz z.B. benötigen wir eine Abtastrate von mindestens 30 Hz, um ein Analog-Signal von 15 Hz zu digitalisieren. Eine Faltung ensteht, wenn fs kleiner als 2 x die höchste Frequenz im Analog-Signal ist:

Faltung Dauer (ms) 15 Hz Frequenz (Hz) des Analog-Sinusoids = 1.0 1.0 0.5 0.5 0.0 0.0 -0.5 -0.5 -1.0 -1.0 Dauer (ms) 200 200 400 400 600 600 800 800 1000 1000 15 Hz Frequenz (Hz) des Analog-Sinusoids = Abtastperiode, T, in Sekunden = 1/20 s Abtastrate, fs = 1/T Hz = 20 Hz Frequenz des entsprechenden digitalen Sinusoids = 5 Hz (Bei fs = 20 Hz wird das 15 Hz Sinusoid auf ein 5 Hz Sinusoid gefaltet)

2. Anwendung von einem Fenster Ein Parameter (Formanten, F0, RMS) wird auf eine gewisse Dauer oder Fenster von Punkten angewendet Fensterlänge = die Dauer des Fensters Für Sprachsignale, meistens 10 bis 30 ms = die Mindestdauer von phonetischen Ereignissen wie Plosiv-Verschlüssen, oder -Lösungen Fensterverschiebung = wie oft soll der Parameter berechnet werden? Meistens alle 5 oder 10 ms. Rechteckiges- oder Cosinus-Fenster?

Fensterlänge = 100 ms Fensterverschiebung = 100 ms Parameter (Formanten, F0, RMS usw) Parameter-Wert (Ein Wert pro 100 ms)

Rechteckiges (rectangular) Fenster Das aufgeteilte Signal wird vor der Parameter-Berechnung nicht geändert Parameter-Wert

Ein rechteckiges Fenster hat ‘scharfe’ Kanten (das Signal beginnt und endet plötzlich), die ein Parameter manchmal beeinflussen. z.B. bei spektralen Berechnungen verursachen diese scharfen Kanten hohe Frequenzen, die mit dem Sprachsignal nichts zu tun haben. Daher werden vor der Berechnung mancher Parameter die Kanten geglättet – durch die Multiplikation mit einem Cosinus-Fenster:

Cosinus-Fenster (Werte liegen zwischen 0 und 1) Signal Signal mit dem Cosinus-Fenster multipliziert Parameter-Wert

Ein Cosinus-Fenster wird im Allgemeinen bei Frequenzberechnungen angewendet Es gibt mehrere Sorten von Cosinus-Fenstern (Hamming, Hanning, Blackman...), die fast die selbe Wirkung haben

3. Parameter (werden mit EMU-tkassp berechnet) Grundfrequenz Formanten dB-RMS (Lautstärke) ZCR (zero-crossing-rate) (unterscheidet Frikative von Sonoranten)

dB-RMS (Lautstärke) Lautstärke ist ca. im Verhältnis zum Logarithmus vom Kraft-Mittelwert Kraft = Amplitude2 20 40 60 80 Kraft 8 64 -4 2 4 6 8 Amplitude 29.16667 Kraft- Mittelwert Dauer Lautstärke (dB-RMS) = log10(29.1667) = 1.46 Bel = 14.6 dB

Parameter: Lautstärke (dB-RMS) Fensterlänge 25 ms dB -Verschiebung 5 ms Fensterlänge 100 ms dB -Verschiebung 100 ms

ZCR (zero-crossing-rate) oder Nulldurchgangsrate ZCR (in Hz) die Frequenz, mit der das Signal die x-Achse (die Zeit-Achse) schneidet pro Sekunde, dividiert durch 2. Hohe ZCR-Werte: Laute mit Turbulenz (Frikative, Verschlusslösungen)

ZCR (fortgesetzt) ca. 2 ms ZCR = Z / (2t) Hz ca. 2 ms Das Signal schneidet die x-Achse ca. 9 Mal in 2 ms = 9/2 Mal pro ms = 9000/2 = 4500 Mal pro Sekunde ZCR ist daher ca. 4500/2 ca. 2250 Hz

Signale mit hoher Frequenz (wie Frikative und die Lösungen von Plosiven) schneiden die x-Achse mit hoher Frequenz und haben daher hohe ZCR-Werte U s ZCR (Hz)

Ich muss Dieter sagen ZCR (Hz)

Formanten und f0 berechnen in den ersten 10 Äußerungen der seminar04c Sprachdatenbank.

Formanten und f0 berechnen in den ersten 10 Äußerungen der seminar04c Sprachdatenbank. 1. Utterance list als eine Textdatei (Extension .txt) speichern. Save Utterance list

2. Die Textdatei manipulieren, um die Äußerungen auszusuchen, auf die wir die Signalverarbeitung anwenden wollen.

3. Die manipulierte Textdatei einlesen Load utterance list

4. tkassp starten To tkassp

5. Parameter auswählen (Für Formanten und f0).

6. Parameterwerte festlegen Mit dieser Registerkarten lassen sich die Parameter der jeweiligen Signalberechnung ändern

zB forest (Formant-Berechnungen) Durchschnittlicher F1 (bei weiblichen Stimmen auf 600 – 700 Hz setzen) Fensterverschiebung Fensterlänge Fenstersorte

Extension Für jede wav Datei, auf die die Formantberechnungen angewendet wird, wird eine entsprechende Datei mit Extension fms erzeugt, die die Formanten enthält (zB agr001.fms für agr001.wav)

Verzeichnis wählen: wo möchte ich die Signale speichern? 7. Verzeichnis für die erzeugten Signale wählen Verzeichnis wählen: wo möchte ich die Signale speichern? 8. Signalberechnungen starten

9. Template Datei modifizieren (Damit Emu weiß, wo sich die neuen Signale befinden)

10. EMU aufrufen, Formanten ggf. korrigieren.

Bitte jetzt zur Signalverarbeitung Übung in http://www.phonetik.uni-muenchen.de/~jmh/lehre/emur.htm