Berechnung von digitalen Signalen Jonathan Harrington.

Slides:



Advertisements
Ähnliche Präsentationen
Aufbau, Abfrage, Analyse von Sprachdatenbanken
Advertisements

Spektrale Analysen in EMU-R: eine Einführung
Morphem und Allomorph Jonathan Harrington.
Die Satzprosodie Phrasengrenzen, Akzentuierung, Intonation.
Die akustische Analyse von Sprachlauten.
Quellen-Filter Theorie der Sprachproduktion
Die akustische Analyse von Sprachlauten
Spektra von periodischen Signalen. Resonanz.
Formant-Analysen von Vokalen
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen Signalverarbeitung abgeleitete Signale.
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Grundlagen der Analyse von Sprachdatenbanken
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Sommersemester 2007 Bistra Andreeva FR 4.7 Phonetik Universität des Saarlandes Einführung in die Instrumentalphonetik.
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Spektrogramm und Spektrum
Anschließen des Rekorders n Anschließen des Kassetten- oder DAT -Recorders: n Die beiden Ausgänge (line out) des Rekorders werden mit den Eingängen (line.
Einführung in die Phonetik und Phonologie
Spektrogramm und Spektrum Sitzung 8 Welche Konsonanten sind für sich alleine identifizierbar? -Alle Konsonanten ausser [pt] in tippt, weil das [p] nicht.
Laden einer Signaldatei
Aufnahmen n An dem ersten CSL-Gerät ist keine Aufnahme möglich Sitzung 2.
Starten von Multi-Speech Starten des Systems: n PC einschalten n Icon für Multi-Speech auf dem Desktop anklicken n Multi-Speech Main Program wählen Sitzung.
Die akustische Analyse von Sprachlauten
Übung Akustische Phonetik
Logische Vektoren in R Jonathan Harrington.
Spektrale Analysen in EMU-R: eine Einführung Jonathan Harrington.
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Formant-Analysen von Vokalen
Spektrale Analysen in EMU-R: eine Einführung
Mixed Models Jonathan Harrington library(ez) library(lme4)
Formant-Analysen von Vokalen (2) Jonathan Harrington 1, 2 Struktur und Abbildung einer Trackdatei 3, 4. Anwendung von vorhandenen und eigenen Funktionen.
Berechnung von digitalen Signalen
Spektrale Analysen in EMU-R: eine Einführung
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Vokale und die Quantaltheorie
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
1. Satzbetonung, Töne, und Grundfrequenz
Abfragen aus einer Sprachdatenbank Jonathan Harrington.
Prosodie und Intonation: ein Überblick
Frequenz- und Zeitauflösung
Parametrisierung von Spektra
Abfragen aus einer Sprachdatenbank Jonathan Harrington.
Grundlagen der Analyse von Sprachdatenbanken
Etikettierungsebenen Jonathan Harrington. Das Ziel Etikettierungen verschiedener Ebenen aufzubauen, und miteinander zu verlinken.
Die Diskrete-Cosinus-Transformation: Parametrisierung von Signalen in der Zeit und in der Frequenz Jonathan Harrington.
Jonathan Harrington Downstep ist eine phonetische Regel, in der H-Töne in derselben Phrase wegen eines davor kommenden H-Tons gesenkt werden. Die Wirkung.
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Die Nulldurchgangsrate
Histogramm/empirische Verteilung Verteilungen
HLSyn – eine Kurzeinführung
Stimulierzeugung in praat
Die Fourier-Analyse Durch die Fourier-Analyse wird ein Sprachsignal in Sinusoiden zunehmender Frequenz zerlegt, sodass wenn diese summiert werden, das.
Einsatzmöglichkeiten der Sprachsignalverarbeitung
Kalibrierung eines Mikrofons unter DASYLab
Akustische Modelle der Sprachproduktion
Plosive [a d a] [a t a] [a th a]
Übung 4 - MdMT Methoden der Medizintechnik Übung zur Vorlesung Folge 4 – Signale verarbeiten I Audiodaten einlesen.
Von Daniel Schlupf. 1. Seriendruck starten 2. Dokumenttyp wählen Weiter Brief auswählen Weiter.
Verbindung zwischen Praat und EMU Tina John. Etikettierungen: Praat zu EMU labeller 1. Praat Etikettierung4. EMU Etikettierung 2. labConvert: Konvertiert.
3. Sitzung K3.1 Phonetik und Phonologie II
Etikettierungsstrukturen und Abfragen in Emu Jonathan Harrington.
Sommersemester 2012 Bistra Andreeva FR 4.7 Phonetik Universität des Saarlandes Einführung in die Instrumentalphonetik.
ST X : What You Hear Is What You See Acoustics Research Institute of the Austrian Academy of Sciences: A-1010 Wien; Liebiggasse 5. Tel /
Einf. in die Instrumentalphonetik Sommersemester 2015 Bistra Andreeva FR 4.7 Computerlinguistik & Phonetik Universität des Saarlandes
Plosive [a d a] [a t a] [a th a]
Kapitel 6: Einführung in die DFT
Spektrogramm und Spektrum Sitzung 8 Spektrogramm und Spektrum Date ip003rb.wav laden Formantwerte (F1 und F2) vom /a:/ im ‘mal’ ablesen Formantwerte.
Plosive [a d a] [a t a] [a th a]
 Präsentation transkript:

Berechnung von digitalen Signalen Jonathan Harrington

Wenn noch nicht getan, bitte die Formanten für die aetobi Sprachdatenbank berechnen..(und die Formantdateien in einem beliebigen Verzeichnis speichern)

1. Formanten korrigieren 4. Parameter setzen in der Berechnung von Signalen 3. Einige Äußerungen für die Signalverarbeitung auswählen 5. Signalverarbeitung: RMS, ZCR 2. Parameter für Formantberechnungen in weiblichen Stimmen

1. Formanten manuell korrigieren 2. Formantfehler

Die Formanten sind in weiblichen im allgemeinen höher als in männlichen Stimmen. Manchmal werden genauere Formantwerte bei Frauenstimmen durch nominal F1 = 600 Hz (Default = 500 Hz) in der forest Registerkarte erzeugt

3. Manchmal wollen wir die Signalverarbeitung auf einige ausgewählte Äußerungen anwenden… (a) save utterance list (b) Äußerungsliste editieren

load utterance list (c) Äußerungsliste laden

Analog Signale 1. Digitalisierung: Abtasten, Quantisierung Digitale Zeitsignale 2. Anwendung von einem Fenster Zeitsignal-Aufteilung 3. Anwendung von einem Parameter Abgeleitete oder parametrisierte Signale (z.B. Formanten, Grundfrequenz, dB-RMS, ZCR) Praat, Audacity, Wavesurfer EMU-tkassp

Anwendung von einem Fenster Ein Parameter (Formanten, f0, RMS) wird auf eine gewisse Dauer oder Fenster von Punkten angewendet Fensterlänge = die Dauer des Fensters Fensterverschiebung = wie oft soll der Parameter berechnet werden? Meistens alle 5 oder 10 ms. Für Sprachsignale, meistens 10 bis 30 ms = die Mindestdauer von phonetischen Ereignissen wie Plosiv-Verschlüssen, oder -Lösungen Rechteckiges- oder Cosinus-Fenster?

Fensterlänge = 100 ms Fensterverschiebung = 100 ms Parameter (Formanten, F0, RMS usw) Parameter- Wert (Ein Wert pro 100 ms)

Rechteckiges (rectangular) Fenster Das aufgeteilte Signal wird vor der Parameter- Berechnung nicht geändert Parameter- Wert

Ein rechteckiges Fenster hat scharfe Kanten (das Signal beginnt und endet plötzlich), die ein Parameter manchmal beeinflussen. z.B. bei spektralen Berechnungen verursachen diese scharfen Kanten hohe Frequenzen, die mit dem Sprachsignal nichts zu tun haben. Daher werden vor der Berechnung mancher Parameter die Kanten geglättet – durch die Multiplikation mit einem Cosinus-Fenster:

Cosinus-Fenster (Werte liegen zwischen 0 und 1) Signal Signal mit dem Cosinus-Fenster multipliziert Parameter- Wert

Es gibt mehrere Sorten von Cosinus-Fenstern (Hamming, Hanning, Blackman...), die fast die selbe Wirkung haben Ein Cosinus-Fenster wird im Allgemeinen bei Frequenzberechnungen angewendet

dB-RMS (Lautstärke) Lautstärke ist ca. im Verhältnis zum Logarithmus vom Kraft-Mittelwert Kraft = Amplitude Amplitude (der Luftdruckänderungen) Dauer Kraft- Mittelwert Kraft 8 64 Lautstärke (dB-RMS) = log 10 ( ) = 1.46 Bel = 14.6 dB

Fensterlänge 25 ms -Verschiebung 5 ms Fensterlänge 100 ms -Verschiebung 100 ms dB Parameter: Lautstärke (dB-RMS)

ZCR (zero-crossing-rate) oder Nulldurchgangsrate ZCR (in Hz) die Frequenz, mit der das Signal die x-Achse (die Zeit- Achse) schneidet pro Sekunde, dividiert durch 2. Hohe ZCR-Werte: Sprachlaute mit Turbulenz (Frikative, Verschlusslösungen)

Das Signal schneidet die x-Achse ca. 9 Mal in 2 ms = 9/2 Mal pro ms = 9000/2 = 4500 Mal pro Sekunde ZCR = Z / (2t) Hz ca. 2 ms ZCR ist daher ca. 4500/2 ca Hz ZCR (fortgesetzt)

Signale mit hoher Frequenz (wie Frikative und die Lösungen von Plosiven) schneiden die x-Achse mit hoher Frequenz und haben daher hohe ZCR-Werte U s ZCR (Hz)

Ich muss Dieter sagen ZCR (Hz)

Vorgang in der Berechnung von digitalen Signalen Grundfrequenz Formanten dB-RMS (Lautstärke) ZCR (zero-crossing-rate)

1. Parameter auswählen (Für Formanten und f0).

Mit dieser Registerkarten lassen sich die Parameter der jeweiligen Signalberechnung ändern 2. Parameterwerte festlegen

zB forest (Formant-Berechnungen) Fensterlänge Fensterverschiebung Durchschnittlicher F1 (bei weiblichen Stimmen auf 600 – 700 Hz setzen) Fenstersorte

Extension Für jede wav Datei, auf die die Formantberechnungen angewandt wird, wird eine entsprechende Datei mit Extension fms erzeugt, die die Formanten enthält (zB agr001.fms für agr001.wav)

Verzeichnis wählen: wo möchte ich die Signale speichern? 3. Verzeichnis für die erzeugten Signale wählen 4. Signalberechnungen starten

5. Template Datei modifizieren (Damit Emu weiß, wo sich die neuen Signale befinden)