Stimulierzeugung in praat

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Aufbau, Abfrage, Analyse von Sprachdatenbanken
Spektrale Analysen in EMU-R: eine Einführung
Elektronisch messen, steuern, regeln
Genetische Algorithmen für die Variogrammanpassung
Die akustische Analyse von Sprachlauten.
Quellen-Filter Theorie der Sprachproduktion
Die akustische Analyse von Sprachlauten
Spektra von periodischen Signalen. Resonanz.
Formant-Analysen von Vokalen
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
FRIKATIVE Sitzung 9 Welche Konsonanten sind für sich alleine identifizierbar? -Alle Konsonanten ausser [pt] in tippt, weil das [p] nicht gelöst wird und.
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Sitzung 9 FRIKATIVE /Tondateien/Frikative/bach-traegt-wenig-wasser.wav: Der Bach trägt dieses Jahr wenig Wasser. /Tondateien/Frikative/schickt-er-blumengruesse.wav:
Spektrogramm und Spektrum
Anschließen des Rekorders n Anschließen des Kassetten- oder DAT -Recorders: n Die beiden Ausgänge (line out) des Rekorders werden mit den Eingängen (line.
Einführung in die Phonetik und Phonologie
Spektrogramm und Spektrum Sitzung 8 Welche Konsonanten sind für sich alleine identifizierbar? -Alle Konsonanten ausser [pt] in tippt, weil das [p] nicht.
Übung Akustische Phonetik
Logische Vektoren in R Jonathan Harrington.
Spektrale Analysen in EMU-R: eine Einführung Jonathan Harrington.
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Spektrale Analysen in EMU-R: eine Einführung
Mixed Models Jonathan Harrington library(ez) library(lme4)
Formant-Analysen von Vokalen (2) Jonathan Harrington 1, 2 Struktur und Abbildung einer Trackdatei 3, 4. Anwendung von vorhandenen und eigenen Funktionen.
Berechnung von digitalen Signalen
Berechnung von digitalen Signalen Jonathan Harrington.
Spektrale Analysen in EMU-R: eine Einführung
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Vokale und die Quantaltheorie
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Frequenz- und Zeitauflösung
Parametrisierung von Spektra
Grundlagen der Analyse von Sprachdatenbanken
Artikulationsstelle, F2-Locus, Locusgleichungen Jonathan Harrington.
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Kapitel 1 Das Schubfachprinzip
Was sind Histogramme? (1)
Digital Audio Medientyp digital audio representation
Digital Audio Medientyp digital audio representation
Komprimierung von Sprachdaten mit LPC10 auf einem dsPIC
Gegenstück D/A-Wandlung
Histogramm/empirische Verteilung Verteilungen
HLSyn – eine Kurzeinführung
Signaltheorie Modulationsarten Betriebsarten Rauschsperren.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Die Fourier-Analyse Durch die Fourier-Analyse wird ein Sprachsignal in Sinusoiden zunehmender Frequenz zerlegt, sodass wenn diese summiert werden, das.
Physiologie Frequenz, Amplitude, Phasen
MATHEMATIK UND AKUSTISCHE SIGNALVERARBEITUNG
Multiraten-Systeme Referenzen Taktratenänderungen sind in der DSV
Herleitung DFT Spektrum zeitdiskretes Signal (periodisch) DFT IDFT
Zusammengestellt von Mag. Raimund Hermann
Akustische Modelle der Sprachproduktion
Fourier-Analyse und technologische Anwendungen
Plosive [a d a] [a t a] [a th a]
Schnittpunkt von zwei Geraden
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
2. Sitzung K3.1 Phonetik und Phonologie II
Tutorial Messtechnik - Spektralanalyse, Signaltheorie -
4. Sitzung Akustik III K3.1 Phonetik und Phonologie II
Kapitel 6: Einführung in die DFT
Spektrogramm und Spektrum Sitzung 8 Spektrogramm und Spektrum Date ip003rb.wav laden Formantwerte (F1 und F2) vom /a:/ im ‘mal’ ablesen Formantwerte.
 Präsentation transkript:

Stimulierzeugung in praat LPC-Resynthese Stimulierzeugung in praat

Synthese durch Anwendung akustischer Theorie Quelle (als Spektrum) Filter-Übertragungsfunktion (hier: Schwa-typisch) Endgültiges Signal durch Multiplikation des Quellspektrums mit der Übertragungsfunktion des Filters (Abbildung aus Pompino-Marschall, 2003) bzw. der Faltung der Zeitsignale

Bislang haben wir uns mit relativ komplizierten Aufbauten, die die Sprechvorgänge so gut wie möglich zu simulieren versuchen, beschäftigt Quellsignal, gefiltert durch eine Reihenschaltung digitaler Filter (Vokale) Quellsignal(e), gefiltert durch Parallelschaltung digitaler Filter (z.B. für Frikative) Dies ist in der Klatt-Formantsynthese so gelöst, und abgeleitet davon in HLSyn Prinzipiell kann man aber ganz trivial z.B. in praat ein beliebiges Quellsignal erzeugen und mit einem beliebigen Filter modifizieren

Beispiel aus dem praat-Tutorial Quelle: pitchTier = Create PitchTier... source 0 0.5 Add point... 0.0 150 Add point... 0.5 100 pulses = To PointProcess Remove points between... 0 0.02 Remove points between... 0.24 0.31 Remove points between... 0.48 0.5 source = To Sound (phonation)... 44100 0.6 0.05 0.7 0.03 3.0 4.0

Create FormantGrid... filter 0 0.5 10 550 1100 60 50 #erzeugt 10 Formanten, beginnend mit 550 Hz, jeder weitere Formant ist 1100 Hz #vom nächstniederen entfernt #(1650, 2750, 3850, 4950, 6050, 7150, 8250, 9350, und 10450 Hz) #Bandbreite beginnt für F1 bei 50, mit Steigerung um jeweils 60 Hz (=Amplitude sinkt) #Änderungen, um eine Art /ba/ zu erzeugen: Remove formant points between... 1 0 0.5 Add formant point... 1 0.00 100 Add formant point... 1 0.05 700 Remove formant points between... 2 0 0.5 Add formant point... 2 0.00 500 Add formant point... 2 0.05 1100 Wenn wir nun Quelle und Filter gleichzeitig markieren, erhalten wir die Option „Filter“. Wegen der Eigenschaften der Quelle erhalten wir eine Art /baʔa/

Filterfunktion als Schlüssel zur Resynthese Die in praat implementierte Filterfunktion erlaubt also die Filterung jedes beliebigen Quellsignals durch jeden beliebigen Filter Um ein „echtes“ Sprachsignal zu resynthetisieren, müssen wir also lediglich -Quell- und Filteranteil trennen -das entstandene Quellsignal mit den dann bekannten Filtereigenschaften modifizieren (filtern) -sowohl Quell- als auch Filteranteil könnten gezielt manipuliert werden -hierfür ist jedoch eine verlässliche Analyse sowohl der Quelle als auch des Filteranteils notwendig (z.B. Formantenanalyse)

Linear Predictive Coding Das Analysefenster hat eine gewisse Breite und enthält n samples LPC versucht, den n-ten Abtastwert vorherzusagen aus den Abtastwerten 1 bis n-1 x‘n weicht ab von xn (dem tatsächlichen x-Wert an Stelle n) Verschiedene Algorithmen (die wir nicht kennen müssen) minimieren diesen Unterschied, in dem sie die Koeffizienten (ak) anpassen; Nur diese Koeffizienten werden gespeichert (Datenreduktion) – Wichtig für uns: diese (opaken) Koeffizienten beschreiben den Filter und man kann aus diesen die Mittenfrequenz und die Bandbreite der Formanten berechnen Jedes digitale Signal ist gesamplet

Linear Predictive Coding In anderen Worten (nach Boersma): das LPC approximiert ein gegebenes Frequenzspektrum durch eine spektrale Übertragungsfunktion mit einer möglichst minimalen Anzahl von spektralen Gipfeln (deren Frequenz und Bandbreite man aus den opaken Koeffizienten ableiten kann) Ergibt eine Approximation des Quellsignals (da die Filterfunktion ja nur geschätzt ist) Filtern Invers Filtern: mit umgedrehter Übertragungsfunktion filtern

Die Quelle-Filter-Trennung funktioniert also umso besser, je realistischer die eingeschätzte Filterfunktion ist Diese ist umso realistischer, je mehr Übereinstimmung zwischen der tatsächlichen Anzahl der Formanten und der erwarteten Anzahl herrscht. Parameter der LPC-Analyse: -Prädiktionsordnung (siehe unten) -Breite des Analysefensters (default 25 ms) -Verschiebung der Analysefenster (default 5 ms) -Präemphasefrequenz (normalerweise 50 Hz; oberhalb dieser Frequenz wird das Spektrum um +6dB/Oktave angehoben, um es „flach“ zu machen, da Spektren natürlicher Sprache gewöhnlich mit -6dB/Oktave abnehmende Amplituden mit zunehmender Frequenz aufweisen) Zur Wahl der richtigen Prädiktionsordnung: Merke: Anzahl der eingeschätzen Formanten ≾ Prädiktionsordnung/2 („number of poles“) Warum? Prädiktionsordnung ≿ Abtastrate[Hz]/1000 Also z.B. Abtastrate=48 kHz  Prädiktionsordnung mindestens 48 (bis zu 50)

Filter bei unterschiedlichen Prädiktionsordnungen Da uns aber maximal die ersten 5 (und nicht 24) Formanten interessieren, und die Wahrscheinlichkeit, dass die Algorithmen Fehler machen, steigt, je höher die Anzahl der zu suchenden Formanten ist, reicht es aus, nur den Bereich bis 5000 Hz (bei Männern) bzw. 5500 Hz (bei Frauen) zu analysieren Warum? In diesen Frequenzbereichen ist mit fünf Formanten zu rechnen, wie man über die äquidistanten Formanten des neutralen Rohrs ableiten kann, die auch als eine Art Durchschnitt der geschlechts-typischen Formantwerte angesehen werden können: Formanten Männer [Hz]: 500, 1500, 2500, 3500, 4500, 5500, ... Formanten Frauen [Hz]: 550, 1650, 2750, 3850, 4950, 6050, ... Resampling: wegen Nyquist-Shannon-Abtasttheorem (fabtast ≥ 2 · fmax) bei Männern 10000 Hz, bei Frauen 11000 Hz

To LPC (burg...) (Prediction order 10, 11, oder 12)

„Filter (inverse)“, um Quasi-Quelle zu extrahieren

/pUp/ Glottale „Quelle“ Rausch-“Quelle“ Rausch-“Quelle“

Quelle und LPC-Filter markieren, „Filter“ Original Synthese

Modifikationen Sind, da die LPC-Koeffizienten „opak“ sind, nur über einen Umweg möglich: LPC-Objekt markieren“To Formant“ Formant-Objekt markierenDown to FormantGrid

z.B. F2 ändern

Original (/pUp/) Synthese (/pYp/) Präemphase- -Änderung als Artefakt

http://bartus.org/akustyk/ Add-on zu praat, das u.a. die LPC-Resynthese wesentlich vereinfacht Ist aber „nur“ eine Scriptsammlung, automatisiert also nur das, was in praat ohnehin möglich ist

Erste Möglichkeit: Globale Änderung

Der Vokal in /pUp/ wird markiert:

Zu Dokumentationszwecken bleibt jeder Zwischenschritt im praat-Objektfenster und kann ggf. gespeichert werden:

weitergehendeTransitionen in der Resynthese erzeugen: Den Auswahlbereich in 10 gleiche Intervalle unterteilen

Die erzeugten Werte werden auch dokumentiert: F1_change F2_change F1old F2_old F1_new F2_new self self+100 421 803 421 903 self self+250 410 808 410 1158 self self+400 413 813 413 1463 self self+400 419 814 419 1614 self self+400 424 810 424 1610 self self+400 426 804 426 1604 self self+400 423 796 423 1596 self self+400 414 789 414 1589 self self+400 397 783 397 1583 self self+400 376 782 376 1582 Zwischen diesen Zielwerten pro Unterabschnitt wird Interpoliert, so dass keine „Brüche“ entstehen

/pUp//pYp/ Wäre auch mit einer „globalen“ Änderung möglich gewesen, da die „Ränder“ (Transitionsphasen) ohnehin interpoliert werden

Sinnvollerer Einsatz /pUp/  /pjUp/

AKUSTYK erlaubt auch die Interpolation zwischen den F1- und F2-Werten zweier gegebener Sounds  Semiautomatische Stimulierzeugung (durch „Create speech continuum...“) „date“ „debt“