Einf. in die Instrumentalphonetik

Einf. in die Instrumentalphonetik
Sommersemester 2010 Bistra Andreeva FR 4.7 Phonetik Universität des Saarlandes

Administrativ Teilnehmerliste andreeva@coli.uni-sb.de
Sitzung 1 Administrativ Teilnehmerliste

3.05. 4.05. 5.05. 10.05. 11.05. 12.05. 13.05. 9-10 10-11 11-12 12-13 13-14 14-15

Kursinhalt Mikrofonaufnahmen
Sitzung 1 Kursinhalt Mikrofonaufnahmen Signaldarstellungen: - Oszillogramm = Mikrofonsignal = Druckwellen - Spektrum - Spektrogramm - Grundfrequenz (= F0) Messungen in den Signaldarstellungen - Dauer (Zeitbereich) - Harmonische, Formanten, Eckfrequenzen (Frequenzbereich) - Grundfrequenz (Zeit- und Frequenzbereich)

Signalverarbeitungsprogramm
Sitzung 1 Signalverarbeitungsprogramm Computerized Speech Lab (CSL) Entropic Signal Processing System (ESPS) mit Waves+ (Visualisierung) PRAAT

Sitzung 1 Literatur Pétursson, M. & Neppert, J. (1991). Elementarbuch der Phonetik. Hamburg: Helmut Buske Verlag. Borden, G., Harris, K. & Raphael, L. (1994). Speech Science Primer. Physiology, Acoustics and Percep-tion of Speech. Baltimore: Williams & Wilkins. Ladefoged, P. (1982). A Course in Phonetics. San Diego: Harcourt Brace Jovanovich.

Erste Schritte in Praat
Sitzung 1 Erste Schritte in Praat Programm starten Doppelklick auf der Ikone Es erscheinen 2 Fenster.

Erste Schritte in Praat
Sitzung 1 Erste Schritte in Praat Signal aufnehmen Wie erkennt man laute/leise Signale? Welche Laute sind meistens lauter als ihre Umgebung?

Sitzung 2 Aufnahmen Anschließen des Mikrofons, bzw. des Kassetten- oder DAT-Recorders Unter NEW: Record mono Sound Abtastrate einstellen (Sampling frequency) - bei Vokalen bzw. F0: 10 kHz - bei Frikativen: 20 kHz Aufnahmedauer (unbegrenzt) Record anklicken Aufnahmepegel einstellen

Aufnahmen Aufnahme starten (record) Aufnahme beenden (stop)
Sitzung 2 Aufnahmen Aufnahme starten (record) Aufnahme beenden (stop) Während der Aufnahme das Aufnahmepegel im Auge behalten Datei benennen (sound markieren und umbennen) Aufnahme speichern (save to list)

Oszillogramm Auch: Mikrofonsignal, Zeitsignal, Drucksignal
Sitzung 2 Oszillogramm Auch: Mikrofonsignal, Zeitsignal, Drucksignal Darstellung des in Spannungsunterschiede umgewandelten Schalldrucksignals x-Achse: Zeit (vgl. Dauer in der Perzeption) y-Achse: Amplitude (vgl. Lautstärke in der Perzeption)

Speichern von Daten Relevanten Signalteil ausschneiden Speichern
Sitzung 2 Speichern von Daten Relevanten Signalteil ausschneiden Speichern

Laden einer Signaldatei
Sitzung 3 Laden einer Signaldatei Datei ip001rb.wav im Verzeichnis InstrPhon laden Read Read from file Im Fenster Objects erscheint die Datei Edit anklicken

Abspielen der Vokale die Vokale markieren und abspielen
Sitzung 3 Abspielen der Vokale die Vokale markieren und abspielen Woran erkennt man die Vokale?

Abspielen der Konsonanten
Sitzung 3 Abspielen der Konsonanten die Konsonanten markieren und abspielen Welche Konsonanten sind für sich alleine identifizierbar? [p] von ‘Peter’, [t] von ‘tippt’ und [k] von ‘Kieler’ markieren, sehen und hören Was haben sie gemeinsam? Welche Position haben sie? In welcher Art von Silben befinden sie sich?

Dauer der Konsonanten messen
Sitzung 3 Dauer der Konsonanten messen Den jeweiligen Laut markieren und Dauer (in Sekunden) ablesen 1 sek = 1000 ms

Schneiden und Konkatenation
Sitzung 3 Schneiden und Konkatenation Die 3 silbeninitiale Plosive in Fenster B kopieren: Signalteil markieren EDIT, copy selection to sound clipboard EDIT, paste after selection - der markierte Signalteil wird eingefügt

Sitzung 3 Hörtest die im Fenster B kopierten Plosive in randomisierter Reihenfolge abspielen Daß wir die Plosive nicht gut voneinander unterscheiden können, hat einen Grund: Die Minimaleinheit, die wir hören, ist eine Silbe!

Phonetische Dauermessungen
Sitzung 4 Phonetische Dauermessungen ip006rb.wav laden “Die Lallphase dauert nicht lange” ip001rb.wav laden “Peter tippt auf die Kieler” - Wie unterscheidet sich [d] in “Die” von [t] in “tippt”? Die zwei [d]-Segmente finden und vergleichen - Was haben sie gemeinsam? - Worin unterscheiden sie sich?

Sitzung 4 Voice Onset Time (VOT) VOT oder Stimmlatenzzeit: die Dauer vom Anfang der Lösung eines Plosivs bis zum Einsatz der Stimmlippenschwingungen VOT von [d] in “dauert” und [t] in “tippt” messen und vergleichen - Wie unterscheidet sich [d] in “Die” von [t] in “tippt”? Faustregel: die VOT-Grenze zwischen dem stimmlosen [t] und dem stimmhaften [d] liegt bei etwa 25 ms (länger bei stimmlosen Plosiven) N.B. Energie auch wichtig: größer für stimmlose Plosive

Variable Lautrealisierungen
Sitzung 4 Variable Lautrealisierungen Vergleiche die beiden [t]’s in “nicht” und “tippt” (Verschlußlösung) ip008rb.wav laden “Breite Karren stören den Betrieb” Vergleiche die [t]’s in “tippt” und in “stören” (Aspiration)

Lautwahrnehmung “nicht lange” markieren und vorspielen Was hört man?
Sitzung 4 Lautwahrnehmung “nicht lange” markieren und vorspielen Was hört man? “Klange”: Es gibt eine Preferenz, sinnvolle Äußerungen (Wörter) wahrzunehmen

Laute im Signal Inhalte der Fenster löschen
Sitzung 4 Laute im Signal Inhalte der Fenster löschen Fenster C aktivieren und löschen: VIEW, DELETE ACTIVE VIEW c:\user(s)\ip002rb.001 in Fenster A laden “Tania kaufte Backpapier” c:\user(s)\ip007rb.001 in Fenster B laden “Junge Leute jammern nicht” Ausgabepegel auf Null stellen Plosive und Vokale im Signal finden

Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Sitzung 5 Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar: x-Achse: Zeit (ms) - vgl. Dauer in der Perzeption y-Achse: Frequenz (Hz) - vgl. Tonhöhe und Klangqualität in der Perzeption Schwärzungsgrad: Energie - vgl. Lautstärke in der Perzeption

Sitzung 5 Grundbegriffe Amplitude: maximale Auslenkung bzw. Abweichung von der Ruhelage (dB) Frequenz: Anzahl der Schwingungen pro Sekunde (Hz) Periodendauer: der zeitliche Abstand zweier benachbarter Maxima (T, ms) Grundfrequenz: die Welle mit der längsten Perioden-dauer (Stimmlippen) Harmonische: sinusförmige Obertöne, deren Frequenzen ganzzahlige Vielfache der Grundfrequenz sind (Stimmlippen); F0=H1; H2= O1 Formanten: Bereiche von Harmonischen, die durch Resonanz eine maximale Intensität erreichen (Vokaltrakt)

Oszillogramm und Spektrogramm
Sitzung 5 Oszillogramm und Spektrogramm Das Oszillogramm kann man als eine Überlagerung von mehreren Harmonischen betrachten Die Harmonischen (als Klangfarbe wahrgenommen) werden durch ihre Frequenz (Kehrwert), ihre Amplitude und ihre Phase (relative Verschiebung zueinander) gekennzeichnet und bestimmen so das komplexe Oszillogramm Die Grundfrequenz (als Tonhöhe wahrgenommen) kann von dem Oszillogramm als die Anzahl der Perioden (sich wiederholenden Signalteile) pro Sekunde berechnet werden: F0 =1/T

Oszillogramm und Spektrogramm
Sitzung 5 Oszillogramm und Spektrogramm ip007rb.wav laden Das Spektrogramm ist eine bessere Darstellung des Signals, wenn man die einzelnen Frequenz-komponenten erkennen möchte. Es stellt die Frequenzbereiche dar, in denen viel Energie vorhanden ist.

Breitband-Spektrogramm
Sitzung 5 Breitband-Spektrogramm ip007rb.wav laden Hohe Auflösung im Zeitbereich, niedrige Auflösung im Frequenzbereich. Einzelne Glottisschläge sind gut sichtbar (die vertikale Linien). Die Formanten sind gut zu erkennen (breite horizontale “Bänder”). Sie sind charakteristisch für die Laute, insb. für Vokale.

Schmalband-Spektrogramm
Sitzung 5 Schmalband-Spektrogramm Unter Spectrum, Spectrogram settings Window length (s) von auf 0.03 ändern Niedrige Auflösung im Zeitbereich, hohe Auflösung im Frequenzbereich. Einzelne Glottisschläge nicht sichtbar. Einzelne Harmonische sind gut zu erkennen (schmale paralelle “Bänder”). Grundfrequenz kann sehr genau berechnet werden aus der n-ten Harmonischen: Wert des n-ten Harmonischen festellen und durch n teilen. (Formanten schwer zu erkennen).

Abgrenzung von Segmenten
Sitzung 5 Abgrenzung von Segmenten Meistens benutzen wir ein Breitband-Spektrogramm, um Laute zu segmentieren. Akustische Ereignisse sind an Laute zuweisbar. Zwischen den Lauten gibt es kontinuierliche Übergange. Diese entstehen dadurch, daß die Artikulatoren Zeit brauchen, um sich von der “typischen” oder Zielposition für einen Laut zur Zielposition des nächsten Lautes zu bewegen. Dabei sind die Artikulatoren (fast) ständig in Bewegung, wobei die Laute sich auch gegenseitig beeinflussen (= Koartikulation). kahl Kiel cool ABER: Paar per pur

Vokale im Spektrogramm
Sitzung 6 Vokale im Spektrogramm stimmhafte Laute ihre Klangcharakteristika sind primär durch die Konfiguration des Vokaltraktes bestimmt der durch Glottisimpulse angeregte Luftstrom (Quelle) wird im Ansatzrohr moduliert (Filter) Veränderung der Resonanzeigenschaften des Ansatzrohres und somit der Resonanzfrequenzen des entstehenden Vokals durch Kehlkopfhöhe, Rachenenge, Zungenposition und -höhe sowie die Lippenstellung typische spektrale Zusammensetzung mit Energiekonzentrationen bei den jeweiligen Resonanzfrequenzen (Formanten)

Vokale im Spektrogramm
Sitzung 6 Vokale im Spektrogramm Vokale [], [] und [] (in “junge”, “jammern” und “nicht”) im Zeitsignal suchen. Was ist der Unterschied zwischen den Vokalen? Mit welchen artikulatorischen Dimensionen hängen F1 und F2 zusammen? Was fällt auf, wenn man sich die Formanten eines Vokals (z.B. []) im Kontext ansieht? Deutliche Formantenstruktur. Vor allem die Positionierung der ersten beiden Formanten (F1 und F2) ist sehr wichtig für unsere Wahrnehmung der Vokale F1: Kieferöffnung; F2: vorne-hinten Onset-, Offsettransitionen und evtl. „steady state“, wenn genug Zeit für die Artikulaton vorhanden ist

Messungen der Formantenwerte
Sitzung 6 Messungen der Formantenwerte Den Cursor in die Mitte des schwarzen Balkens (Formanten) setzen und den Wert rechts neben der roten gestrichelten Linie ablesen Wenn es problematisch ist die Formanten zu erkennen, geht man von vorgegebenen Werten aus, d.h. man verwendet die durchschnittlichen Formantwerte zur Orientierung (diese sind im fast jeden Buch zu finden)

Messungen der Formantenwerte
Sitzung 6 Messungen der Formantenwerte Den Cursor in die Mitte des Vokals setzen über den Menüeintrag ‘Formant' -> ‘Show formants' die Formanten im Spektrogramm anzeigen Wieder über den Menüeintrag ‘Formant' -> ‘Formant listing' den jeweiligen Zeitpunkt sowie F1, F2, F3 und F4 auflisten

Spektrogramm und Spektrum
Sitzung 8 Spektrogramm und Spektrum Datei ip003rb.wav laden Formantwerte (F1 und F2) vom /a:/ im ‘mal’ ablesen Das Spektrogramm zeigt die Veränderung der Energieverteilung im Frequenzbereich Welche Dimensionen stellt das Spektrogramm dar?

Aufrufen des Spektrums
Sitzung 8 Aufrufen des Spektrums den Cursor in die Mitte des zu untersuchenden Vokals setzen. über den Menüeintrag 'Query' -> 'Get cursor' die Position des Cursors anzeigen (am besten die im Fenster angezeigte Zeit kopieren). im 'Praat objects'-Fenster das Spektrogramm auswählen auf ‘To Spectrum (slice)…‘ klicken (es erscheint ein Fenster, in dem die ausgewählte Zeit eingegeben wird) nach 'OK' erscheint das Spektrum im 'Praat objects'-Fenster Mit ‘Draw‘ wird das Spektrum angezeigt.

Aufrufen des Spektrums
Sitzung 8 Aufrufen des Spektrums Das Spektrum stellt 2 Dimensionen dar: x-Achse: Frequenz y-Achse: Energie Das Spektrum zeigt die Energie in den Harmonischen und in den Geräuschkomponenten im gewählten Zeitabschnitt (normalerweise ein kurzer Zeitabschnitt). Bei längeren Zeitabschnitten (z.B. größer als 1 Sekunde) spricht man von einem Langzeitspektrum (Stimmqualitätsmaß)

Sitzung 8 Spektrum Das Spektrogramm kann man als eine Reihe von Spektren betrachten (vgl. Wasserfallspektrogramm) Anregung: Wie im Spektrogramm (welches?) kann man auch im Kurzzeit-Spektrum einzelne Harmonische erkennen, die mit der Anregung zusammenhängen. Die erste Harmonische (H1) ist der Grundton (F0), der mit der Geschwindigkeit der Stimmlippenschwingungen zusammenhängt. Alle anderen Harmonischen sind Vielfache des Grundtons. Die zweite Harmonische wird als der erste Oberton bezeichnet usw. N.B. Die HARMONISCHEN SIND KEINE FORMANTEN!

Sitzung 8 Spektrum Filter: Die Resonanzen des Vokaltrakts (Formanten) kann man im Spektrum von der Hüllkurve ableiten. Dabei muß man darauf achten, daß die Gipfel in der Hüllkurve mit den Harmonischen nicht zusammenfallen. Um Formanten zu finden muß man mit dem Auge bestimmen, wo in der Hüllkurve Maxima vorhanden sind. Dazu benutzt man auch die Amplituden der Harmonischen: Bei der Interpretation sind auch Kenntnisse über den Wert der erwarteten Formanten wichtig

Sitzung 9 FRIKATIVE Die Entstehung der Frikative basiert auf einer Enge-bildung im Mundraum zwischen artikulierendem Organ und der Artikulationsstelle. Diese Verengung unterteilt den Mundraum in einen vorderen und einen hinteren Resonanzraum. Der Luftstrom, der diese Enge passiert, wird turbulent. Luftturbulenzen sind die typischen Schallquellen aller Frikative. Das erzeugte Friktionsgeräusch wirkt als akustische Anregung für beide Resonanzräume. Es wird jedoch überwiegend im vorderen Mundraum moduliert, so daß das Spektrum des am Mund abgestrahlten Frikativ-schalls weitgehend von Größe und Form des vorderen Resonanzraumes abhängt.

Sitzung 9 FRIKATIVE Generell gilt, je größer der vordere Resonanzraum ist, d.h. je weiter hinten die Artikulationsstelle, also der Ort der Engebildung, liegt, desto stärker wird der Schall moduliert und umso ausgeprägter ist sein Spektrum. Während also beim labiodentalen [f] das Spektrum sehr flach ist, weist das velare [x] bereits formant-ähnliche Strukturen auf. Das Frikativspektrum weist wesentlich mehr Intensität in den höheren Frequenzbereichen oberhalb von 2500 Hz auf als in den unteren Frequenzbereichen. Je nach Artikulationsort konzentriert sich dieses 'Rauschen‘ auf bestimmte Frequenzbereiche.

Sitzung 9 FRIKATIVE Ein wichtiges Merkmal besonders zur Unterscheidung der hinteren Artikulationsstellen ist neben den Transitionen die spektrale Zusammensetzung des Frikativschalls, sein Schwerpunkt und seine Gesamtintensität. Das Frikativspektrum wird durch die Passage des frikativen Grundschalls von dem Ort der Engebildung bis zur Mundöffnung geprägt. Je länger die Passage, desto tiefer sind die am Mund abgestrahlten Frequenzen, bzw. ihr Gesamtschwerpunkt. Je weiter hinten die Artikulationsstelle des Frikativs liegt, desto tiefer liegt auf der Frequenzachse die untere Grenze des Frikativschwerpunktes (vgl. [s] und [S]) und desto strukturierter ist das Frikativspektrum (vgl. [f] und [h]).

Sitzung 9 Labiodental [f v] Das Spektrum labiodentaler Frikative ist flach. Ihre Energie ist gleichmäßig über alle Frequenzbereiche verteilt mit einer leichten Energiekonzentration im obersten Frequenzbereich oberhalb von 6000 Hz. [f] und [v] sind - besonders im Vergleich zu [s] und [S] - Frikative geringer Energie.

Sitzung 9 Alveolar [s z] Das Spektrum der alveolaren Frikative weist insgesamt eine sehr hohe Intensität auf. Es gibt eine Energiekonzentration im Bereich von 5000 Hz bis 8000 Hz. Die Untergrenze des Energieschwerpunktes (= Eckfrequenz) kann bei angrenzenden hinteren Vokalen um bis zu 1000 Hz tiefer liegen.

Sitzung 9 Postalveolar [S Z] Postalveolare Frikative weisen im Zeitsignal die stärkste Energie, d.h. die höchste Amplitude auf. Dadurch weisen sie im Sonagramm einen sehr hohen Schwärzungsgrad auf. Ihr Energieschwerpunkt liegt im Bereich von 2500 Hz bis 7000 Hz. Damit liegt ihr Schwerpunkt um bis zu 2500 Hz tiefer als bei den alveolaren Frikativen. Die Schwerpunktsuntergrenze (= Eckfrequenz) variiert ebenfalls je nach angrenzendem Vokal.

Sitzung 9 Palatal [ç j] Palatale Frikative sind wesentlich intensitätsschwächer als alveolare oder postalveolare. Ihr Frequenzschwer-punkt reicht hinunter bis ca Hz und kann bereits formantähnliche Strukturen aufweisen. Damit liegt ihre Schwerpunktuntergrenze über der der postalveolaren Frikative. Dieses Faktum widerspricht dennoch nicht dem Gesetz der artikulatorischen Tiefe, da sich beim postalveolaren Frikativ [S] die vordere Mundraum-passage durch Lippenrundung verlängert. Dadurch liegt dieser, absolut gemessen, von der Mundöffnung weiter hinten als der palatale Frikativ.

Sitzung 9 Velar [x] Der velare Frikativ [x] zeichnet sich durch Friktions-energie bis in die untersten Frequenzbereiche aus und läßt sich dadurch vom palatalen [ç] unterscheiden. Sein Spektrum weist eine relativ gut ausgeprägte formant-ähnliche Struktur auf. Sie variiert zwar in Abhängigkeit von den angrenzenden Vokalen, entspricht aber nicht - anders als beim glottalen /h/ - deren Formantstruktur. Zur Unterscheidung von [x] und [ç] kann im Deutschen der vokalische Kontext hinzugenommen werden, der entscheidet, welches /ch/-Allophon produziert wird, da beide distributive Allophone des Phonems /ch/ sind. So taucht das [x] niemals nach vorderen Vokalen oder initial auf. Das [ç] dagegen kann sowohl initial als auch im Diminuitivsuffix "-chen" nach jedem Vokal auftreten.

Glottal [h] Der glottale Frikativ ist ein stark koartikulierter Laut.
Sitzung 9 Glottal [h] Der glottale Frikativ ist ein stark koartikulierter Laut. Das /h/ bezieht seine Vokalqualitäten aus dem phonetischen Kontext, d.h. sowohl aus dem vorausgehenden als auch dem folgenden Vokal. Auch im vokalischen Kontext zeigen sich im Bereich von 300 Hz bis 2400 Hz keine Transitionen an den Grenzen des Frikativs. Lediglich der dritte Formant F3 scheint konstant und damit unabhängig vom Vokalkontext und /h/-immanent zu sein. Er liegt zwischen 2500 Hz und 2800 Hz.

Einf. in die Instrumentalphonetik

Ähnliche Präsentationen

Präsentation zum Thema: "Einf. in die Instrumentalphonetik"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Einf. in die Instrumentalphonetik

Ähnliche Präsentationen

Präsentation zum Thema: "Einf. in die Instrumentalphonetik"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback