Prominenz und Rhythmus

Prominenz und Rhythmus
Klaus J. Kohler IPDS, Kiel Kolloquium WS2007/8 7. November 2007ff

Was konstituiert Rhythmus?
regularisierte Abfolge prominenter und weniger prominenter Silben (siehe Einleitung zum Hörexperiment) prominent = gehörsmäßig hervortretend Welche phonetischen Parameter verantwortlich? 1f 2f

1r 2rf 3rf 3d 3e

Begriffsbestimmungen zu Akzent und Prominenz linguistisch, messphonetisch, perzeptorisch
Wortakzent: August, übersetzen Satzakzent: Anna hat eine abgeschickt. emphatischer Akzent rhythmische Muster: Jambus, Trochäus, Dactylus messphonetisch f0 Dauer Energie dB

perzeptorisch harmonische Tonhöhe: Halbtöne, Tonheit: mel Bark wahrgenommene Lautdauer Lautstärke: phon, Lautheit: sone Prominenz: syntagmatische Kontraste, gebildet aus Tonhöhen-, Dauer- und Lautheitswahrnehmung messphonetische Korrelate der 3 auditiven Faktoren für Prominenz (f0, Dauer, dB) signalisieren auch Tonregister, Sprechgeschwindigkeit, Lautstärke Wahrnehmung synthetisch erzeugter Muster kann auf zwei Ebenen dekodiert werden siehe Ergebnisse des Hörtests

Skalierung der Prominenz
1. Hörexperiment Originalstimulus erste Silbe dupliziert gelängt, 1.15, ebenes f0 124 Hz

Manipulation des Tonhöhenverlaufs

Manipulation der Dauer
zweite Silbe in 3 Schritten zu 10% gelängt und gekürzt die letzten 4 Perioden von Längung ausgenommen

Manipulation der Energie
3 Zeitpunkte in zweiter Silbe Anfang des Plosivs nach Plosivburst Vokalende in CoolEdit Amplituden-Einhüllende über dem zweiten Vokal manipuliert 1. Punkt 100%, 2., 3. Punkt in 1dB-Schritten nach oben und nach unten

Kombination von Pitch- und Dauer- sowie von Pitch- und Amplitudenmanipulation
7 Tonhöhenmuster, einschl. eben 6 Dauern 6 Amplituden jeweils 5 Wiederholungen 7 x 6 x 5 = 210 Stimuli in einem Dauerset und 210 Stimuli in einem Amplitudenset separat randomisiert und in zwei Hörtests präsentiert Amplitudenset zuerst

Hypothesen Erhöhen oder erniedrigen von Pitch, Energie und Dauer im zweiten ba gegenüber dem Referenzstimulus erhöht oder erniedrigt die Prominenz gegenüber dem ersten ba. In der Kombination von Pitch und Energie bzw. Dauer ändert sich der Umkipppunkt mit dem Tonhöhenmuster. Pitch hat den stärksten, Energie den schwächsten Effekt.

Nomenklatur drei Komponenten im Namen: pitch p22, p21, p01, p00, p11, p12, p14 energy Auswahl von 6 aus e22, e21, e00, e11, e12, e13, e14, e15, e16 duration Auswahl von 6 aus d24, d23, d22, d21, d00, d11, d12, d13

Zusammenfassung der Ergebnisse (6 Vpn)
Pitch + Energie Progression der Prominenz von zweiter zu erster Silbe für p22 – p21 – p01 – p11 – p12 – p14 kein Progressionsmuster für Energiezunahme/ abnahme innerhalb einer Tonklasse Pitch ist verantwortlich für die perzeptive Skalierung der Prominenz in diesen Stimuli aber es zeigt sich eine Skalierung in der Klasse p00 (ebenes Muster) von e22 nach e13

Pitch + Dauer entsprechende Progession über die Tonklassen hinweg keine interne Progression gilt auch für p00 überwiegend Prominenz auf erster Silbe Interpretation der Ergebnisse Manipulation der Einhüllenden und der Dauer nur in der zweiten Silbe bringt Interferenz mit den Perzeptionsebenen Lautstärke und Sprechtempo Implementation deutscher Sprachproduktion > Perzeption muss beide Silben verändern

Neues Experiment – Experiment 2
Pitch p21, p01, p00, p11, p14 nach den Ergebnissen des ersten Tests kann p22 durch keinen anderen Parameter zum Umkippen gebracht werden die Unterschiede in Dauer oder Energie müssten so groß sein, dass wieder die anderen Perzeptionsebenen intervenieren p11 und p14 bilden ein kontrastives Paar, daher p12 und p13 zunächst ausgeklammert, um Zahl der Stimuli zu begrenzen

p00 p21 p01 p11 p14

Dauer +20%-20%, +10%-10%, 0-0, -10%+10%, -20%+20% p , nicht -20%+20% p , nicht 5 Stimuli pro Serie Energie 4 Punkte (1) Anfang Stimmhaftigkeit (2) Mitte erster Vokal (3) Mitte zweiter Vokal (4) Ende Stimmhaftigkeit

Einhüllende systematisch verändert an diesen Punkten
(1), (2) 126% (+2dB), 112% (+1dB), 79% (-2dB), 70% (-3dB) komplementär (3), (4) 70%, 79%, 112%, 126% p21 nicht 70–126, 79–112, aber 100–89, p14 nicht 126 – 70, aber 56 – 128 5 Strimuli pro Serie, incl. Original (1) (2) (3) (4) 126 112 100 89 79 70

Anzahl der Stimuli pro Testserie
5 Pitch * 5 Dauer/Energie * 5 Wiederh. = 125 * 2

Ergebnisse: 18 Vpn für Energie, 19 für Pitch
Kein prinzipieller Unterschied zum 1. Exp. Pitch zeigt einen Effekt Dauer und Energie nur marginale Effekte selbst bei ebenem Pitch eher zufällige Antworten, was bedeuten kann, dass gleichbleibender Tonverlauf gleiche Prominenzwahrnehmung hervorruft, die dann zu zufälligen Antworten führt, weil Hörer nicht "gleich" urteilen können große Streuung zwischen Vpn, daher verdecken die Gruppenergebnisse individuelle Strategien

2_dur p00e00d00 p00e00d11 p00e00d12 p00e00d21 Gr1-1 5 4 1 Gr1-2 3 2 Gr1-3 Gr2-1 Gr2-2 Gr2-3 Gr2-4 Gr2-5 Gr3-1 Gr3-2 Gr3-3 Gr3-4 Gr4-1 Gr4-2 Gr4-3 Gr4-4 Gr4-5 Gr4-6 Gr4-7 Total 59 35 57 36 65 29 51 44

offenbar kein einheitliches Entscheidungskriterium für Prominenz in derartigen Experimenten
Kategorie ist den Vpn vielleicht nicht klar sie können sich auf unterschiedliche Parameter konzentrieren, sowohl von Hörer zu Hörer als auch von Wiederholung zu Wiederholung, was zu großer Variabilität führt Skalierung der Prominenz ist auf diesem Wege der kategorialen Klassifikation nicht erreichbar, wenn so viele stärker und schwächer differenzierte Stimuli gemischt werden

Drei Möglichkeiten Kategorisierung, aber nur mit drei Serien, die auch nur in einem Parameter variiert werden 7 Pitch-Werte, e00 d00 7 Energiewerte, p00 d00 7 Dauerwerte, p00 e00 ergibt bei 5 Wiederholungen 105 Stimuli also starke Verkürzung des Tests

Pfitzinger's phonometrische perzeptuelle Skalierung, nach der Hörer einen numerischen Wert der 2. vs. der 1. Silbe zuordnen und die zu bewertenden Stimuli entlang einer geraden Linie anordnen die Hörer definieren also ihr Kriterium selbst, ohne dass es ihnen verbalisiert vorgesetzt wird aus der Anordnung lassen sich Ähnlichkeiten ableiten die drei Parameter werden zunächst einzeln variiert

Prominenz wird abgeleitet aus der Wirkung auf Rhythmuswahrnehmung
Silbenketten ba werden durch f0, Dauer und Energie systematisch gruppiert Hörer sollen entscheiden, ob ein 1er- 2er- oder 3er-Rhythmus vorliegt darüber hinaus, ob er anschwellend oder abschwellend ist (Jambus, Trochaeus, Daktylus) also neue Experimentserien

Experiment 3 Je 1 Serie für Pitch, Energie und Dauer mit 7 Stufen Pitch-Muster p14, p13, p12, p11, p01, p21, p22, wie in den ersten beiden Experimenten Dauer nur im zweiten Vokal verändert, auf p00 wie in Exper1, letzten 4 Perioden ausgenommen keine komplementäre Kürzung/Längung in 1./2. Silbe, wie in Exper2 keine Veränderung des mittleren Konsonanten, da Längung Zögerungseffekte hervorruft -10%, 0, 10%, 20%, 30%, 40%, 50%

Energie als Amplitudeneinhüllende manipuliert
auch nur für die 2. Silbe, wie in Exper1 4 Punkte festgelegt in Stimulus p00 Beginn des 1. Vokals 100% Beginn des mittleren Konsonanten 100% Mitte des 2. Vokals: 100%, +1dB=112%, +2dB=126%, +3dB=141%, +3.5dB=150%, -1dB=89%, -2dB=79% Ende der Stimmh. 100% bzw. 89%, 79%

Drei Gruppen von Vpp Gruppe 1 8 Vpp Reihenfolge Pitch, Energie, Dauer Gruppe 2 Reihenfolge Energie, Dauer, Pitch Gruppe 3 bislang nur 2 Vpp, 1 Vp hat fast nur 1. Silbe Reihenfolge Dauer, Energie, Pitch

Ergebnisse starker Pitcheffekt schwächerer, aber deutlicher Dauereffekt kein Energieeffekt Positionseffekt in der Experimentabfolge

für Energie und Dauer bei Vergleich der Gruppen1,2
für beide Parameter über sämtliche Stimuli mehr Antworten für Prominenz auf 1. Silbe, wenn Pitchserie den ersten Teiltest stellte da deutliche Prominenz durch Pitch auf 2. Silbe fehlt, tendiert das Urteil stärker zur 1. Silbe, umso mehr, wenn vorher Pitchtest kein Positionseffekt für Pitch unterstreicht die Robustheit des Parameters

in Pitchserie p11 50% Urteile in beiden Gruppen
d.h. die beiden Silben sind gleich prominent daraus lässt sich folgern, dass p11 besser geeignet ist für Dauer- und Energiemanipulation p00 hat bereits ein Bias zur ersten Silbe die Neutralisierung der fehlenden finalen Längung durch Pitchbewegung entfällt muss durch Dauer oder Energie bewirkt werden Dauer wird für 2. Silbe so erst versetzt wirksam gilt umso mehr für Energie, wenn schwächerer Parameter

Experiment 4 Stimuli Pitch-Serie wie in Exper3: 7 Stimuli Dauer wieder komplementär in 1. und 2. Silbe verändert, um globale Geschwindigkeit konstant zu halten vom Basisstimulus p11e00d00 aus 3 Längungs- bzw. Kürzungsstufen um jeweils 10% komplementär in den beiden Silben nur Vokaldauer ohne die Plosivlösung , die 1. Periode und die letzten 4 Perioden 7 Stimuli

Manipulation des Tonhöhenverlaufs

Amplitudeneinhüllende ebenfalls komplementär in 1. und 2
Amplitudeneinhüllende ebenfalls komplementär in 1. und 2. Silbe verändert dynamische Veränderung der Einhüllenden über jeder Silbe, um globale Lautheit konstant zu halten für Amplitudenverstärkung lineare Abnahme von erhöhtem Wert am Vokalanfang auf 100% am Vokalende für komplementäre Abschwächung linear von erniedrigtem Wert am Vokalanfang um -1dB am Ende lineare Verbindung über den Verschluss

vom Basisstimulus p11e00d00 aus
3 1dB-Schritte nach oben bzw. nach unten komplementär über jeder Silbe 7 Stimuli dieselben Dauer- und Amplitudenmanipulationen über dem monotonen Basisstimulus p00e00d00 jeweils 7 Stmuli 5 Stimulusserien mit je 7 5 Wiederholungen insgesamt 5*7*5 = 175 Stimuli in 5 Teiltests für jede jeweils eine Serie

Hypothesen Der Basisstimulus p11e00d00 hat equiprominente Silben, daher Zufallsurteil 50%. Die 6 Pitch Veränderungen bewirken einen monotonen Übergang von Prominenz auf 1. zu 2. Silbe, der sich in Urteilen abbildet. Diese Übergänge finden sich auch in der Dauer- und der Amplitudenserie von p11.

Der Basisstimulus p00e00d00 zeigt ein Bias zur Prominenz auf der 1
Der Basisstimulus p00e00d00 zeigt ein Bias zur Prominenz auf der 1. Silbe wegen fehlender finaler Längung die in der Pitchserie durch Tonbewegung kompensiert wird aber in p00 ducrh Dauer- bzw. Amplitude erst ausgeglichen wird daher Zufallsurteil erst für den nächsten Stimulus in den beiden Serien bei Verstärkung der Dauer bzw. der Amplitude in der 2. Silbe. Die Pitchserie weist den schärfsten Übergang auf.

Durchführung des Hörtests
2 Gruppen zu je 8 Hörern mit RMG im Studio in Gruppe 1 hatten 2 Hörer an einem vorangehenden Rhythmushörtest teilgenommen, in Gruppe 2 waren es 5 n = no previous test, t = test folgende Gruppenbildungen für Datenanalyse: Gr1 - Gr2, Gr1n, Gr2n, Gr1t, Gr2t, Grn - Grt jeweils 5 separate Teiltests in einer Sitzung Gruppe 1: p11-Dauer, p11-Amplitude, p00-Dauer p00-Amplitude, Pitch Grupp2: Pitch zwischen den p11 und p00-Serien

Datenanalyse "keine Antwort" extrem selten, 5 von 2800 Reaktionen = 0,18%, forced choice funktionierte Homogenitätstests der Gruppendaten Gr1n, Gr2n, Gr1t, Gr2t für jeden Teiltest Chi2 mit einer Ausnahme nicht signifikant für p00d13-d23, p=0,038

Gr1n und Gr2n verhielten sich offenbar unterschiedlich, nicht aber Gr1t und Gr2t trotz gleichen Unterschieds in der Positionierung der Pitch-Serie und Gr1n und Gr2n verhielten sich bei anderen Serien nicht unterschiedlich Ergebnis kann also als Folge einer zufälligen, nicht eruierbaren Faktorenbündelung betrachtet werden daher lassen sich für die weitere Analyse alle Gruppendaten zusammenfassen

Statistisches Testen der Hypothesen muss das Design der Messwiederholungen und der gepaarten Datensätze von denselben Hörern berücksichtigen Es würde sich ein Testverfahren ANOVA anbieten mit den systematischen Faktoren 'Testserie' und 'Teststimulus' genestet in dem zufälligen Faktor 'Testperson' aber die Daten verteilen sich nicht monoton über die Stimuli einer Serie in den einzelnen Testpersonen 5 Antworten/Stimulus sind hierfür nicht ausreichend

damit entfallen die Intervallskalierung und die Normalverteilung
also muss nicht-parametrisch getestet werden multiple Rangvergleiche nach Wilcoxon-Wilcox in der Version von Dunn-Rankin die Antworten "1. Silbe prominent" eines jeden Sprechers für den Basisstimulus p11e00d00 werden verglichen mit der Summe der Antworten zu den 3 linken und der Summe der 3 rechten Stimuli der Serie

um diese drei Datensätze vergleichbar zu machen, müssen die proportionalen Anteile "1. Silbe" für jeden berechnet werden dasselbe Verfahren wird dann auf die anderen 4 Testserien angewandt zweiseitiges Testen auf dem 5%-Niveau Pitch-Serie linker vs. rechter Block und rechter Block vs. mittlerer Stimulus sind signifikant linker Block vs. mittl. Sti liegt knapp unter der Signifikanzschranke bestätigt Schärfe des Übergangs im Diagramm

p11-Dauer: mittl. Sti vs. linker Block n.s.
p11-Amplitude: mittl. Sti vs. rechter Block n.s. beide p00-Serien: mitl. Sti vs. linker Block n.s. aus diesen Resultaten lässt sich folgern die linken und rechten Blöcke sind stets signifikant verschieden, d.h. das Antwortverhalten der einzelnen Hörer zeigt in allen Testserien einen signifikanten Übergang von Erstsilben- zu Zweitsilbenprominenz

in den p00-Serien geht der mittlere Stimulus mit dem linken Block
in p11-Amplitude mit dem rechten in der Pitch-Serie ist er am deutlichsten getrennt in p11-Dauer war dasselbe zu erwarten wie in p11-Amplitude aber auch hier Gruppierung mit linkem Block vielleicht versteckter Positionseffekt: diese Serie wurde allen Vpp als erste präsentiert Bias zu "1. Silbe" am Anfang des Experiments wegen Erwartung initialer Prominenz im Dt.

zur weiteren Stütze der Ergebnisse multiple Vergleiche
zwischen den mittleren Stimuli in jeder Testserie Hypothese p11-Serien sind signifikant verschieden von den p00-Serien in der Positionierung des mittleren Stimulus im Antwortprofil innerhalb der p11- bzw. p00-Serien keine Signifikanz aber signifikante oder knapp signifikante Trennung zwischen p11e00d00 und p00e00d00 in den verschiedenen Serien

zwischen dem mittleren Sti in den p11-Serien und dem nächsten Sti nach rechts in den p00-Serien
Hypothese sie sind nicht signifikant verschieden, weil sie in den jeweiligen Serien den Zufallspunkt repräsentieren keine Signifikanz, aber p11e00d?? zeigt wieder eine stärkere Tendenz zur ersten Silbe

zwischen dem mittleren Sti in den p00-Serien und dem nächsten Stimulus nach links in den p11-Serien
Hypothese sie sind nicht signifikant verschieden , weil alle den Punkt links vom Zufallspunkt repräsentieren keine Signifikanz sämtliche Hypothesen sind bestätigt

Einbauen von Prominenzmustern in rhythmische Ketten
Silbenfolgen lassen sich durch Pitch, Dauer oder Amplitude und ihre Kombinationen rhythmisch strukturieren als alleiniger Faktor ist Pitch am stärksten eine monotone ba-Kette liefert keine rhythmische Struktur und kann durch den Hörer aktiv kognitiv strukturiert werden sie kann schwanken zwischen Jambus, Trochäus, Daktylus, Anapäst

Wenn die Dauerstrukturierung komplementär über zwei Silben(blöcken) vorgenommen wird, dann beeinträchtigt dies nicht die globalere Tempowahrnehmung. p00e00d00: Vokale 189ms - 189ms p11e00d00: Vokale 189ms - 189ms p00e00d12: Vokale 213ms ms; Distanz 52ms p00e00d22: Vokale 161ms - 213ms: Distanz 52 ms

Ist die Dauerstrukturierung nicht komplementär, dann führt eine Verlängerung zur Wahrnehmung einer Tempoverlangsamung, eine Verkürzung zur Tempobeschleunigung, verglichen mit den gleich langen Silben in p00 oder p11 p00e00d00: Vokale 189ms - 189ms p11e00d00: Vokale 189ms - 189ms p00e00-30pc-Exp1: Vokale 189ms ms; Distanz 41ms p00e00d24-Exp3: Vokale 189ms - 238ms: Distanz 49 ms

Diese Interferenz zwischen Dauer als rhythmischer Strukturfaktor und als Indikator von Sprechtempo zeigt, dass die kognitive Verarbeitung des hereinkommenden Signals auf zwei Ebenen stattfindet die syntagmatische komplementäre Dauerstrukturierung indiziert rhythmische Muster, wenn kein anderer Strukturfaktor (Pitch) aktiv ist in diesen rhythmischen Mustern findet eine Dauerintegration statt, die das Tempo auf einen Wert setzt, der zwischen prominenter und nicht prominenten Silben liegt

dieser Wert liegt bei nicht-komplementärer Änderung höher oder tiefer als bei komplementärer
d.h.in einer nicht komplementär erzeugten Dauerstruktur wird die Abfolge doch komplementär interpretiert dann passt die gekürzte/gelängte Silbe in einen anderen Temporahmen Es ist die Frage, ob dies ein Charakteristikum sog. akzentzählender Sprachen ist und z.B. in den Romanischen Sprachen andere Bedingungen gelten.

Entsprechendes gilt für die Interferenz der Energie zur Markierung rhythmischer Einheiten und Lautstärke. komplementäre Änderung in Exper4 p00e00d00 p00e12d00 p00e22d00 vergleichbare globale Lautsärke

nicht-komplementäre Änderung in Exper3
p00e00d00 p00e12d00-Exp3 global leiser p00e22d00-Exp3 global lauter

Prominenz und Rhythmus

Ähnliche Präsentationen

Präsentation zum Thema: "Prominenz und Rhythmus"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Prominenz und Rhythmus

Ähnliche Präsentationen

Präsentation zum Thema: "Prominenz und Rhythmus"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback