Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Gegenstück D/A-Wandlung

Ähnliche Präsentationen


Präsentation zum Thema: "Gegenstück D/A-Wandlung"—  Präsentation transkript:

1 Gegenstück D/A-Wandlung
A/D- und D/A-Wandlung A/D-Wandlung = Digitalisierung analoges Signal wird in ein digitales Signal umgewandelt = Sampling und Quantisierung mittels A/D-Wandler (A/D-Converter = ADC) Auflösung in Bit Geschwindigkeit um digitale Weiterverarbeitung und Speicherung zu ermöglichen Gegenstück D/A-Wandlung mittels D/A-Wandler (D/A-Converter = DAC) Auflösung = Anzahl der Bits, die zur Darstellung des Signals verwendet werden bestimmt den Quantisierungsfehler Auch wichtig: Signal-Rausch-Verhältnis und Dynamikumfang in dB

2 Vom analogen zum digitalen Signal
analoges Signal Abtastung Zeit wird diskret Quantisierung Werte werden diskret

3 Abtastrate = Anzahl der Abtastungen pro Sekunde
Abtastung (Sampling) Input: zeitkontinuierliches und wertekontinierliches Signal Output: zeitdiskretes, wertekontinuierliches Signal Abtastrate = Anzahl der Abtastungen pro Sekunde Def: Registrierung von Messwerten zu diskreten, meist äquidistanten Zeitpunkten Signal: Zeitkontinuierlich  zeitdiskret Bsp: ISDN: Abtastrate 8 kHz Ideale Abtastung: genau zum Abtastzeitpunkt wird der Wert des Signals erfasst Reale Abtastung: ideal nicht möglich  Signal wird über einen Zeitraum um den eigentlichen Abtastzeitpunkt herum akkumuliert (Sample-and-Hold-Schaltung) Rückgewinnung aus dem Spektrum nicht exakt möglich, weil idealer Tiefpassfilter nicht existiert (Flankensteilheit ist begrenzt)  Oversampling

4 Abtastrate / Samplingfrequenz
Signal: 100 Hz Abtastung: oben: 2 kHz mitte: 1 kHz unten: 400 Hz Abtastung erfolgt gleichmäßig = stets in gleichen Intervallen/Abständen

5 für Sprachanalysen übliche Abtastfrequenz: 16 kHz
Abtasttheorem nach Nyquist/Shannon besagt, dass ein analoges Signal nach einer Digitalisierung wieder vollständig rekonstruierbar ist, wenn die Abtastfrequenz mindestens doppelt so hoch wie die größte enthaltene Signalfrequenz ist fabtast > 2 fmax sonst tritt Aliasing auf (hohe Frequenzen werden als niedrigere Frequenzen interpetiert) für Sprachanalysen übliche Abtastfrequenz: 16 kHz weil das Sprachsignal nur Frequenzen bis etwa 7 kHz enthält Zur Vermeidung von Alias-Effekten  Signal vorher tiefpassfiltern  sicher, dass keine zu hohen Frequenzen mehr drin sind - - - > dieses Vorgehen heißt Anti-Aliasing Beispiele, wie ein rekonstruiertes Signal bei verschiedenen Abtastraten aussieht

6 Quantisierung Ist 2. Schritt bei der Digitalisierung (nach Abtastung)
Def: Darstellung einer Größe in einem System, in dem sie nur diskrete Werte annehmen kann Anw: Bild- und Videokompression, Messtechnik, allg. Signalverarbeitung Früher: ablesen, aufschreiben, speichern Heute: nur noch im Computer Probleme: Linearität, Quantisierungsrauschen Je mehr Stufen (Auflösung) – desto kleiner der Quantisierungsfehler

7 Quantisierungsfehler
entsteht sowohl bei A/D- als auch bei D/A-Wandlung durch Ab- und Aufrundung der analogen Werte zu den diskreten Werten (3,2 <> 2 ...) = Rundungsfehler = Abtastfehler, der aus der Differenz zwischen dem tatsächlichen Signalwert und dem quantisierten Wert besteht hörbar und störend, wenn die Amplitude des Signals klein im Verhältnis zum max. darstellbaren digitalen Wert ist  weil geringer Signal-Rausch-Abstand Bsp: Sampler – Ton geht am Ende in knisterndes Rauschen über Qualitätsparameter Signal-Rausch-Abstand SNR theoretisch maximal erreichbar bei: 8-Bit-Wandler: 50 dB 10-Bit-Wandler: 62 dB 12  74, 14  86, 16  98,1, 20  122,2, 24  146,2 dB Zur Verbesserung: nichtlineare Quanten (kleine Werte mit großer Auflösung = viele Bit, große Werte mit kleiner Auflösung = wenig Bit)

8 (meist grafische) Darstellung der Eigenschaften eines Signals
Spektrum (meist grafische) Darstellung der Eigenschaften eines Signals spektrale Eigenschaften = Energie aller enthaltenen Frequenzen eines Signals 200 Hz 100 Hz Linienspektrum

9 Spektren verschiedener Signale
Rechteck: nur ungerade

10 aua Oszillogramm und (Langzeit-)Spektrum

11 Beispiele Signal und Wasserfallspektrogramm
Wasserfalldarstellung

12 Beispiel Spektrogramm
Quasi-3-D-Darstellung

13 Akustische Modelle der Sprachproduktion
Quelle-Filter-Modell Röhrenmodell Perturbation Model (Formantverschiebung)

14 Quelle–Filter–Modell Schematische Darstellung

15 Quelle-Filter-Modell
Quelle = Anregungssignal oder Primärsignal im Kehlkopf erzeugter Primärschall Grundfrequenz mit ihren Vielfachen (Obertöne, Harmonische) Spektrum ähnelt dem Spektrum der Sägezahnschwingung (Dämpfung von -12 dB / Oktave) Filter = Artikulationstrakt Veränderung der Anregungssignals durch Resonanzfrequenzen (Dämpfung bestimmter Frequenzbereiche) Filterfunktion verändert sich ständig mit der Artikulation (aber: Gesamtverstärkung von +6 dB / Oktave) Engstellen wirken als zusätzliche Rauschgeneratoren (nicht-periodische Schwingungen) an den Lippen abgestrahltes Schallsignal = Ergebnis der Faltung von Quellsignal und Filterfunktion gewöhnlich: spectral slope von –6 dB / Oktave Quelle = von den Stimmlippen erzeugte quasiperiodische Schwingungen ist keine Sinusschwingung besteht aus F0 und Obertönen (Harmonischen) hat sehr hohen Schallpegel (theoret. Bis zu 150 dB, kann man nicht messen) normalerweise im Kehlkopf erzeugt, kann aber auch im Mund- und Rachenraum entstehen (z.B. Plosive, Frikative), dann mit flacherem Spektrum unterliegt der Filterfunktion Luftsäule als Sekundärschwinger durch Artikulation vielfältig formbar wird durch das Primärsignal in Schwingung versetzt  Filterung Filter = Artikulationstrakt Resonanzeigenschaften aufgrund der vielfältig gegliederten Oberfläche, weichem Gewebe, Schleimhaut und Schleim Dämpfung aller Teilschwingungen des Primärsignals, hohe f mehr als tiefe  Filterfunktion + 6 dB/Oktave Eigen- und Resonanzfrequenzen  geringere Dämpfung  Formanten Operation: Faltung Spectral slope / spectral tilt = Energieabfall von den tiefen zu den hohen Frequenzen

16 Quelle-Filter-Modell
Breitbandiges Spektrum des Quellsignals Linienspektrum Pegelabfall pro Oktave etwa 12 dB noch ohne Formanten Filterfunktion Ergebnis = Schallabstrahlung an den Lippen

17 Literatur zum Quelle-Filter-Modell
Gunnar Fant (1960): Acoustic theory of speech production Gerold Ungeheuer (1962): Elemente einer akustischen Theorie der Vokalartikulation

18 Röhrenmodell Modellierung des Vokaltrakts aus Rohrstücken mit verschiedenen Durchmessern

19 vereinfachtes Röhrenmodell
Annahme: gesamter Vokaltrakt ist eine homogene Röhre von 17cm Länge Durchmesser ist relativ gering zur Länge gleichbleibender Querschnitt Glottis = schallhartes, geschlossenes Ende  totale Reflexion Lippen = offenes Ende

20 Stehende Wellen entstehen durch Überlagerung von 2 gegenläufigen Wellen (gleiche f, gleiche A) aus 2 Quellen durch Reflexion einer Welle an einem Hindernis Beispiel: einseitig geschlossenes Rohr geschlossene Seite ist Hindernis  Reflexion Anwendung: Musikinstrumente Vermeidung: Konzertsaal Musikinstrumente: Resonanzeffekt wird zur charakteristischen Klangbildung genutzt = erwünscht Konzertsaal: Resonanz ist unerwünscht alle Frequenzen sollen gleichmäßig stark gedämpft werden Computernetzwerk: damit keine Resonanzen in der Leitung auftreten, wird beim Coaxialkabel (BNC, Busstruktur) ein Abschlusswiderstand benötigt Wellenknoten und Wellenbäuche keine fortschreitende Welle mehr da = kein Energietransport mehr möglich

21 sind Energiemaxima im Spektrum
Formanten sind Energiemaxima im Spektrum entstehen aufgrund der Resonanzeigenschaften des Artikulationstraktes abhängig von Größe und Form des Artikulationstraktes sind unabhängig von der Grundfrequenz kennzeichnend für Vokale sind der 1. und 2. Formant bestimmen die Klangfarbe und damit den Vokal sind am stärksten variabel abhängig von Kieferöffnung (F1) und Artikulationsstelle (vorn-hinten, F2) Bandbreite Mittenfrequenz wird als Formantfrequenz angegeben Formanten = Frequenzbänder, die eine höhere Intensität im Spektrum aufweisen Mittenfrequenz ist gleichzeitig die mit der höchsten Energie Bandbreite: Artiklationstrakt ist kein verlustfrei refelektierendes Rohr  keine einzelnen Resonanzfrequenzen, sondern Frequenzbänder = Formanten mit gewisser Bandbreite

22 = 1. Eigenfreuenz (Resonanz, stehende Welle) des Rohres
Berechnung des 1. Formanten des schwa-Lautes (im vereinfachten Röhrenmodell) = 1. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei ¼ der Wellenlänge f = c / λ = 340 m/s : (17cm * 4) = 500 Hz

23 = 2. Eigenfreuenz (Resonanz, stehende Welle) des Rohres
2. Formant = 2. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei ¾ der Wellenlänge f = c / λ = 340 m/s : (17cm * 4/3) = 1500 Hz

24 Rohr mit 1.3.5. stehender Welle

25 3. Formant sowie alle weiteren
= 3. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei 5/4 der Wellenlänge F3 = c / λ = 340 m/s : (17cm * 4/5) = 2500 Hz F4 = c / λ = 340 m/s : (17cm * 4/7) = 3500 Hz F5 = c / λ = 340 m/s : (17cm * 4/9) = 4500 Hz allgemeine Formel: Fn = c (n-1) / 4 L

26 Dynamische Querschnittsveränderungen
Resonanzfrequenzen des nicht querschnittsneutralen Artikulationstraktes lassen sich nicht wie beim neutralen Rohr veranschaulichen beim Sprechen: dynamische Veränderungen des Querschnitts beeinflussen die Frequenzen der Resonanzen Verengung an den Lippen oder Erweiterung an der Glottis: Absenkung der Frequenz des 1. Formanten

27 Einfluss lokaler Querschnittsveränderungen auf die Lage der Formanten
nach Tillmann (1980) Einfluss auf 1. Formanten: Verengung in der vorderen Hälfte (Mitte bis Lippen)  Absenkung Erweiterung in der hinteren Hälfte (Mitte bis Glottis)  Absenkung und umgekehrt Einfluss auf 2. Formanten: Verengung im vorderen Sechstel  Absenkung F2 Erweiterung im hinteren Sechstel  Absenkung F2 Verengung im Drittel vor der Mitte (zu den Lippen hin)  Erhöhung F2 Erweiterung im Drittel nach der Mitte (zur Glottis hin)  Erhöhung F2 Einfluss auf 3. Formanten: Sigma  Querschnittsfläche, L  Rohrlänge

28 Formantverschiebung (Perturbation Model)
Erhöhung (+) bzw. Verminderung (-) der ersten drei Formanten aufgrund der Verschiebung der lokalen Verengung des Artikulationstraktes kann die Lage der Formanten bei Vokalen erklären Ausgangspunkt: Neutralvokal schwa Lage der schwa-Formanten wird verändert durch lokale Querschnittsveränderungen (Perturbationen) durch dieses Modell: Akustisches Vokalsystem = Abbildung der geometrischen Veränderungen gegenüber dem neutralen Rohr in die Verschiebung der Resonanzen aus der Neutrallage daraus folgt: Abb. der artikulatorischen Geometrie  spektrale Eigenschaften des resultierenden Sprachschalls ist eindeutig, aber nicht eineindeutig d.h. ein Schall gegebener spektraler Komposition kann durch sehr verschiedene geometrische Artikulationstraktkonfigurationen (Formen) hervorgebracht werden außerdem: 3 Formanten reichen für die phonetische Analyse aus, weil willkürliche Beeinflussung der Lage ist bei höheren nicht möglich, - weil lokale Veränderungen präzise an eng umgrenzten Stellen statt- finden müssten, die nur bei feinmotorisch komplexen konsonantischen Artikulationen vorkommen können globale Zungenlageveränderungen (Vokale) heben sich wegen ihres wechselseitigen Einflusses gegenseitig auf Und daraus ist herzuleiten: Art der Formanttransitionen bei Plosiven (s. Bild Pomp-Marsh S. 112)

29 Spektrale Eigenschaften: Vokale
Formanten Einfluss Kieferöffnung auf 1. Formanten: große Öffnung  hoher F1 z.B. / a / kleine Öffnung  niedriger F1 z.B. / i / Einfluss Artikulationsstelle auf den 2. Formanten: vorn an den Lippen  hoher F2 z.B. / i / hinten am Rachen  niedriger F2 z.B. / u / Begriff Formant wurde 1929 von Erich Schumann in seiner Habilitationsschrift in Berlin eingeführt

30 Sonagramme i, u, a

31 Zusammenhang zwischen artikulatorischen und akustischen Eigenschaften der Vokale

32 Spektrale Eigenschaften: Glides und Liquide
sind Sonoranten und damit den Vokalen sehr ähnlich periodisch, energiereich, aber etwas schwächer als Vokale größter Teil der Energie steckt in den unteren Formanten Glides = Halbvokale, z.B. /j/ sind transient, haben kürzere stationäre Phase als Vokale Liquide, z.B. /l/ und /r/ sehr ähnlich zu Vokalen, nur sind ihre Formanten etwas schwächer /l/ hat Antiresonanz im Bereich von F2-F4 schwächer als Vokale, weil stärkere Verengung im Vokaltrakt, aber noch nicht so stark, dass hörbares Rauschen entstehen würde

33 Beispiele Liquide, Glides - Sonagramme

34 Spektrale Eigenschaften: Nasale
Ähnlichkeit zu Vokalspektren, aber schwächer weil zusätzliche Dämpfung im Nasenraum Formanten erscheinen nicht nur in 1-kHz-Abständen, sondern etwa alle 850 Hz weil insgesamt größere Länge des Artikulationstraktes F1 bei 250 Hz dominiert, F2 ist sehr schwach, F3 bei 2200 Hz „Antiformanten“ (keine Energie) zwischen Hz bei /m/ bei /n/ über 3 kHz bei /N/ Sprünge im Spektrum bei Zu- und Abschaltung des Nasenraumes (Änderung der Stellung des Gaumensegels = Velum) Dämpfung im Nasenraum ist stark, weil: große Oberfläche  erhöht die Wärmeableitung hohe Viskosität (=zähflüssig)  sehr starke Dämpfung  Formantbandbreiten sind größer als bei anderen Sonoranten Antiformanten: menschliches Hörsystem kann spektrale Nullen nicht gut auflösen  Erkennung des Artikulationsortes passiert mehr über Transitionen sehr oft wird das Gaumensegel schon vor der eigentlichen Nasalartikulation gesenkt  nasale Vokale selten wird das Gaumensegel zu spät gehoben nasalierte Vokale haben eine zusätzliche Resonanz in der Nähe von F1, wobei F1 schwächer wird und seine Frequenz ansteigt

35 Beispiele Nasale - Sonagramme

36 Spektrale Eigenschaften: Frikative
Spektren sind sehr verschieden von denen der Sonoranten: aperiodisch geringere Intensität aufgrund einer starken Verengung im Vokaltrakt, an der starke Verwirbelungen (Turbulenzen) auftreten, die sich in Rauschen äußern größter Teil der Energie in den hohen Frequenzen mit oder ohne Stimmbeteiligung  voice bar

37 keine Stimmbeteiligung  kein Primärschall
Stimmlose Frikative keine Stimmbeteiligung  kein Primärschall Rauschquelle im Artikulationstrakt nur der Teil des Artikulationstraktes, der zwischen Engstelle und Lippenöffnung liegt, wird zum Schwingen angeregt  wenig tieffrequente Anteile im Signal Hochpass-Spektren mit Grenzfrequenz, die ungefähr umgekehrt proportional zur Länge des angeregten Mundraumes ist Intensität: palatale Frikative (s, S ) sind am energiereichsten dentale und labiale Frikative besitzen die geringste Energie alveolare Frikative liegen dazwischen /h/ hat ebenfalls wenig Energie, da an der Glottis normalerweise ein schwächeres Rauschen als bei oralen Konstriktionen erzeugt wird

38 Voice-bar (Stimmbalken)
Stimmhafte Frikative mit Stimmbeteiligung  2 akustische Quellen Primärschall und Rauschen aufgrund der oralen Verengung Voice-bar (Stimmbalken) = energiereiches Frequenzband bei etwa 150 Hz (F0) und können Formantstrukturen aufweisen, falls die stimmliche Anregung alle Resonanzen des Vokaltraktes anregt weitere Eigenschaften: /v/ ist fast periodisch, mit nur geringem Rauschanteil /z/ und /Z/ weisen starke Energie besonders im hochfrequenten Bereich auf (wie /s/ und /S/)

39 Beispiele Frikative - Sonagramme

40 Spektrale Eigenschaften: Plosive
akustisch komplex, kein stationäres Spektrum Phasen: Verschluss, Burst, (Friktion), Aspiration Verschlussphase ist entweder ruhig (keine Energie im Spektrum sichtbar) oder deutliche Voicebar (bei stimmhaften Plosiven) meist geringe Energie für ms während des Verschlusses Phase der Verschlusslösung kurze Geräusch-Explosionsphase regt alle Resonanzfrequenzen an, am stärrksten die, die denen eines Frikativs am gleichen Artikulationsort entsprechen Plosive am Silbenende sind oft ungelöst = kein Burst, keine Aspiration Burst ist bei alveolaren Plosiven breitbandig Loki /t/ bei 3.9 kHz (d etwas tiefer) Bei /k/-Allophonen sehr unterschiedliche Spektren kompakter Peak bei 2.7 kHz vor vorderen Vokalen 3 kHz vor hinteren Vokalen außerdem ein niedrigerer Peak bei 1.8 kHz vor ungerundeten Vokalen 1.2 kHz vor gerundeten Vokalen

41 Plosive II Friktionsphase Aspirationsphase
Friktionsgeräusch an der sich öffnenden Verengung für weitere ms (stimmhaft, bei stimmlosen länger) Anregung höherer Resonanzfrequenzen, weil die Artikulationsposition für den nachfolgenden Sonoranten eingenommen wird Aspirationsphase normalerweise nur bei stimmlosen Plosiven (kann in einigen Sprachen auch bei stimmhaften Plosiven auftreten) nicht-aspirierte Plosive weisen bei tiefen Frequenzen geringe periodische Energie auf

42 Beispiele Plosive - Sonagramme

43 Spektralanalyse Grundlage: jedes beliebige komplexe Signal kann in Komponenten zerlegt werden, die nur aus Sinusschwingungen bestehen Summe der Sinusanteile = Gesamtsignal Fourier-Analyse: = schrittweises Abtasten des Signals nach Komponentfrequenzen Vorgehen: 1. Fensterung 2. syst. Vergleich mit Sinusschwingungen der Frequenzen, die in das Fenster passen  Abhängigkeit von Frequenz- und Zeitauflösung Ergebnis: Kurz- oder Langzeitspektrum Kleinste in einem Fenster enthaltene Sinuskomponente: fmin = Abtastrate / Fensterbreite in Punkten = 1 / Fensterbreite in Sekunden (Fensterbreite in Sek = Punkte : Abtastrate) Beispiel: Abtastrate = 16 kHz, Fensterbreite = 512 fmin = : 512 = 1 : = Hz = Bandbreite Frequenzintervall = fmin 2. Sinuskomponente = 2 * fmin = 62.5 Hz 3. Sinuskomponente = 3 * fmin = Hz usw. Frequenzmaximum = fmax = Nyquist-Frequenz = : 2 = 8000 Anzahl der abgetasteten Sinuskomponenten = 8000 / fmin = 8000 : = 256 (= Hälfte der Fensterbreite)

44 Überlagerung von Sinuswellen
Überlagerung von Sinustönen verschiedener Frequenz  Addition der Einzeltöne = komplexes Signal Einfluss der Phasenlage

45 Aneinanderreihung vieler Kurzzeitspektren
Spektrogramm Aneinanderreihung vieler Kurzzeitspektren zusätzlich zeitliche Dimension Darstellung quasi-dreidimensional (oder seltener als Wasserfallspektrogramm = perspektivisch) dazu notwendig: viele Spektralanalysen in kurzen, sich leicht überlappenden Zeitintervallen  Fensterung Ergebnis: je nach gewählter Zeit- und Frequenzauflösung Schmalbandspektrogramm oder Breitbandspektrogramm

46 Breitbandspektrogramm
zeigt Eigenschaften des Filters = Resonanzfunktion des Artikulationstraktes  Formanten Schmalbandspektrogramm zeigt Eigenschaften des Quellsignals = Harmonische klassisch: >= 300 Hz Bandbreite war Breitbandsonagramm weil: Sonagraph mit festen Filtern gebaut war heute digital alle Zwischenstufen möglich, die sich aus 2er-Potenzen ergeben Grund: Abtasttheorem Fensterung notwendig, weil Signal nicht periodisch ist Fenster hat begrenzte Dauer  max. abtastbare Frequenz vorgegeben z.B. Fensterbreite = 10ms  größte Frequenz = 100 Hz = Bandbreite  Frequenzauflösung (nicht die darstellbare)

47 Fensterbreite = zeitliche Auflösung
Fensterung notwendig, weil das Signal (normalerweise) nicht periodisch ist, aber nur periodische Signale per Fourieranalyse in ihre Komponenten zerlegt werden können Fensterung = zeitliche Aufteilung des Signals in gleich große Abschnitte, von denen jeder als periodisch angesehen wird Analyse wird für jedes Fenster durchgeführt, sodass für jeden Abschnitt als Ergebnis ein Spektrum vorliegt Fensterbreite = zeitliche Auflösung bestimmt die Frequenzauflösung (indirekt proportional) nicht frei wählbar  muss Zweierpotenz sein an den Rändern des Fensters kommt es zu Störungen Störungen: = abrupte Amplitudenänderungen, falls nicht zufällig die gewählte Fensterbreite der Dauer einer Periode oder einem ganzzahligen Vielfachen davon entspricht Auswirkungen: Spektrum enthält Nebengipfel, die nicht im Signal vorhanden sind Abhilfe: statt Rechteckfenster – Fenster mit kontinuierlich steigenden und fallenden Rändern (z.B. Hamming, Hanning, Blackman ...)

48 Fensterfunktionen Arten Kriterien Rechteck Dreieck Hamming Hanning
Blackman sowie weitere, aber am besten ist Gauß Kriterien Symmetrie Breite der Hauptkeule (möglichst schmal) Anzahl und Amplituden der Nebenkeulen (mögl. niedrige Ampl.) Maximaler Abtastfehler

49 Bild Fenstertypen Eigenschaften werden im Frequenzgang sichtbar


Herunterladen ppt "Gegenstück D/A-Wandlung"

Ähnliche Präsentationen


Google-Anzeigen