Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn,

Ähnliche Präsentationen


Präsentation zum Thema: "Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn,"—  Präsentation transkript:

1 Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn,

2 Sprachsignal Was ist Sprache ? Mathematische Form a Akustische Form Schriftliche Form Signalform eins oder 1

3 Sprachsignal Sprache aus der technischen Sicht Sprache = Sprachsignal (akustisches Signal) das kann man: messen übertragen aufnehmen (archivieren) bearbeiten und verarbeiten (auch on-line)

4 Akustisches Signal p abs (t) P m p ak (t) p abs = P m + p ak Atmosphärendruck P m : langsame Schwankungen hPa Schalldruck p ak : schnelle Schwankungen 20 μPa-0,1 Pa Absolutdruck: t [Tage] t [ms] Abfolge von Luftdruckschwankungen Maßeinheit Pascal 1 Pa = 1 N/m 2

5 Akustisches Signal man unterscheidet: periodische Klänge (Musik, Vogelgesang, Wind,....) nichtperiodische Klänge (Husten, Gewitterdonner,....) Sprache

6 Akustisches Signal Reiner Ton T A s(t) t s(t) = A sin (2π f t + φ) Parameter wahrgenommen als Amplitude A Periode T resp. Frequenz f Phase φ Lautstärke Tonhöhe

7 Akustisches Signal Audio = ich höre (lateinisch) Infraschall Schall Ultraschall unhörbar hörbar unhörbar 16 Hz Hz

8 Akustisches Signal Hörfläche des menschlichen Gehörs Schallquelle: 140 dB Flugzeug beim Start 120 dB Rockgruppe 80 dB belebte Strasse 70 dB normale Unterhaltung 50 dB leise Unterhaltung 30 dB sanftes Flüstern 20 dB Papiergeraschel

9 Akustisches Signal Frequenzbereiche MusikinstrumentFrequenz [Hz] Orgel 15 – Klavier 25 – Kontrabass40 – 250 Trompete 150 – Fagott50 – 500 Piccoloflöte 500 – SpracheFrequenz [Hz] Bühnensprache 80 – Alltagssprache180 – Telefonsprache300 – 3 400

10 Informationsgehalt der Sprache 75 % Inhalt der Sprache Was? 25 % Sprecher: 15 % - Identität Wer? 10 % - Zustand Wie? Gesamtinformation in störungsfreiem Sprachsignal: Nachricht Identität Zustand

11 Spracheingabe

12 Spracherkennung - Vokale Vokal a im Detail · periodische Signalform · hohe Signalenergie · charakterisiert durch Formanten

13 Spracherkennung - Vokale Formanten - lokale Maxima im Spektrum F 1 - F 7 - Resonanzfrequenzen von den größten Räumen des Vokaltraktes - F1 - Rachenraum F2 - Mundhöhle F3 - Nasenhöhle f S(f) F1F1 F2F2 F3F3

14 Spracherkennung - Vokale Vokal F1 [Hz] F2 [Hz] a e 500 – i o u

15 Spracherkennung Variabilität des Sprachsignals Wort Signal im Zeitbereich (dreimal von einem Sprecher)

16 Spracherkennung Segmentierung des Sprachsignals Verschiebung Überlappung Segment ~ 20-30ms Hamming-Fenster w(n) = 0,54 - 0,46 cos(2 n/N)für n = 1, 2,..., N w(n) = 0sonst N.... Länge eines Segments in Abtastwerten

17 Spracherkennung Sprachmerkmale: Signalenergie s(n) - Sprachsignal N - Segmentlänge (in Abtastwerten) Z= 19 Nulldurchgangsrate

18 Spracherkennung Zeitverlauf Energie Log Energie Nulldurchgangsrate

19 Spechererkennung Optimale Merkmale führen durch Sprachsignalverarbeitung direkt zu anatomischen Parametern

20 Spechererkennung Grundfrequenz der Stimme F 0 Merkmal des Sprachsignals: Grundfrequenz der Stimme F 0 in Hz Bezogener anatomischer Parameter: Länge der Stimmlippen L in mm

21 Spechererkennung Werte der Grundfrequenz F 0 Normale Sprache50 – 400 Hz Männer 70 – 160 Hztypisch F 0 =110 Hz Frauen150 – 280 Hztypisch F 0 =210 Hz Kinder300 – 400 Hz Extrem – singende weibliche Stimmebis ca. 980 Hz

22 Anwendungen Spracherkennung: Akustische Steuerung von Geräten Alarmstopschalter (ein Wort) Eingabe der Rufnummer Lichtsteuerung, … Fließende Sprache Begutachtungen (medizinische, forensische) Schlüsselworterkennung in Audiodateien Diskussion bei wichtigen Tagungen, …. Ziel: Diktiermaschine mit Spracheingang

23 Anwendungen Informationen Fahrplan, Flugplan, Telefonnummer, … Übersetzungen on-line mit Handy,... Dialogsysteme:

24 Anwendungen Spechererkennung: Verifikation Wegfahrsperre für Kraftfahrzeuge telefonischer Bankauftragsdienst Identifikation Analyse von Täterstimmen für forensischen Gebrauch Ziel: Zuverlässigkeit wie Fingerabdruck

25 Anwendungen Erkennung des Sprecherzustandes: Medizinische Untersuchungen Krankheiten an Sprechorganen (Krebs,...) Alzheimer, Parkinson,… Psychoanalyse (teilweise) Stress, Depression, Ermüdung Freude,... Ziel: automatische Diagnose

26 Anwendungen Spezielle Analyse (Erkennung): Test nach Alkohol vor Autofahren - Dialog über Handy Schätzung des IQ bei kleinen Kindern - Analyse des Baby-Weinens Lügendetektor - software im Internet ?

27 Leistungsvergleich Technisches System (PC): erkennt Sprecher und weiblich/männlich schneller (40ms) erkennt mehr Personen (Mensch ca. 150 Stimmen) nutzt Informationen, die Mensch nicht hören kann Gehirn: kann eine Stimme aus der Stimmenmischung filtern bessere Übersetzung in fremde Sprache bessere Rekonstruktion der fehlenden Frequenzen (Telefon, Laptop) bessere Rekonstruktion der falschen Wörter (gebrochene Sprache)


Herunterladen ppt "Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn,"

Ähnliche Präsentationen


Google-Anzeigen