Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Einsatzmöglichkeiten der Sprachsignalverarbeitung

Ähnliche Präsentationen


Präsentation zum Thema: "Einsatzmöglichkeiten der Sprachsignalverarbeitung"—  Präsentation transkript:

1 Einsatzmöglichkeiten der Sprachsignalverarbeitung
Milan SIGMUND, TU Brünn,

2 Sprachsignal Was ist Sprache ? Akustische Form Schriftliche Form
eins oder 1 Signalform Mathematische Form „a“

3 Sprachsignal Sprache aus der technischen Sicht
Sprache = Sprachsignal (akustisches Signal) das kann man: ► messen ► übertragen ► aufnehmen (archivieren) ► bearbeiten und verarbeiten (auch on-line)

4 Akustisches Signal Abfolge von Luftdruckschwankungen
pabs(t) Pm pak(t) Atmosphärendruck Pm : langsame Schwankungen hPa Schalldruck pak: schnelle Schwankungen 20 μPa-0,1 Pa t [Tage] Absolutdruck: pabs = Pm + pak t [ms] Maßeinheit Pascal 1 Pa = 1 N/m2

5 Akustisches Signal man unterscheidet: (Musik, Vogelgesang, Wind,....)
► periodische Klänge (Musik, Vogelgesang, Wind,....) ► nichtperiodische Klänge (Husten, Gewitterdonner,....) ► Sprache

6 Akustisches Signal Reiner Ton Parameter wahrgenommen als
j A s(t) t s(t) = A sin (2π f t + φ) Parameter wahrgenommen als Amplitude A Periode T resp. Frequenz f Phase φ Lautstärke Tonhöhe

7 Akustisches Signal Audio = „ich höre“ (lateinisch) 16 Hz 20 000 Hz
Infraschall Schall Ultraschall unhörbar hörbar unhörbar 16 Hz Hz

8 Akustisches Signal Hörfläche des menschlichen Gehörs Schallquelle:
140 dB Flugzeug beim Start 120 dB Rockgruppe 80 dB belebte Strasse 70 dB normale Unterhaltung 50 dB leise Unterhaltung 30 dB sanftes Flüstern 20 dB Papiergeraschel

9 Akustisches Signal Frequenzbereiche Musikinstrument Frequenz [Hz]
Orgel 15 – Klavier 25 – 4 000 Kontrabass 40 – 250 Trompete 150 – 1 100 Fagott 50 – 500 Piccoloflöte 500 – 5 000 Sprache Frequenz [Hz] Bühnensprache 80 – Alltagssprache 180 – 6 000 Telefonsprache 300 – 3 400

10 Informationsgehalt der Sprache
Gesamtinformation in störungsfreiem Sprachsignal: 75 % Inhalt der Sprache Was? 25 % Sprecher: 15 % - Identität Wer? 10 % - Zustand Wie? Zustand Identität Nachricht

11 Spracheingabe

12 Spracherkennung - Vokale
Vokal „a“ im Detail ·       • periodische Signalform ·       • hohe Signalenergie ·       • charakterisiert durch Formanten 

13 Spracherkennung - Vokale
Formanten - lokale Maxima im Spektrum F1 - F7 - Resonanzfrequenzen von den größten Räumen des Vokaltraktes F1 - Rachenraum F2 - Mundhöhle F3 - Nasenhöhle S(f) F1 F2 F3 f

14 Spracherkennung - Vokale
Vokal F1 [Hz] F2 [Hz] a e – i o u

15 Spracherkennung Variabilität des Sprachsignals
Wort „Signal“ im Zeitbereich (dreimal von einem Sprecher)

16 Spracherkennung Segmentierung des Sprachsignals Verschiebung
Überlappung Segment ~ 20-30ms Hamming-Fenster w(n) = 0,54 - 0,46 cos(2n/N) für n = 1, 2, ..., N w(n) = 0 sonst N .... Länge eines Segments in Abtastwerten

17 Spracherkennung Sprachmerkmale: Signalenergie Nulldurchgangsrate
s(n) - Sprachsignal N Segmentlänge (in Abtastwerten) Z= 19

18 Spracherkennung Zeitverlauf Energie Log Energie Nulldurchgangsrate

19 Spechererkennung Optimale Merkmale
führen durch Sprachsignalverarbeitung direkt zu anatomischen Parametern

20 Spechererkennung Grundfrequenz der Stimme F0
Merkmal des Sprachsignals: Grundfrequenz der Stimme F0 in Hz Bezogener anatomischer Parameter: Länge der Stimmlippen L in mm

21 Spechererkennung Werte der Grundfrequenz F0
Normale Sprache 50 – 400 Hz Männer 70 – 160 Hz typisch F0=110 Hz Frauen 150 – 280 Hz typisch F0=210 Hz Kinder 300 – 400 Hz Extrem – singende weibliche Stimme bis ca. 980 Hz

22 Anwendungen Spracherkennung: ► Akustische Steuerung von Geräten
• Alarmstopschalter (ein Wort) • Eingabe der Rufnummer • Lichtsteuerung, … ► Fließende Sprache • Begutachtungen (medizinische, forensische) • Schlüsselworterkennung in Audiodateien • Diskussion bei wichtigen Tagungen, …. Ziel: Diktiermaschine mit Spracheingang

23 Anwendungen Dialogsysteme: ► Informationen
• Fahrplan, Flugplan, Telefonnummer, … ► Übersetzungen • on-line mit Handy, ...

24 Anwendungen Spechererkennung: ► Verifikation ► Identifikation
• Wegfahrsperre für Kraftfahrzeuge • telefonischer Bankauftragsdienst ► Identifikation • Analyse von Täterstimmen für forensischen Gebrauch Ziel: Zuverlässigkeit wie Fingerabdruck

25 Anwendungen Erkennung des Sprecherzustandes:
► Medizinische Untersuchungen • Krankheiten an Sprechorganen (Krebs,...) • Alzheimer, Parkinson,… ► Psychoanalyse (teilweise) • Stress, Depression, Ermüdung • Freude, ... Ziel: automatische Diagnose

26 Anwendungen Spezielle Analyse (Erkennung):
► Test nach Alkohol vor Autofahren - Dialog über Handy ► Schätzung des IQ bei kleinen Kindern - Analyse des Baby-Weinens ► Lügendetektor - software im Internet ?

27 Leistungsvergleich Technisches System (PC):
► erkennt Sprecher und weiblich/männlich schneller (40ms) ► erkennt mehr Personen (Mensch ca. 150 Stimmen) ► nutzt Informationen, die Mensch nicht hören kann Gehirn: ► kann eine Stimme aus der Stimmenmischung filtern ► bessere Übersetzung in fremde Sprache ► bessere Rekonstruktion der fehlenden Frequenzen (Telefon, Laptop) ► bessere Rekonstruktion der falschen Wörter (gebrochene Sprache)


Herunterladen ppt "Einsatzmöglichkeiten der Sprachsignalverarbeitung"

Ähnliche Präsentationen


Google-Anzeigen