Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Hartwin Altheide Geändert vor über 10 Jahren
1
Einsatzmöglichkeiten der Sprachsignalverarbeitung
Milan SIGMUND, TU Brünn,
2
Sprachsignal Was ist Sprache ? Akustische Form Schriftliche Form
eins oder 1 Signalform Mathematische Form „a“
3
Sprachsignal Sprache aus der technischen Sicht
Sprache = Sprachsignal (akustisches Signal) das kann man: ► messen ► übertragen ► aufnehmen (archivieren) ► bearbeiten und verarbeiten (auch on-line)
4
Akustisches Signal Abfolge von Luftdruckschwankungen
pabs(t) Pm pak(t) Atmosphärendruck Pm : langsame Schwankungen hPa Schalldruck pak: schnelle Schwankungen 20 μPa-0,1 Pa t [Tage] Absolutdruck: pabs = Pm + pak t [ms] Maßeinheit Pascal 1 Pa = 1 N/m2
5
Akustisches Signal man unterscheidet: (Musik, Vogelgesang, Wind,....)
► periodische Klänge (Musik, Vogelgesang, Wind,....) ► nichtperiodische Klänge (Husten, Gewitterdonner,....) ► Sprache
6
Akustisches Signal Reiner Ton Parameter wahrgenommen als
j A s(t) t s(t) = A sin (2π f t + φ) Parameter wahrgenommen als Amplitude A Periode T resp. Frequenz f Phase φ Lautstärke Tonhöhe
7
Akustisches Signal Audio = „ich höre“ (lateinisch) 16 Hz 20 000 Hz
Infraschall Schall Ultraschall unhörbar hörbar unhörbar 16 Hz Hz
8
Akustisches Signal Hörfläche des menschlichen Gehörs Schallquelle:
140 dB Flugzeug beim Start 120 dB Rockgruppe 80 dB belebte Strasse 70 dB normale Unterhaltung 50 dB leise Unterhaltung 30 dB sanftes Flüstern 20 dB Papiergeraschel
9
Akustisches Signal Frequenzbereiche Musikinstrument Frequenz [Hz]
Orgel 15 – Klavier 25 – 4 000 Kontrabass 40 – 250 Trompete 150 – 1 100 Fagott 50 – 500 Piccoloflöte 500 – 5 000 Sprache Frequenz [Hz] Bühnensprache 80 – Alltagssprache 180 – 6 000 Telefonsprache 300 – 3 400
10
Informationsgehalt der Sprache
Gesamtinformation in störungsfreiem Sprachsignal: 75 % Inhalt der Sprache Was? 25 % Sprecher: 15 % - Identität Wer? 10 % - Zustand Wie? Zustand Identität Nachricht
11
Spracheingabe
12
Spracherkennung - Vokale
Vokal „a“ im Detail · • periodische Signalform · • hohe Signalenergie · • charakterisiert durch Formanten
13
Spracherkennung - Vokale
Formanten - lokale Maxima im Spektrum F1 - F7 - Resonanzfrequenzen von den größten Räumen des Vokaltraktes F1 - Rachenraum F2 - Mundhöhle F3 - Nasenhöhle S(f) F1 F2 F3 f
14
Spracherkennung - Vokale
Vokal F1 [Hz] F2 [Hz] a e – i o u
15
Spracherkennung Variabilität des Sprachsignals
Wort „Signal“ im Zeitbereich (dreimal von einem Sprecher)
16
Spracherkennung Segmentierung des Sprachsignals Verschiebung
Überlappung Segment ~ 20-30ms Hamming-Fenster w(n) = 0,54 - 0,46 cos(2n/N) für n = 1, 2, ..., N w(n) = 0 sonst N .... Länge eines Segments in Abtastwerten
17
Spracherkennung Sprachmerkmale: Signalenergie Nulldurchgangsrate
s(n) - Sprachsignal N Segmentlänge (in Abtastwerten) Z= 19
18
Spracherkennung Zeitverlauf Energie Log Energie Nulldurchgangsrate
19
Spechererkennung Optimale Merkmale
führen durch Sprachsignalverarbeitung direkt zu anatomischen Parametern
20
Spechererkennung Grundfrequenz der Stimme F0
Merkmal des Sprachsignals: Grundfrequenz der Stimme F0 in Hz Bezogener anatomischer Parameter: Länge der Stimmlippen L in mm
21
Spechererkennung Werte der Grundfrequenz F0
Normale Sprache 50 – 400 Hz Männer 70 – 160 Hz typisch F0=110 Hz Frauen 150 – 280 Hz typisch F0=210 Hz Kinder 300 – 400 Hz Extrem – singende weibliche Stimme bis ca. 980 Hz
22
Anwendungen Spracherkennung: ► Akustische Steuerung von Geräten
• Alarmstopschalter (ein Wort) • Eingabe der Rufnummer • Lichtsteuerung, … ► Fließende Sprache • Begutachtungen (medizinische, forensische) • Schlüsselworterkennung in Audiodateien • Diskussion bei wichtigen Tagungen, …. Ziel: Diktiermaschine mit Spracheingang
23
Anwendungen Dialogsysteme: ► Informationen
• Fahrplan, Flugplan, Telefonnummer, … ► Übersetzungen • on-line mit Handy, ...
24
Anwendungen Spechererkennung: ► Verifikation ► Identifikation
• Wegfahrsperre für Kraftfahrzeuge • telefonischer Bankauftragsdienst ► Identifikation • Analyse von Täterstimmen für forensischen Gebrauch Ziel: Zuverlässigkeit wie Fingerabdruck
25
Anwendungen Erkennung des Sprecherzustandes:
► Medizinische Untersuchungen • Krankheiten an Sprechorganen (Krebs,...) • Alzheimer, Parkinson,… ► Psychoanalyse (teilweise) • Stress, Depression, Ermüdung • Freude, ... Ziel: automatische Diagnose
26
Anwendungen Spezielle Analyse (Erkennung):
► Test nach Alkohol vor Autofahren - Dialog über Handy ► Schätzung des IQ bei kleinen Kindern - Analyse des Baby-Weinens ► Lügendetektor - software im Internet ?
27
Leistungsvergleich Technisches System (PC):
► erkennt Sprecher und weiblich/männlich schneller (40ms) ► erkennt mehr Personen (Mensch ca. 150 Stimmen) ► nutzt Informationen, die Mensch nicht hören kann Gehirn: ► kann eine Stimme aus der Stimmenmischung filtern ► bessere Übersetzung in fremde Sprache ► bessere Rekonstruktion der fehlenden Frequenzen (Telefon, Laptop) ► bessere Rekonstruktion der falschen Wörter (gebrochene Sprache)
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.