Einsatzmöglichkeiten der Sprachsignalverarbeitung

Slides:



Advertisements
Ähnliche Präsentationen
Software Assurance Erweiterte Software Assurance Services
Advertisements

Inwiefern werden Formanten wegen der Telefonsprache unzuverlässig?
Musikwissenschaftliches Institut
Sprache und Audiologie weitere Informationen:
Grundlagen der Schallausbreitung
Die akustische Analyse von Sprachlauten.
Quellen-Filter Theorie der Sprachproduktion
Die phonetischen Merkmale von Vokalen
Die akustische Analyse von Sprachlauten
Spektra von periodischen Signalen. Resonanz.
Formant-Analysen von Vokalen
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Spektrogramm und Spektrum
Einführung in die Phonetik und Phonologie
Spektrogramm und Spektrum Sitzung 8 Welche Konsonanten sind für sich alleine identifizierbar? -Alle Konsonanten ausser [pt] in tippt, weil das [p] nicht.
Die akustische Analyse von Sprachlauten
Übung Akustische Phonetik
Logische Vektoren in R Jonathan Harrington.
Hauptseminar: Speaker Characteristics Venice International University
Berechnung von digitalen Signalen
Berechnung von digitalen Signalen Jonathan Harrington.
Vokale und die Quantaltheorie
Berechung von Schalldruckpegeln
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Einführung in die Akustik und ihr Teilgebiet der Psychoakustik
N3 - Auditorisches System
Mittlere Geschwindigkeit
Multimediatechnik / Audio Michael Steppat nanocosmos
Akustik nur in 7 I.
Akustik Untersuchung des Schalls
Ohr und Hören.
Lippe, Mundhöhle, Rachen (C00-C14)
Komprimierung von Sprachdaten mit LPC10 auf einem dsPIC
FRAGENKATALOG GRUNDLAGEN DES SCHALLS
HLSyn – eine Kurzeinführung
Infraschall.
Angewandte Naturwissenschaften
Analyse nach harmonischen Schwingungen
Größen bei Schallwellen
Physiologie Frequenz, Amplitude, Phasen
Messgrößen für Schallwellen
Messgrößen für Schallwellen
Messgrößen für Schallwellen
Messgrößen für Schallwellen
Schallwellspektrum + Anwendungen
19/05/00Science Week Austria 2000 © ftw speech & more Existierende und zukünftige Sprachdialogsysteme.
Akustische Modelle der Sprachproduktion
Eine kleine Einführung für Studierende der Psychologie
Tonhöhenwahrnehmung Wozu?
Mathe-Quiz Themen der 1. Klasse.
Akustische Modelle der Sprachproduktion
Aufbau & Funktion des Hörorgans
Lärm wie funktioniert das wie wirkt das.
Frequenz und Lautstärke
Aufbau und Funktion des Hörorgans
Plosive [a d a] [a t a] [a th a]
Künftige Mediendarsteller
Einführung in die Akustik und ihr Teilgebiet der Psychoakustik
Sprachverstehen Anatomie. Harvard-MIT Division of Health Sciences and Technology HST.725: Music Perception and Cognition Prof. Peter Cariani.
Gummiecke Wandschoner DIMENSION : Breite: 80 MM Länge : 900 MM Stärke : 10 MM Befestigungslöcher : 6 Gewicht: KG.
Akkustik Geräusch - Ton - Klang.
Medizinischen Physik V1: Signalaufnahme und Fourieranalyse
Physik für Mediziner, Zahnmediziner und Pharmazeuten SS
2. Sitzung K3.1 Phonetik und Phonologie II
Grundlagen Akustik Peter Espert.
ST X : What You Hear Is What You See Acoustics Research Institute of the Austrian Academy of Sciences: A-1010 Wien; Liebiggasse 5. Tel /
Akustik nur in 7 I (nur 8 I, LehrplanPLUS)
Plosive [a d a] [a t a] [a th a]
Plosive [a d a] [a t a] [a th a]
 Präsentation transkript:

Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, sigmund@feec.vutbr.cz

Sprachsignal Was ist Sprache ? Akustische Form Schriftliche Form eins oder 1 Signalform Mathematische Form „a“

Sprachsignal Sprache aus der technischen Sicht Sprache = Sprachsignal (akustisches Signal) das kann man: ► messen ► übertragen ► aufnehmen (archivieren) ► bearbeiten und verarbeiten (auch on-line)

Akustisches Signal Abfolge von Luftdruckschwankungen pabs(t) Pm pak(t) Atmosphärendruck Pm : langsame Schwankungen 960-1050 hPa Schalldruck pak: schnelle Schwankungen 20 μPa-0,1 Pa t [Tage] Absolutdruck: pabs = Pm + pak t [ms] Maßeinheit Pascal 1 Pa = 1 N/m2

Akustisches Signal man unterscheidet: (Musik, Vogelgesang, Wind,....) ► periodische Klänge (Musik, Vogelgesang, Wind,....) ► nichtperiodische Klänge (Husten, Gewitterdonner,....) ► Sprache

Akustisches Signal Reiner Ton Parameter wahrgenommen als j A s(t) t s(t) = A sin (2π f t + φ) Parameter wahrgenommen als Amplitude A Periode T resp. Frequenz f Phase φ Lautstärke Tonhöhe

Akustisches Signal Audio = „ich höre“ (lateinisch) 16 Hz 20 000 Hz Infraschall Schall Ultraschall unhörbar hörbar unhörbar 16 Hz 20 000 Hz

Akustisches Signal Hörfläche des menschlichen Gehörs Schallquelle: 140 dB Flugzeug beim Start 120 dB Rockgruppe 80 dB belebte Strasse 70 dB normale Unterhaltung 50 dB leise Unterhaltung 30 dB sanftes Flüstern 20 dB Papiergeraschel

Akustisches Signal Frequenzbereiche Musikinstrument Frequenz [Hz] Orgel 15 – 16 000 Klavier 25 – 4 000 Kontrabass 40 – 250 Trompete 150 – 1 100 Fagott 50 – 500 Piccoloflöte 500 – 5 000 Sprache Frequenz [Hz] Bühnensprache 80 – 16 000 Alltagssprache 180 – 6 000 Telefonsprache 300 – 3 400

Informationsgehalt der Sprache Gesamtinformation in störungsfreiem Sprachsignal: 75 % Inhalt der Sprache Was? 25 % Sprecher: 15 % - Identität Wer? 10 % - Zustand Wie? Zustand Identität Nachricht

Spracheingabe

Spracherkennung - Vokale Vokal „a“ im Detail ·       • periodische Signalform ·       • hohe Signalenergie ·       • charakterisiert durch Formanten 

Spracherkennung - Vokale Formanten - lokale Maxima im Spektrum F1 - F7 - Resonanzfrequenzen von den größten Räumen des Vokaltraktes F1 - Rachenraum F2 - Mundhöhle F3 - Nasenhöhle S(f) F1 F2 F3 f

Spracherkennung - Vokale Vokal F1 [Hz] F2 [Hz] a 800 - 1000 1200 - 1400 e 500 – 700 1600 - 2100 i 300 - 500 2100 - 2700 o 500 - 700 900 - 1200 u 300 - 500 600 - 1000

Spracherkennung Variabilität des Sprachsignals Wort „Signal“ im Zeitbereich (dreimal von einem Sprecher)

Spracherkennung Segmentierung des Sprachsignals Verschiebung Überlappung Segment ~ 20-30ms Hamming-Fenster w(n) = 0,54 - 0,46 cos(2n/N) für n = 1, 2, ..., N w(n) = 0 sonst N .... Länge eines Segments in Abtastwerten

Spracherkennung Sprachmerkmale: Signalenergie Nulldurchgangsrate s(n) - Sprachsignal N - Segmentlänge (in Abtastwerten) Z= 19

Spracherkennung Zeitverlauf Energie Log Energie Nulldurchgangsrate

Spechererkennung Optimale Merkmale führen durch Sprachsignalverarbeitung direkt zu anatomischen Parametern

Spechererkennung Grundfrequenz der Stimme F0 Merkmal des Sprachsignals: Grundfrequenz der Stimme F0 in Hz Bezogener anatomischer Parameter: Länge der Stimmlippen L in mm

Spechererkennung Werte der Grundfrequenz F0 Normale Sprache 50 – 400 Hz Männer 70 – 160 Hz typisch F0=110 Hz Frauen 150 – 280 Hz typisch F0=210 Hz Kinder 300 – 400 Hz Extrem – singende weibliche Stimme bis ca. 980 Hz

Anwendungen Spracherkennung: ► Akustische Steuerung von Geräten • Alarmstopschalter (ein Wort) • Eingabe der Rufnummer • Lichtsteuerung, … ► Fließende Sprache • Begutachtungen (medizinische, forensische) • Schlüsselworterkennung in Audiodateien • Diskussion bei wichtigen Tagungen, …. Ziel: Diktiermaschine mit Spracheingang

Anwendungen Dialogsysteme: ► Informationen • Fahrplan, Flugplan, Telefonnummer, … ► Übersetzungen • on-line mit Handy, ...

Anwendungen Spechererkennung: ► Verifikation ► Identifikation • Wegfahrsperre für Kraftfahrzeuge • telefonischer Bankauftragsdienst ► Identifikation • Analyse von Täterstimmen für forensischen Gebrauch Ziel: Zuverlässigkeit wie Fingerabdruck

Anwendungen Erkennung des Sprecherzustandes: ► Medizinische Untersuchungen • Krankheiten an Sprechorganen (Krebs,...) • Alzheimer, Parkinson,… ► Psychoanalyse (teilweise) • Stress, Depression, Ermüdung • Freude, ... Ziel: automatische Diagnose

Anwendungen Spezielle Analyse (Erkennung): ► Test nach Alkohol vor Autofahren - Dialog über Handy ► Schätzung des IQ bei kleinen Kindern - Analyse des Baby-Weinens ► Lügendetektor - software im Internet ?

Leistungsvergleich Technisches System (PC): ► erkennt Sprecher und weiblich/männlich schneller (40ms) ► erkennt mehr Personen (Mensch ca. 150 Stimmen) ► nutzt Informationen, die Mensch nicht hören kann Gehirn: ► kann eine Stimme aus der Stimmenmischung filtern ► bessere Übersetzung in fremde Sprache ► bessere Rekonstruktion der fehlenden Frequenzen (Telefon, Laptop) ► bessere Rekonstruktion der falschen Wörter (gebrochene Sprache)