Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
1
Sprachsignalverarbeitung
Cristina Vertan
2
Sprachsignalverarbeitung
Quellsprachliche Eingabe (Signal) Quellsprachliche Eingabe (Text) Spracherkenner ? MÜ - System Sprachsyntheser Zielsprachliche Ausgabe (Text) Zielspraclcihe Ausgabe (Signal) Sprachsignalverarbeitung
3
Wozu Sprachsignalverarbeitung
Gesprochene Sprache ist den meist benutzte Kommunikationmöglichkeit. In Mensch-Maschine Kommunikation sind alle andere Mitteln (Tastatur, Maus) künstlich neue Alltag-Kommunikationsmitteln (Handy) die auch Computer-Technologie benutzen können. Anwendungen für Behinderte Steureung-Systeme in Situationen wo keine andere Ein/Ausgaben nicht möglich sind (Medizin, Auto-Reparatur, Autotelefon) Sprachsignalverarbeitung
4
Sprachsignalverarbeitung
Spracherkennung Hauptprobleme der Spracherkennung Komponnente eines Spracherkennungsystems Spracherkennung und MÜ Sprachsignalverarbeitung
5
Hauptprobleme der Spracherkennung -1-
Die Aussprache (akustische Realisierung) eines Lautes kann von einer Äußerung zur anderen stark variieren auch für: dasselbe Wort und desselben Sprecher Die Sprechgeschwindigkeit kann stark schwanken Koartikulation: die akustische Realisierung eines Lautes hängt im allgemeinen von den vorangegangenen und nachfolgenden Lauten ab Sprachsignalverarbeitung
6
Hauptprobleme der Spracherkennung -2-
Im (kontinuierlichen) Rederfluß gibt es keine eindeutigen Laut- und Wortgrenzen In der praktischen Anwendung kommen Störungen (Bürolärm, Fahrgeräusche, Rauschen der Telefonleitung) hinzu. Gesprochene Sprache enthält auch oft eine prosodische Komponente Sprachsignalverarbeitung
7
Architektur eines Spracherkenners
Akustisches Modell Signalanalyse Phoneminventar FFT Digitalisierte Sprachsignal Merkmalextraktion Aussprachlexikon Globale suche Linguistisches Modell Trigrammstatistik Erkannte Wortfolge Sprachsignalverarbeitung
8
Sprachsignalverarbeitung
Signalanalyse -1- Schallwellen = analoge Signale digitalisiert Ziel: Generierung einer parametrische Repräsentation des Sprachsignals die: so kompakt wie möglich ist zur Erkennung notwendige Informationen enthält 2 aufeinanderfolgende Stufen: Vorverarbeitung Merkmalextraktion Sprachsignalverarbeitung
9
Sprachsignalverarbeitung
Signalanalyse -2- Vorverarbeitung Übergang vom Sprachzeitsignal zu den spektralen Eigenschaften der Sprache z.B. Welche Frequenzen sind zu welchem Zeitpunkt beteiligt Merkmalsextraktion erkennung geeignte Merkmale in verbindung mit einer Dimensionreduktion sehr wenige linguistische Methode stark mathematisch-physikalisch begründet (FFT) Ergebnis: eine Folge von Merkmalsvektoren Sprachsignalverarbeitung
10
Sprachsignalverarbeitung
Signalanalyse -3- schwache Pegel 2. Spektralanalyse: auf kurzen Abschnitten, wie stark welche Frequenzen an einer Äußerung beteiligt sind 3.Merkmals-vektor 1. Digitalisierte Sprachsignal Schön, halten wir fest Frau Petzold Sprachsignalverarbeitung
11
Architektur eines Spracherkenners
Akustisches Modell Signalanalyse Phoneminventar FFT Digitalisierte Sprachsignal Merkmalextraktion Aussprachlexikon Globale suche Linguistisches Modell Trigrammstatistik Erkannte Wortfolge Sprachsignalverarbeitung
12
Akustische Modellierung
Die akustischen Wahrscheinlichkeiten verknüpfen die Folge des Merkmalsvektoren mit einzelnen Wörter des Lexikons 2 Schritte: die Wörter des Lexikons werden als Folge von Phonemen beschrieben die Wahrscheinlichkeitsverteilungen der Merkmalsvektoren werden für die einzelnen Phoneme modelliert (HMM) Sprachsignalverarbeitung
13
Sprachsignalverarbeitung
Phoneme Phoneme = die kleinsten bedeutungsunterscheidenden Lautelemente einer Sprache z. B. Die Laute die in Lautschrift mit [d] und [t] notiert weden und zwischen “Dorf” und “Torf” unterschieden. Für DE: ca. 40 Phoneme Sprachsignalverarbeitung
14
Sprachsignalverarbeitung
Aussprachelexikon Enthält für jedes Wort aus dem Vokabular des Erkenners eine Phonemfolge, die der Standardaussprache entspricht (änlich mit Duden-Lautschrift) Koartikulationen können modelliert werden durch kontextabhängige Phonem-Modelle Beim großem Vokabular : Aussprachelexikon ist als Baum organisiert Blätter: die Wörter des Lexikons der Pfad von Stamm zu einem Blatt: die Phonemkette eines Wortes Vorteil: die Wörter, die mit der gleicher Phonemkette beginnen, zusammengefaßt werden können Sprachsignalverarbeitung
15
Aussprachelexikon: Beispiel
Sprachsignalverarbeitung
16
Hidden Markov Modell (HMM) -1-
Die Sprechgeschwindigkeit kann stark schwanken HMM-Modell stellt die Schwankungen der Sprechgeschwingigkeit dar mit HMMs sind Merkmallen innerhalb einzelner Phoneme modelliert. Ein Phonem besteht aus 3-6 Zustanden die linear hintereinander angeordnet sind ein Zustand = ein kurzer Teil eines Phonems von etwa Milisekunden Länge Jede Zustand ist verknüpft mit: Emissionverteiligung für die Merkmalsvektoren mit Transitionswahrscheinlichkeiten für die mögliche Übergänge Sprachsignalverarbeitung
17
Sprachsignalverarbeitung
Sprachsignalverarbeitung
18
Sprachsignalverarbeitung
HMM -2- Bestimmung der akustischen Wahrscheinlichkeit: man nimmt den Pfad der das Produkt aus den zugehörigen Emissions- und Transitionswahrscheinlichkeiten maximiert. Die Parameter der Emissionsverteilung werden in einer Trainingsphase automatisch aus einem großen Korpus von Beispielsätzen mit statistichen Methoden geschätzt Sprachsignalverarbeitung
19
Architektur eines Spracherkenners
Akustisches Modell Signalanalyse Phoneminventar FFT Digitalisierte Sprachsignal Merkmalextraktion Aussprachlexikon Globale suche Linguistisches Modell Trigrammstatistik Erkannte Wortfolge Sprachsignalverarbeitung
20
Linguistisches Modell (Sprachmodell)
Aufgabe: die linguistische Wahrscheinlichkeit einer Satzhypothese zu berechnen. Zu einer Wortfolge W wird eine (a priori) Wahrscheinlichkeit P(W) zugeordnet zur Modellierung die Wahrscheinlichkeit: statistische Sprachmodelle grammatische Sprachmodelle (Nachteil: gesprochene Sprache ist sehr oft unkorrekt grammatikalisch) uniforme Sprachmodelle usw. Sprachsignalverarbeitung
21
Statistische Sprachmodelle -1-
Basiert auf training auf sehr großen Textkorpora Die Textkorpora sind Anwendungsspezifisch Die Wahrscheinlichkeit für einen Satz = Produkt von bedingten Wahrscheinlichkeiten für die enthaltenen Wörter jedes Wort von allen Vorgängerworten im Satz abhängt. wo: Sprachsignalverarbeitung
22
Statistische Sprachmodelle -2- n-gramm Modelle
Beschränken die Länge der “Geschichte” eines Wortes auf n-1 Worte. Üblich: unigram (n=1) bigramm (n=2) trigramm (n=3) Sehr große typisches Anwendungsgebiet training-Korpus z.B Verbmobil :3200 Dialoge mit approx Wörter Sprachsignalverarbeitung
23
Architektur eines Spracherkenners
Akustisches Modell Signalanalyse Phoneminventar FFT Digitalisierte Sprachsignal Merkmalextraktion Aussprachlexikon Globale suche Linguistisches Modell Trigrammstatistik Erkannte Wortfolge Sprachsignalverarbeitung
24
Statistische Sprachmodelle -3- n-gramm Modelle
Beispiel für “Trigramm Ereignis”: Problem:Vokabular von Wörtern : = 81012 mögliche Trigramme -nicht alle kommen im Training-Korpus vor d.h. Viele bekommen 0-Wahrscheinlichkeit - Lösung: Benutzung auch von Bigrammen und Unigrammen - Sprachsignalverarbeitung
25
Sprachsignalverarbeitung
Wortfolge -1- Ziel: finden die Wortfolge die das Produkt aus akustischer und linguistischer Wahrscheinlichkeit maximiert rechnerisch aufwendiges Optimierungsproblem, weil alle möglichen Wortfolgen in Betracht kommen. z.B. bei einem Wortschatz von 1000 Wörter eine Satz von 10 Wörter Länge 1030 Wortfolgenhypothesen Struktur: 3 diemensionelle Gitter: erste Achse: Zeit Achse zweite Achse : Zustandketten einzelener Wörter dritte Achse: die zugehörigen Wortindizes Sprachsignalverarbeitung
26
Sprachsignalverarbeitung
Wortfolge -2- Innerhalb der Wörter: nur Transitionen der HMM erlaubt An den wortenden existieren Transitionen zu den Anfängen weitere Wörter. Die Übergänge sind mit Hilfe des Sprachmodells bewertet Ziel: “besten” Pfad durch das Gitter zu finden “besten” = maximales Produkt zwischen linguistische und akustische Wahrscheinlichkeit unwahrscheinliche Wortfolgen sollen möglichst früh im Erkennungsprozeß verwerfen werden um Rechnen aufwand zu reduzieren Sprachsignalverarbeitung
27
Worthypothesengraphen
Für ein einfacheres Sprachmodell (Bigramm) Sprachsignalverarbeitung
28
Spracherkennung und MÜ
Verbmobil Probleme: realistisch: real-time sehr oft keine korrekte Grammatische Eingabe Hesitationen, Wiederholungen (die nicht in Übersetzung propagieren müßen) keine Satzgrenze (inkrementalle Verfahren) kein möglich „backtracking“ Sprachsignalverarbeitung
29
Sprachsignalverarbeitung
Quellsprache -Eingabe (Signal) Quellsprache - Eingabe (Text) Spracherkenner ? MÜ - System Sprachsyntheser Zielsprache - Ausgabe (Text) Zielsprache -Ausgabe (Signal) Sprachsignalverarbeitung
30
Sprachsynthesesyteme
Text-to-Speech (TTS): Eingabetext wird erstmal linguistisch analysiert die resultierende linguistische Repräsentation wird in ein synthetisches Sprachsignal umgesetzt Concept - to- speech Sprache wird auf der Grundlage pragmatischen, semantischen und Diskurs-Wissen Vorteil: das System “weis”: was es sagen will wie es gesagt werden soll normalerweise integriert in ein Dialog- oder Übersetzungsytem Sprachsignalverarbeitung
31
Architektur eines TTS-Systems
Linguistische Analyse Prosodie Text-Eingabe Synthese synthetisierte Sprachausgabe Sprachsignalverarbeitung
32
Linguistische Analyse
Tokenisierung . Zerlegung des Eingabetextes in Wörter wichtig für Expandierung von Symbolen(z.B. %) und Abkürzungen (z.B. Datum) in Wörter Lexikalische Analyse (Morphologie): Flexion Ableitung Komposition Sprachsignalverarbeitung
33
Sprachsignalverarbeitung
Prosodische Analyse Normalerweise in Verbindung mit syntaktische Analyse Die Parsers und Part-of-Speech-Taggers können auch für prosodische Phrasierung und Bestimmung des Satzmodus benutz werden Sprachsignalverarbeitung
34
Phonologische Analyse und Aussprache
Aussprache: Phonemfolge, Markierung und Silberbetonung Stammlexikon die Wörter haben genug morphologische Annotationen so daß generische Ausspracheregeln eine zuverläsige Trankription liefern können für unbekannte Wörter liefert die Komposita- und Derivationsanalyse eine Granularität der Annotation, die der bekannten Wörter äquivalent ist Vollformlexikon die Aussprache eines wortes ist durch seine Transkription im Lexikon gegeben Unbekannte Wörter werden durch Ausspracheregeln transkribiert sehr oft eine große Menge von Ausnahmeregeln Sprachsignalverarbeitung
35
Sprachsignalverarbeitung
Quellsprache -Eingabe (Signal) Quellsprache - Eingabe (Text) Spracherkenner MÜ - System Sprachsyntheser Zielsprache - Ausgabe (Text) Zielsprache -Ausgabe (Signal) Sprachsignalverarbeitung
36
Sprachsignalverarbeitung
Post-Editing MÜ - System Morphologie Lexikon Syntax Domänen- Wissen Pragmatik Semantik Was ? Wie ? Generierung Pre-Editing Zielsprache Quellsprache Separator Restrictor Sprachsignalverarbeitung
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.