Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Sprachsignalverarbeitung Cristina Vertan. 30.10.2002Sprachsignalverarbeitung2 Quellsprachliche Eingabe (Text) Zielsprachliche Ausgabe (Text) MÜ - System.

Ähnliche Präsentationen


Präsentation zum Thema: "Sprachsignalverarbeitung Cristina Vertan. 30.10.2002Sprachsignalverarbeitung2 Quellsprachliche Eingabe (Text) Zielsprachliche Ausgabe (Text) MÜ - System."—  Präsentation transkript:

1 Sprachsignalverarbeitung Cristina Vertan

2 30.10.2002Sprachsignalverarbeitung2 Quellsprachliche Eingabe (Text) Zielsprachliche Ausgabe (Text) MÜ - System SpracherkennerSprachsyntheser Quellsprachliche Eingabe (Signal) Zielspraclcihe Ausgabe (Signal) ?

3 30.10.2002Sprachsignalverarbeitung3 Wozu Sprachsignalverarbeitung Gesprochene Sprache ist den meist benutzte Kommunikationmöglichkeit. In Mensch-Maschine Kommunikation sind alle andere Mitteln (Tastatur, Maus) künstlich neue Alltag-Kommunikationsmitteln (Handy) die auch Computer- Technologie benutzen können. Anwendungen für Behinderte Steureung-Systeme in Situationen wo keine andere Ein/Ausgaben nicht möglich sind (Medizin, Auto-Reparatur, Autotelefon)

4 30.10.2002Sprachsignalverarbeitung4 Spracherkennung Hauptprobleme der Spracherkennung Komponnente eines Spracherkennungsystems Spracherkennung und MÜ

5 30.10.2002Sprachsignalverarbeitung5 Hauptprobleme der Spracherkennung -1- Die Aussprache (akustische Realisierung) eines Lautes kann von einer Äußerung zur anderen stark variieren auch für: –dasselbe Wort und –desselben Sprecher Die Sprechgeschwindigkeit kann stark schwanken Koartikulation: die akustische Realisierung eines Lautes hängt im allgemeinen von den vorangegangenen und nachfolgenden Lauten ab

6 30.10.2002Sprachsignalverarbeitung6 Hauptprobleme der Spracherkennung -2- Im (kontinuierlichen) Rederfluß gibt es keine eindeutigen Laut- und Wortgrenzen In der praktischen Anwendung kommen Störungen (Bürolärm, Fahrgeräusche, Rauschen der Telefonleitung) hinzu. Gesprochene Sprache enthält auch oft eine prosodische Komponente

7 30.10.2002Sprachsignalverarbeitung7 Erkannte Wortfolge Architektur eines Spracherkenners FFT Merkmalextraktion Signalanalyse Aussprachlexikon Phoneminventar Akustisches Modell Trigrammstatistik Linguistisches Modell Globale suche Digitalisierte Sprachsignal

8 30.10.2002Sprachsignalverarbeitung8 Signalanalyse -1- Schallwellen = analoge Signale digitalisiert Ziel: Generierung einer parametrische Repräsentation des Sprachsignals die: –so kompakt wie möglich ist –zur Erkennung notwendige Informationen enthält 2 aufeinanderfolgende Stufen: –Vorverarbeitung –Merkmalextraktion

9 30.10.2002Sprachsignalverarbeitung9 Signalanalyse -2- Vorverarbeitung –Übergang vom Sprachzeitsignal zu den spektralen Eigenschaften der Sprache z.B. Welche Frequenzen sind zu welchem Zeitpunkt beteiligt Merkmalsextraktion –erkennung geeignte Merkmale in verbindung mit einer Dimensionreduktion sehr wenige linguistische Methode stark mathematisch-physikalisch begründet (FFT) Ergebnis: eine Folge von Merkmalsvektoren

10 30.10.2002Sprachsignalverarbeitung10 Signalanalyse -3- Schön, halten wir fest Frau Petzold 1. Digitalisierte Sprachsignal 2. Spektralanalyse: auf kurzen Abschnitten, wie stark welche Frequenzen an einer Äußerung beteiligt sind schwache Pegel 3.Merkmals- vektor

11 30.10.2002Sprachsignalverarbeitung11 Erkannte Wortfolge Architektur eines Spracherkenners FFT Merkmalextraktion Signalanalyse Aussprachlexikon Phoneminventar Akustisches Modell Trigrammstatistik Linguistisches Modell Globale suche Digitalisierte Sprachsignal

12 30.10.2002Sprachsignalverarbeitung12 Akustische Modellierung Die akustischen Wahrscheinlichkeiten verknüpfen die Folge des Merkmalsvektoren mit einzelnen Wörter des Lexikons 2 Schritte: –die Wörter des Lexikons werden als Folge von Phonemen beschriebenPhonemen –die Wahrscheinlichkeitsverteilungen der Merkmalsvektoren werden für die einzelnen Phoneme modelliert (HMM)

13 30.10.2002Sprachsignalverarbeitung13 Phoneme Phoneme = die kleinsten bedeutungsunterscheidenden Lautelemente einer Sprache z. B. Die Laute die in Lautschrift mit [d] und [t] notiert weden und zwischen “Dorf” und “Torf” unterschieden. Für DE: ca. 40 Phoneme

14 30.10.2002Sprachsignalverarbeitung14 Aussprachelexikon Enthält für jedes Wort aus dem Vokabular des Erkenners eine Phonemfolge, die der Standardaussprache entspricht (änlich mit Duden-Lautschrift) Koartikulationen können modelliert werden durch kontextabhängige Phonem-Modelle Beim großem Vokabular : Aussprachelexikon ist als Baum organisiert –Blätter: die Wörter des Lexikons –der Pfad von Stamm zu einem Blatt: die Phonemkette eines Wortes –Vorteil: die Wörter, die mit der gleicher Phonemkette beginnen, zusammengefaßt werden können

15 30.10.2002Sprachsignalverarbeitung15 Aussprachelexikon: Beispiel

16 30.10.2002Sprachsignalverarbeitung16 Hidden Markov Modell (HMM) -1- Die Sprechgeschwindigkeit kann stark schwanken HMM-Modell stellt die Schwankungen der Sprechgeschwingigkeit dar mit HMMs sind Merkmallen innerhalb einzelner Phoneme modelliert. Ein Phonem besteht aus 3-6 Zustanden die linear hintereinander angeordnet sind –ein Zustand = ein kurzer Teil eines Phonems von etwa 10-20 Milisekunden Länge Jede Zustand ist verknüpft mit: –Emissionverteiligung für die Merkmalsvektoren –mit Transitionswahrscheinlichkeiten für die mögliche Übergänge

17 30.10.2002Sprachsignalverarbeitung17

18 30.10.2002Sprachsignalverarbeitung18 HMM -2- Bestimmung der akustischen Wahrscheinlichkeit: man nimmt den Pfad der das Produkt aus den zugehörigen Emissions- und Transitionswahrscheinlichkeiten maximiert. Die Parameter der Emissionsverteilung werden in einer Trainingsphase automatisch aus einem großen Korpus von Beispielsätzen mit statistichen Methoden geschätzt

19 30.10.2002Sprachsignalverarbeitung19 Erkannte Wortfolge Architektur eines Spracherkenners FFT Merkmalextraktion Signalanalyse Aussprachlexikon Phoneminventar Akustisches Modell Trigrammstatistik Linguistisches Modell Globale suche Digitalisierte Sprachsignal

20 30.10.2002Sprachsignalverarbeitung20 Linguistisches Modell (Sprachmodell) Aufgabe: die linguistische Wahrscheinlichkeit einer Satzhypothese zu berechnen. Zu einer Wortfolge W wird eine (a priori) Wahrscheinlichkeit P(W) zugeordnet zur Modellierung die Wahrscheinlichkeit: –statistische Sprachmodelle –grammatische Sprachmodelle (Nachteil: gesprochene Sprache ist sehr oft unkorrekt grammatikalisch) –uniforme Sprachmodelle –usw.

21 30.10.2002Sprachsignalverarbeitung21 Statistische Sprachmodelle -1- Basiert auf training auf sehr großen Textkorpora Die Textkorpora sind Anwendungsspezifisch Die Wahrscheinlichkeit für einen Satz = Produkt von bedingten Wahrscheinlichkeiten für die enthaltenen Wörter jedes Wort von allen Vorgängerworten im Satz abhängt. wo:

22 30.10.2002Sprachsignalverarbeitung22 Statistische Sprachmodelle -2- n-gramm Modelle Beschränken die Länge der “Geschichte” eines Wortes auf n-1 Worte. Üblich: –unigram (n=1) –bigramm (n=2) –trigramm (n=3) Sehr große typisches Anwendungsgebiet training- Korpus –z.B Verbmobil :3200 Dialoge mit approx. 1 520 000 Wörter

23 30.10.2002Sprachsignalverarbeitung23 Erkannte Wortfolge Architektur eines Spracherkenners FFT Merkmalextraktion Signalanalyse Aussprachlexikon Phoneminventar Akustisches Modell Trigrammstatistik Linguistisches Modell Globale suche Digitalisierte Sprachsignal

24 30.10.2002Sprachsignalverarbeitung24 Statistische Sprachmodelle -3- n-gramm Modelle Beispiel für “Trigramm Ereignis”: Problem: Vokabular von 20 000 Wörtern : 20000 3 = 8  10 12 mögliche Trigramme -nicht alle kommen im Training-Korpus vor d.h. Viele bekommen 0- Wahrscheinlichkeit - Lösung: Benutzung auch von Bigrammen und Unigrammen -

25 30.10.2002Sprachsignalverarbeitung25 Wortfolge -1- Ziel: finden die Wortfolge die das Produkt aus akustischer und linguistischer Wahrscheinlichkeit maximiert rechnerisch aufwendiges Optimierungsproblem, weil alle möglichen Wortfolgen in Betracht kommen. –z.B. bei einem Wortschatz von 1000 Wörter –eine Satz von 10 Wörter Länge 10 30 Wortfolgenhypothesen Struktur: 3 diemensionelle Gitter: erste Achse: Zeit Achse zweite Achse : Zustandketten einzelener Wörter dritte Achse: die zugehörigen Wortindizes

26 30.10.2002Sprachsignalverarbeitung26 Wortfolge -2- Innerhalb der Wörter: nur Transitionen der HMM erlaubt An den wortenden existieren Transitionen zu den Anfängen weitere Wörter. Die Übergänge sind mit Hilfe des Sprachmodells bewertet Ziel: “besten” Pfad durch das Gitter zu finden “besten” = maximales Produkt zwischen linguistische und akustische Wahrscheinlichkeit unwahrscheinliche Wortfolgen sollen möglichst früh im Erkennungsprozeß verwerfen werden um Rechnen aufwand zu reduzieren

27 30.10.2002Sprachsignalverarbeitung27 Worthypothesengraphen Für ein einfacheres Sprachmodell (Bigramm)

28 30.10.2002Sprachsignalverarbeitung28 Spracherkennung und MÜ Verbmobil Probleme: –realistisch: real-time –sehr oft keine korrekte Grammatische Eingabe –Hesitationen, Wiederholungen (die nicht in Übersetzung propagieren müßen) –keine Satzgrenze (inkrementalle Verfahren) –kein möglich „backtracking“

29 30.10.2002Sprachsignalverarbeitung29 Quellsprache - Eingabe (Text) Zielsprache - Ausgabe (Text) MÜ - System SpracherkennerSprachsyntheser Quellsprache -Eingabe (Signal) Zielsprache -Ausgabe (Signal) ?

30 30.10.2002Sprachsignalverarbeitung30 Sprachsynthesesyteme Text-to-Speech (TTS): –Eingabetext wird erstmal linguistisch analysiert –die resultierende linguistische Repräsentation wird in ein synthetisches Sprachsignal umgesetzt Concept - to- speech –Sprache wird auf der Grundlage pragmatischen, semantischen und Diskurs-Wissen –Vorteil: das System “weis”: was es sagen will wie es gesagt werden soll –normalerweise integriert in ein Dialog- oder Übersetzungsytem

31 30.10.2002Sprachsignalverarbeitung31 Architektur eines TTS-Systems Text-Eingabe Linguistische Analyse Prosodie Synthese synthetisierte Sprachausgabe

32 30.10.2002Sprachsignalverarbeitung32 Linguistische Analyse Tokenisierung. –Zerlegung des Eingabetextes in Wörter –wichtig für Expandierung von Symbolen(z.B. %) und Abkürzungen (z.B. Datum) in Wörter Lexikalische Analyse (Morphologie): –Flexion –Ableitung –Komposition

33 30.10.2002Sprachsignalverarbeitung33 Prosodische Analyse Normalerweise in Verbindung mit syntaktische Analyse Die Parsers und Part-of-Speech-Taggers können auch für prosodische Phrasierung und Bestimmung des Satzmodus benutz werden

34 30.10.2002Sprachsignalverarbeitung34 Phonologische Analyse und Aussprache Vollformlexikon die Aussprache eines wortes ist durch seine Transkription im Lexikon gegeben Unbekannte Wörter werden durch Ausspracheregeln transkribiert sehr oft eine große Menge von Ausnahmeregeln Stammlexikon die Wörter haben genug morphologische Annotationen so daß generische Ausspracheregeln eine zuverläsige Trankription liefern können für unbekannte Wörter liefert die Komposita- und Derivationsanalyse eine Granularität der Annotation, die der bekannten Wörter äquivalent ist Aussprache: Phonemfolge, Markierung und Silberbetonung

35 30.10.2002Sprachsignalverarbeitung35 Quellsprache - Eingabe (Text) Zielsprache - Ausgabe (Text) MÜ - System SpracherkennerSprachsyntheser Quellsprache -Eingabe (Signal) Zielsprache -Ausgabe (Signal)

36 30.10.2002Sprachsignalverarbeitung36 Quellsprache Zielsprache MÜ - System Morphologie Lexikon Syntax Semantik Pragmatik Domänen- Wissen Generierung Was ? Wie ? Pre-Editing Restrictor Separator Post-Editing


Herunterladen ppt "Sprachsignalverarbeitung Cristina Vertan. 30.10.2002Sprachsignalverarbeitung2 Quellsprachliche Eingabe (Text) Zielsprachliche Ausgabe (Text) MÜ - System."

Ähnliche Präsentationen


Google-Anzeigen