Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Spracherkennung Egon Berger Didaktik der Physik 29.06.06.

Ähnliche Präsentationen


Präsentation zum Thema: "Spracherkennung Egon Berger Didaktik der Physik 29.06.06."—  Präsentation transkript:

1 Spracherkennung Egon Berger Didaktik der Physik

2 Die Geschichte der Spracherkennung: 1960er Jahren: Erkennung von einigen 100 Einzelworten. 1980er Jahren: Statistiken über die Häufigkeit bestimmter Wortkombinationen ermöglichen zwischen gleich klingenden Wörtern wie z.B. „Meer“ und „mehr“ zu unterscheiden. 1984: IBM stellt Spracherkennungssystem vor welches Einzelworte erkennt. Es benötigte dafür jedoch einen Großrechner. 1993: IBM verkauft erstes Spracherkennungssystem für den Massenmarkt welches auf normalen PCs läuft. Preis: $ : IBM gibt Teile seiner Spracherkennungsanwendungen als Open Source frei.

3 Wie gut funktioniert Spracherkennung ? Eine Erkennung von 95 Prozent ist zu gering, da zu viel nachgebessert werden müsste. Wird kein begrenzter Wortschatz verwendet wird, so wird keine volle Treffsicherheit erreicht. Überall dort, wo nur ein begrenzter Wortschatz verwendet wird, wird die automatische Spracherkennung mit Erfolg praktiziert. Systeme mit einem begrenzten Fachwortschatz erreichen eine nahezu 100% Erkennungsquote. Beispiel: Fahrplanauskunft, GPS-System im Auto Unterteilung der Spracherkennung in zwei Arten: sprecherunabhängige Spracherkennung: keine vorhergehende Trainingsphase Wortschatz beträgt nur einige tausend Wörter sprecherabhängige Spracherkennung vorhergehende Trainingsphase

4 Wie funktioniert Spracherkennung?

5 Sprache wird mit dem Mikrophon aufgenommen. Zeit Amplitude Das analoge elektrische Signal vom Mikrophon wird digitalisiert Das digitalisierte Amplitudensignal wird durch Fouriertransformation in ein Spektrogramm umgewandelt. Gesprochene Vokale: e-a-e-a Frequenz Zeit hohe Intensität geringe Intensität

6 Im Spektrogramm kann man für die gesprochenen Vokale e-a-e-a eine deutliche Bänderstruktur erkennen. Diese dunklen Streifen werden „Formanten“ genannt. Die Spracherkennung versucht anhand der Muster im Spektrogramm auf die gesprochenen Laute zu schließen. Auftretende Probleme: eaea Die Formanten gehen fließend von einem Laut in den anderen über. Dies geschied auch zwischen Wörtern, wenn sie ohne Pause ausgesprochen werden. Es ist daher schwierig zu erkennen, wann ein Laut bzw. Wort beginnt oder endet. Konsonanten besitzen keine ausgeprägte Formantenstruktur.

7 Diskrete Sprache – kontinuierliche Sprache Diskrete Sprache: Man erkennt deutlich längere Pausen zwischen den Wörtern als zwischen den Silben. Kontinuierliche Sprache: Es sind keine Pausen erkennbar.

8 Das Spektogram der Konsonanten Konsonanten sind wesentlich schwieriger zu erkennen als Vokale. Einzelne Konsonanten sind z.B. nur durch den Übergang zu den benachbarten Lauten feststellbar. Der Konsonant „p“ ist faktisch nur Stille. Man erkennt ihn lediglich durch die Übergänge zu den anderen Lauten. Ein Entfernen von „p“ bewirkt keinen hörbaren Unterschied.

9 Andere Konsonanten sind durchaus an charakteristischen spektralen Mustern erkennbar. Bsp: „s“ und „f“ – besitzen hohen Energieanteil in den höheren Frequenzbändern. Das Telefon überträgt Frequenzen bis zu 3,4 kHz. Die relevanten Informationen zur Unterscheidung von „s“ und „f“ fehlen dadurch. Deswegen ist Buchstabieren über Telefon ohne Verwendung eines speziellen Buchstabieralphabets (z.B. „Siegfried“, „Friedrich“) auch in der Kommunikation zwischen zwei Menschen ausgesprochen mühselig und fehleranfällig ist. sfe

10 Wie geht ein Spracherkennungssystem vor um Muster zu erkennen? 10 msec Alle 10 msec wird aus einem 25 msec langen sich überlappenden Ausschnitt die Intensität in den Intervallen ermittelt. Das ergibt einen sog. Merkmalsvektor. Um die Muster aufzulösen wird das Frequenzspektrum in etwa 20 Intervalle geteilt. Das Gehöhr kann bei niedrigen Frequenzen gut zwischen ähnlichen Frequenzen unterscheiden, nicht jedoch bei hohen. Darum wird eine gehöhrrichtige Unterteilung des Spektrums vorgenommen. 1 sec 4 kHz bis 8 kHz

11 Wie kommt man nun von den Merkmalsvektoren zu den Lauten? Durch stochastische Modelle, einem sog. Hidden Markov Model (kurz HMM) in Kombination mit künstlichen Neuronalen Netzen (kurz KNN). Beschreibung eines HMM: Ein Hidden Markov Model ist ein stochastisches Modell, das sich durch zwei Zufallsprozesse beschreiben lässt. Der erste Zufallsprozess entspricht dabei einer Markow-Kette, die durch Zustände und Übergangswahrscheinlichkeiten gekennzeichnet ist. Die Zustände der Kette sind von außen jedoch nicht direkt sichtbar (darum hidden). Stattdessen erzeugt ein zweiter Zufallsprozess zu jedem Zeitpunkt beobachtbare Ausgangssymbole gemäß einer zustandsabhängigen Wahrscheinlichkeitsverteilung. Die Aufgabe besteht häufig darin, aus der Sequenz der Ausgabesymbole auf die Sequenz der verborgenen Zustände zu schließen.

12 Da man in der Spracherkennung von einem Zustand immer nur zu einem höheren kommt, gilt außerdem aij = 0 falls j < i. HMMs beruhen auf dem Prinzip der Markov-Ketten. Fundament einer Markov-Kette ist der Vektor S, der aus N durchnummerierten Zuständen besteht. Betrachtet man nun eine Zufallsfolge Q = q1,..., qT mit qt aus S, so beschreibt i die Startwahrscheinlichkeit für den Zustand si: Für jeden Wechsel von einem Zustand si nach sj gibt es zudem eine Übergangswahrscheinlichkeit aij, die in der Matrix A beschrieben sind: Sei:S = a,b,c,...,x,y,z(zur Vereinf.: Buchst. statt Laute) Die Wahrscheinlichkeit, dass auf „q“ „u“ oder auf „g“ „e“ folgt sehr gross, hingegen unwahrscheinlich dass auf „g“ „k“ folgt.

13 Künstliche Neuronalen Netze: Ein künstliches neuronales Netz (KNN) ist der Versuch, die neuronalen Schaltvorgänge im Gehirn des Menschen zu simulieren und so ein System zu schaffen, das in der Lage ist zu lernen und Muster klassifizieren zu können. Ein KNN lernt das Klassifizieren, indem man ihn mit gen¨ugend Trainingsdaten füttert. Probleme: Die Trainingsmenge muss möglichst ausgewogen sein. Es kann vorkommen, dass KNNs die Trainingsdaten auswendig lernen (Overfitting) und Daten, die nicht aus der Trainingsmenge stammen nicht richtig klassifizieren können.

14 Wie kommt man nun von den Merkmalsvektoren zu den Lauten? MerkmalvektorenWahrscheinlichkeit(Laut) HMM & KNN Worterkennung: Diese Liste mit den Wahrscheinlichkeiten für die Laute wird nun verwendet, um mit Hilfe eines Wörterbuches eine weitere Liste zu generieren, welche die wahrscheinlichsten Wörter enthält. (Markov-Ketten?) Sprachmodell: Das Sprachmodell versucht anschließend, die Wahrscheinlichkeit bestimmter Wortkombinationen zu bestimmen. Dazu werden Grammatikmodelle oder Wortstatistiken verwendet. Solche sind Bi- oder Trigrammstatistiken. Sie speichern die Auftrittswahrscheinlich- keit von Wortkombinationen aus 2 oder 3 Wörtern. Diese Statistiken werden aus Beispieltexten gewonnen. „Vielen Dank“ wäre also wahrscheinlicher als „Fielen Dank“.

15 Ein Beispiel zu den Trigrammstatistiken: Die folgende Liste enthält die häufigsten 20 Trigramme aus einem Korpus von mehreren hunderttausend Wörtern.

16 Zusammenfassung des Erkennungsprozesses: (Laute) (Merkmalvekt.)


Herunterladen ppt "Spracherkennung Egon Berger Didaktik der Physik 29.06.06."

Ähnliche Präsentationen


Google-Anzeigen