Spracherkennung Egon Berger Didaktik der Physik 29.06.06.

Spracherkennung Egon Berger Didaktik der Physik

Die Geschichte der Spracherkennung:
1960er Jahren: Erkennung von einigen 100 Einzelworten. 1980er Jahren: Statistiken über die Häufigkeit bestimmter Wortkombinationen ermöglichen zwischen gleich klingenden Wörtern wie z.B. „Meer“ und „mehr“ zu unterscheiden. 1984: IBM stellt Spracherkennungssystem vor welches Einzelworte erkennt. Es benötigte dafür jedoch einen Großrechner. 1993: IBM verkauft erstes Spracherkennungssystem für den Massenmarkt welches auf normalen PCs läuft. Preis: $1000. 1993: IBM verkauft erstes Spracherkennungssystem für den Massenmarkt welches auf normalen PCs läuft. Preis: $1000. 2004: IBM gibt Teile seiner Spracherkennungsanwendungen als Open Source frei.

Wie gut funktioniert Spracherkennung ?
Überall dort, wo nur ein begrenzter Wortschatz verwendet wird, wird die automatische Spracherkennung mit Erfolg praktiziert. Systeme mit einem begrenzten Fachwortschatz erreichen eine nahezu 100% Erkennungsquote. Beispiel: Fahrplanauskunft, GPS-System im Auto Wird kein begrenzter Wortschatz verwendet wird, so wird keine volle Treffsicherheit erreicht . Eine Erkennung von 95 Prozent ist zu gering, da zu viel nachgebessert werden müsste. Unterteilung der Spracherkennung in zwei Arten: sprecherunabhängige Spracherkennung: keine vorhergehende Trainingsphase Wortschatz beträgt nur einige tausend Wörter sprecherabhängige Spracherkennung vorhergehende Trainingsphase

Wie funktioniert Spracherkennung?

Sprache wird mit dem Mikrophon aufgenommen.
Das analoge elektrische Signal vom Mikrophon wird digitalisiert. Amplitude 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 Zeit Das digitalisierte Amplitudensignal wird durch Fouriertransformation in ein Spektrogramm umgewandelt. Frequenz Zeit hohe Intensität geringe Intensität Gesprochene Vokale: e-a-e-a

Auftretende Probleme:
Im Spektrogramm kann man für die gesprochenen Vokale e-a-e-a eine deutliche Bänderstruktur erkennen. Diese dunklen Streifen werden „Formanten“ genannt. e a e a Die Spracherkennung versucht anhand der Muster im Spektrogramm auf die gesprochenen Laute zu schließen. Auftretende Probleme: Die Formanten gehen fließend von einem Laut in den anderen über. Dies geschied auch zwischen Wörtern, wenn sie ohne Pause ausgesprochen werden. Es ist daher schwierig zu erkennen, wann ein Laut bzw. Wort beginnt oder endet. Konsonanten besitzen keine ausgeprägte Formantenstruktur.

Diskrete Sprache – kontinuierliche Sprache
Man erkennt deutlich längere Pausen zwischen den Wörtern als zwischen den Silben. Kontinuierliche Sprache: Es sind keine Pausen erkennbar.

Das Spektogram der Konsonanten
Konsonanten sind wesentlich schwieriger zu erkennen als Vokale. Einzelne Konsonanten sind z.B. nur durch den Übergang zu den benachbarten Lauten feststellbar. Der Konsonant „p“ ist faktisch nur Stille. Man erkennt ihn lediglich durch die Übergänge zu den anderen Lauten. Ein Entfernen von „p“ bewirkt keinen hörbaren Unterschied.

Andere Konsonanten sind durchaus an charakteristischen spektralen Mustern erkennbar.
Bsp: „s“ und „f“ – besitzen hohen Energieanteil in den höheren Frequenzbändern. s f e Das Telefon überträgt Frequenzen bis zu 3,4 kHz. Die relevanten Informationen zur Unterscheidung von „s“ und „f“ fehlen dadurch. Deswegen ist Buchstabieren über Telefon ohne Verwendung eines speziellen Buchstabieralphabets (z.B. „Siegfried“, „Friedrich“) auch in der Kommunikation zwischen zwei Menschen ausgesprochen mühselig und fehleranfällig ist.

Wie geht ein Spracherkennungssystem vor um Muster zu erkennen?
1 sec 4 kHz bis 8 kHz 10 msec Um die Muster aufzulösen wird das Frequenzspektrum in etwa 20 Intervalle geteilt. Das Gehöhr kann bei niedrigen Frequenzen gut zwischen ähnlichen Frequenzen unterscheiden, nicht jedoch bei hohen. Darum wird eine gehöhrrichtige Unterteilung des Spektrums vorgenommen. Alle 10 msec wird aus einem 25 msec langen sich überlappenden Ausschnitt die Intensität in den Intervallen ermittelt. Das ergibt einen sog. Merkmalsvektor.

Wie kommt man nun von den Merkmalsvektoren zu den Lauten?
Durch stochastische Modelle, einem sog. Hidden Markov Model (kurz HMM) in Kombination mit künstlichen Neuronalen Netzen (kurz KNN). Beschreibung eines HMM: Ein Hidden Markov Model ist ein stochastisches Modell, das sich durch zwei Zufallsprozesse beschreiben lässt. Der erste Zufallsprozess entspricht dabei einer Markow-Kette, die durch Zustände und Übergangswahrscheinlichkeiten gekennzeichnet ist. Die Zustände der Kette sind von außen jedoch nicht direkt sichtbar (darum hidden). Stattdessen erzeugt ein zweiter Zufallsprozess zu jedem Zeitpunkt beobachtbare Ausgangssymbole gemäß einer zustandsabhängigen Wahrscheinlichkeitsverteilung. Die Aufgabe besteht häufig darin, aus der Sequenz der Ausgabesymbole auf die Sequenz der verborgenen Zustände zu schließen.

Sei: S = a,b,c,...,x,y,z (zur Vereinf.: Buchst. statt Laute) Die Wahrscheinlichkeit, dass auf „q“ „u“ oder auf „g“ „e“ folgt sehr gross, hingegen unwahrscheinlich dass auf „g“ „k“ folgt. HMMs beruhen auf dem Prinzip der Markov-Ketten. Fundament einer Markov-Kette ist der Vektor S, der aus N durchnummerierten Zuständen besteht. Betrachtet man nun eine Zufallsfolge Q = q1, , qT mit qt aus S, so beschreibt i die Startwahrscheinlichkeit für den Zustand si: Für jeden Wechsel von einem Zustand si nach sj gibt es zudem eine Übergangswahrscheinlichkeit aij, die in der Matrix A beschrieben sind: Da man in der Spracherkennung von einem Zustand immer nur zu einem höheren kommt, gilt außerdem aij = 0 falls j < i.

Künstliche Neuronalen Netze:
Ein künstliches neuronales Netz (KNN) ist der Versuch, die neuronalen Schaltvorgänge im Gehirn des Menschen zu simulieren und so ein System zu schaffen, das in der Lage ist zu lernen und Muster klassifizieren zu können. Ein KNN lernt das Klassifizieren, indem man ihn mit gen¨ugend Trainingsdaten füttert. Probleme: Die Trainingsmenge muss möglichst ausgewogen sein. Es kann vorkommen, dass KNNs die Trainingsdaten auswendig lernen (Overfitting) und Daten, die nicht aus der Trainingsmenge stammen nicht richtig klassifizieren können.

Wie kommt man nun von den Merkmalsvektoren zu den Lauten?
HMM & KNN Merkmalvektoren Wahrscheinlichkeit(Laut) Worterkennung: Diese Liste mit den Wahrscheinlichkeiten für die Laute wird nun verwendet, um mit Hilfe eines Wörterbuches eine weitere Liste zu generieren, welche die wahrscheinlichsten Wörter enthält. (Markov-Ketten?) Sprachmodell: Das Sprachmodell versucht anschließend, die Wahrscheinlichkeit bestimmter Wortkombinationen zu bestimmen. Dazu werden Grammatikmodelle oder Wortstatistiken verwendet. Solche sind Bi- oder Trigrammstatistiken. Sie speichern die Auftrittswahrscheinlich- keit von Wortkombinationen aus 2 oder 3 Wörtern. Diese Statistiken werden aus Beispieltexten gewonnen. „Vielen Dank“ wäre also wahrscheinlicher als „Fielen Dank“.

Ein Beispiel zu den Trigrammstatistiken:
Die folgende Liste enthält die häufigsten 20 Trigramme aus einem Korpus von mehreren hunderttausend Wörtern.

Zusammenfassung des Erkennungsprozesses:
(Laute) (Merkmalvekt.)

Spracherkennung Egon Berger Didaktik der Physik 29.06.06.

Ähnliche Präsentationen

Präsentation zum Thema: "Spracherkennung Egon Berger Didaktik der Physik 29.06.06."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Spracherkennung Egon Berger Didaktik der Physik 29.06.06.

Ähnliche Präsentationen

Präsentation zum Thema: "Spracherkennung Egon Berger Didaktik der Physik 29.06.06."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback