Spracherkennung Egon Berger Didaktik der Physik 29.06.06.

Slides:



Advertisements
Ähnliche Präsentationen
g²HANDEL Auftragsverwaltung für Handelsvertretungen
Advertisements

Gensuche mit Hidden Markov Modellen Zentrum für Bioinformatik
Stochastik und Markovketten
Statistische Aspekte der PSG
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Stochastik in der Sek. II Sabrina Schultze.
Fresnel‘scher Doppelspiegelversuch
Die akustische Analyse von Sprachlauten.
Quellen-Filter Theorie der Sprachproduktion
Die akustische Analyse von Sprachlauten
Spektra von periodischen Signalen. Resonanz.
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
FRIKATIVE Sitzung 9 Welche Konsonanten sind für sich alleine identifizierbar? -Alle Konsonanten ausser [pt] in tippt, weil das [p] nicht gelöst wird und.
Spektrogramm Das Spektrogramm stellt 3 Dimensionen dar:
Spektrogramm und Spektrum
Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS
Spektrogramm und Spektrum Sitzung 8 Welche Konsonanten sind für sich alleine identifizierbar? -Alle Konsonanten ausser [pt] in tippt, weil das [p] nicht.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
F. H&H Theorie und „adaptive dispersion“ in Lindbloms Modell
Grundlagen der Analyse von Sprachdatenbanken
Etikettierungsebenen Jonathan Harrington. Das Ziel Etikettierungen verschiedener Ebenen aufzubauen, und miteinander zu verlinken.
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Was ist laut Stevens die Beziehung zwischen dem akustischen Signal, distinktiven Merkmalen und dem Lexikon?
Bewegung elektrischer Ladungen im elektrischen Feld
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (04 – Automaten mit ε-Transitionen) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 - AVL-Bäume: Entfernen, Bruder-Bäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (20 - AVL-Bäume: Entfernen, Bruder-Bäume) Prof. Th. Ottmann.
Die Nukleon-Nukleon Wechselwirkung
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Tutorium Willkommen zurück, in der wunderbaren Welt der Statistik Teil II.
Handlungsplanung und Allgemeines Spiel „Game Description Language (GDL)“ Peter Kissmann.
Hidden Markov Modelle (HMM) (Rabiner Tutorial)
Multikollinearität Wann spricht man von Multikollinearität?
Variationsformalismus für das freie Teilchen
Effiziente Algorithmen
Entwicklung des sprachgesteuerten Schachcomputers Speech2Chess
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
§3 Allgemeine lineare Gleichungssysteme
Vorzeichenregeln Plus mal Plus = Plus Minus mal Minus = Plus
Neuronale Netze.
Bestimmung der Rechtecksbreite bei n Rechtecken
Gibt es „kurze“ und „lange“ Vokale?
Künstliches Neuronales Netz nach John Hopfield
Elman-Netzwerke Wintersemester 2004/05 Seminar Kindlicher Spracherwerb C. Friedrich & R. Assadollahi vorgestellt von Christian Scharinger & Guido Heinecke.
2. MKT – Die verbale Selbstinstruktion Mi
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Plosive [a d a] [a t a] [a th a]
Item-Response-Theorie – oder probabilistische Testtheorie
Beachten Sie die Temperaturen von Locarno und Altdorf.
Methoden Die klassische Methode der Psycholinguistik (genauso wie der experimentellen Psychologie im Allgemeinen) ist die Messung von Reaktionszeiten.
Aufmerksamkeit, Funktion, Symptom Merkmale einer Legasthenie:
Verfassen von Aufsätzen
Denken, Lernen und Vergessen
Pool Informatik, Sj 11/12 GZG FN W.Seyboldt 1 Pool Informatik 5 GZG FN Sj. 11/12 Kopieren, Daten, Programme.
Eine Fotoreportage über junge Flüchtlinge in Deutschland
Asymmetrische Kryptographie
Binärbäume.
Stochastische Übergangsmatrizen zehn Fragen zum Basiswissen
1 Prozesse im Studiengangsmanagement Kontext: Neues Abschlussziel erstellen Neues Studienfach erstellen.
Excel-Tool: Beschwerdeanalyse  Folie 1 von Bitte Makros aktivieren Das Excel-Tool funktioniert nur mit eingeschalteten Makros. Eventuell erhalten.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Wellencharakter und Teilchencharakter des Lichts.
Peter Kaufmann Stud Sek I 06 FHNW Aarau, Posterdesign © Maria Spychiger Jasmin KlauserStud Sek I 06 FHNW Aarau,
THEORETISCHE PHONETIK DER DEUTSCHEN SPRACHE Lehrmaterialien für das 2. Studienjahr.
Klangorientierter Fremdspracherwerb
Emanuel Mistretta Lukas Schönbächler
 Präsentation transkript:

Spracherkennung Egon Berger Didaktik der Physik 29.06.06

Die Geschichte der Spracherkennung: 1960er Jahren: Erkennung von einigen 100 Einzelworten. 1980er Jahren: Statistiken über die Häufigkeit bestimmter Wortkombinationen ermöglichen zwischen gleich klingenden Wörtern wie z.B. „Meer“ und „mehr“ zu unterscheiden. 1984: IBM stellt Spracherkennungssystem vor welches 5.000 Einzelworte erkennt. Es benötigte dafür jedoch einen Großrechner. 1993: IBM verkauft erstes Spracherkennungssystem für den Massenmarkt welches auf normalen PCs läuft. Preis: $1000. 1993: IBM verkauft erstes Spracherkennungssystem für den Massenmarkt welches auf normalen PCs läuft. Preis: $1000. 2004: IBM gibt Teile seiner Spracherkennungsanwendungen als Open Source frei.

Wie gut funktioniert Spracherkennung ? Überall dort, wo nur ein begrenzter Wortschatz verwendet wird, wird die automatische Spracherkennung mit Erfolg praktiziert. Systeme mit einem begrenzten Fachwortschatz erreichen eine nahezu 100% Erkennungsquote. Beispiel: Fahrplanauskunft, GPS-System im Auto Wird kein begrenzter Wortschatz verwendet wird, so wird keine volle Treffsicherheit erreicht . Eine Erkennung von 95 Prozent ist zu gering, da zu viel nachgebessert werden müsste. Unterteilung der Spracherkennung in zwei Arten: sprecherunabhängige Spracherkennung: keine vorhergehende Trainingsphase Wortschatz beträgt nur einige tausend Wörter sprecherabhängige Spracherkennung vorhergehende Trainingsphase

Wie funktioniert Spracherkennung?

Sprache wird mit dem Mikrophon aufgenommen. Das analoge elektrische Signal vom Mikrophon wird digitalisiert. Amplitude 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 Zeit Das digitalisierte Amplitudensignal wird durch Fouriertransformation in ein Spektrogramm umgewandelt. Frequenz Zeit hohe Intensität geringe Intensität Gesprochene Vokale: e-a-e-a

Auftretende Probleme: Im Spektrogramm kann man für die gesprochenen Vokale e-a-e-a eine deutliche Bänderstruktur erkennen. Diese dunklen Streifen werden „Formanten“ genannt. e a e a Die Spracherkennung versucht anhand der Muster im Spektrogramm auf die gesprochenen Laute zu schließen. Auftretende Probleme: Die Formanten gehen fließend von einem Laut in den anderen über. Dies geschied auch zwischen Wörtern, wenn sie ohne Pause ausgesprochen werden. Es ist daher schwierig zu erkennen, wann ein Laut bzw. Wort beginnt oder endet. Konsonanten besitzen keine ausgeprägte Formantenstruktur.

Diskrete Sprache – kontinuierliche Sprache Man erkennt deutlich längere Pausen zwischen den Wörtern als zwischen den Silben. Kontinuierliche Sprache: Es sind keine Pausen erkennbar.

Das Spektogram der Konsonanten Konsonanten sind wesentlich schwieriger zu erkennen als Vokale. Einzelne Konsonanten sind z.B. nur durch den Übergang zu den benachbarten Lauten feststellbar. Der Konsonant „p“ ist faktisch nur Stille. Man erkennt ihn lediglich durch die Übergänge zu den anderen Lauten. Ein Entfernen von „p“ bewirkt keinen hörbaren Unterschied.

Andere Konsonanten sind durchaus an charakteristischen spektralen Mustern erkennbar. Bsp: „s“ und „f“ – besitzen hohen Energieanteil in den höheren Frequenzbändern. s f e Das Telefon überträgt Frequenzen bis zu 3,4 kHz. Die relevanten Informationen zur Unterscheidung von „s“ und „f“ fehlen dadurch. Deswegen ist Buchstabieren über Telefon ohne Verwendung eines speziellen Buchstabieralphabets (z.B. „Siegfried“, „Friedrich“) auch in der Kommunikation zwischen zwei Menschen ausgesprochen mühselig und fehleranfällig ist.

Wie geht ein Spracherkennungssystem vor um Muster zu erkennen? 1 sec 4 kHz bis 8 kHz 10 msec Um die Muster aufzulösen wird das Frequenzspektrum in etwa 20 Intervalle geteilt. Das Gehöhr kann bei niedrigen Frequenzen gut zwischen ähnlichen Frequenzen unterscheiden, nicht jedoch bei hohen. Darum wird eine gehöhrrichtige Unterteilung des Spektrums vorgenommen. Alle 10 msec wird aus einem 25 msec langen sich überlappenden Ausschnitt die Intensität in den Intervallen ermittelt. Das ergibt einen sog. Merkmalsvektor.

Wie kommt man nun von den Merkmalsvektoren zu den Lauten? Durch stochastische Modelle, einem sog. Hidden Markov Model (kurz HMM) in Kombination mit künstlichen Neuronalen Netzen (kurz KNN). Beschreibung eines HMM: Ein Hidden Markov Model ist ein stochastisches Modell, das sich durch zwei Zufallsprozesse beschreiben lässt. Der erste Zufallsprozess entspricht dabei einer Markow-Kette, die durch Zustände und Übergangswahrscheinlichkeiten gekennzeichnet ist. Die Zustände der Kette sind von außen jedoch nicht direkt sichtbar (darum hidden). Stattdessen erzeugt ein zweiter Zufallsprozess zu jedem Zeitpunkt beobachtbare Ausgangssymbole gemäß einer zustandsabhängigen Wahrscheinlichkeitsverteilung. Die Aufgabe besteht häufig darin, aus der Sequenz der Ausgabesymbole auf die Sequenz der verborgenen Zustände zu schließen.

Sei: S = a,b,c,...,x,y,z (zur Vereinf.: Buchst. statt Laute) Die Wahrscheinlichkeit, dass auf „q“ „u“ oder auf „g“ „e“ folgt sehr gross, hingegen unwahrscheinlich dass auf „g“ „k“ folgt. HMMs beruhen auf dem Prinzip der Markov-Ketten. Fundament einer Markov-Kette ist der Vektor S, der aus N durchnummerierten Zuständen besteht. Betrachtet man nun eine Zufallsfolge Q = q1, . . . , qT mit qt aus S, so beschreibt i die Startwahrscheinlichkeit für den Zustand si: Für jeden Wechsel von einem Zustand si nach sj gibt es zudem eine Übergangswahrscheinlichkeit aij, die in der Matrix A beschrieben sind: Da man in der Spracherkennung von einem Zustand immer nur zu einem höheren kommt, gilt außerdem aij = 0 falls j < i.

Künstliche Neuronalen Netze: Ein künstliches neuronales Netz (KNN) ist der Versuch, die neuronalen Schaltvorgänge im Gehirn des Menschen zu simulieren und so ein System zu schaffen, das in der Lage ist zu lernen und Muster klassifizieren zu können. Ein KNN lernt das Klassifizieren, indem man ihn mit gen¨ugend Trainingsdaten füttert. Probleme: Die Trainingsmenge muss möglichst ausgewogen sein. Es kann vorkommen, dass KNNs die Trainingsdaten auswendig lernen (Overfitting) und Daten, die nicht aus der Trainingsmenge stammen nicht richtig klassifizieren können.

Wie kommt man nun von den Merkmalsvektoren zu den Lauten? HMM & KNN Merkmalvektoren Wahrscheinlichkeit(Laut) Worterkennung: Diese Liste mit den Wahrscheinlichkeiten für die Laute wird nun verwendet, um mit Hilfe eines Wörterbuches eine weitere Liste zu generieren, welche die wahrscheinlichsten Wörter enthält. (Markov-Ketten?) Sprachmodell: Das Sprachmodell versucht anschließend, die Wahrscheinlichkeit bestimmter Wortkombinationen zu bestimmen. Dazu werden Grammatikmodelle oder Wortstatistiken verwendet. Solche sind Bi- oder Trigrammstatistiken. Sie speichern die Auftrittswahrscheinlich- keit von Wortkombinationen aus 2 oder 3 Wörtern. Diese Statistiken werden aus Beispieltexten gewonnen. „Vielen Dank“ wäre also wahrscheinlicher als „Fielen Dank“.

Ein Beispiel zu den Trigrammstatistiken: Die folgende Liste enthält die häufigsten 20 Trigramme aus einem Korpus von mehreren hunderttausend Wörtern.

Zusammenfassung des Erkennungsprozesses: (Laute) (Merkmalvekt.)