Sprachsignalverarbeitung

Slides:

Advertisements

Ähnliche Präsentationen

NADIA Workshop Folien MMK. Übersicht Modelle Dekodertechnologie Modellerzeugung Vorversuch Stand eigener Erkenner TODOs.

Advertisements

Transkription in der Sprachsythese und –erkennung SS 2004 Regelgesteuerte automatische Transkription auf der Basis von Expertenwissen Referent: Freshta.

Englischunterricht an der Realschule

Statistische Aspekte der PSG

Frame-Logik Eine Einführung Andreas Glausch.

Bounded Model Checking II

Gliederung 1. Grundlagen der Bottom-Up-Syntaxanalyse

Medienintensive Lehrmodule in der Computerlinguistik-Ausbildung

Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.

Genetische Algorithmen für die Variogrammanpassung

Einführung in die romanische Sprachwissenschaft VIa

HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken X Christian Schindelhauer

Anwendung und Visual Basic

Kapitel 4 Syntaktische Analyse: LR Parsing.

Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.

Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS

Das AM Modell der Intonation

1. Satzbetonung, Töne, und Grundfrequenz

Die Prosodie Jonathan Harrington Felicitas Kleber.

Die Normalisierung und Wahrnehmung eines fremden Akzents Datum: Referentin: Carolin Funk Dozent: Prof. Dr. Jonathan Harrington Hauptseminar:

Grundlagen der Analyse von Sprachdatenbanken

Was ist laut Stevens die Beziehung zwischen dem akustischen Signal, distinktiven Merkmalen und dem Lexikon?

1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Tobias Lauer.

1 Endliche Automaten in der Sprachtechnologie Kursthemen Karin Haenelt

Lexikalisch-Funktionale-Grammatik

Übersetzung durch Mensch und Maschine Einleitung Einleitung Entwicklungsgechichte der MÜ Entwicklungsgechichte der MÜ Entwicklungsphasen der MÜ Entwicklungsphasen.

Rigi und Web2Rsf vorgestellt von Tobias Weigand. Inhalt Ziel von Web2Rsf und Rigi Vorstellung des Parsers Web2Rsf Vorstellung des Werkzeugs Rigi Analyse.

PG 520 Intelligence Service – gezielte Informationen aus dem Internet

-> Sprachpsychologie -> Blickbewegungen

Kategoriale Wahrnehmung

Konzeption und Realisierung von DSS

Hidden Markov Modelle (HMM) (Rabiner Tutorial)

Maschinelles Lernen und automatische Textklassifikation

Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.

Statische Sprachmodellierung Training Sprachmodellen in SLM-Toolkit Buyu Xiao 24.Maerze.2010.

Überblick Software Bestellungsver- waltungsprozess Dialogmanagement Simulation Sprachverarbeitung Verschiedene Arbeitsphasen Routengraphen Sprachverarbeitung:

Für U2 an der FH in Bingen von Dipl. Inform. (FH) Heidi HannaH Daudistel.

? Was ist Informatik? Was ist Informatik? Alexander Lange

EXCEL PROFESSIONAL KURS

Die feinen Lederhandschuhe

Geniesse, was du erreicht hast und strebe weiter die Höchstnote an

DataMining Von Daten zu Informationen und Wissen

Biopus Café & Delikates Projekt Biopus Café & Delikates.

Entwicklung des sprachgesteuerten Schachcomputers Speech2Chess

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Hartmut Klauck Universität Frankfurt SS

Korpuslinguistik für und mit Computerlinguistik

Informationstheorie Begr. von Claude Shannon

Natürliche und künstliche Sprachen

Sprachproduktion und Sprachwahrnehmung

Oberbegriff: Diskursanalyse Gesprächsanalyse/ Koversationsanalyse

Übung zu Einführung in die LDV I

Philippe Blanchard Hans-Jürgen Eikmeyer Barbara Job Alexander Mehler Sprachliche Netzwerke texttechnologische Repräsentation computerlinguistische Synthese.

1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.

Johann Baron von Neumann

Wolfgang Wahlster Der Weg zum sprachverstehenden Computer Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Stuhlsatzenhausweg 3, Geb

Mensch – Maschine - Kommunikation

Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen

Lexikalische Semantik

Spracherkennung Egon Berger Didaktik der Physik

Information - syntaktisch

Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.

Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.

 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.

Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.

THEORETISCHE PHONETIK DER DEUTSCHEN SPRACHE

Beispiel: Divisem. Beispiel: Divisem Beispiele für komplexe Bewegungen und sprach-begleitende Gesten Springen auf der Stelle Aufzählung von fünf Gliederungs-

Präsentation transkript:

Sprachsignalverarbeitung Cristina Vertan

Sprachsignalverarbeitung Quellsprachliche Eingabe (Signal) Quellsprachliche Eingabe (Text) Spracherkenner ? MÜ - System Sprachsyntheser Zielsprachliche Ausgabe (Text) Zielspraclcihe Ausgabe (Signal) 30.10.2002 Sprachsignalverarbeitung

Wozu Sprachsignalverarbeitung Gesprochene Sprache ist den meist benutzte Kommunikationmöglichkeit. In Mensch-Maschine Kommunikation sind alle andere Mitteln (Tastatur, Maus) künstlich neue Alltag-Kommunikationsmitteln (Handy) die auch Computer-Technologie benutzen können. Anwendungen für Behinderte Steureung-Systeme in Situationen wo keine andere Ein/Ausgaben nicht möglich sind (Medizin, Auto-Reparatur, Autotelefon) 30.10.2002 Sprachsignalverarbeitung

Sprachsignalverarbeitung Spracherkennung Hauptprobleme der Spracherkennung Komponnente eines Spracherkennungsystems Spracherkennung und MÜ 30.10.2002 Sprachsignalverarbeitung

Hauptprobleme der Spracherkennung -1- Die Aussprache (akustische Realisierung) eines Lautes kann von einer Äußerung zur anderen stark variieren auch für: dasselbe Wort und desselben Sprecher Die Sprechgeschwindigkeit kann stark schwanken Koartikulation: die akustische Realisierung eines Lautes hängt im allgemeinen von den vorangegangenen und nachfolgenden Lauten ab 30.10.2002 Sprachsignalverarbeitung

Hauptprobleme der Spracherkennung -2- Im (kontinuierlichen) Rederfluß gibt es keine eindeutigen Laut- und Wortgrenzen In der praktischen Anwendung kommen Störungen (Bürolärm, Fahrgeräusche, Rauschen der Telefonleitung) hinzu. Gesprochene Sprache enthält auch oft eine prosodische Komponente 30.10.2002 Sprachsignalverarbeitung

Architektur eines Spracherkenners Akustisches Modell Signalanalyse Phoneminventar FFT Digitalisierte Sprachsignal Merkmalextraktion Aussprachlexikon Globale suche Linguistisches Modell Trigrammstatistik Erkannte Wortfolge 30.10.2002 Sprachsignalverarbeitung

Sprachsignalverarbeitung Signalanalyse -1- Schallwellen = analoge Signale digitalisiert Ziel: Generierung einer parametrische Repräsentation des Sprachsignals die: so kompakt wie möglich ist zur Erkennung notwendige Informationen enthält 2 aufeinanderfolgende Stufen: Vorverarbeitung Merkmalextraktion 30.10.2002 Sprachsignalverarbeitung

Sprachsignalverarbeitung Signalanalyse -2- Vorverarbeitung Übergang vom Sprachzeitsignal zu den spektralen Eigenschaften der Sprache z.B. Welche Frequenzen sind zu welchem Zeitpunkt beteiligt Merkmalsextraktion erkennung geeignte Merkmale in verbindung mit einer Dimensionreduktion sehr wenige linguistische Methode stark mathematisch-physikalisch begründet (FFT) Ergebnis: eine Folge von Merkmalsvektoren 30.10.2002 Sprachsignalverarbeitung

Sprachsignalverarbeitung Signalanalyse -3- schwache Pegel 2. Spektralanalyse: auf kurzen Abschnitten, wie stark welche Frequenzen an einer Äußerung beteiligt sind 3.Merkmals-vektor 1. Digitalisierte Sprachsignal Schön, halten wir fest Frau Petzold 30.10.2002 Sprachsignalverarbeitung

Architektur eines Spracherkenners Akustisches Modell Signalanalyse Phoneminventar FFT Digitalisierte Sprachsignal Merkmalextraktion Aussprachlexikon Globale suche Linguistisches Modell Trigrammstatistik Erkannte Wortfolge 30.10.2002 Sprachsignalverarbeitung

Akustische Modellierung Die akustischen Wahrscheinlichkeiten verknüpfen die Folge des Merkmalsvektoren mit einzelnen Wörter des Lexikons 2 Schritte: die Wörter des Lexikons werden als Folge von Phonemen beschrieben die Wahrscheinlichkeitsverteilungen der Merkmalsvektoren werden für die einzelnen Phoneme modelliert (HMM) 30.10.2002 Sprachsignalverarbeitung

Sprachsignalverarbeitung Phoneme Phoneme = die kleinsten bedeutungsunterscheidenden Lautelemente einer Sprache z. B. Die Laute die in Lautschrift mit [d] und [t] notiert weden und zwischen “Dorf” und “Torf” unterschieden. Für DE: ca. 40 Phoneme 30.10.2002 Sprachsignalverarbeitung

Sprachsignalverarbeitung Aussprachelexikon Enthält für jedes Wort aus dem Vokabular des Erkenners eine Phonemfolge, die der Standardaussprache entspricht (änlich mit Duden-Lautschrift) Koartikulationen können modelliert werden durch kontextabhängige Phonem-Modelle Beim großem Vokabular : Aussprachelexikon ist als Baum organisiert Blätter: die Wörter des Lexikons der Pfad von Stamm zu einem Blatt: die Phonemkette eines Wortes Vorteil: die Wörter, die mit der gleicher Phonemkette beginnen, zusammengefaßt werden können 30.10.2002 Sprachsignalverarbeitung

Aussprachelexikon: Beispiel 30.10.2002 Sprachsignalverarbeitung

Hidden Markov Modell (HMM) -1- Die Sprechgeschwindigkeit kann stark schwanken HMM-Modell stellt die Schwankungen der Sprechgeschwingigkeit dar mit HMMs sind Merkmallen innerhalb einzelner Phoneme modelliert. Ein Phonem besteht aus 3-6 Zustanden die linear hintereinander angeordnet sind ein Zustand = ein kurzer Teil eines Phonems von etwa 10-20 Milisekunden Länge Jede Zustand ist verknüpft mit: Emissionverteiligung für die Merkmalsvektoren mit Transitionswahrscheinlichkeiten für die mögliche Übergänge 30.10.2002 Sprachsignalverarbeitung

Sprachsignalverarbeitung 30.10.2002 Sprachsignalverarbeitung

Sprachsignalverarbeitung HMM -2- Bestimmung der akustischen Wahrscheinlichkeit: man nimmt den Pfad der das Produkt aus den zugehörigen Emissions- und Transitionswahrscheinlichkeiten maximiert. Die Parameter der Emissionsverteilung werden in einer Trainingsphase automatisch aus einem großen Korpus von Beispielsätzen mit statistichen Methoden geschätzt 30.10.2002 Sprachsignalverarbeitung

Architektur eines Spracherkenners Akustisches Modell Signalanalyse Phoneminventar FFT Digitalisierte Sprachsignal Merkmalextraktion Aussprachlexikon Globale suche Linguistisches Modell Trigrammstatistik Erkannte Wortfolge 30.10.2002 Sprachsignalverarbeitung

Linguistisches Modell (Sprachmodell) Aufgabe: die linguistische Wahrscheinlichkeit einer Satzhypothese zu berechnen. Zu einer Wortfolge W wird eine (a priori) Wahrscheinlichkeit P(W) zugeordnet zur Modellierung die Wahrscheinlichkeit: statistische Sprachmodelle grammatische Sprachmodelle (Nachteil: gesprochene Sprache ist sehr oft unkorrekt grammatikalisch) uniforme Sprachmodelle usw. 30.10.2002 Sprachsignalverarbeitung

Statistische Sprachmodelle -1- Basiert auf training auf sehr großen Textkorpora Die Textkorpora sind Anwendungsspezifisch Die Wahrscheinlichkeit für einen Satz = Produkt von bedingten Wahrscheinlichkeiten für die enthaltenen Wörter jedes Wort von allen Vorgängerworten im Satz abhängt. wo: 30.10.2002 Sprachsignalverarbeitung

Statistische Sprachmodelle -2- n-gramm Modelle Beschränken die Länge der “Geschichte” eines Wortes auf n-1 Worte. Üblich: unigram (n=1) bigramm (n=2) trigramm (n=3) Sehr große typisches Anwendungsgebiet training-Korpus z.B Verbmobil :3200 Dialoge mit approx. 1 520 000 Wörter 30.10.2002 Sprachsignalverarbeitung

Architektur eines Spracherkenners Akustisches Modell Signalanalyse Phoneminventar FFT Digitalisierte Sprachsignal Merkmalextraktion Aussprachlexikon Globale suche Linguistisches Modell Trigrammstatistik Erkannte Wortfolge 30.10.2002 Sprachsignalverarbeitung

Statistische Sprachmodelle -3- n-gramm Modelle Beispiel für “Trigramm Ereignis”: Problem:Vokabular von 20 000 Wörtern : 200003 = 81012 mögliche Trigramme -nicht alle kommen im Training-Korpus vor d.h. Viele bekommen 0-Wahrscheinlichkeit - Lösung: Benutzung auch von Bigrammen und Unigrammen - 30.10.2002 Sprachsignalverarbeitung

Sprachsignalverarbeitung Wortfolge -1- Ziel: finden die Wortfolge die das Produkt aus akustischer und linguistischer Wahrscheinlichkeit maximiert rechnerisch aufwendiges Optimierungsproblem, weil alle möglichen Wortfolgen in Betracht kommen. z.B. bei einem Wortschatz von 1000 Wörter eine Satz von 10 Wörter Länge 1030 Wortfolgenhypothesen Struktur: 3 diemensionelle Gitter: erste Achse: Zeit Achse zweite Achse : Zustandketten einzelener Wörter dritte Achse: die zugehörigen Wortindizes 30.10.2002 Sprachsignalverarbeitung

Sprachsignalverarbeitung Wortfolge -2- Innerhalb der Wörter: nur Transitionen der HMM erlaubt An den wortenden existieren Transitionen zu den Anfängen weitere Wörter. Die Übergänge sind mit Hilfe des Sprachmodells bewertet Ziel: “besten” Pfad durch das Gitter zu finden “besten” = maximales Produkt zwischen linguistische und akustische Wahrscheinlichkeit unwahrscheinliche Wortfolgen sollen möglichst früh im Erkennungsprozeß verwerfen werden um Rechnen aufwand zu reduzieren 30.10.2002 Sprachsignalverarbeitung

Worthypothesengraphen Für ein einfacheres Sprachmodell (Bigramm) 30.10.2002 Sprachsignalverarbeitung

Spracherkennung und MÜ Verbmobil Probleme: realistisch: real-time sehr oft keine korrekte Grammatische Eingabe Hesitationen, Wiederholungen (die nicht in Übersetzung propagieren müßen) keine Satzgrenze (inkrementalle Verfahren) kein möglich „backtracking“ 30.10.2002 Sprachsignalverarbeitung

Sprachsignalverarbeitung Quellsprache -Eingabe (Signal) Quellsprache - Eingabe (Text) Spracherkenner ? MÜ - System Sprachsyntheser Zielsprache - Ausgabe (Text) Zielsprache -Ausgabe (Signal) 30.10.2002 Sprachsignalverarbeitung

Sprachsynthesesyteme Text-to-Speech (TTS): Eingabetext wird erstmal linguistisch analysiert die resultierende linguistische Repräsentation wird in ein synthetisches Sprachsignal umgesetzt Concept - to- speech Sprache wird auf der Grundlage pragmatischen, semantischen und Diskurs-Wissen Vorteil: das System “weis”: was es sagen will wie es gesagt werden soll normalerweise integriert in ein Dialog- oder Übersetzungsytem 30.10.2002 Sprachsignalverarbeitung

Architektur eines TTS-Systems Linguistische Analyse Prosodie Text-Eingabe Synthese synthetisierte Sprachausgabe 30.10.2002 Sprachsignalverarbeitung

Linguistische Analyse Tokenisierung . Zerlegung des Eingabetextes in Wörter wichtig für Expandierung von Symbolen(z.B. %) und Abkürzungen (z.B. Datum) in Wörter Lexikalische Analyse (Morphologie): Flexion Ableitung Komposition 30.10.2002 Sprachsignalverarbeitung

Sprachsignalverarbeitung Prosodische Analyse Normalerweise in Verbindung mit syntaktische Analyse Die Parsers und Part-of-Speech-Taggers können auch für prosodische Phrasierung und Bestimmung des Satzmodus benutz werden 30.10.2002 Sprachsignalverarbeitung

Phonologische Analyse und Aussprache Aussprache: Phonemfolge, Markierung und Silberbetonung Stammlexikon die Wörter haben genug morphologische Annotationen so daß generische Ausspracheregeln eine zuverläsige Trankription liefern können für unbekannte Wörter liefert die Komposita- und Derivationsanalyse eine Granularität der Annotation, die der bekannten Wörter äquivalent ist Vollformlexikon die Aussprache eines wortes ist durch seine Transkription im Lexikon gegeben Unbekannte Wörter werden durch Ausspracheregeln transkribiert sehr oft eine große Menge von Ausnahmeregeln 30.10.2002 Sprachsignalverarbeitung

Sprachsignalverarbeitung Quellsprache -Eingabe (Signal) Quellsprache - Eingabe (Text) Spracherkenner MÜ - System Sprachsyntheser Zielsprache - Ausgabe (Text) Zielsprache -Ausgabe (Signal) 30.10.2002 Sprachsignalverarbeitung

Sprachsignalverarbeitung Post-Editing MÜ - System Morphologie Lexikon Syntax Domänen- Wissen Pragmatik Semantik Was ? Wie ? Generierung Pre-Editing Zielsprache Quellsprache Separator Restrictor 30.10.2002 Sprachsignalverarbeitung