Entwicklung des sprachgesteuerten Schachcomputers Speech2Chess

Slides:



Advertisements
Ähnliche Präsentationen
Spielen “to play” Was spielst du?.
Advertisements

NADIA Workshop Folien MMK. Übersicht Modelle Dekodertechnologie Modellerzeugung Vorversuch Stand eigener Erkenner TODOs.
1 Gerardo Navarro Suarez BPM Suite. 2 Quelle: camunda Services GmbH Das Warum hinter Activiti Problem bestehender BPMS: Starker Fokus auf das Business.
Bayes Netze Seminar: Transkription in Sprachsynthese und -erkennung
Statistische Aspekte der PSG
Informatik 12 | DAES Compilerbau Wintersemester 2010 / 2011 Dr. Heiko Falk Technische Universität Dortmund Lehrstuhl Informatik 12 Entwurfsautomatisierung.
Medienintensive Lehrmodule in der Computerlinguistik-Ausbildung
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
T-XPath Ein zeitliches Modell für XML-DBS M. Kalb, G. SpechtK. Schneider Universität Ulm EML Heidelberg.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
/TU Freiberg/ Institut für Informatik /Konrad Froitzheim
Einführung in Berechenbarkeit und Formale Sprachen
Präsentation von: Ghamdan Atef. Motivation Datensammlung Vorgeschichte Radio Oranje Collection Projekt Experimente Erstellung von Transkriptionen Akustische.
Automatische Spracherkennung FR 4.7 Allgemeine Linguistik Institut für Phonetik, UdS (IPUS) Foundations in Language Science and Technology WS
Mixed Models Jonathan Harrington library(ez) library(lme4)
1 Endliche Automaten in der Sprachtechnologie Kursthemen Karin Haenelt
Übersetzung durch Mensch und Maschine Einleitung Einleitung Entwicklungsgechichte der MÜ Entwicklungsgechichte der MÜ Entwicklungsphasen der MÜ Entwicklungsphasen.
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Was sind deine Hobbys? Meine Hobbys sind ….
Hidden Markov Modelle (HMM) (Rabiner Tutorial)
WIE MAN WOHNT.
Überblick Software Bestellungsver- waltungsprozess Dialogmanagement Simulation Sprachverarbeitung Verschiedene Arbeitsphasen Routengraphen Sprachverarbeitung:
Maschinen-Richtlinie
Wie hält man gute Vorträge?
Ein Videoclip auf YouTube zum Einüben des Perfekts Karen Roy University of British Columbia 21. Februar 2009.
Maschinen-Richtlinie
FREIZEITAKTIVITÄTEN vorbereitet von Lilijana Babič und Özlem Türer
Workshop 2 Praktische Instrumente für den Gemeinsamen europäischen Referenzrahmen Dirk Klein:
Multimodale Interfaces
EXCEL PROFESSIONAL KURS
Vortrag D. Braun, Praktikum. Übersicht Pleopatra API Pleopatra Tools Twitter Demonstration Ausblick.
Tobias Kluge: FAME Middleware / Karlsruhe / The FAME project – Middleware.
>>> Ja <<< >>> Nein <<<
Dies ist eine automatisierte Lohnverhandlung.Bitte beantworten Sie die nachfolgenden Fragen. Ihre Antworten werden die Grundlage für Ihren neuen Lohn bilden.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Kapitel DEUTSCH ZWEI. Guten Tag! Heute ist Dienstag! Die Sinnfrage: Mode? Ja oder nein? Das Ziel: Discuss clothing preferences Describe.
Schachprogramm Die Anbindung Sphinx Dreamchess Akustisches Modell Speech2Chess Xboard Engine Wortschatz eingeschränkt Syntax Logik.
Schachprogramm Die Anbindung Sphinx Dreamchess Akustisches Modell Speech2Chess Xboard Engine Wortschatz eingeschränkt Syntax Logik.
RHe x Projektnummer 20 3AHMEA. Inspiration Inspiration durch ein YouTube Video von Boston Dynamics Projektnummer.
Montag, den 9.4. Hausaufgabe für Dienstag den LB 10.1 G-I (I = Aufsatz) Quiz 10.1 Guten Tag!
Autor: Vera Aleksić , Graz Breaking the Language Barrier Sprachtechnologieprodukte der Firma Linguatec, München: - Personal Translator
Deutsch September 2008.
Management, Führung & Kommunikation
Informationstheorie Begr. von Claude Shannon
19/05/00Science Week Austria 2000 © ftw speech & more Existierende und zukünftige Sprachdialogsysteme.
Natürliche und künstliche Sprachen
Enterprise Achitect (Sparx Systems) Marius Rudolf
Lass den deutschen Markt durch deine Schokoladenwerbung schmelzen.
Präsentation von Sören Fischer
Ich bau nicht mit Ihr.. Ich bau mit Ihr. Ich bau nicht mit Ihr.
Seminar Wien Einführung.
Evaluation des sprachgesteuerten Assistenten Jasper
Sprachsignalverarbeitung
Podcast Transcriber Andreas Haslinger Claus Vogelmann 1 Projekt im Rahmen der Lehrveranstaltung Mobile und ubiquitäre Systeme.
Präsentation Projektarbeit
Migration der HLA aus militärischen in zivile Domänen Steffen Straßburger, Uni MD Übersicht Die Vergangenheit Die Gegenwart Die Zukunft (?)
VILVITE Isa Ottesen, Hans Jørgen Jacobsen und Victoria Vestrheim.
Teil I: Sprache im Kontext
Deutschkurs – EOI Ciudad Real
Multimedia und Virtual Reality Vorlesung mit Übungen Sommersemester 1999 Martin Kurze
ROS – Robot Operating System
Berlinerisch By: Maddie Gates.
Strategie.
Spracherkennung Egon Berger Didaktik der Physik
iem.kug.ac.at Konzepte für virtuelle Akustik Theoretische Betrachtungen Alois Sontacchi Institute of Electronic Music and Acoustics at the University.
Spielen “to play” Was spielst du?.
Note-taking Wortschatz Powerpoint
Na, hast Du Lust, Deine Augen ein wenig zu verwirren???
Na, hast Du Lust, Deine Augen ein wenig zu verwirren???
 Präsentation transkript:

Entwicklung des sprachgesteuerten Schachcomputers Speech2Chess Bernhard Götz Matthias Brand

Übersicht Grundlagen der Spracherkennung Spracherkennung mit Sphinx Sprachmodelle Dekodierung Spracherkennung mit Sphinx Grammatik für Speech2Chess Das Schachprogramm Die Anbindung

Video: Voice Control Tank http://www.youtube.com/watch?v=f4LUBX6mwBk

Grundlagen der Spracherkennung Mensch-Maschine-Kommunikation Taktil vs. Akustisch Vielfältige Anwendungsgebiete (Haushalt, Büro usw.) Ziel: Erkennen des Nachrichteninhalts (Spracherkennung, Sprachverstehen) Mensch-Maschine Kommunikation: Tastenfeld: Vorteile – 100%ige Erkennung Nachteile: Durchsatzbeschränkt durch Tastenzahl und –belegung. Tippen muss geschult werden (100-150 Wörter pro Minute). Handschrifterkennung mit zunehmender Zahl an Tabletcomputern auf dem Vormarsch. Akustisch: Vorteile - Höherer Durchsatz (120-250 Wörter pro Minute), Hände u. Augen frei, Mikrofon nimmt wenig platz weg, Nutzung des Telefonnetzes als Zugang zu rechnergestützten Informationsbeschaffung Anwendungsgebiete: Haushalt: Steuerung von Beleuchtung, Unterhaltungselektronik … Büro: Akustische Schreibmaschine, Gerätebedienung … Automatische Dolmetschergeräte, Persönliche Erfahrung: Steuerung Media-Player

Grundlagen der Spracherkennung Beispiel für Auskunftssystem eines Verkehrsmittels Spracherkennen  Korrekter Text, Sprachverstehen  Für Rechner verständlicher Befehl Anmerkung: Akustische und linguistische Verarbeitung, Entkopplung nur zur Veranschaulichung, Müssen nicht sequentiell ablaufen.

Grundlagen der Spracherkennung Einflussfaktoren (Darbietungsform, Sprachumfang, Sprecherabhängigkeit) Darbietungsform bestimmt durch Aufnahme Sprachumfang von Anwendung abhängig Sprecheradaptive Systeme Darbietungsform: Aufnahmequalität (Mikrofon, Telefonnetz usw.), Störgeräusche, Fließende Äußerung (Verbundworterkennung) oder mit Pausenintervallen (Isoliertworterkennung) Sprachumfang: Anwendungsabhängig, 2 Extreme, Hochsprachenvokabular und einelementiger Wortschatz (Wecker mit Stop!) Wortschatzgröße steigt mit Umfang leicht in in die Hundert/Tausend Wortformen Sprecherabhängigkeit: Benutzung durch Ein Sprecher, kleine Sprechergruppe oder beliebig viele Sprecher,  Sprecheradaptive Systeme (Überwacht, unüberwacht: Länge der Vorlaufphase wichigt)

Grundlagen der Spracherkennung Schwierigkeiten bei der Spracherkennung Kontinuität Variabilität Komplexität Ambiguität Kontinuität: Sprachschall enthält keine Grenzen zwischen Wörtern, Silben oder Lauten Variabilität: Bedingt durch Darbietungsform  Verschiedenen Realisierungen von Wörtern möglich. Prototypenfindung schwierig. Komplexität: Hohe Rechenleistung und Speicherkapazität: Hohe Datenrate bei Eingabe (8k – 20k Abtastwerte pro Sekunde) Ambiguität:

Modellierung des Sprachmodells Notwendige Informationen: Wörterbuch (Wort  Phoneme) Akustisches Modell (Aufnahmen) Wahrscheinlichkeit von Äußerungen

Dekodierung des Sprachmodells

Spracherkennung mit Sphinx HMM-basiert (Hidden Markov Model) Erkennung durch Punkteverteilung (Score) Repräsentation der möglichen Äußerungen durch Graphen (folgende Folie) -Nutzt also statistisches Modell Punkteverteilung: Sprache wird akustischem Modell gegenübergestellt. „Wie wahrscheinlich ist es, dass eine bestimmte Äußerung getätigt wurde.“

Spracherkennung mit Sphinx

Spracherkennung mit Sphinx When the recognizer starts up, it constructs the front end (which generates features from speech), the decoder, and the linguist (which generates the search graph) according to the configuration specified by the user. These components will in turn construct their own subcomponents. For example, the linguist will construct the acoustic model, the dictionary, and the language model. It will use the knowledge from these three components to construct a search graph that is appropriate for the task. The decoder will construct the search manager, which in turn constructs the scorer, the pruner, and the active list. Most of these components represents interfaces. The search manager, linguist, acoustic model, dictionary, language model, active list, scorer, pruner, and search graph are all Java interfaces. There can be different implementations of these interfaces. For example, there are two different implementations of the search manager. Then, how does the system know which implementation to use? It is specified by the user via the configuration file, an XML-based file that is loaded by the configuration manager. In this configuration file, the user can also specify the properties of the implementations. One example of a property is the sample rate of the incoming speech data. The active list is a component that requires explanation. Remember we mentioned that there can be many possible paths through the search graph. Sphinx-4 currently implements a token-passing algorithm. Each time the search arrives at the next state in the graph, a token is created. A token points to the previous token, as well as the next state. The active list keeps track of all the current active paths through the search graph by storing the last token of each path. A token has the score of the path at that particular point in the search. To perform pruning, we simply prune the tokens in the active list. When the application asks the recognizer to perform recognition, the search manager will ask the scorer to score each token in the active list against the next feature vector obtained from the front end. This gives a new score for each of the active paths. The pruner will then prune the tokens (i.e., active paths) using certain heuristics. Each surviving paths will then be expanded to the next states, where a new token will be created for each next state. The process repeats itself until no more feature vectors can be obtained from the front end for scoring. This usually means that there is no more input speech data. At that point, we look at all paths that have reached the final exit state, and return the highest scoring path as the result to the application.

Grammatik für Speech2Chess Befehle im Spiel: Bauer von b7 nach b5 a1 nach c1 Dame h5 Schach! Kontrollbefehle: Ja, Nein Spiel beenden usw. -Viele Äußerungen werden vom eigentlich Programm nicht mehr genutzt. Nur notwendig (Quellfeld-Zielfeld). Diese Äußerungen sollen lediglich Falscherkennungen verhindern.