Gliederung Projektziele (Muss-Kriterien) Architektur d. Systems

Slides:



Advertisements
Ähnliche Präsentationen
Copyright © The OWASP Foundation Permission is granted to copy, distribute and/or modify this document under the terms of the OWASP License. The OWASP.
Advertisements

PHP Extension und Application Repository
Be.as WEB Technologie
Dominic Ziegler 12c Webprogrammierung.
WML – Wireless Markup Language Vortrag von Eduard Jakel.
Die deutsche Satzstellung
In order to ask the time in German you need to say:
Basis-Architekturen für Web-Anwendungen
eine Plattform für annotierte Korpora in XML
Prof. Dr. Günter Törner Dipl-Math. Thorsten Bahne
Projektpartner, Förderer und Beteiligungen: Was gestatten deutsche Verlage? Zugang zur Open Access-Politik deutscher Verlage über die deutsche Schnittstelle.
Bernd Oberknapp, UB Freiburg
NATURAL Web-Integration 1 / 27/28-Feb-98 TST NATURAL Web-Integration Arbeitskreis NATURAL Süd Theo Straeten SAG Systemhaus GmbH Technologieberater Stuttgart.
Stefanie Selzer - Pascal Busch - Michael Kropiwoda
Starten von Multi-Speech Starten des Systems: n PC einschalten n Icon für Multi-Speech auf dem Desktop anklicken n Multi-Speech Main Program wählen Sitzung.
Übung Akustische Phonetik
Anwendung von Emu-TCL Jonathan Harrington.
Abfragen aus einer Sprachdatenbank Jonathan Harrington.
Grundlagen der Analyse von Sprachdatenbanken
Internetstruktur Das Internet besteht aus vielen Computern, die weltweit untereinander vernetzt sind.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Webserver, © Till Hänisch 2002 Apache The open way.
Oracle PL/SQL Server Pages (PSP). © Prof. T. Kudraß, HTWK Leipzig Grundidee: PSP – Internet-Seiten mit dynamischer Präsentation von Inhalten durch Einsatz.
Einführung XML XML Einführung Andreas Leicht.
Grundkurs Linguistik Programm der Vorlesung Oktober
Das Build-Tool ANT ETIS SS05. ETIS SS05 - Nadine FröhlichANT 2 Gliederung Motivation Build - Datei –Allgemeiner Aufbau –Project –Target –Task –Properties.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
– Team 2 Aktueller Projektleiter: Christian Krapp
© by TMND GmbH TMspeak Automatisierte Vertonung strukturierter Textinformationen TMND GmbH Vortrag von der.
NetUSE Web Application Framework Kai Voigt NetUSE AG 28. Februar 2003.
Einführung MySQL mit PHP
Seite Common Gateway Interface. Konzepte. Übersicht 1Einleitung 2Was ist CGI? 3Wozu wird CGI verwendet? 4Geschichtlicher Überblick 5Grundvoraussetzungen.
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
Grundschutztools
Data Documentation Initiative (DDI)
Inhalt Einführung –Spezifikation Aufbau des Tools –Aufnahme –Stille entfernen –Speicherung –Kommunikation mit den anderen Teilen.
Multimedia Retrieval SS 2007 Speech Recognition
Überblick Software Bestellungsver- waltungsprozess Dialogmanagement Simulation Sprachverarbeitung Verschiedene Arbeitsphasen Routengraphen Sprachverarbeitung:
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Wie viel Uhr ist es? Wie spät ist es? What time is it?
GERMAN 1013 Kapitel 2 3.
Tagesprogramm Mittwoch
Get the best grade you can in GCSE German speaking Anglia Ruskin University Tuesday 22 January 2013.
JavaScript.
Vortrag D. Braun, Praktikum. Übersicht Pleopatra API Pleopatra Tools Twitter Demonstration Ausblick.
Tobias Kluge: FAME Middleware / Karlsruhe / The FAME project – Middleware.
Sesame Florian Mayrhuber
Übersicht Was ist cocoon? Separation of Concerns Pipeline Modell
Ausgabe vom Seite 1, XML Eine Einführung XML - Eine Einführung.
Oliver Spritzendorfer Thomas Fekete
Torque in Turbine Team 4 Josef Bohninger Thomas Lindenhofer
POCKET TEACHER Englisch
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Dedizierte Systeme Typo3 Installation Dedizierte Systeme – Typo3 Installation – Christoph Stollwerk IT Zertifikat der Philosophischen Fakultät WS 2008/2009.
1 Tagesüberblick 2 Lösung Hausaufgabe/Fragen Datei- ein- und ausgabe Schleifen Vergleiche Wahrheit.
Evaluation des sprachgesteuerten Assistenten Jasper
Eike Schallehn, Martin Endig
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
Die Abkürzungen des Internets
->Prinzip ->Systeme ->Peer – to – Peer
Lightning Talk von Andreas Güntzel Model Driven Software Development CODE GENERIERUNG MIT ANY.
Datenbanken im Web 1.
Webserver Apache & Xampp Referenten: Elena, Luziano und Sükran
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
Willkommen Deutsche II Schüler! What can you remember after the LONG, LONG summer? Let’s see! Count to 20 (you do it in 2's starting with 2; your partners.
Kapitel 4 Grammar INDEX 1.Ordinal Numbers 2.Relative Pronouns and Relative Clauses 3.Conditional Sentences 4.Posessive: Genitive Case.
The PowerLanguage Platform © PowerLanguage™ Ltd KEY LANGUAGE YEAR 1 / BLOCK 2 German.
1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.
Deutsch Aktuell I Kapitel 3 Lektion b FRAU KLEINHANS BROOKE POINT HIGH SCHOOL.
Dialogsysteme mit VXML
 Präsentation transkript:

Gliederung Projektziele (Muss-Kriterien) Architektur d. Systems Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Gliederung Projektziele (Muss-Kriterien) Architektur d. Systems Festival als Modul Erstellen einer Stimme für eine begrenzte Domäne Spezifikation Ausblick – mögliche Erweiterungen (Kann-Kriterien)

Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Projektziele Implementierung einer Internet-basierten Anwendung, die Anfragen des Benutzers (an eine Datenbank) in natürlicher Sprache beantwortet. modularer Aufbau: relativ einfache Übertragung auf verschiedene Wissensbasen möglich Zwei Domänen: Wetter und Verkehrsauskunft Erstellen einer eigenen Stimme für eine solche Anwendung mit begrenzter Domäne (begrenzte Anzahl von vorkommenden Wörtern) mpeg-Codierung der gesprochenen Antwort (lame)

Vorgehensweise Zugriff auf externe Informationssysteme Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Vorgehensweise Zugriff auf externe Informationssysteme Verwaltung der Kommunikation des Benutzers mit diesem externen System Bearbeitung des gelieferten Ergebnisses Extraktion der Information aus dem Ergebnis Generierung des natürlichsprachlichen Ausdrucks als Sable/XML-Datei (Selektion des XML-Templates) Übergabe an festival Ausgabe als mpeg-Datei

Schematische Übersicht: Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Schematische Übersicht:

Festival Sprachsynthese-System / Modul Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Festival Sprachsynthese-System / Modul Centre for Speech Technology Research (CSTR), University of Edinburgh Scheme-basierter Kommandozeileninterpreter: SIOD Ausspracheparameter: SABLE / XML -Markup erstellen + einbinden: eigene Stimmen einbinden: externer Waveform-Generator: MBROLA

Festival, Stufen der Sprachsynthese Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Festival, Stufen der Sprachsynthese SABLE input Text analysis Linguistic analysis Waveform generator MBROLA Our_voice

Festival, Stufen der Sprachsyntese I: Textanalysis: Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Festival, Stufen der Sprachsyntese I: Textanalysis: chunking :tokenzing, untterances (sentences) normalization / desambiguierung: z.B. On May 5 1996, the university bought 1996 computers verschiedene Aussprache von Zahlen je nach Verwendung/Kontext

Festival, Stufen der Sprachsyntese II: Linguistic Analysis: Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Festival, Stufen der Sprachsyntese II: Linguistic Analysis: Word pronunciation BOMB: Lexikon und Regeln kontextabh. Features wie /r/-Auslaut im UK-Englischen nur vor Vokal ausgesprochen z.B. far away prosody: phrasing, duration, intonation, power

Festival, Stufen der Sprachsyntese III: Waveform Generation: Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Festival, Stufen der Sprachsyntese III: Waveform Generation: Mit externem Waveform-Generator: festival: Text analysis + linguistic Analysis MBROLA: synthetisiert Sprache aus Phonen und Informationen über Dauer und Pitch

XML-Markup für Sprachsynthese Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne SABLE: XML-Markup für Sprachsynthese <SABLE> <SPEAKER NAME="male1"> The boy saw the girl in the park <BREAK/> with the telescope. Good morning <BREAK /> My name is Stuart, which is spelled <RATE SPEED="-40%"> <SAYAS MODE="literal">stuart </SAYAS> </RATE> though some people pronounce it <PRON SUB="stoo art">stuart</PRON>. My telephone number is <SAYAS MODE="literal">2787</SAYAS>. </SPEAKER> </SABLE>

SPEAKER Auswahl einer Stimme Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne SABLE: Tags 1 SPEAKER Auswahl einer Stimme Attribut/Parameter: NAME z.B. male1, male2, female1, etc. <SPEAKER name="male1"> ... Gesamter gesprochener Text ...</SPEAKER>

Einstelliger Tag, enthält schließendes „/“ Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne SABLE: Tags 2 BREAK: Sprechpause Attribut LEVEL: Die Länge der Pause kann spezifiziert sein durch: Large, Medium, Small oder number. Einstelliger Tag, enthält schließendes „/“ <BREAK LEVEL="LARGE"/>

SAYAS: identifiziert Tokens Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne SABLE: Tags 3 SAYAS: identifiziert Tokens Attribut MODE : literal, date, time, phone, net, postal, currency, math, fraction, measure, ordinal, cardinal, or name. z.B. <SAYAS MODE="date"> 1998 </SAYAS> <SAYAS MODE="cardinal"> 1998 </SAYAS>

Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne SABLE: Tags 4

Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne MBROLA input: list of phonemes + prosodic information (duration of phonemes and a piecewise linear description of pitch) != TTS e 40 0 102 m 50 b 50 r 30 @U 80 5 119 35 126 70 140 l 50 @ 50 50 173

festival-Stimme für eine begrenzte Domäne Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne festival-Stimme für eine begrenzte Domäne Begrenzte Domäne (limited domain): die Anzahl der zu synthetisierenden Wörter ist beschränkt keine Eigennamen: offene Klasse wenn Wort nicht in Trainingsdaten auftaucht, kann es nicht synthetisiert werden Vorgehensweise: Sätze auswählen Sätze aufzeichnen Tonmaterial auszeichnen: Phone (labels) Grundfrequenz extrahieren (range of pitch) Datenbank für Synthese generieren

festival-Stimme für eine begrenzte Domäne : Auswahl der Sätze Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne festival-Stimme für eine begrenzte Domäne : Auswahl der Sätze The time is now, almost twenty past four, in the morning The time is now, exactly twenty-five past five, in the morning The time is now, just after half past six, in the morning The time is now, alsmot twenty to eight, in the morning es sollen alle Wörter vorkommen gleiches Wort 2-5 x

festival-Stimme für eine begrenzte Domäne Sätze aufzeichnen Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne festival-Stimme für eine begrenzte Domäne Sätze aufzeichnen Optimal: professioneller Sprecher (exakte, konsistente Aussprache) professionelles Tonstudio schalldichte Umgebung ohne Echo möglich: PC mit passabler Soundkarte wichtig: gutes Mikrofon

festival-Stimme für eine begrenzte Domäne Tonmaterial auszeichnen Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne festival-Stimme für eine begrenzte Domäne Tonmaterial auszeichnen Innerhalb der wav-Datei werden die Bereiche der einzelnen Phone lokalisiert. Von Hand nachbearbeiten festival-Stimme für eine begrenzte Domäne Grundfrequenz extrahieren Männliche Stimme 80-200 Hz , default 100 Hz Weibliche Stimme 120-300 Hz, default 200 Hz

festival-Stimme für eine begrenzte Domäne Anmerkungen Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne festival-Stimme für eine begrenzte Domäne Anmerkungen Typisch: für einige Äußerungen sehr gut, für andere sehr schlecht kann nur diejenigen Phrasen synthetisieren, für die Beispiele vorhanden waren Probleme: Nebengeräusche (Lippen) -> falsche Phon-Auszeichnung Unkorrekte / inkonsistente Aussprache Grundfrequenz-Bestimmung nicht immer gut immer: Phon-Auszeichnung von Hand nachbessern

Spezifikation Spezifikation I: Allgemeine Spezifikation Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Spezifikation Spezifikation I: Allgemeine Spezifikation Spezifikation II: Domänenspezifische Spezifikation Domäne 1: VRN – Verkehrsauskunft Domäne 2: Donnerwetter - Wettervorhersage

Spezifikation I: Allgemeine Architektur Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Spezifikation I: Allgemeine Architektur

Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Domäne 1: VRN www.vrn.de Auswahlmöglichkeiten: Start: Ort Haltestellentyp Haltestellenname Ziel: Abfahrts-/Ankunftszeit Datum Web-Interface

Klassendiagramm für die Domäne VRN Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Klassendiagramm für die Domäne VRN Auskunft Verbindung -anzahlVerbindungen +startOrt -Verbindungsmenge -templateFehler +startHaltestelle -templateMitUmstieg 1 1..* +startHaltestTyp -templateOhneUmstieg +zielOrt +zielHaltestelle +auskunft() +zielHaltestTyp +erstelleVerbindungen() +verkehrsmittel +zielZeit +startZeit +dauer()

Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Templates: Templates: Template1: Ihre Verbindung: Die Fahrt von START, HALTESTELLE_START nach ZIEL, HALTESTELLE_ZIEL, beginnt um ABFAHRTSZEIT mit VERKEHRSMITTEL.   (Bitte steigen Sie in UMSTIEGSORT(NR) um UMSTIEGSZEIT(NR) in VERKEHRSMITTEL(NR) um.)* Sie werden voraussichtlich um ANKUNFTSZEIT in ZIEL ankommen. Template2: Leider kann Ihre Anfrage im Moment nicht bearbeitet werden. Bitte versuchen Sie es zu einem späteren Zeitpunkt noch einmal.

Erweitertes Template – mit Sable-Tags Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Erweitertes Template – mit Sable-Tags Template1: <SABLE><SPEAKER NAME="male1"> Ihre Verbindung:<BREAK/> Die Fahrt von START, HALTESTELLE_START nach ZIEL, HALTESTELLE_ZIEL, beginnt um <SAYAS MODE=“time"> ABFAHRTSZEIT</SAYAS> mit VERKEHRSMITTEL.   <BREAK/> (Bitte steigen Sie in UMSTIEGSORT(NR) um <SAYAS MODE=“time"> UMSTIEGSZEIT(NR) </SAYAS> in VERKEHRSMITTEL(NR) um.)* Sie werden voraussichtlich um <SAYAS MODE=“time"> ANKUNFTSZEIT </SAYAS> in ZIEL ankommen. </SPEAKER> </SABLE>

Beispiel 1: Beispieltext 1: Ohne Umsteigen Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Beispiel 1: Beispieltext 1: Ohne Umsteigen Ihre Verbindung: Die Fahrt von Mannheim, Haltestelle Hauptbahnhof, nach Heidelberg, Haltestelle Hauptbahnhof, beginnt um 21 Uhr 07 mit der Regionalbahn 23053 in Richtung Karlsruhe. Sie werden voraussichtlich um 21 Uhr 22 in Heidelberg ankommen. Ohne Umsteigen (VRN)

Beispiel 2: Beispieltext 2: Mit Umsteigen Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Beispiel 2: Beispieltext 2: Mit Umsteigen Ihre Verbindung: Die Fahrt von Ludwigshafen Mundenheim, Haltestelle Bahnhof, nach Heidelberg, Haltestelle Hauptbahnhof, beginnt um 11 Uhr 11 mit der Regionalbahn 28374 in Richtung Germersheim. Bitte steigen Sie in Limburgerhof, Haltestelle Hanhof, um 11 Uhr 21 in die Regionalbahn 28191 in Richtung Stuttgart um. Sie werden voraussichtlich um 11 Uhr 57 in Heidelberg ankommen. Mit Umsteigen (VRN1)

Domäne 2: Donnerwetter Einfache Auswahl: Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Domäne 2: Donnerwetter www.donnerwetter.de Einfache Auswahl: Stadt Kurzfristige Vorhersage Längerfristige Vorhersage Einmaliges Einlesen in Datenbank und jeweiliges Auslesen je nach Anfrage.

Templates Stadt Kurzfristige Vorhersage Aachen Augsburg ... Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Templates Speichern der Sätze in (Text-)Datenbank: Diverse Fehler-Templates, z.B. keine aktuellen Daten vorhanden, Bitte später noch einmal versuchen etc. Stadt Kurzfristige Vorhersage Aachen Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann heiter bis wolkig. Maximal 16 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf 9 Grad ab. Augsburg Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann heiter bis wolkig. Maximal 18 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf 10 Grad ab. ...

Beispiel Donnerwetter Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Beispiel Donnerwetter Gesprochener Text: Die aktuelle Wettervorhersage für Mannheim für den 1.2.2002. Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann heiter bis wolkig. Maximal 18 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf 10 Grad ab. Wettervorhersage für Mannheim (1. Feb. 2002)

Ausblick und mögliche Erweiterungen Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Ausblick und mögliche Erweiterungen Demo-Implementation auf Webserver Erweiterung zu einem Dialogsystem

Erweiterung zu einem Dialogsystem Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Erweiterung zu einem Dialogsystem Sprachsynthese: Festival Spracherkennung: Sphinx II

Architektur eines natürlichsprachlichen Dialogsystems: Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Architektur eines natürlichsprachlichen Dialogsystems: Sprachverstehen Spracherkennung Parsing Kontextanalyse Dialog- steuerung Benutzer- eingabe Diskurshistorie System- ausgabe Sprachsynthese Text- generierung Kontext- verarbeitung Anwen- dungs- daten Sprachgenerierung gespr. Sprache Text In: Computerlinguistik, 2001

Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Sphinx II: Entwickelt an der Carnegie Mellon University (CMU) Erkenner für kontinuierliche Sprache Open Source (Apache-ähnliche Lizenz) echtzeitfähig sprecherunabhängig plattformunabhängig (Linux/Unix/Windows) Gibt eine Menge von bewerteten Hypothesen zurück (N-best List) Bsp. Communicator Auskunfts- und Reservierungssystem für Flüge (Nordamerika)

Erstellen eines Lexikons (.dic-File): Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Erstellen eines Lexikons (.dic-File): ELEVEN AX L EH V AX N ELEVEN(2) IY L EH V AX N EXIT EH G Z AX T EXIT(2) EH K S AX T Verschiedene Aufnahmen werden mit der Auto-Labeling-Funktion von Sphinx analysiert Lexikon ist eine Zuordnung aus Wortform und erkannten Phonen

Angabe von kontextspezifischen Informationen/Language Model Files: Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Angabe von kontextspezifischen Informationen/Language Model Files: N-gram models, N ist normalerweise drei: Beschreibt die Wahrscheinlichkeit einer Sequenz von Wörtern Beispiel: 0.7782 ARE YOU LISTENING 0.7782 ARE YOU READY 0.3010 BACKWARD FIVE METERS 0.3010 BACKWARD ONE METER 0.3010 BACKWARD TWO METERS Können automatisch aus Korpora mit relevanten Sätzen erstellt werden (LMTool).

References festival-Dokumentation festvox Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne References festival-Dokumentation http://www.cstr.ed.ac.uk/projects/festival/manual/festival_toc.html festvox http://festvox.org/festvox/festvox_toc.html IMS German Version of festival – Dokumentation http://www.ims.uni-stuttgart.de/phonetik/synthesis/index.html Limited Domain Voices http://www-2.cs.cmu.edu/~awb/papers/ICSLP2000_ldom/index.html Sphinx II http://www.speech.cs.cmu.edu/sphinx/doc/Sphinx.html

Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Ende