Gliederung Projektziele (Muss-Kriterien) Architektur d. Systems

Gliederung Projektziele (Muss-Kriterien) Architektur d. Systems
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Gliederung Projektziele (Muss-Kriterien) Architektur d. Systems Festival als Modul Erstellen einer Stimme für eine begrenzte Domäne Spezifikation Ausblick – mögliche Erweiterungen (Kann-Kriterien)

Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg
Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Projektziele Implementierung einer Internet-basierten Anwendung, die Anfragen des Benutzers (an eine Datenbank) in natürlicher Sprache beantwortet. modularer Aufbau: relativ einfache Übertragung auf verschiedene Wissensbasen möglich Zwei Domänen: Wetter und Verkehrsauskunft Erstellen einer eigenen Stimme für eine solche Anwendung mit begrenzter Domäne (begrenzte Anzahl von vorkommenden Wörtern) mpeg-Codierung der gesprochenen Antwort (lame)

Vorgehensweise Zugriff auf externe Informationssysteme
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Vorgehensweise Zugriff auf externe Informationssysteme Verwaltung der Kommunikation des Benutzers mit diesem externen System Bearbeitung des gelieferten Ergebnisses Extraktion der Information aus dem Ergebnis Generierung des natürlichsprachlichen Ausdrucks als Sable/XML-Datei (Selektion des XML-Templates) Übergabe an festival Ausgabe als mpeg-Datei

Schematische Übersicht:
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Schematische Übersicht:

Festival Sprachsynthese-System / Modul
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Festival Sprachsynthese-System / Modul Centre for Speech Technology Research (CSTR), University of Edinburgh Scheme-basierter Kommandozeileninterpreter: SIOD Ausspracheparameter: SABLE / XML -Markup erstellen + einbinden: eigene Stimmen einbinden: externer Waveform-Generator: MBROLA

Festival, Stufen der Sprachsynthese
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Festival, Stufen der Sprachsynthese SABLE input Text analysis Linguistic analysis Waveform generator MBROLA Our_voice

Festival, Stufen der Sprachsyntese I: Textanalysis:
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Festival, Stufen der Sprachsyntese I: Textanalysis: chunking :tokenzing, untterances (sentences) normalization / desambiguierung: z.B. On May , the university bought 1996 computers verschiedene Aussprache von Zahlen je nach Verwendung/Kontext

Festival, Stufen der Sprachsyntese II: Linguistic Analysis:
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Festival, Stufen der Sprachsyntese II: Linguistic Analysis: Word pronunciation BOMB: Lexikon und Regeln kontextabh. Features wie /r/-Auslaut im UK-Englischen nur vor Vokal ausgesprochen z.B. far away prosody: phrasing, duration, intonation, power

Festival, Stufen der Sprachsyntese III: Waveform Generation:
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Festival, Stufen der Sprachsyntese III: Waveform Generation: Mit externem Waveform-Generator: festival: Text analysis + linguistic Analysis MBROLA: synthetisiert Sprache aus Phonen und Informationen über Dauer und Pitch

XML-Markup für Sprachsynthese
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne SABLE: XML-Markup für Sprachsynthese <SABLE> <SPEAKER NAME="male1"> The boy saw the girl in the park <BREAK/> with the telescope. Good morning <BREAK /> My name is Stuart, which is spelled <RATE SPEED="-40%"> <SAYAS MODE="literal">stuart </SAYAS> </RATE> though some people pronounce it <PRON SUB="stoo art">stuart</PRON>. My telephone number is <SAYAS MODE="literal">2787</SAYAS>. </SPEAKER> </SABLE>

SPEAKER Auswahl einer Stimme
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne SABLE: Tags 1 SPEAKER Auswahl einer Stimme Attribut/Parameter: NAME z.B. male1, male2, female1, etc. <SPEAKER name="male1"> ... Gesamter gesprochener Text ...</SPEAKER>

Einstelliger Tag, enthält schließendes „/“
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne SABLE: Tags 2 BREAK: Sprechpause Attribut LEVEL: Die Länge der Pause kann spezifiziert sein durch: Large, Medium, Small oder number. Einstelliger Tag, enthält schließendes „/“ <BREAK LEVEL="LARGE"/>

SAYAS: identifiziert Tokens
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne SABLE: Tags 3 SAYAS: identifiziert Tokens Attribut MODE : literal, date, time, phone, net, postal, currency, math, fraction, measure, ordinal, cardinal, or name. z.B. <SAYAS MODE="date"> 1998 </SAYAS> <SAYAS MODE="cardinal"> 1998 </SAYAS>

Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne SABLE: Tags 4

Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne MBROLA input: list of phonemes + prosodic information (duration of phonemes and a piecewise linear description of pitch) != TTS e m 50 b 50 r 30 @U l 50 @

festival-Stimme für eine begrenzte Domäne
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne festival-Stimme für eine begrenzte Domäne Begrenzte Domäne (limited domain): die Anzahl der zu synthetisierenden Wörter ist beschränkt keine Eigennamen: offene Klasse wenn Wort nicht in Trainingsdaten auftaucht, kann es nicht synthetisiert werden Vorgehensweise: Sätze auswählen Sätze aufzeichnen Tonmaterial auszeichnen: Phone (labels) Grundfrequenz extrahieren (range of pitch) Datenbank für Synthese generieren

festival-Stimme für eine begrenzte Domäne : Auswahl der Sätze
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne festival-Stimme für eine begrenzte Domäne : Auswahl der Sätze The time is now, almost twenty past four, in the morning The time is now, exactly twenty-five past five, in the morning The time is now, just after half past six, in the morning The time is now, alsmot twenty to eight, in the morning es sollen alle Wörter vorkommen gleiches Wort 2-5 x

festival-Stimme für eine begrenzte Domäne Sätze aufzeichnen
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne festival-Stimme für eine begrenzte Domäne Sätze aufzeichnen Optimal: professioneller Sprecher (exakte, konsistente Aussprache) professionelles Tonstudio schalldichte Umgebung ohne Echo möglich: PC mit passabler Soundkarte wichtig: gutes Mikrofon

festival-Stimme für eine begrenzte Domäne Tonmaterial auszeichnen
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne festival-Stimme für eine begrenzte Domäne Tonmaterial auszeichnen Innerhalb der wav-Datei werden die Bereiche der einzelnen Phone lokalisiert. Von Hand nachbearbeiten festival-Stimme für eine begrenzte Domäne Grundfrequenz extrahieren Männliche Stimme Hz , default 100 Hz Weibliche Stimme Hz, default 200 Hz

festival-Stimme für eine begrenzte Domäne Anmerkungen
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne festival-Stimme für eine begrenzte Domäne Anmerkungen Typisch: für einige Äußerungen sehr gut, für andere sehr schlecht kann nur diejenigen Phrasen synthetisieren, für die Beispiele vorhanden waren Probleme: Nebengeräusche (Lippen) -> falsche Phon-Auszeichnung Unkorrekte / inkonsistente Aussprache Grundfrequenz-Bestimmung nicht immer gut immer: Phon-Auszeichnung von Hand nachbessern

Spezifikation Spezifikation I: Allgemeine Spezifikation
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Spezifikation Spezifikation I: Allgemeine Spezifikation Spezifikation II: Domänenspezifische Spezifikation Domäne 1: VRN – Verkehrsauskunft Domäne 2: Donnerwetter - Wettervorhersage

Spezifikation I: Allgemeine Architektur
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Spezifikation I: Allgemeine Architektur

Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Domäne 1: VRN Auswahlmöglichkeiten: Start: Ort Haltestellentyp Haltestellenname Ziel: Abfahrts-/Ankunftszeit Datum Web-Interface

Klassendiagramm für die Domäne VRN
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Klassendiagramm für die Domäne VRN Auskunft Verbindung -anzahlVerbindungen +startOrt -Verbindungsmenge -templateFehler +startHaltestelle -templateMitUmstieg 1 1..* +startHaltestTyp -templateOhneUmstieg +zielOrt +zielHaltestelle +auskunft() +zielHaltestTyp +erstelleVerbindungen() +verkehrsmittel +zielZeit +startZeit +dauer()

Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Templates: Templates: Template1: Ihre Verbindung: Die Fahrt von START, HALTESTELLE_START nach ZIEL, HALTESTELLE_ZIEL, beginnt um ABFAHRTSZEIT mit VERKEHRSMITTEL. (Bitte steigen Sie in UMSTIEGSORT(NR) um UMSTIEGSZEIT(NR) in VERKEHRSMITTEL(NR) um.)* Sie werden voraussichtlich um ANKUNFTSZEIT in ZIEL ankommen. Template2: Leider kann Ihre Anfrage im Moment nicht bearbeitet werden. Bitte versuchen Sie es zu einem späteren Zeitpunkt noch einmal.

Erweitertes Template – mit Sable-Tags
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Erweitertes Template – mit Sable-Tags Template1: <SABLE><SPEAKER NAME="male1"> Ihre Verbindung:<BREAK/> Die Fahrt von START, HALTESTELLE_START nach ZIEL, HALTESTELLE_ZIEL, beginnt um <SAYAS MODE=“time"> ABFAHRTSZEIT</SAYAS> mit VERKEHRSMITTEL. <BREAK/> (Bitte steigen Sie in UMSTIEGSORT(NR) um <SAYAS MODE=“time"> UMSTIEGSZEIT(NR) </SAYAS> in VERKEHRSMITTEL(NR) um.)* Sie werden voraussichtlich um <SAYAS MODE=“time"> ANKUNFTSZEIT </SAYAS> in ZIEL ankommen. </SPEAKER> </SABLE>

Beispiel 1: Beispieltext 1: Ohne Umsteigen
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Beispiel 1: Beispieltext 1: Ohne Umsteigen Ihre Verbindung: Die Fahrt von Mannheim, Haltestelle Hauptbahnhof, nach Heidelberg, Haltestelle Hauptbahnhof, beginnt um 21 Uhr 07 mit der Regionalbahn in Richtung Karlsruhe. Sie werden voraussichtlich um 21 Uhr 22 in Heidelberg ankommen. Ohne Umsteigen (VRN)

Beispiel 2: Beispieltext 2: Mit Umsteigen
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Beispiel 2: Beispieltext 2: Mit Umsteigen Ihre Verbindung: Die Fahrt von Ludwigshafen Mundenheim, Haltestelle Bahnhof, nach Heidelberg, Haltestelle Hauptbahnhof, beginnt um 11 Uhr 11 mit der Regionalbahn in Richtung Germersheim. Bitte steigen Sie in Limburgerhof, Haltestelle Hanhof, um 11 Uhr 21 in die Regionalbahn in Richtung Stuttgart um. Sie werden voraussichtlich um 11 Uhr 57 in Heidelberg ankommen. Mit Umsteigen (VRN1)

Domäne 2: Donnerwetter Einfache Auswahl:
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Domäne 2: Donnerwetter Einfache Auswahl: Stadt Kurzfristige Vorhersage Längerfristige Vorhersage Einmaliges Einlesen in Datenbank und jeweiliges Auslesen je nach Anfrage.

Templates Stadt Kurzfristige Vorhersage Aachen Augsburg ...
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Templates Speichern der Sätze in (Text-)Datenbank: Diverse Fehler-Templates, z.B. keine aktuellen Daten vorhanden, Bitte später noch einmal versuchen etc. Stadt Kurzfristige Vorhersage Aachen Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann heiter bis wolkig. Maximal 16 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf 9 Grad ab. Augsburg Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann heiter bis wolkig. Maximal 18 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf 10 Grad ab. ...

Beispiel Donnerwetter
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Beispiel Donnerwetter Gesprochener Text: Die aktuelle Wettervorhersage für Mannheim für den Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann heiter bis wolkig. Maximal 18 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf 10 Grad ab. Wettervorhersage für Mannheim (1. Feb. 2002)

Ausblick und mögliche Erweiterungen
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Ausblick und mögliche Erweiterungen Demo-Implementation auf Webserver Erweiterung zu einem Dialogsystem

Erweiterung zu einem Dialogsystem
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Erweiterung zu einem Dialogsystem Sprachsynthese: Festival Spracherkennung: Sphinx II

Architektur eines natürlichsprachlichen Dialogsystems:
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Architektur eines natürlichsprachlichen Dialogsystems: Sprachverstehen Spracherkennung Parsing Kontextanalyse Dialog- steuerung Benutzer- eingabe Diskurshistorie System- ausgabe Sprachsynthese Text- generierung Kontext- verarbeitung Anwen- dungs- daten Sprachgenerierung gespr. Sprache Text In: Computerlinguistik, 2001

Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Sphinx II: Entwickelt an der Carnegie Mellon University (CMU) Erkenner für kontinuierliche Sprache Open Source (Apache-ähnliche Lizenz) echtzeitfähig sprecherunabhängig plattformunabhängig (Linux/Unix/Windows) Gibt eine Menge von bewerteten Hypothesen zurück (N-best List) Bsp. Communicator Auskunfts- und Reservierungssystem für Flüge (Nordamerika)

Erstellen eines Lexikons (.dic-File):
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Erstellen eines Lexikons (.dic-File): ELEVEN AX L EH V AX N ELEVEN(2) IY L EH V AX N EXIT EH G Z AX T EXIT(2) EH K S AX T Verschiedene Aufnahmen werden mit der Auto-Labeling-Funktion von Sphinx analysiert Lexikon ist eine Zuordnung aus Wortform und erkannten Phonen

Angabe von kontextspezifischen Informationen/Language Model Files:
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Angabe von kontextspezifischen Informationen/Language Model Files: N-gram models, N ist normalerweise drei: Beschreibt die Wahrscheinlichkeit einer Sequenz von Wörtern Beispiel: ARE YOU LISTENING ARE YOU READY BACKWARD FIVE METERS BACKWARD ONE METER BACKWARD TWO METERS Können automatisch aus Korpora mit relevanten Sätzen erstellt werden (LMTool).

References festival-Dokumentation festvox
Azim Kücükoba Kai Jung Klaus Rüggenmann Studienprojekt 2001/02 Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne References festival-Dokumentation festvox IMS German Version of festival – Dokumentation Limited Domain Voices Sphinx II

Informationsbeschaffung, Sprachgenerierung und Sprachsynthese in einer begrenzten Domäne Ende

Gliederung Projektziele (Muss-Kriterien) Architektur d. Systems

Ähnliche Präsentationen

Präsentation zum Thema: "Gliederung Projektziele (Muss-Kriterien) Architektur d. Systems"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Gliederung Projektziele (Muss-Kriterien) Architektur d. Systems

Ähnliche Präsentationen

Präsentation zum Thema: "Gliederung Projektziele (Muss-Kriterien) Architektur d. Systems"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback