1 Sprachressourcen-Gipfel IDS Mannheim Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel | Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München
2 Sprachressourcen-Gipfel IDS Mannheim Mai 2009 Motivation BAS Überblick gegründet1995 (Hans Tillmann) AuftragBereitstellung und Entwicklung von deutschen Sprach- Ressourcen für Wissenschaft und Technik Archiv26 Sprachkorpora 3 Lexika 5 multimodale Korpora 1 Gebärdensprachkorpus SoftwareSpeechRecorder Internet-basierte Sprachaufnahme (WikiSpeech) Münchner Automatische Segmentierung (MAUS) Münchner Automatische Sprecherverifikation (MASV) Text-to-Phoneme (BALLOON) ELDA/LDC-Kataloge: 85% aller deutschen Sprachkorpora 20% aller deutschen Aussprachelexika
3 Sprachressourcen-Gipfel IDS Mannheim Mai 2009 Motivation BAS Neueste Korpora Jugendlicher Aufnahmen über das Internet an 41 Schulen 864 Sprecher Alcohol Language Corpus Sprache unter Alkoholeinfluss 150 Sprecher SmartWebmultimodale PDA-Interaktion Sprache auf Motorrad 281 Sprecher Signumerstes Videokorpus mit deutscher Gebärdensprache 25 Gebärder
4 Sprachressourcen-Gipfel IDS Mannheim Mai 2009 Motivation BAS Vision Akuter Bedarf: Transnationales Corpus für Deutsch (TCD) Vorbilder BNC (Großbritannien), CGN (Belgien/Niederlande) Schweiz, Österreich, Deutschland, Luxemburg, Italien Umfang mindestens 10 Mio Wörter Sprachaufnahmen, davon 1 Mio Wörter transliteriert/segmentiert Terminologien/Ontologien für 10 Domänen Organisation Konsortium der beteiligten Staaten öffentlich verfügbar Finanzbedarf ca. 20 Mio EUR Dauer 4 Jahre (+ 1 Jahr Planungsphase)
5 Sprachressourcen-Gipfel IDS Mannheim Mai 2009 Motivation Sprachaufnahmen über das Internet Training von Spracherkennungssystemen Untersuchung regionaler Variation 41 Schulen (Gymnasien) in Deutschland 90 h Sprachdaten in hoher Qualität
6 Sprachressourcen-Gipfel IDS Mannheim Mai 2009 Motivation BAS ALC Kooperation mit Rechtsmedizin (LMU) 150 Sprecher (75f+75m) alkoholisiert/nüchtern Atemalkohol- und Blutalkoholtests Sprachtypen: gelesen, Monolog, Dialog, Command&Control Vision: automatische Detektion im Fahrzeug
7 Sprachressourcen-Gipfel IDS Mannheim Mai 2009 Motivation BAS SmartWeb Realistische Interaktion mit SmartPhone / PDA Sprachgesteuerter Web-Zugriff vom fahrenden Motorrad Triaden-Kommunikation: Mensch - Mensch - Maschine OnFocus / OffFocus durch Gesichtsvideo
8 Sprachressourcen-Gipfel IDS Mannheim Mai 2009 Motivation BAS SIGNUM Erstes deutsches Gebärdensprachkorpus Kooperation mit Universität Aachen 25 Gebärder mit 450 Glossen und 780 'Sätzen' 1 TByte Videodaten