Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Victoria Wetzel Geändert vor über 6 Jahren
1
Erzeugung von Sprecherklassifikations-modulen für multiple Plattformen
Diplomarbeit-Abschlussvortrag Michael Feld
2
Übersicht Motivation Sprecherklassifikations-Grundlagen Anforderungen
Architektur und Konzepte Anwendungen Ausblick
3
Motivation m3i / Agender Sprecherklassifikation Ausgangsbasis:
(Müller 2005) Sprecherklassifikation (Vorgang der Zuweisung eines Sprechers zu einer diskreten Klasse basierend auf einem Vektor von Sprachmerkmalen)
4
Motivation – Beispielszenarien
Benutzeradaption auf mobilen Geräten Benutzeradaption an öffentlichen Terminals Telefon-basierte Dienste
5
Motivation Vorhanden Benötigt Demonstrator m3i-Server /-Client
m3i-CAT, Quellcode Feste Konfiguration Fokus auf flexibler Erweiterbarkeit Feste Plattform Real-World-Application Komponente / API Werkzeuge zur Entwurfszeit-unterstützung Modulare Konfiguration Fokus auf hoher Laufzeitperformanz Multiple Plattformen
6
Motivation Lösung: NEUE Architektur basierend auf VORHANDENEN
Werkzeugen
7
Grundlagen
8
Grundlagen AGENDER: Mustererkennungssystem
Sprachmerkmale zur Unterscheidung von Alter und Geschlecht Erfassung Segmentierung Merkmals- extraktion Klassifizierung Nach- verarbeitung Mustererkennungssystem Duda, Hart und Stork (2000)
9
Grundlagen - Agender Aufnahme (Mikrofon) Digitalisierung Erfassung
Segmentierung Merkmals- extraktion Klassifizierung Nach- verarbeitung Aufnahme (Mikrofon) Digitalisierung
10
Grundlagen - Agender Anpassung der Abtastfrequenz Rauschfilter
Segmentierung Merkmals- extraktion Klassifizierung Nach- verarbeitung Anpassung der Abtastfrequenz Rauschfilter Entfernen von Pausen am Anfang und Ende …
11
Grundlagen - Agender Pitch Jitter Shimmer und weitere Segmentierung
Merkmals- extraktion Klassifizierung Nach- verarbeitung Extraktion aus digitalem Audiosignal Praat Pitch Jitter und weitere Shimmer
12
Grundlagen - Agender Klassifizierung eines Merkmalsvektors
Segmentierung Merkmals- extraktion 1. Ebene Klassifizierung Nach- verarbeitung Klassifizierung eines Merkmalsvektors Kriterien von Klassifizierungsverfahren: Entscheidungsgrenzen Genauigkeit Komplexität Laufzeit Speicherverbrauch Trainingsdauer
13
Grundlagen - Agender Segmentierung Merkmals- extraktion 1. Ebene Nach-
verarbeitung
14
Grundlagen - Agender DBN Segmentierung Merkmals- extraktion 1. Ebene
Nach- verarbeitung 2. Ebene DBN Dynamische Bayessche Netze
15
Grundlagen - Agender Fusion mehrerer Klassifikationsergebnisse
Segmentierung Merkmals- extraktion 1. Ebene 2. Ebene Fusion mehrerer Klassifikationsergebnisse Klassifikationsinhärente Unsicherheiten Expertenwissen, Kosten der Fehlklassifikation
16
Grundlagen - Agender Entwurf Ausführung Sammlung + Analyse von Daten
Verwendung von Agender berührt 2 Phasen: Entwurf Ausführung Sammlung + Analyse von Daten Auswahl der Klassifizierer Entwurf eines DBN für die 2. Ebene Pre-Processing Merkmalsextraktion 1. Ebene 2. Ebene
17
Anforderungen Hohe Performanz Modularität
Unterstützung multipler Plattformen Skalierbarkeit Ressourcenadaptivität Integrierbarkeit Robustheit Unterstützung der Entwicklung
18
Architektur und Konzepte
Entwicklungsumgebung Laufzeitumgebung webbasiertes Evaluierungsmodul Applikation Evaluierung KM KM Entwicklungs- plattform Klassifikations- modul(e) Hugin, JavaDBN Applikation Funknetzwerk Sprachkorpus Client-Bibliothek MySQL-Datenbank KM Cluster m3i CAT SBC-Server Cluster
19
Architektur und Konzepte
Entwicklungsumgebung Laufzeitumgebung webbasiertes Evaluierungsmodul Applikation Evaluierung KM KM Entwicklungs- plattform Klassifikations- modul(e) Hugin, JavaDBN Applikation Funknetzwerk Sprachkorpus Client-Bibliothek MySQL-Datenbank KM m3i CAT SBC-Server Cluster Cluster
20
Klassifikationsmodule
Implementieren Agender-Mustererkennung Enthalten je nach Anwendungsszenario bestimmte Klassifizierer und DBN
21
Klassifikationsmodule
Vorkompilierter Code Werden statisch integriert in Applikation (static linking) Verwendung als Bibliothek
22
Klassifikationsmodule
Zentrales Konzept: Pipeline-Architektur Merkmalsextraktion Erste Ebene Zweite Ebene gut parallelisierbar
23
Klassifikationsmodule
Weitere Merkmale: Schnelle (optimierte) Merkmalsextraktion Integriertes Tracing Multithreading-fähig Klassifizierer-Cache
24
Architektur und Konzepte
Entwicklungsumgebung Laufzeitumgebung webbasiertes Evaluierungsmodul Applikation Evaluierung KM KM Entwicklungs- plattform Klassifikations- modul(e) Hugin, JavaDBN Applikation Funknetzwerk Sprachkorpus Client-Bibliothek MySQL-Datenbank KM m3i CAT SBC-Server Cluster Cluster
25
Entwicklungsplattform
26
Entwicklungsplattform
Tool zur Zusammenstellung von Klassifikationsmodulen Möglichkeiten zur Evaluierung Geschrieben in Java Basiert auf dem m3i Server
27
Entwicklungsplattform Entwurf eines Klassifikationsmoduls
Auswahl der Klassifizierer Training der Klassifizierer Erstellen der 2. Ebene (externe Tools: Hugin, JavaDBN) Exportieren des Modul-Quellcodes Erzeugen des Moduls Build-Vorgang
28
Architektur und Konzepte
Entwicklungsumgebung Laufzeitumgebung webbasiertes Evaluierungsmodul Applikation Evaluierung KM KM Entwicklungs- plattform Klassifikations- modul(e) Hugin, JavaDBN Applikation Funknetzwerk Sprachkorpus Client-Bibliothek MySQL-Datenbank KM m3i CAT SBC-Server Cluster Cluster
29
Client/Server-Szenario
SBC Client-Bibliothek Applikation m3i-Architektur SBC-Server Client
30
Client-Bibliothek Verfügbar für Anwendungen als DLL
Implementiert SBC-Klassifikationsmodul Fallback-Mechanismus Heartbeat-Mechanismus SBC-Protokoll (TCP-basiert)
31
SBC-Server Basiert auf dem m3i-Server
Verwaltung von Benutzerprofile für Clients Klassifizierung auf Anfrage Senden von Klassifizierern an den Client Zukünftige Alternative: SBC WebService
32
Anwendungen
33
Anwendungen – Beispiel 1
Wie viele Megapixel hat diese Kamera?
34
Anwendungen – Beispiel 1
Merkmale: Client/Server-Topologie Ein exklusiver Sprecher Begrenze Ressourcen (PocketPC) Nicht zeitkritisch
35
Anwendungen – Beispiel 2
SBC
36
Anwendungen – Beispiel 2
Merkmale: Integrierte Plattform Viele parallele Benutzer Gute Ressourcenverfügbarkeit Zeitkritisch
37
ca. 3% der Äußerungslänge
Leistungsdaten Klass.zeit [s] ca. 3% der Äußerungslänge
38
Ausblick: Multilingual Agender
Inwieweit ist der Agender-Ansatz sprachunabhängig? Gibt es relevante sprach- / kulturspezifische Unterschiede? Sprachenerkennung (LID) Phonotactic Model: Phonerkennung n-Gramm Sprachmodell
39
Zusammenfassung Motivation Sprecherklassifikations-Grundlagen
Anforderungen Architektur und Konzepte Anwendungen Ausblick
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.