Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Digitalisierung und Aufbereitung von Sprachdaten

Ähnliche Präsentationen


Präsentation zum Thema: "Digitalisierung und Aufbereitung von Sprachdaten"—  Präsentation transkript:

1 Digitalisierung und Aufbereitung von Sprachdaten
Stefan Baumann1, Dagmar Jung2 & Doris Mücke1 IfL Phonetik1 IfL Allgemeine Sprachwissenschaft2 Universität zu Köln

2 CCeH Workshop IT-bezogene Lehre an der Philosophischen Fakultät
Studierende des BA Fachs Linguistik und Phonetik lernen: Aufnahme von Sprachdaten (meist digital) Aufbereitung & Annotation von Sprachdaten im Labor im Feld Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

3 IT-bezogene Kurse BA Linguistik & Phonetik
Laboratory Phonology (Projektseminar) Akustische Phonetik (Praxisseminar) Prosodische Analyse (Grundkurs) Signalgestütze Transkription (Übung) Einführung in die Allgemeine Sprachwissenschaft (Seminar) Sprachdokumentation (Proseminar) Diskursanalyse (Hauptseminar) ASW-Kurse: u.a. analoge Aufnahmen digitalisieren und transkribieren Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

4 IT-bezogene Kurse zusätzlich:
Statistik-Kurse in regelmäßigen Abständen (in ASW und Phonetik) Programme: R und SPSS Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

5 Sprachaufnahmen Labor I
Akustik Nutzung von digitalen Aufnahmemöglichkeiten Wandlung in verschiedene Datei-Formate u.a. wav, SSFF Pre-processing Schneiden und Ordnen von Akustik-Dateien Optimierung für Frequenzanalysen Abtastrate: Downsampling (44.1kHz, 20kHz) Filtern, z.B. Noise-Reduction Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

6 Sprachverarbeitung Parametrisierung Resynthese als Analysetechnik
sprachverarbeitende Software Cool Edit, Audacity, PRAAT, EMU Articulate Assistant, Custom Software Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 6 6

7 Beispiel Formantanalyse
b e n e nn e richtig 2 Pole geben einen Bandpassfilter Also 2 Pole pro Formant Aber obere Frequenzgrenze muss angegeben werden (liegt bei Frauenstimmen anders als bei Männerstimmen) fehlerhaft, F1 wird nicht gefunden Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

8 Sprachaufnahmen Labor II
Aufnahme von Artikulationsdaten Elektropalatographie Elektromagnetische Artikulographie Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

9 Annotation EPG 1 2 3 4 hingeben
Labeln von Bewegungs- plateaus (Bsp. für partielle Assimilation) 1 2 3 4 Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

10 Annotation EMMA Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

11 Sprachaufnahmen „im Feld“
Mikrophonierung (nach Aufnahmesituation, Monolog vs. Konversation, auch wireless) digitale Aufnahmeformate (Audio und Video) Aufnahme von „natürlichen Daten“ -> Unterschiede gesprochene vs. geschriebene Sprache wird durch Transkription und Annotation sichtbar gemacht Erstelllung von Annotationen und Korpus z.B. durch ELAN und Toolbox “Im Feld” getätigte Aufnahmen sind alle Aufnahmen, die NICHT im Labor unter idealen Voraussetzungen stattfinden. Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 11 11

12 ELAN ELAN (EUDICO Linguistic Annotator) ist ein Annotationsprogramm, das es erlaubt, Annotationen von Audio- sowie Videodaten zu erstellen, bearbeiten und visualisieren, sowie diese zu durchsuchen und auszuwerten. Es wurde vom Max Planck Institut für Psycholinguistik in Nijmegen, entwickelt,um eine technische Grundlage für die Annotation und Ausbeutung von multi.media Aufnahmen zu ermöglichen. ELAN wurde speziell zur Sprachanalyse (inklusive Gebärdensprache und Gestik) enwickelt. Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 12 12

13 Toolbox Datenbank Textanalyse durch Parsen
Erstellung von Morphemlisten/ Wortlisten/Wörterbüchern Datenaustausch mit ELAN (Bezug zu Mediadateien bleibt dadurch erhalten) Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 13

14 Toolbox Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 14

15 Zwischen Labor- und Feldforschung
Annotation verschiedener Datentypen (auch Spontansprache) mehrere linguistische Beschreibungsebenen (Morpho-)Syntax: Wortstellung, Part-of-Speech, Definitheit, Satztyp, Fokusoperatoren… Semantik/Pragmatik: Fokustyp, Informationsstatus (Referenz- u. lexikalische Ebene)… Phonetik/Phonologie: Akzente und Grenztöne, Tonhöhenumfang, Dauern von Silben und Wörtern… Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

16 Zwischen Labor- und Feldforschung
Annotationstool für Darstellung der verschiedenen Ebenen: EMU Speech Database System (http://emu.sourceforge.net/) Beispiel Spontansprache: Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

17 Zwischen Labor- und Feldforschung
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

18 Fächerübergreifende Zusammenarbeit
Neues DFG-Projekt von Phonetik (Grice) und Germanistik (Lohnstein); ab 2010 Ein Ziel: Erweiterung der Fokus-DB um mehrebenen-annotierte Daten inklusive Tondateien und Bereitstellung zu Forschungszwecken Demo-Version: Benutzer: „Besucher“, Passwort: „Demo“ Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke


Herunterladen ppt "Digitalisierung und Aufbereitung von Sprachdaten"

Ähnliche Präsentationen


Google-Anzeigen