Digitalisierung und Aufbereitung von Sprachdaten

Slides:



Advertisements
Ähnliche Präsentationen
Frank Leppert Universidade Católica Portuguesa Viseu, Portugal
Advertisements

Audacity.sourceforge.net audacity. ist ein kostenloses Programm, dass sowohl zur Audio- aufnahme als auch zur Bearbeitung genutzt werden kann. Es bietet.
SCHOLA-21 Die virtuelle Lernumgebung Im Projekt lernen Sonja Cradock
SCHOLA-21 Die virtuelle Lernumgebung Im Projekt lernen Melanie Siegl
Sprachlernplattform für alle Lebenslagen
Medienintensive Lehrmodule in der Computerlinguistik-Ausbildung
eine Plattform für annotierte Korpora in XML
DINI Workshop „Informationsmanagement an Hochschulen“ - Duisburg
Wörterbuchtypen Universität zu Köln Romanisches Seminar
Eine RDF Konvention für die Beschreibung phonetischer Ressourcen im Semantic Web Hauptseminar: Historisch-Kulturwissenschaftliche Objekte im Semantic Web.
Allgemeine Technologien II
Der Düsseldorfer Bachelor-Studiengang „Germanistik“
Autosegmental-Metrische Phonologie und ToBI
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Modul H Die folgenden Abbildungen und Textpassagen stammen aus: Ralf Benzmüller, Martine Grice Trainingsmaterialien zur Etikettierung deutscher.
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Software Praat: Doing Phonetics by Computer. Phonetik Institut, Amsterdam, EMU: Ein System für die Analyse von Sprachdatenbanken Macquarie.
Grundlagen der Analyse von Sprachdatenbanken
Wintersemester 2013/2014 Bistra Andreeva FR 4.7 Phonetik Universität des Saarlandes Prosodie.
Gestufte Studiengänge im Institut für Phonetik und Sprachverarbeitung
Übung Akustische Phonetik
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Das AM Modell der Intonation
Berechnung von digitalen Signalen
1. Satzbetonung, Töne, und Grundfrequenz
Abfragen aus einer Sprachdatenbank Jonathan Harrington.
Prosodie und Intonation: ein Überblick
Die Prosodie Jonathan Harrington Felicitas Kleber.
Abfragen aus einer Sprachdatenbank Jonathan Harrington.
Grundlagen der Analyse von Sprachdatenbanken
Etikettierungsebenen Jonathan Harrington. Das Ziel Etikettierungen verschiedener Ebenen aufzubauen, und miteinander zu verlinken.
Aufbau, Abfrage, Analyse von Sprachdatenbanken ErstellungAnalyse Abfrage Digitale Zeitsignale akustisch, artikulatorisch Etikettieren Verknüpfung mit Symbolen.
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
1 Ein Computermodell zur Bestimmung von Begriffstypen Christof Rumpf Heinrich-Heine-Universität Tag der Forschung
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Grundkurs Linguistik Programm der Vorlesung Oktober
Grundkurs Linguistik Programm der Vorlesung Oktober
Einführendes Sprachpsychologie.
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
Multimediatechnik / Audio Dipl. -Ing. Oliver Lietz
Kategoriale Wahrnehmung
Inhalt Einführung –Spezifikation Aufbau des Tools –Aufnahme –Stille entfernen –Speicherung –Kommunikation mit den anderen Teilen.
Übungsmaterialien zur deutschen Prosodie und GToBI
ELearning-Innovationen für den modernen Fremdsprachenunterricht STZ Sprachlernmedien The BACKBONE project has been funded with support by the EU Lifelong.
1 E-Learning-Tag der TU Kaiserslautern, Dirk Henrici; AG ICSY, TU KL: WebPresenter – Vorlesungsaufzeichnung mit freier Software WebPresenter.
Peter Grzybek ( Graz ) Das Grazer Projekt »Wortlängen(häufigkeiten) in Texten slawischer Sprachen« FWF #15485 ( )
Maike Schulte-Hochmuth
Institut für Slawistik der Karl-Franzens Universität Graz Graz, 25. November 2010 Evaluierung der Grazer Sprachwissenschaft von 2005 bis 2009 Perspektive.
Grundfragen,Grundbegriffe, Teildisziplinen,Ziele,Nutzen
My Statistics Schinnerl, Mikes, Walehrach, Grieshofer PPM-Projekt
Informationstheorie Begr. von Claude Shannon
Sommersemester 2014 Bistra Andreeva FR 4.7 Phonetik Universität des Saarlandes Einführung in die Instrumentalphonetik.
Melanie Andresen und Dagmar Knorr
Content-Managment-System
Oliver Niebuhr1 „ Prosodie hautnah erleben“ Ein Lernprojekt auf Basis von Lombard-Sprache Oliver Niebuhr Tag der Lehre 2014 Christian-Albrechts-Universität.
IT-Kooperation – warum? Warum sollten Sie kooperieren? Leitfragen und Struktur des Tages Die grundlegende Idee Wo wird kooperiert?
Dozententreffen zum Methodenworkshop Psycholinguistisches Labor Carsten Schliewe.
Informatik Im WPI – Bereich.
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
I.B.&IA Anfänger Structura limbii Sommersemester 2015 Dr. Ileana-Maria Ratcu.
Visualisierungsmethoden zur
Text Mining auf annotierten Texten
Lukas Kerecz - Edits1 Edits Lukas Kerecz. Lukas Kerecz - Edits2 Gliederung  Einführung  Edits – warum und wofür?  Edits – Definiton  einleitende Beispiele.
Mp3 und co. – Audiobearbeitung am PC. Vorteile Audio am PC Audiofiles lassen sich einfacher verwalten und weiter verarbeiten als Kassettenaufnahmen.
Einführung in die Phonetik und Phonologie SS 2010 Bistra Andreeva Sitzung 1: Einführender Überblick.
Informatik Im WPI – Bereich.
Schreibst du noch oder bloggst du schon?
 Präsentation transkript:

Digitalisierung und Aufbereitung von Sprachdaten Stefan Baumann1, Dagmar Jung2 & Doris Mücke1 IfL Phonetik1 IfL Allgemeine Sprachwissenschaft2 Universität zu Köln

CCeH Workshop IT-bezogene Lehre an der Philosophischen Fakultät Studierende des BA Fachs Linguistik und Phonetik lernen: Aufnahme von Sprachdaten (meist digital) Aufbereitung & Annotation von Sprachdaten im Labor im Feld Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

IT-bezogene Kurse BA Linguistik & Phonetik Laboratory Phonology (Projektseminar) Akustische Phonetik (Praxisseminar) Prosodische Analyse (Grundkurs) Signalgestütze Transkription (Übung) Einführung in die Allgemeine Sprachwissenschaft (Seminar) Sprachdokumentation (Proseminar) Diskursanalyse (Hauptseminar) ASW-Kurse: u.a. analoge Aufnahmen digitalisieren und transkribieren Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

IT-bezogene Kurse zusätzlich: Statistik-Kurse in regelmäßigen Abständen (in ASW und Phonetik) Programme: R und SPSS Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Sprachaufnahmen Labor I Akustik Nutzung von digitalen Aufnahmemöglichkeiten Wandlung in verschiedene Datei-Formate u.a. wav, SSFF Pre-processing Schneiden und Ordnen von Akustik-Dateien Optimierung für Frequenzanalysen Abtastrate: Downsampling (44.1kHz, 20kHz) Filtern, z.B. Noise-Reduction Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Sprachverarbeitung Parametrisierung Resynthese als Analysetechnik sprachverarbeitende Software Cool Edit, Audacity, PRAAT, EMU Articulate Assistant, Custom Software Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 6 6

Beispiel Formantanalyse b e n e nn e richtig 2 Pole geben einen Bandpassfilter Also 2 Pole pro Formant Aber obere Frequenzgrenze muss angegeben werden (liegt bei Frauenstimmen anders als bei Männerstimmen) fehlerhaft, F1 wird nicht gefunden Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Sprachaufnahmen Labor II Aufnahme von Artikulationsdaten Elektropalatographie Elektromagnetische Artikulographie Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Annotation EPG 1 2 3 4 hingeben Labeln von Bewegungs- plateaus (Bsp. für partielle Assimilation) 1 2 3 4 Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Annotation EMMA Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Sprachaufnahmen „im Feld“ Mikrophonierung (nach Aufnahmesituation, Monolog vs. Konversation, auch wireless) digitale Aufnahmeformate (Audio und Video) Aufnahme von „natürlichen Daten“ -> Unterschiede gesprochene vs. geschriebene Sprache wird durch Transkription und Annotation sichtbar gemacht Erstelllung von Annotationen und Korpus z.B. durch ELAN und Toolbox “Im Feld” getätigte Aufnahmen sind alle Aufnahmen, die NICHT im Labor unter idealen Voraussetzungen stattfinden. Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 11 11

ELAN ELAN (EUDICO Linguistic Annotator) ist ein Annotationsprogramm, das es erlaubt, Annotationen von Audio- sowie Videodaten zu erstellen, bearbeiten und visualisieren, sowie diese zu durchsuchen und auszuwerten. Es wurde vom Max Planck Institut für Psycholinguistik in Nijmegen, entwickelt,um eine technische Grundlage für die Annotation und Ausbeutung von multi.media Aufnahmen zu ermöglichen. ELAN wurde speziell zur Sprachanalyse (inklusive Gebärdensprache und Gestik) enwickelt. Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 12 12

Toolbox Datenbank Textanalyse durch Parsen Erstellung von Morphemlisten/ Wortlisten/Wörterbüchern Datenaustausch mit ELAN (Bezug zu Mediadateien bleibt dadurch erhalten) Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 13

Toolbox Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke 14

Zwischen Labor- und Feldforschung Annotation verschiedener Datentypen (auch Spontansprache) mehrere linguistische Beschreibungsebenen (Morpho-)Syntax: Wortstellung, Part-of-Speech, Definitheit, Satztyp, Fokusoperatoren… Semantik/Pragmatik: Fokustyp, Informationsstatus (Referenz- u. lexikalische Ebene)… Phonetik/Phonologie: Akzente und Grenztöne, Tonhöhenumfang, Dauern von Silben und Wörtern… Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Zwischen Labor- und Feldforschung Annotationstool für Darstellung der verschiedenen Ebenen: EMU Speech Database System (http://emu.sourceforge.net/) Beispiel Spontansprache: Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Zwischen Labor- und Feldforschung Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke

Fächerübergreifende Zusammenarbeit Neues DFG-Projekt von Phonetik (Grice) und Germanistik (Lohnstein); ab 2010 Ein Ziel: Erweiterung der Fokus-DB um mehrebenen-annotierte Daten inklusive Tondateien und Bereitstellung zu Forschungszwecken Demo-Version: www.fokus-db.de, Benutzer: „Besucher“, Passwort: „Demo“ Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke