Hauptseminar im Sommersemester 2004

Slides:



Advertisements
Ähnliche Präsentationen
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Advertisements

Elternfragebogen 2009 Die Auswertung ist da mit super Ergebnissen!
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Die Projektgruppe heißt Sie herzlichst willkommen
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Projekt zur Evaluation, Reaktivierung vorhandener Kenntnisse und Festigung des Arbeitens mit Größen im Mathematikunterricht mit Schülern der 7. Klassen.
Telefonnummer.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Statistiken und Tabellen
Quantitative RT-PCR an nativen Prostatakarzinom-Biopsien: Etablierung der Technik und erste vergleichende Ergebnisse Medizinische Fakultät Universitätsklinikum.
EF: Standards + H2O red = H2O.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Differentielles Paar UIN rds gm UIN
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Blütenbehandlung 2009–2011 (% der Anbaufläche)
Zerlegung von Quadraten und ????
Klima Dich schlau Ein Projekt der Klasse SG-11 an der Louise-Otto-Peters Schule zum Klimaschutzprojekt der Bürgerstiftung Wiesloch 1.
1 Status Index Politikergebnisse Management Index Reformfähigkeit Exekutivkapazität Beteiligungskompetenz Gestaltungsfähigkeit Ressourceneffizienz Internationale.
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
20:00.
Im Zuge unserer Befragung gaben uns 260 Personen über ihr Leseverhalten Auskunft.
Zusatzfolien zu B-Bäumen
WIRTSCHAFTSLAGE NOCH SCHWIERIG
AGOF facts & figures: Branchenpotenziale im Internet Q4 2013: Entertainment Basis: internet facts / mobile facts 2013-II.
Eine Einführung in die CD-ROM
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Dokumentation der Umfrage
Wir üben die Malsätzchen
Syntaxanalyse Bottom-Up und LR(0)
Addieren und Subtrahieren von Dezimalzahlen
Messung der Ionisierungsenergie von Wasserstoff
Bitte F5 drücken.
Der Ablauf eines Clear Rex Klärzyklus
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Eine lllustration der Herausforderungen des Stromsystems der Zukunft
Symmetrische Blockchiffren DES – der Data Encryption Standard
Szenisches Lernen Wie Theaterelemente den Unterricht bereichern
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Parkplatz-Orga Diese Version ist vom finale Version!
Sachbezugswerte 2007 (SV-Entgeltverordnung) Sachbezugswerte für freie Verpflegung FrühstückMittagessenAbendessen 1,50 2,67 Monatlicher Wert Verpflegung.
Deutschlandpokal Eishockey Spielplan / Ergebnisse Vorrunde - Freitag 16:00 – 16:20 A Sindelfingen 2 – Friedrichshafen0:2 16:20 – 16:40 A Rastatt1 - Mannheim.
Kamin- und Kachelöfen in Oberösterreich
Zusammengestellt von OE3DSB
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
QUIPS 2011 Qualitätsverbesserung in der postoperativen Schmerztherapie.
Dokumentation der Umfrage BR P2.t Ergebnisse in Prozent n= 502 telefonische CATI-Interviews, repräsentativ für die Linzer Bevölkerung ab 18 Jahre;
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Gliederung 1. Arbeitsraum (Grundriss + Maße) 2. Arbeitsraum (Einrichtung) 3. Arbeitsraum (Netzwerkplan) 4. Aufenthaltsraum (Grundriss + Maße) 5. Aufenthaltsraum.
AGOF facts & figures: Branchenpotenziale im Internet Q2 2014: Parfum & Kosmetik Basis: internet facts / mobile facts 2014-I.
Gedankenlesen Durch Studien fand man heraus, dass Gedanken in einem gewissen Maße lesbar sind.
Gewerkschaft Erziehung und Wissenschaft Überleitung zum TV-H Beispiele.
Bürgermeister Absolute Stimmen Gesamt. Bürgermeister Prozentuale Aufteilung Gesamt.
Folie Einzelauswertung der Gemeindedaten
ÖGB BÜRO CHANCEN NUTZEN
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
AGOF facts & figures: Branchenpotenziale im Internet Q4 2014: Unterhaltungselektronik Basis: internet facts / mobile facts 2014-III.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
 Präsentation transkript:

Hauptseminar im Sommersemester 2004 Manuelle Segmentierung von Sprachkorpora: das Phon und die akustische Realität Transkription in Sprachsynthese und -erkennung Hauptseminar im Sommersemester 2004 Prof. Dr. Wolfgang Hess Stefan Breuer, M.A. Referentin: Anastasija Eifer

Gliederung Einführung Segmentierung und Annotation Konsistenz manueller Segmentierung und Transkription: klare und nicht klare Fälle Manuelle Segmentierung und Transkription in verschiedenen Sprachen Abschätzung der Qualität manueller und automatischer Segmentierung und Transkription Zusammenfassung

Einführung (1/3) Beispiel für ein segmentiertes und annotiertes Sprachsignal: Abb.1: Die Segmentation und Etikettierung des Wortes das (das Kiel Korpus)

Einführung (2/3) manuelle Segmentierung sehr zeitaufwändig automatische Segmentiermethoden sehr zeitaufwändig von geschulten Phonetikern viele verschiedene Systeme schnell oft manuelle Korrektur der Labels

Einführung (3/3) Warum Segmentierung und Annotation von Sprachkorpora? sprachtechnologische Zwecke Sprachforschung Trainingsmaterial für Spracherkennung und Sprachsynthese, Testen

Segmentierung und Annotation (1/5) Probleme : Kontinuität des Signals: Varianz des Signals: Koartikulation - die Laute eines Wortes lassen sich nicht gegeneinander abgrenzen. [am], [um], [an] – man kann nicht den Vokal vom Nasal trennen gleicher Laut hört sich nicht immer gleich an, gleiches Wort wird nicht immer gleich ausgesprochen

Segmentierung und Annotation (2/5) Probleme : Segmentgrenzen: ein nicht trivialer Aspekt Segmenten lassen sich nicht immer klar abgrenzen Entscheidungen müssen willkürlich getroffen werden

Segmentierung und Annotation (3/5) Abb.2: Segmentationen un Etikettierungen der Wörter (a) schönes und (b) Günther (das Kiel Korpus)

Segmentierung und Annotation (4/5) Abb.3: Sonagramm des Wortes kommen samt Segmentation (vertikale Striche) und Etikettierung. Die horizontalen gestrichelten Linien zeigen die mögliche zeitliche Ausdehnung der phonetischen Korrelate der phonologischen Elemente und (das Kiel Korpus)

Segmentierung und Annotation (5/5) Abb.4: Sonagramm und Etikettierung des Wortes welches (das Kiel Korpus)

Konsistenz manueller Segmentierung und Transkription: klare und nicht klare Fälle (1/8) B.Eisen, H.G.Tilmann Institut für Phonetik und Sprachliche Kommunikation der Universität München Das Ziel : Untersuchung der Konsistenz phonetischer Segmentierung und Transkription interindividuelle Konsistenz intraindividuelle Konsistenz

Konsistenz manueller Segmentierung und Transkription: klare und nicht klare Fälle (2/8) Sprachdaten: 100 Sätze, gelesen von sechs deutschen Sprechern (insgesamt 600 Sätze) manuell segmentiert und etikettiert von vier Transkribenten resegmentiert nach ca.10-12 Monaten

Konsistenz manueller Segmentierung und Transkription: klare und nicht klare Fälle (3/8) Struktur der Dateien: eine Liste von Segmentgrenzen mit den entsprechenden IPA - Etiketten Gruppierung der orthographischen Darstellung des Wortes zu einem String von phonetischen Segmenten

Konsistenz manueller Segmentierung und Transkription: klare und nicht klare Fälle (4/8) Datenverwaltung mit Prolog: Fakten: Segment- und Labeldateien Prädikate für : Regeln: Beziehungen zwischen Segmenten, Transkribenten und Wörtern Trankriptionsabbildung Identifizierung der Sätze des Korpus und ihre kanonische Formen orthographische Darstellung des Wortes mit der Variantendarstellung

Konsistenz manueller Segmentierung und Transkription: klare und nicht klare Fälle (5/8) Resultierende Datenbasis: individuelle etikettierte Dateien für jeden Satz des Korpus und für jede Version der Segmentierung File Header: Sprecher-Information Satz-ID orthographische Repräsentation des Satzes Wortformen Name des Transkribenten Version der Segmentierung

Konsistenz manueller Segmentierung und Transkription: klare und nicht klare Fälle (6/8) % 100 90 80 70 60 50 40 INTER INTRA_A INTRA_B 30 20 10 Pvl Pvd Fvl Fvd L N Vf Vc Vb V: GS Pvl voiceless plosives Pvd voiced plosives Fvl voiceless frikatives Fvd voiced frikatives L laterals N nasals GS glottal stops V vowels V: long vowels Vf front vowels Vc central vowels Vb back vowels Abb.5: Prozentsatz identischer Transkriptionen (inter- und intraindividuelle Konsistenz)

Konsistenz manueller Segmentierung und Transkription: klare und nicht klare Fälle (7/8) % 100 90 L 80 N 70 Fvl 60 50 /N/ - V V - /L/ - V /N/ - Fvl /Fvl/ - V /Fvl/ - Pvl 40 30 context-independent context-dependent 20 10 Pvl voiceless plosives Pvd voiced plosives Fvl voiceless fricatives Fvd voiced fricatives L laterals N nasals GS glottal stops V vowels V: long vowels Vf front vowels Vc central vowels Vb back vowels Abb.6: Prozentsatz identischer Transkriptionen in verschiedenen Kontexten

Konsistenz manueller Segmentierung und Transkription: klare und nicht klare Fälle (8/8) % 100 90 SPEAKERS MR SM WN ZG ZN 80 70 60 50 40 30 20 10 Pvl Pvd Fvl Fvd L N Vf Vc Vb V: GS Pvl voiceless plosives Pvd voiced plosives Fvl voiceless fricatives Fvd voiced fricatives L laterals N nasals GS glottal stops V vowels V: long vowels Vf front vowels Vc central vowels Vb back vowels Abb.7: Prozentsatz identischer Transkriptionen (verschiedene Sprecher)

Manuelle Segmentierung und Transkription in verschiedenen Sprachen (1/9) Ronald Cole, Beatrice T.Oshika, Mike Noel, Terri Lander, Mark Fanty Center for Spoken Language Understanding Oregon Graduate Institute of Sience and Technologie, USA Experiment 1: Englisch, Deutsch, Mandarin und Spanisch, segmentiert und etikettiert von Linguisten, die diese Sprachen fließend sprechen Experiment 2: Deutsch und Hindi, segmentiert und etikettiert von Linguisten, die diese Sprachen nicht sprechen

Manuelle Segmentierung und Transkription in verschiedenen Sprachen (2/9) Sprachdaten: Quelle: OGI Multi-language Telephone Speech corpus der Korpus enthält 50 sec.-Segmente von kontinuierlicher Telefonaten in verschiedenen Sprachen, sog. „stories“ von jeder Sprache wurden 10 stories ausgewählt (insgesamt ca. 30 min.) jede story wurde von zwei Linguisten bearbeitet

Manuelle Segmentierung und Transkription in verschiedenen Sprachen (3/9) die Analyse wurde auf drei verschiedenen Ebenen durchgeführt: full – full label set base – reduced symbol set (ohne Diakritika) broad categories – Vokale, Verschlußlaute, Plosive, Frikative, Semivokale, Nasale und nichtsprachliche Laute

Manuelle Segmentierung und Transkription in verschiedenen Sprachen (4/9) Experiment 1: Full Base Broad Segments Englisch Deutsch Mandarin Spanisch 69,67 60,98 65,61 73,81 70,79 64,69 77,90 81,77 89,06 80,78 86,75 90,13 512 533 410 523 Tab.1: Ergebnisse der Transkriptionsanalyse

Manuelle Segmentierung und Transkription in verschiedenen Sprachen (5/9) Experiment 1: milliseconds < 2 < 4 < 6 < 11 Englisch Deutsch Mandarin Spanisch 29% 21% 32% 20% 55% 46% 58% 40% 67% 63% 71% 53% 79% 83% Tab.2: Ergebnisse der Analyse von Segmentgrenzen (broad categories)

Manuelle Segmentierung und Transkription in verschiedenen Sprachen (6/9) Experiment 2: Full Base Broad Segments Deutsch Hindi 34,79 34,03 40,50 42,22 77,52 82,87 25 26 Tab.3: Ergebnisse der Transkriptionsanalyse

Manuelle Segmentierung und Transkription in verschiedenen Sprachen (7/9) Experiment 2: milliseconds < 2 < 4 < 6 < 11 Deutsch Hindi 32% 27% 59% 56% 69% 67% 81% 79% Tab.4: Ergebnisse der Analyse von Segmentgrenzen (broad categories)

Manuelle Segmentierung und Transkription in verschiedenen Sprachen (8/9) Experiment 1: Experiment 2: Ergebnisse der Transkriptionsanalyse: durchschnitt. 67,5% (full label set), 73,79% (ohne Diakritika) und 86,68% (broad) Analyse der Segmentgrenzen: durchschnitt. 78% Ergebnisse der Transkriptionsanalyse: durchschnitt. 34,41% (full label set), 41,36% (ohne Diakritika) und 80,2% (broad) Analyse der Segmentgrenzen: durchschnitt. 80%

Manuelle Segmentierung und Transkription in verschiedenen Sprachen (9/9) count correct vowel nasal semi-vowel plosive closure fricative nonspeech 3118 937 1125 1293 1225 1501 1123 59% 89% 79% 90% 86% 82% 78% Tab.5: Ergebnisse der Analyse von Englisch (Experiment 1, broad categories)

Abschätzung der Qualität manueller und automatischer Segmentierung und Transkription Maria-Barbara Wesenick, Andreas Kipp Institut für Phonetik und Sprachliche Kommunikation (IPSK) Ludwig-Maximilians-Universität München manuelle und automatische Segmentierung und Transkription: Untersuchung von Segmentlabels (von Konsonanten) Untersuchung von Segmentgrenzen

Abschätzung der Qualität manueller und automatischer Segmentierung und Transkription Sprachdaten: Phondat-II Datenbank des Deutschen manuelle Segmentierung: automatische Segmentierung: MAUS – Munich AUutomatic Segmentation System insgesamt 10 Sprecher und 10 Linguisten von jedem Sprecher jeweils 64 Sätze die Daten von jedem Sprecher im Schnitt von drei Linguisten segmentiert

a) manual transcriptions b) automatic transcriptions Abschätzung der Qualität manueller und automatischer Segmentierung und Transkription labels a) manual transcriptions b) automatic transcriptions p b t d k g Q all stops 93.8 97.8 92.5 79.6 92.1 85.9 86.6 89.9 76.4 82.5 80.2 75.1 89.2 72.1 78.3 f v s z S C j x h all fric. 99.2 96.5 98.5 92.9 98.3 96.4 99.4 92.3 98.0 99.6 88.2 95.1 98.6 94.0 94.3 97.5 71.5 93.6 m n N all nas. l r all consonants 98.2 97.9 93.4 96.0 94.8 97 94.9 83.5 94.4 64.1 99.0 88.4 Stops Fricatives Nasals Tab.6: Prozentsatz identischer Labels für Konsonanten in a)manuellen Transkriptionen und b)automatischen Transkriptionen

a) manual transcriptions b) automatic transcriptions Abschätzung der Qualität manueller und automatischer Segmentierung und Transkription labels a) manual transcriptions b) automatic transcriptions p b – 5.2% v – 2.6% b – 22% b p – 0.8% p – 9% v – 4% t d – 4.4% d – 10% d t – 11.4% t – 10% p – 2% b – 2% Q – 1% k g – 5.6% g – 5% g k – 8.7% k – 11% v f – 2.1% b – 10% f – 9.5% s z – 0.8% z – 3.3% N n – 4.3% n – 4% Tab.7: Verwechslungen von Labels in a)manuellen Transkriptionen und b)automatischen Transkriptionen

a) manual segmentations b) automatic segmentations Abschätzung der Qualität manueller und automatischer Segmentierung und Transkription segment boundary a) manual segmentations b) automatic segmentations N-N N-Fvd V-L V-Fvd Fvl-Fvd Fvl-Pvl Fvl-Pvd V-N N-V L-V L-Pvd Pvd-V V-V N-Pvd Fvl-Fvl Fvl-N V-Fvl N-Fvl Fvd-V N-Pvl Pvd-N V-Pvl Pvl-Fvl Fvl-V Pvl-N 16 11 14 9 12 5 7 8 6 15 13 10 43 34 36 31 28 21 19 18 17 20 Tab.8: Mittlere Abweichung von Segmentgrenzen in ms für a)manuelle Segmentierung und b)automatische Segmentierung

a) manual segmentations b) automatic segmentations Abschätzung der Qualität manueller und automatischer Segmentierung und Transkription time range a) manual segmentations b) automatic segmentations = 0 ms < 5 ms < 10 ms < 15 ms < 20 ms < 32 ms < 64 ms 63% 73% 87% 91% 96% 99% 100% 1% (< 0.5 ms: 15%) 36% 61% 76% 84% 90% 95% Tab.9: Ergebnisse der Analyse von Segmentgrenzen für a)manuelle Segmentierung und b)automatische Segmentierung

Zusammenfassung Qualität phonetischer Segmentierung und Transkription ist unter anderem wichtig für automatische Spracherkennung- und Sprachsynthesesysteme Es gibt keine „einzig richtige“ Transkription, Abweichungen sind möglich Bestimmte phonetische Kategorien lassen sich leichter segmentieren Dieser Prozess ist kontext- und sprecherabhängig