Transkription in der Sprachsythese und –erkennung SS 2004 Regelgesteuerte automatische Transkription auf der Basis von Expertenwissen Referent: Freshta.

Slides:



Advertisements
Ähnliche Präsentationen
Hier einige Hieroglyphen:
Advertisements

Vorlesung Compilertechnik Sommersemester 2008
Institut für Informatik Abt. Intelligente Systeme
3. Kapitel: Komplexität und Komplexitätsklassen
Organisatorisches Klausur für Übungsschein (Anfang Januar)
8. Formale Sprachen und Grammatiken
Syntax der Aussagenlogik
Grammatiken, Definitionen
FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.
FH-Hof Grammatiken Richard Göbel. FH-Hof Begriffe Eine Grammatik definiert die Struktur (Syntax) einer Zeichenkette Eine Grammatik definiert nicht die.
FH-Hof Alternative Darstellungsformen für Grammatiken Richard Göbel.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
DOM (Document Object Model)
Fuzzy-Logik und unscharfe Mengen
HTML - Eine erste Annäherung
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Prof. Dr. rer.nat. Ralph Großmann Fakultät Informatik / Mathematik Sommersemester 2012 Internet-Technologien XML-basierte Techniken Teil Metasprache der.
Syntax von Prolog & Familiendatenbasis
Fakten, Regeln und Anfragen
Praxis-Repetitorium JAVA zusätzliche, ergänzende Lehrveranstaltung
WAS WILL WISSENSCHAFT? - Sagen: Was WIE ist
Marcus Haller & René Schulze
Linguistik Stellen Sie Fragen zum Text (schauen Sie auf Ihre Unterlagen)! Versuchen Sie die gestellten Fragen zu beantworten!
§14 Basis und Dimension (14.1) Definition: V sei wieder ein K-Vektorraum. Eine Menge B von Vektoren aus V heißt Basis von V, wenn B ist Erzeugendensystem.
boolean Datentyp und Operator
Tutorium
Kontrollfragen zu Kapitel 1
Visualisierung funktionaler Programme
RDF MT Resource Description Framework Model Theory © 2002 by Emir Blažević
RECHTSCHREIBEN.
Laut- Buchstaben Zuordnung Daniela, Jens, Sabine.
Deutsche Sprache: Woche 3.2.
1 Branko Tošović SLAWISCHE PHONEMSYSTEME TSCHECHISCH ČESKÝ JAZYK ČEŠTINA.
Was ist eine Funktion? Eine Zuordnung,
Formale Sprachen Grammatiken und die Chomsky-Hierarchie
Agenda für heute, 19. Januar 2007 Informationssysteme: ETH-BibliothekInformationssysteme: ETH-Bibliothek Logische Verknüpfungen als Grundlage für die Informationsgewinnung.
ADAT©2004 Dipl. - Ing. Walter SabinSeite: 1 Version 1.0a Einführung in Reguläre Ausdrücke.
Ein Vortrag von Elisa Beyer und Melanie Erker
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Dieser nicht Fehler finden Algorithmus enthält einfach einen gravierenden welcher zu ist.
Daten verwalten (2) Agenda für heute, 29. April 2009
Daten verwalten (2) Agenda für heute, 30. April 2008
Noam CHOMSKY, Sheila GREIBACH
Agenda für heute, 13. Januar 2006
Agenda für heute, 20. November 2009
Agenda für heute, 21. November 2008
PHP: Operatoren und Kontrollstrukturen
Fachschaft Mathematik und Informatik
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Christian Schindelhauer Wintersemester 2006/07 6. Vorlesung
Informatik Formale Sprachen 1.2 Grammatiken formaler Sprachen
Mensch – Maschine - Kommunikation
7. Formale Sprachen und Grammatiken
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Kapitel 4:Die Chomsky Hierarchie
Programmierungssprache PERL
(Syntax, Strings/Zahlen, Variablen, Arrays)
Technische Informatik I Vorlesung 4: Vereinfachung von Schaltfunktionen Mirco Hilbert Universität Bielefeld Technische Fakultät.
 Sortigkeit oder Arität
Gliederung der Vorlesung
Lineare Gleichungen Allgemeine Einführung Äquivalenzumformungen
Das Königsberger Brückenproblem Richard Kemmerzehl Philipp Kreis Unser Thema Königberger Brückeproblem und indirekter Beweis.
Was sind Zuordnungen? Werden zwei Größenbereiche in Beziehung gesetzt, entstehen Zuordnungen. Ihre zeichnerische Darstellung in einem Koordinatensystem.
Gliederung 0. Motivation und Einordnung 1. Endliche Automaten
Formale Sprachen.
Phonetische Transkription Sitzung 2
REKURSION + ITERATION.
Phonetische Transkription Sitzung 10
Phonetische Transkription Sitzung 10
 Präsentation transkript:

Transkription in der Sprachsythese und –erkennung SS 2004 Regelgesteuerte automatische Transkription auf der Basis von Expertenwissen Referent: Freshta Khairi

Gliederung 1. Einleitung 2. Allgemeines über P-Tra 3. Sprachelemente von P-Tra 4. Sonderzeichen 5. Klassen 6. Operatoren

Gliederung 7. Schreibweise 8. Regelapparat 9. Ausführung 10. Probleme 11. Praktische Anwendung

Einleitung - keine direkte Phonem – Graphem – Beziehung - Bestimmung des Lautes erst bei der Betrachtung der Umgebung -Entwicklung von Regelsystemen für verschiedene Sprachen -Diese sind meistens kontextsensitiv und basieren auf dem Ansatz von Chomsky und Halle (1968) E A / L_R Eine Symbolkette E (Graphem) geht in eine Symbolkette A (Phonem), wenn die linke Kontextbedingung L und die rechte Kontextbedingung R hinsichtlich E erfüllt sind.

Allgemeines über P-Tra -Programmiersprache zur phonetischen Transkription -Mit einer Erweiterung durch die Grundelemente der formalen Aussagenlogik -Strikte Trennung zwischen dem Regelapparat und dem Interpreter -Zur Formulierung von Regeln für eine computergestützte phonetisch – allophonische Transkription von Schrifttexten -P-Tra ist kontextsensitiv und somit Berücksichtigung von umgebenden Buchstaben und Allophonen

Sprachelemente von P-Tra -Wortanfang und Wortende stellen die Kontextgrenzen dar -Überprüfung von einem Graphem bzw. einer Graphemsequenz mit Hilfe von logischen Aussagen und die Erstellung einer Transkription -Abarbeitung von links nach rechts Buchstabe für Buchstabe -Eine Menge logischer Aussagen d.h eine Gruppe von Regeln -Filterungsprozess mit großem Einfluss der Hierarchie auf die Entscheidung

Sprachelemente von P-Tra Linke Seite der Regel: Suchstring, bestehend aus einem oder mehreren Graphemen, fakultative Kontextbedingung Rechte Seite der Regel: das resultierende Transkript -(A,O,U) CH & #, Ä,E,I = Ç linke Suchstringrechteresult. Kontextbed.KontextbedTranskript

Sprachelemente von P-Tra Jede logische Aussage beansprucht eine eigene Zeile mit Präkontext, Suchstring, Postkontext und Ergebnisstring. Präkontext: - linksseitige Kontextbedingung - graphematisch / allophonisch - graphematisch steht in (…) Beispiel: -(A, O, U) - allophonisch ([…]) oder (/…/) Beispiel: [l,, h, gr, tr] Suchstring: graphematisch Beispiel: CH

Sprachelemente von P-Tra Postkontext: - rechtsseitige Kontextbedingung - graphematisch - benötigt keine Klammern u.ä. Beispiel: #, Ä,E,I Ergebnisstring: - wird von einem Gleichheitszeichen (=) eingeleitet - allophonisch Beispiel: … = Ç

Sprachelemente von P-Tra Die logischen Aussagen bzw. die Regeln können zu einer Gruppe zusammengefasst werden. Erkannt wird diese Gruppe durch einen Punkt und das dazugehörige Graphem. Beispiel:.k Die letzt Regel einer Gruppe ist eine direkte Zuordnung Beispiel: Z= ts oder auch HOTEL = hotεl

Sonderzeichen Doppelkreuz (#): - Im Prä- oder Postkontext bedeutet Wortanfang oder Wortende - Am Ende des Suchstrings Markierung von Morphemen, insbesondere Präfixen Beispiel: # VIER & # = fi:r # AUS & -TRAL = aos# Dollerzeichen ($): - steht als Platzhalter (wildcard) für ein beliebiges Graphem im Prä- oder Postkontext Leerzeichen: - Zur besseren Gliederung können beliebig viele verwendet werden Sternsymbol (*): - folgende Zeile als Kommentar

Klassen Zusammenfassung der Einzelgrapheme bzw. –allophone zu einer Klasse Beispiel: eine Klasse der Vokale > eine Klasse von Konsonanten mit doppeltem Vorkommen Definiert wird eine Klasse durch ein (!). Beispiel: !K5 bdg ptk !K5 b,d,g, p, t, k

Operatoren -Disjunktion (logisches ODER) symbolisiert durch ein Komma (,) -*Beispiel: [r, b, f] Uß = u:s -Konjunktion (logisches UND) hat kein Symbol *Beispiel: E & (N,R,L) S = ə -Antivalenz (logisches EXKLUSIV – ODER) symbolisiert durch ein Semikolon (;) *Beispiel: G & = k

Operatoren -Negation (logisches NICHT) mit den Symbolen und (-) bei Graphem oder Allophon -(-) bei Graphem- oder Allophonstring bzw. nachfolgendem Klammer- oder Klassenausdruck * Beispiel: # ERZ & #, U = e:rts Verschachtelung logisch äquivalenter Aussagen und Verknüpfung dieser (sowohl im Prä- als auch Postkontext) Beispiel: E & (, T) (E(N; R; S) #, U (M, N), (H, K) EI) = ə

Schreibweise Präkontext: Erlaubt ist hier sowohl Groß- als auch Kleinschreibung Wörter, deren Bedeutung davon abhängig sind, können durch eine geeignete Regel berücksichtigt werden. Beispiel: WEG = ve:k weg = vεk Suchstring: Sowohl Groß- als auch Kleinschreibung, wobei Großschreibung alle Arten von Eingabetexten und Kleinschreibung nur Kleingeschriebenes berücksichtigt Postkontext: Hier ist die Großschreibung obligatorisch

Ausführung Interpreterprogramm: - Übertragung der logischen Aussagen in die Maschinensprache des PC - sofortige Ausgabe des Transkriptionsergebnisses Trace – Modus - Darstellung untereinander - rechts neben jedem Allophonstring steht die Regel

Ausführung Beispiel: Demonstration de/#/ DE ( ), (STR, SKR, ST, SP, CH, FR, ) <V0) = de mM = m oO = o nN = n st/on, In, εn/ ST & #, IT, RU, RA, RÖ, AN, IG = st rR = r atsio:n ATION & #, EN, S = atsio:n

Regelapparat Ca Einzelregeln Keine systematische Morphemanalyse Mit Ausnahme von Präfixen, da sichere Auffindung und wichtige Hilfsfunktion bei der Transkription nachfolgender Grapheme sowie Akzentuierung

Regelapparat Das Prinzip bei der Formulierung der Regeln: – Man sollte aus der Umgebung des Suchstrings soviel wie möglich berücksichtigen, aber möglichst wenig Kontext. – Optimierung von Allgemeingültigkeit der Regeln und verkürzte Arbeitszeit

Probleme Fremdwörter – Inwieweit dürfen diese sowie auch Eigennamen in den Regelapparat aufgenommen werden? Zusammengesetzte Wörter, da keine Morphemanalyse – Typische Fehlinterpretation bei Fugen- S Akzetuierung – Bisher nur da, wo die Auflistung des vollständigen Wortes oder eines geeigneten Wortteils dies erlaubt

Praktische Anwendung