Transduktoren für die Sprachverarbeitung

Slides:



Advertisements
Ähnliche Präsentationen
Perceptrons and the perceptron learning rule
Advertisements

Statistische Aspekte der PSG
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
WS Prof. Dr. Th. Ottmann Algorithmentheorie 09 - Suche in Texten KMP, BM.
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Christian Schindelhauer
Stoyan Mutafchiev Betreuer: Ilhan, Tim
Algorithmentheorie 04 –Hashing
Suche in Texten: Suffix-Bäume
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (06 – Reduktion endlicher Automaten) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (04 – Automaten mit ε-Transitionen) Prof. Dr. Th. Ottmann.
Union-Find-Strukturen
WS Prof. Dr. Th. Ottmann Algorithmentheorie 09 - Suche in Texten Suffix - Bäume.
Geometrisches Divide and Conquer
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Endliche Automaten Einführung in den Themenbereich
Reguläre Sprachen Karin Haenelt.
Endliche Automaten Akzeptoren
Transduktoren für die Sprachverarbeitung
1 Endliche Automaten in der Sprachtechnologie Einführung Karin Haenelt
1 Abstrakte Operatoren für komplexe reguläre Ausdrücke Karin Haenelt
Formale Grundlagen der Faktenextraktion mit endlichen Automaten
Reguläre Ausdrücke Karin Haenelt
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
1 Endliche Automaten in der Sprachtechnologie Kursthemen Karin Haenelt
© Karin Haenelt, Modellierung Menschlicher.Sprachen mit Regulären Ausdrücken, Modellierung menschlicher Sprachen mit Regulären Ausdrücken.
Parsing regulärer Ausdrücke
Mathematische Grundlagen
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
© Karin Haenelt 2005, Endliche Automaten: Alphabet, Zeichenreihe, Sprache, Endliche Automaten Grundlagen: Alphabet, Zeichenreihe, Sprache.
Transduktoren für die Sprachverarbeitung: Komposition zweier Transduktoren Karin Haenelt
Mathematische Grundlagen
© Karin Haenelt, Transduktoren, Transduktoren für die Sprachverarbeitung Vereinigung von Transduktoren Karin Haenelt Karin Haenelt, Transduktoren,
Java – Werkzeuge zur Entwicklung endlicher Automaten
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
Christian Schindelhauer
Christian Schindelhauer
Christian Schindelhauer
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Grundkurs Theoretische Informatik
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
Überführung regulärer Ausdrücke in endliche Automaten Der Algorithmus von Glushkov und McNaughton/Yamada Karin Haenelt
Polynome und schnelle Fourier-Transformation
Analyse von Ablaufdiagrammen
Jamshid Azizi: Folie Isomorphietest Jamshid Azizi
Neubau Feuerwehrmagazin Riedenberg Dokumentation der einzelnen Bauabschnitte –
NIN-Arbeitsblätter Paul-Emile Müller
Formale Sprachen Reguläre Sprachen Rudolf FREUND, Marian KOGLER.
Symmetrische Blockchiffren DES – der Data Encryption Standard
SK / – in Hochkössen, St. Johann i.Tirol und Hochfügen flow Ski- und Snowboardschule Intersport Menzel.
Managemententscheidungsunterstützungssysteme (Ausgewählte Methoden und Fallstudien) ( Die Thesen zur Vorlesung 3) Thema der Vorlesung Lösung der linearen.
Determinanten und Cramer‘sche Regel
Analyseprodukte numerischer Modelle
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Vortrag von Rechtsanwältin Verena Nedden, Fachanwältin für Steuerrecht zur Veranstaltung Wege zum bedingungslosen Grundeinkommen der Piratenpartei Rhein-Hessen.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Christian Schindelhauer Wintersemester 2006/07 3. Vorlesung
Arne Vater Wintersemester 2006/ Vorlesung
Christian Schindelhauer Wintersemester 2006/07 2. Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Der Erotik Kalender 2005.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
 Präsentation transkript:

Transduktoren für die Sprachverarbeitung Determinisierung / Sequentialisierung nicht-sequentieller Transduktoren Karin Haenelt

Determinisierung: Definition Wir nennen einen Algorithmus, der es ermöglicht, einen nicht-sequentiellenTransduktor in einen endlich-subsequentiellen Transduktor zu überführen, Determinisierung (Mohri 1996) Ziel Zusammenfassung aller Startzustände zu einem Startzustand Zusammenfassung aller ausgehenden Kanten mit demselben Symbol zu einer einzigen Kante Eliminierung von Epsilonkanten

Beispiel 1 nicht-sequentieller Transduktor b r e c h 1 2 3 4 5 b r a c 1 2 3 4 5 b r a c h r i n g 6 7 8 9 r a c h r e n n 10 11 12 13 r a n n endlich-subsequentieller Transduktor ech b r 2,ε 6,ε 10,ε ε 3,e 7,i 11,e ε ε 4,ec 8,in 5,ech 9,ing 0,ε 1,ε b r a c h ing en n 12,ε 13,ε n n

Beispiel 2 nicht-sequentieller Transduktor b r e c h 1 2 3 4 5 b r a c 1 2 3 4 5 b r a c h i n g 6 7 8 a c c r e n n 9 10 11 12 r a n n a u 13 14 a u endlich-subsequentieller Transduktor 3,e 6,i 10,e 13,a ech b r 2,ε 9,ε 4,ec 7,in 5,ech 8,ing 0,ε 1,ε b r a c h ing en 11,ε n 12,ε n n au 14,ε u

Prinzip Kombination der lokal ambigen Pfade zu einem Pfad, der keine Ausgabe erzeugt Verzögerung der Ausgabe bis zur Auflösung der Ambiguität Verzögerte Ausgabe kann mit einer Mehrzeichen-Ausgabe an einer Kante zusammengefasst werden 1 b 2 3 4 5 e h r c a 6 7 8 9 i g n 0,ε 1,ε b r a h c ech ing 3,e 7,i 4,ec 8,in 5,ech 9,ing 2,ε 6,ε

Konstruktion ähnlich wie Potenzmengen-Konstruktion zur Determinisierung nicht-deterministischer Automaten mit lazy implementation hier zusätzlich: Verzögerung der Ausgabe, falls zu einer Eingabe verschiedene Ausgaben vorkommen neue Zustände gebildet aus Mengen von Paaren (stateT1,string) stateT1: Zustand in T1 string: weitergereichte, d.h. verzögerte Ausgabe 4,ec 8,in {(4,ec),(8,in)}

Notationskonventionen, 1 Mohri, 1996

Notationskonventionen, 2 Mohri, 1996

Notationskonventionen, 3 Abkürzungen Zustände einer zusammengefassten Zustandsmenge in T2 für die Eingabe a in T1 definiert ist 3,e c:c 7,i c:n alle Elemente des Repräsentanten {(3,e),(7,i)}, in denen gemäß T1 Eingabe c definiert ist J1(c) = {(3,e),(7,i)} Kanten einer zusammengefassten Zustandsmenge in T2 für die Eingabe a mit Zielzustand q‘ in T1 definiert ist 3,e 4 c:c 7,i 8 c:n alle Kanten des Repräsentanten {(3,e),(7,i)}, in denen gemäß T1 Eingabe c mit Zielzustand q‘ definiert ist J2(c) = {(3,e,4),(7,i,8)},

DETERMINIZATION_TRANSDUCER(T1,T2), Mohri 1996 Algorithmus DETERMINIZATION_TRANSDUCER(T1,T2), Mohri 1996 Mohri, 1996 Eberhard/Niemann/Sejane, 2004

Algorithmus: Struktur DETERMINIZATION_TRANSDUCER(T1,T2), Mohri 1996 Startzustände vereinigen 2 Repräsentant für Startzustände in Queue 3 Schleife über Queue 4-14 Endzustände 7 verzögerte Ausgabe als Endausgabe 8 Ausgabe berechnen 10 Repräsentant für Zielzustand berechnen 11 Repräsentant für Zielzustand in Queue 12 nächster Repräsentant aus Queue 14 Mohri, 1996 Eberhard/Niemann/Sejane, 2004

Kern des Determinisierungsalgorithmus DETERMINIZATION_TRANSDUCER(T1,T2), Mohri 1996

Zustandsübergänge für {(0,ε)} 1 b Zustandsübergänge für {(0,ε)}

Zustandsübergänge für {(0,ε)} 1 b Zustandsübergänge für {(0,ε)} Zustand q‘, verzögerte Ausgabe) bisher verzögerter Ausgabe w, verkettet mit aktueller Ausgabe wird links abgeschnitten von [längste gemeinsame Ausgabe]-1∙angesammelte Gesamtausgabe [σ2(q2,a)]-1 w σ1(q1,a,q1’))

Transitionen für {(3,e),(7,i),(11,e)}, c 4 h 5 c h b r 2,ε 6,ε 10,ε 3,e 7,i 11,e 4,ec 8,in 0,ε 1,ε 7 n 8 g 9 c h b r a c 11 n 12 n 13 n n

Beispiel 1 nicht-sequentieller Transduktor b r e c h 1 2 3 4 5 b r a c 1 2 3 4 5 b r a c h r i n g 6 7 8 9 r a c h r e n n 10 11 12 13 r a n n p-subsequentieller Transduktor ech b r 2,ε 6,ε 10,ε 3,e 7,i 11,e 4,ec 8,in 5,ech 9,ing 0,ε 1,ε b r a c h ing en n 12,ε 13,ε n n

σ2(q2,c) für {(3,e),(7,i),(11,e)}

σ2(q2,c) für {(3,e),(7,i),(11,e)} längstes gemein- sames Präfix von

Erweiterung des Algorithmus für endlich-subsequentielle Transduktoren nicht nur eine, sondern endlich viele Endausgaben Endausgabe muss eine Menge sein Mohri, 1996

Komplexität des subsequentiellen Transduktors Zeit allgemeine Form der Komplexitätskurve ist linear Laufzeit hängt nur von der Länge der Eingabezeichenreihe ab nicht von der Größe des Automaten keine Ambiguitäten zu verwalten

Komplexität des subsequentiellen Transduktors Platz theoretisch können Transduktoren mit mehr als 2Q Zuständen entstehen (Anzahl der Teilmengen, die aus n Zuständen gebildet werden kann, beträgt 2n, zusätzlich: Kombinationen mit verzögerten Ausgaben) kommt in der Praxis der Sprachverarbeitung kaum vor, da durch Abfolgebeschränkungen der Zeichen zur Modellierung menschlicher Sprachen (Laute, Buchstaben, Worte, Kategorien) nicht jeder Zustand mit jedem anderen durch eine Kante verbunden werden kann. die Anzahl und Länge der Ambiguitäten praktisch begrenzt ist praktisch sind die entstehenden endlich-subsequentiellen Transduktoren oft kleiner als die originalen nicht-sequentiellen Transduktoren daher lazy implementation sinnvoll (Zustände nur bilden, wenn sie das Ergebnis einer Transition sind, die von einem bereits hinzugefügten Zustand ausgehen)

Komplexität: Beispiel 1 (Mohri, 1996)

Komplexität: Beispiel 2 Word lattice W1: Which flights leave Detroit and arrive at Saint- Petersburg around nine a.m.? Word lattice W2: Determinisierung von W1 Word lattice W3: Minimierung von W2 Mohri, 1997

Ersparnis durch Determinisierung Ein gewichteter Transduktor word lattice für die Spracherkennung auf einem 2.000 Wörter Lexikon für den Satz Which flights leave Detroit and arrive at Saint-Petersburg around nine am? (Mohri, 1997: 32ff. über ARPA ATIS) Zustände Übergänge Pfade WL 106 359 83 Mio. WL determiniert 38 51 18 WL determiniert und minimiert 25 33 Folie von:Eberhard/Niemann/Sejane, 2004: 26

Komplexität: Determinisierungsalgorithmus zeitbestimmender Faktor des Algorithmus: Hashing-Methode, mit der festgestellt wird, ob ein erzeugter Repräsentant eines Zustandes neu oder bekannt ist: if ( is a new state)then ENQUEUE(Q, )

Determinisierbarkeit alle azyklischen Transduktoren können determinisiert werden zyklische Transduktoren können determinisiert werden, wenn die Zyklen eine Twins-Property haben für nicht-determinisierbare Transduktoren können deterministische Bi-Maschinen konstruiert werden

Twins-Property / Zwillingseigenschaft Choffrut, 1977, 1978 allgemeiner Algorithmus Nachweis der Entscheidbarkeit Allauzen/Mohri Algorithmus auf der Basis der Komposition von Transduktoren und einer Charakterisierung der Twins-Property über die Kombinatorik von Worten

Zwillingseigenschaft Mohri, 1997:310

Zwillingseigenschaft q1 und q2 sind Geschwister, wenn sie vom Startzustand über dieselbe Zeichenreihe x erreicht werden können wenn es am Zustand q1 und q2 einen Zyklus mit Eingabe y gibt Zwei Geschwister q1 und q2 sind Zwillinge wenn die Minimalausgabe einer Schleife mit Eingabe y bei q1 und q2 identisch ist ein Tranduktor T hat die Zwillingseigenschaft, wenn alle Geschwister Zwillinge sind Allauzen/Mohri, 2003

Nicht-sequentialisierbare Transduktoren Allauzen/Mohri 2003

Nicht-sequentialisierbare Transduktoren Beispiel für eine Funktion, für die es keinen sequentiellen Transduktor gibt: x:a x:a 1 2 x:a x:b x:b 3 4 x:b Bedingung für sequentielle Funktion (Theorem von Ginsburg und Rose, 1966): wenn u eine Zeichenkette ist, muss es auch einen Wert von f(u) geben, der nur von u abhängig ist. Mohri, 1997:303

BiMaschinen Geeignet zur Aufteilung eines funktionalen aber nicht sequentiellen Transduktors Zwei sequentielle Transduktoren, die in Serie angewendet werden 1. Hälfte der Bi-Maschine verarbeitet Eingabe von links nach rechts 2. Hälfte der Bi-Maschine verarbeitet Ausgabe der 1. Hälfte von rechts nach links Karttunen 2003:353

BiMaschine: Beispiel Nicht-sequentieller Transduktor 1. Hälfte x:a x1:a x:a 1 2 x:x2 x2:b x:a x:x1 x:b 1 2 1 x:b x:x1 x1:b 3 4 x:b x2:a x:x1 x:x2 x:x1 1 2 1 b:x1 b:x2 b:x1 1 1 Mohri, 1997:304

Vielen Dank Für das Aufspüren von Fehlern in früheren Versionen und für Verbesserungsvorschläge danke ich Simone Eberhardt, Arndt Faulhaber, Julian Kunkel, Katja Niemann, Ineta Sejane Versionen 22.05.2007, 17.05.2007, 23.06.2005,07.05.2005,05.05.2005, 15.01.03

Literatur Allauzen, Cyril und Mehryar Mohri (2003). Efficient Algorithms for Testing the Twins Property. In: Journal of Automata, Languages and Combinatorics 8, 2, S. 117-144. Choffrut, Christian (1978). Contributions à l’étude de quelques familles remarquables de fonctions rationelles. PhD thesis (thèse de doctorat d’État), Université Paris 7, LITP: Paris. Choffrut, Christian (1977). Une charactérisation des fonctions séquentielles et des fonctions sous-séquentielles en tant que relations rationelles. In: Theoretical Computer Science, 5, S. 325-338. Eberhard, Simone; Niemann, Katja und Ineta Sejane (2004). Determinisierung von Transduktoren. Seminarrreferat 28.06.2004. http://kontext.fraunhofer.de/haenelt/kurs/Referate/Eberhard_Niemann_Sejane_S2004/AlgorithmusMohri.ppt bzw. pdf Haenelt, Karin (2004). Determinisierung von Transducern. Eine Erläuterung des Algorithmus von Mohri. http://kontext.fraunhofer.de/haenelt/kurs/folien/FstDetermMohri.pdf Haenelt, Karin (2004). Operationen auf endlichen Automaten und Transduktoren. Definitionen, Algorithmen, Erläuterungen und Beispiele – eine Übersicht. http://kontext.fraunhofer.de/haenelt/kurs/folien/FSOperationenDef.pdf

Literatur Karttunen, Lauri (2003): Finite-State Technology. In: Ruslan Mitkov (Hg.): The Oxford Handbook of Computational Linguistics. Oxford University Press. Mohri, Mehryar (1997): Finite State Transducers in Language and Speech Processing. In: Computational Linguistics, 23, 2, 1997, S. 269-311. http://citeseer.nj.nec.com/mohri97finitestate.html Mohri, Mehryar (1996): On some Applications of finite-state automata theory to natural language processing. In: Journal of Natural Language Egineering, 2, S. 1-20. Mohri, Mehryar und Michael Riley (2002). Weighted Finite-State Transducers in Speech Recognition (Tutorial). Teil 1: http://www.research.att.com/~mohri/postscript/icslp.ps, Teil 2: http://www.research.att.com/~mohri/postscript/icslp-tut2.ps