Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

© Karin Haenelt, Determinisierung von Transduktoren, 22.05.07/ 1 15.01.03 1 Determinisierung / Sequentialisierung nicht- sequentieller Transduktoren Karin.

Ähnliche Präsentationen


Präsentation zum Thema: "© Karin Haenelt, Determinisierung von Transduktoren, 22.05.07/ 1 15.01.03 1 Determinisierung / Sequentialisierung nicht- sequentieller Transduktoren Karin."—  Präsentation transkript:

1 © Karin Haenelt, Determinisierung von Transduktoren, / Determinisierung / Sequentialisierung nicht- sequentieller Transduktoren Karin Haenelt Transduktoren für die Sprachverarbeitung

2 © Karin Haenelt, Determinisierung von Transduktoren, / Determinisierung: Definition Wir nennen einen Algorithmus, der es ermöglicht, einen nicht-sequentiellenTransduktor in einen endlich-subsequentiellen Transduktor zu überführen, Determinisierung (Mohri 1996) Ziel –Zusammenfassung aller Startzustände zu einem Startzustand –Zusammenfassung aller ausgehenden Kanten mit demselben Symbol zu einer einzigen Kante –Eliminierung von Epsilonkanten

3 © Karin Haenelt, Determinisierung von Transduktoren, / Beispiel 1 nicht-sequentieller Transduktor endlich-subsequentieller Transduktor 01 b b ehrc ahrc ig r n ah r c en r n an r n 0,ε1,ε b b r ahrc ech ing 12,ε 13,ε en n nn 3,e 7,i 11,e 4,ec 8,in 5,ech 9,ing 2,ε 6,ε 10,ε εεε

4 © Karin Haenelt, Determinisierung von Transduktoren, / Beispiel 2 nicht-sequentieller Transduktor endlich-subsequentieller Transduktor 01 b b ehrc ahrc 67 8 ign acc enrn anrn 0,ε1,ε b b r ahrc ech ing 11,ε 12,ε en n nn 3,e 6,i 10,e 13,a 4,ec 7,in 5,ech 8,ing 2,ε 9,ε u u a a 14,ε au u

5 © Karin Haenelt, Determinisierung von Transduktoren, / Prinzip Kombination der lokal ambigen Pfade zu einem Pfad, der keine Ausgabe erzeugt Verzögerung der Ausgabe bis zur Auflösung der Ambiguität Verzögerte Ausgabe kann mit einer Mehrzeichen-Ausgabe an einer Kante zusammengefasst werden 01 b b ehrc ahrc ig r n ah r c 0,ε1,ε b b r ahrc ech ing 3,e 7,i 4,ec 8,in 5,ech 9,ing 2,ε 6,ε

6 © Karin Haenelt, Determinisierung von Transduktoren, / Konstruktion ähnlich wie Potenzmengen-Konstruktion zur Determinisierung nicht-deterministischer Automaten mit lazy implementation hier zusätzlich: –Verzögerung der Ausgabe, falls zu einer Eingabe verschiedene Ausgaben vorkommen –neue Zustände gebildet aus Mengen von Paaren (state T1,string) state T1 : Zustand in T1 string: weitergereichte, d.h. verzögerte Ausgabe 4,ec 8,in {(4,ec),(8,in)}

7 © Karin Haenelt, Determinisierung von Transduktoren, / Notationskonventionen, 1 Mohri, 1996

8 © Karin Haenelt, Determinisierung von Transduktoren, / Notationskonventionen, 2 Mohri, 1996

9 © Karin Haenelt, Determinisierung von Transduktoren, / Notationskonventionen, 3 Zustände einer zusammengefassten Zustandsmenge in T 2 für die Eingabe a in T 1 definiert ist Abkürzungen 3,e4 c:c 7,i8 c:n 3,e c:c 7,i c:n Kanten einer zusammengefassten Zustandsmenge in T 2 für die Eingabe a mit Zielzustand q in T 1 definiert ist alle Elemente des Repräsentanten {(3,e),(7,i)}, in denen gemäß T 1 Eingabe c definiert ist J 1 (c) = {(3,e),(7,i)} alle Kanten des Repräsentanten {(3,e),(7,i)}, in denen gemäß T 1 Eingabe c mit Zielzustand q definiert ist J 2 (c) = {(3,e,4),(7,i,8)},

10 © Karin Haenelt, Determinisierung von Transduktoren, / DETERMINIZATION_TRANSDUCER(T 1,T 2 ), Mohri 1996 Mohri, 1996 Eberhard/Niemann/Sejane, 2004 Algorithmus

11 © Karin Haenelt, Determinisierung von Transduktoren, / DETERMINIZATION_TRANSDUCER(T 1,T 2 ), Mohri 1996 Mohri, 1996 Eberhard/Niemann/Sejane, 2004 Startzustände vereinigen2 Repräsentant für Startzustände in Queue3 Schleife über Queue4-14 nächster Repräsentant aus Queue14 Algorithmus: Struktur Endzustände 7 verzögerte Ausgabe als Endausgabe 8 Ausgabe berechnen10 Repräsentant für Zielzustand berechnen 11 Repräsentant für Zielzustand in Queue 12

12 © Karin Haenelt, Determinisierung von Transduktoren, / DETERMINIZATION_TRANSDUCER(T 1,T 2 ), Mohri 1996 Kern des Determinisierungsalgorithmus

13 © Karin Haenelt, Determinisierung von Transduktoren, / Zustandsübergänge für {(0,ε)} 01 b b 0,ε T2T2 T1T1

14 © Karin Haenelt, Determinisierung von Transduktoren, / Zustandsübergänge für {(0,ε)} 01 b b 0,ε T2T2 T1T1 Zustand q, verzögerte Ausgabe) bisher verzögerter Ausgabe w, verkettet mit aktueller Ausgabe wird links abgeschnitten von [längste gemeinsame Ausgabe] -1 angesammelte Gesamtausgabe [σ 2 (q 2,a)] -1 w σ 1 (q 1,a,q 1))

15 © Karin Haenelt, Determinisierung von Transduktoren, / Transitionen für {(3,e),(7,i),(11,e)}, c 4 5 hc hc 8 9 gn hc nn nn 0,ε1,ε b b r ar 3,e 7,i 11,e 2,ε 6,ε 10,ε T2T2 T1T1 c 4,ec 8,in

16 © Karin Haenelt, Determinisierung von Transduktoren, / Beispiel 1 nicht-sequentieller Transduktor p-subsequentieller Transduktor 01 b b ehrc ahrc ig r n ah r c en r n an r n 0,ε1,ε b b r ahrc ech ing 12,ε 13,ε en n nn 3,e 7,i 11,e 4,ec 8,in 5,ech 9,ing 2,ε 6,ε 10,ε

17 © Karin Haenelt, Determinisierung von Transduktoren, / σ 2 (q 2,c) für {(3,e),(7,i),(11,e)}

18 © Karin Haenelt, Determinisierung von Transduktoren, / σ 2 (q 2,c) für {(3,e),(7,i),(11,e)} längstes gemein- sames Präfix von

19 © Karin Haenelt, Determinisierung von Transduktoren, / Erweiterung des Algorithmus für endlich-subsequentielle Transduktoren nicht nur eine, sondern endlich viele Endausgaben Endausgabe muss eine Menge sein Mohri, 1996

20 © Karin Haenelt, Determinisierung von Transduktoren, / Komplexität des subsequentiellen Transduktors Zeit –allgemeine Form der Komplexitätskurve ist linear –Laufzeit hängt nur von der Länge der Eingabezeichenreihe ab nicht von der Größe des Automaten –keine Ambiguitäten zu verwalten

21 © Karin Haenelt, Determinisierung von Transduktoren, / Komplexität des subsequentiellen Transduktors Platz –theoretisch können Transduktoren mit mehr als 2 Q Zuständen entstehen (Anzahl der Teilmengen, die aus n Zuständen gebildet werden kann, beträgt 2 n, zusätzlich: Kombinationen mit verzögerten Ausgaben) –kommt in der Praxis der Sprachverarbeitung kaum vor, da durch Abfolgebeschränkungen der Zeichen zur Modellierung menschlicher Sprachen (Laute, Buchstaben, Worte, Kategorien) nicht jeder Zustand mit jedem anderen durch eine Kante verbunden werden kann. die Anzahl und Länge der Ambiguitäten praktisch begrenzt ist –praktisch sind die entstehenden endlich-subsequentiellen Transduktoren oft kleiner als die originalen nicht-sequentiellen Transduktoren –daher lazy implementation sinnvoll (Zustände nur bilden, wenn sie das Ergebnis einer Transition sind, die von einem bereits hinzugefügten Zustand ausgehen)

22 © Karin Haenelt, Determinisierung von Transduktoren, / Komplexität: Beispiel 1 (Mohri, 1996)

23 © Karin Haenelt, Determinisierung von Transduktoren, / Komplexität: Beispiel 2 Word lattice W1: Which flights leave Detroit and arrive at Saint- Petersburg around nine a.m.? Word lattice W2: Determinisierung von W1 Word lattice W3: Minimierung von W2 Mohri, 1997

24 © Karin Haenelt, Determinisierung von Transduktoren, / Ersparnis durch Determinisierung Ein gewichteter Transduktor word lattice für die Spracherkennung auf einem Wörter Lexikon für den Satz Which flights leave Detroit and arrive at Saint-Petersburg around nine am? (Mohri, 1997: 32ff. über ARPA ATIS) ZuständeÜbergängePfade WL Mio. WL determiniert WL determiniert und minimiert Folie von:Eberhard/Niemann/Sejane, 2004: 26

25 © Karin Haenelt, Determinisierung von Transduktoren, / Komplexität: Determinisierungsalgorithmus zeitbestimmender Faktor des Algorithmus: Hashing-Methode, mit der festgestellt wird, ob ein erzeugter Repräsentant eines Zustandes neu oder bekannt ist: if ( is a new state)then ENQUEUE(Q, )

26 © Karin Haenelt, Determinisierung von Transduktoren, / Determinisierbarkeit alle azyklischen Transduktoren können determinisiert werden zyklische Transduktoren können determinisiert werden, wenn die Zyklen eine Twins-Property haben für nicht-determinisierbare Transduktoren können deterministische Bi-Maschinen konstruiert werden

27 © Karin Haenelt, Determinisierung von Transduktoren, / Twins-Property / Zwillingseigenschaft Choffrut, 1977, 1978 –allgemeiner Algorithmus –Nachweis der Entscheidbarkeit Allauzen/Mohri –Algorithmus auf der Basis der Komposition von Transduktoren und einer Charakterisierung der Twins- Property über die Kombinatorik von Worten

28 © Karin Haenelt, Determinisierung von Transduktoren, / Zwillingseigenschaft Mohri, 1997:310

29 © Karin Haenelt, Determinisierung von Transduktoren, / q 1 und q 2 sind Geschwister, –wenn sie vom Startzustand über dieselbe Zeichenreihe x erreicht werden können –wenn es am Zustand q 1 und q 2 einen Zyklus mit Eingabe y gibt Zwei Geschwister q 1 und q 2 sind Zwillinge –wenn die Minimalausgabe einer Schleife mit Eingabe y bei q 1 und q 2 identisch ist ein Tranduktor T hat die Zwillingseigenschaft, wenn alle Geschwister Zwillinge sind Zwillingseigenschaft Allauzen/Mohri, 2003

30 © Karin Haenelt, Determinisierung von Transduktoren, / Nicht-sequentialisierbare Transduktoren Allauzen/Mohri 2003

31 © Karin Haenelt, Determinisierung von Transduktoren, / Nicht-sequentialisierbare Transduktoren Beispiel für eine Funktion, für die es keinen sequentiellen Transduktor gibt: x:a x:b x:a x:b Bedingung für sequentielle Funktion (Theorem von Ginsburg und Rose, 1966): Mohri, 1997:303

32 © Karin Haenelt, Determinisierung von Transduktoren, / BiMaschinen Geeignet zur Aufteilung eines funktionalen aber nicht sequentiellen Transduktors Zwei sequentielle Transduktoren, die in Serie angewendet werden –1. Hälfte der Bi-Maschine verarbeitet Eingabe von links nach rechts –2. Hälfte der Bi-Maschine verarbeitet Ausgabe der 1. Hälfte von rechts nach links Karttunen 2003:353

33 © Karin Haenelt, Determinisierung von Transduktoren, / BiMaschine: Beispiel x:a x:b x:a x:b x:x x:x2 Nicht-sequentieller Transduktor 1. Hälfte 10 x2:b 2. Hälfte x1:b x2:a x1:a Mohri, 1997:304 x:x x:x2 2 b:x b:x2 1

34 © Karin Haenelt, Determinisierung von Transduktoren, / Vielen Dank Für das Aufspüren von Fehlern in früheren Versionen und für Verbesserungsvorschläge danke ich Simone Eberhardt, Arndt Faulhaber, Julian Kunkel, Katja Niemann, Ineta Sejane Versionen , , , , ,

35 © Karin Haenelt, Determinisierung von Transduktoren, / Literatur Allauzen, Cyril und Mehryar Mohri (2003). Efficient Algorithms for Testing the Twins Property. In: Journal of Automata, Languages and Combinatorics 8, 2, S Choffrut, Christian (1978). Contributions à létude de quelques familles remarquables de fonctions rationelles. PhD thesis (thèse de doctorat dÉtat), Université Paris 7, LITP: Paris. Choffrut, Christian (1977). Une charactérisation des fonctions séquentielles et des fonctions sous-séquentielles en tant que relations rationelles. In: Theoretical Computer Science, 5, S Eberhard, Simone; Niemann, Katja und Ineta Sejane (2004). Determinisierung von Transduktoren. Seminarrreferat /AlgorithmusMohri.ppt bzw. pdf 2004/AlgorithmusMohri.pptpdf Haenelt, Karin (2004). Determinisierung von Transducern. Eine Erläuterung des Algorithmus von Mohri. Haenelt, Karin (2004). Operationen auf endlichen Automaten und Transduktoren. Definitionen, Algorithmen, Erläuterungen und Beispiele – eine Übersicht.

36 © Karin Haenelt, Determinisierung von Transduktoren, / Literatur Karttunen, Lauri (2003): Finite-State Technology. In: Ruslan Mitkov (Hg.): The Oxford Handbook of Computational Linguistics. Oxford University Press. Mohri, Mehryar (1997): Finite State Transducers in Language and Speech Processing. In: Computational Linguistics, 23, 2, 1997, S Mohri, Mehryar (1996): On some Applications of finite-state automata theory to natural language processing. In: Journal of Natural Language Egineering, 2, S Mohri, Mehryar und Michael Riley (2002). Weighted Finite-State Transducers in Speech Recognition (Tutorial). Teil 1: Teil 2: 1: 2:


Herunterladen ppt "© Karin Haenelt, Determinisierung von Transduktoren, 22.05.07/ 1 15.01.03 1 Determinisierung / Sequentialisierung nicht- sequentieller Transduktoren Karin."

Ähnliche Präsentationen


Google-Anzeigen