Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Endliche Automaten in der Sprachverarbeitung Eine kleine Einführung

Ähnliche Präsentationen


Präsentation zum Thema: "Endliche Automaten in der Sprachverarbeitung Eine kleine Einführung"—  Präsentation transkript:

1 Endliche Automaten in der Sprachverarbeitung Eine kleine Einführung
Karin Haenelt

2 Themen Endliche Automaten Abstrakte Automaten
Abstrakte endliche Automaten Automatentheorie: endl. Automaten haben kein Gedächtnis Reguläre Ausdrücke Definition Äquivalenz: Reguläre Ausdrücke und endliche Automaten Operatoren für reguläre Ausdrücke in Programmiersprachen Attraktivität endlicher Automaten für die Sprachverarbeitung Adäquatheit endlicher Automaten für die Sprachverarbeitung © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

3 Abstrakte Automaten ein abstrakter Automat ist ein mathematisches Modell für einfache Maschinen/Programme, die bestimmte Probleme lösen beschreibt nicht einen bestimmten Automaten, sondern gemeinsame Grundprinzipien einer Klasse von Automaten Grundlegende Komponenten Zustände Eingabesymbole Zustandsübergänge: reagiert auf Eingaben durch Übergang in einen anderen Zustand Zustände des Automaten Eingabe Ausgabe © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

4 Abstrakte Automaten Definitionen
Seien X, Y, Z beliebige nichtleere Mengen, dann ist A = (X, Y, Z, γ) ein determinierter abstrakter Automat, wenn γ eine auf Z  X definierte Funktion ist, deren Werte in Y  Z liegen. B = (X, Y, Z, h) ein nicht-deterministischer Automat, wenn h eine eindeutige Abbildung von Z  X in *(Z  Y) ist. C = (X, Y, Z, H) ein stochastischer Automat, wenn H eine auf Z  X definierte Funktion ist, die diskrete Wahrscheinlichkeitsmaße über Y  Z als Werte H(z,x) hat (Starke 1969: 22 (A), 121 (B), 211 (C)) © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

5 Abstrakte Automaten Interpretation der Definition „determ. abstrakt. A“
A = (X, Y, Z, γ) ein determinierter abstrakter Automat, wenn γ eine auf Z  X definierte Funktion ist, deren Werte in Y  Z liegen. (Starke 1969:22) Interpretation X Menge der Eingabesymbole Y Menge der Ausgabesymbole Z Menge der Zustände Z × X a b Y × Z A 1 B © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

6 Abstrakte endliche Automaten Definitionen
endlicher determinierter Automat (Starke 1969: 25) Ein determinierter Automat A = [X,Y,Z,δ,λ] heißt X-endlich, Y-endlich bzw. Z-endlich bzw. (X,Y)-endlich usw., wenn die jeweils angegebenen Mengen endlich sind. (X,Y,Z)-endliche Automaten bezeichnen wir schlechthin als endlich ■ (X,Y,Z)-endliche nichtdeterministische Automaten …endlich. (X,Y,Z)-endliche stochastische Automaten … endlich. © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

7 Endliche Automaten eine Standardnotation
EA = (Q,q0,F,Σ,Δ,,δ,σ,ρ) p,q  Q Zustände p q i o Zustand Folgezustand Eingabesymbol Ausgabesymbol w / Gewicht q0  Q Startzustand F  Q Endzustände i  Σ Eingabesymbole o  Δ Ausgabesymbole w   Gewichte δ(p,i) = q Zustandsübergangsfunktion σ(p,i,q) = o Ausgabefunktion ρ(p,i,o,q) = w Gewichtungsfunktion © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

8 Typen endlicher Automaten Graphische Darstellung
Akzeptoren Automaten ohne Ausgabe Transduktoren Automaten mit Ausgabe deterministisch jedem Paar [p,i] ist ein Paar [o,q] eindeutig zugeordnet nicht-deterministisch einem Paar [p,i] können mehrere mögliche Paare [o,q] zugeordnet sein stochastisch jedem Paar [p,i] ist für ein Paar [o,q] ein Wahrscheinlichkeitsmaß zugeordnet p q i o p q2 q1 i o2 o1 p q2 q1 i o2/w2 o1/w1 © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

9 Automatentheorie klassifiziert Algorithmen nach der Art des Speichers, der für die Implementierung zum Merken von Zwischergebnissen gebraucht wird Speziali- sierungen © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

10 Automatentheorie Endliche Automaten haben kein Gedächtnis
Mengen der Zustände, der Eingabesignale, der Ausgabesignale sind endlich kein Gedächtnis zur Speicherung durchlaufener Zustände: Übergang von Zustand zur Zeit t in Zustand zur Zeit t+1 nur abhängig von Zustand zur Zeit t und Eingabe im Zustand zur Zeit t Vorhergehende Zustände nur dadurch wirksam, dass sie über eine bestimmte Eingabe in den aktuellen Zustand geführt haben, und dieser aktuelle Zustand ein bestimmtes Ergebnis repräsentiert. B Bu Buc Buch Start u c h © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

11 Themen Endliche Automaten Abstrakte Automaten
Abstrakte endliche Automaten Automatentheorie: endl. Automaten haben kein Gedächtnis Reguläre Ausdrücke Definition Äquivalenz: Reguläre Ausdrücke und endliche Automaten Operatoren für reguläre Ausdrücke in Programmiersprachen Attraktivität endlicher Automaten für die Sprachverarbeitung Adäquatheit endlicher Automaten für die Sprachverarbeitung © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

12 Was sind reguläre Ausdrücke?
Reguläre Ausdrücke sind eine Notation zur Beschreibung der Sprachen, die mit endlichen Automaten erkannt werden können wie arithmetische Ausdrücke aus Konstanten und Operatoren aufgebaut zumeist bekannt aus ihrer Verwendung in Suchfunktionen in Betriebssystemen (grep) Texteditoren Textverarbeitungsprogrammen und Suchmaschinen Textmusterspezifikation in Programmiersprachen © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

13 Reguläre Mengen, Reguläre Sprachen, Reguläre Ausdrücke Stephen Kleene
Stephen Kleene (Mathematiker) untersuchte (1956), welche Mengen von Zeichenketten von endlichen Automaten akzeptiert werden können entwickelte für diese Mengen eine syntaktische Charakterisierung: Komposition der Zeichenketten aus Elementen und Teilmengen nach bestimmten Regeln führte für diese Mengen den Begriff reguläre Mengen ein © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

14 Reguläre Mengen, Reguläre Sprachen, Reguläre Ausdrücke Stephen Kleene
© Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

15 Definitionen (1) Symbol a
ein Symbol ist ein unzerlegbares Grundzeichen ■ unzerlegbar bezüglich der Art der Betrachtung, um die es gerade geht Beispiele: a, b, c dete, adje, nomn Alphabet Σ ein Alphabet ist eine endliche nichtleere Menge von Symbolen ■ © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

16 Definitionen (2) Wort w ein Wort ist eine endliche Folge von Symbolen aus einem Alphabet. Wir schließen das leere Wort (Wort, das kein Zeichen enthält) in die Definition ein und bezeichnen es mit ε. ■ © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

17 Definitionen (3) Sprache L
Eine Sprache ist die Menge aller endlichen Folgen w von Symbolen aus Σ. ■ es gilt  die leere Sprache ist eine Sprache {ε} die Menge, die nur ein leeres Wort enthält, ist eine Sprache Σ* die Universalsprache, die aus der Menge aller endlichen Folge von Symbolen aus einem Alphabet besteht, ist eine Sprache © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

18 Definitionen (4) Reguläre Ausdrücke
Hopcroft/Ullmann 1988:29 © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

19 Themen Endliche Automaten Abstrakte Automaten
Abstrakte endliche Automaten Automatentheorie: endl. Automaten haben kein Gedächtnis Reguläre Ausdrücke Definition Äquivalenz: Reguläre Ausdrücke und endliche Automaten Operatoren für reguläre Ausdrücke in Programmiersprachen Attraktivität endlicher Automaten für die Sprachverarbeitung Adäquatheit endlicher Automaten für die Sprachverarbeitung © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

20 Theorem von Kleene Kleene-Theorem: Eine Sprache ist genau dann regulär, wenn sie durch einen endlichen Automaten erkannt werden kann Kleenes Formulierung (1956): Synthesetheorem (Kleene, 1956, Theorem 3): Jede reguläre Sprache kann in einem endlichen Automaten dargestellt werden Analysetheorem (Kleene, 1956, Theorem 5): Jede in einem endlichen Automaten darstellbare Sprache ist regulär © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

21 Reguläre Mengen, Reguläre Sprachen, Reguläre Ausdrücke Äquivalenzen
Endliche Automaten Reguläre Ausdrücke spezifizieren akzeptieren sind äquivalent regExΣ A(regExΣ) Sprachen L(regExΣ) = L (A(regExΣ)) nach einer Darstellung von Martin Kay, zitiert in Jurafsky/Martin (2000) © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

22 Äquivalenzen: Endliche Automaten, reguläre Sprachen, reguläre Ausdrücke
de([mnrs]|“ssen“) sind äquivalent spezifizieren d 1 e 2 m 3 n r 5 s 4 7 6 Endliche Automaten {dem, den, der, des, dessen} Reguläre Sprachen akzeptieren © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

23 Themen Endliche Automaten Abstrakte Automaten
Abstrakte endliche Automaten Automatentheorie: endl. Automaten haben kein Gedächtnis Reguläre Ausdrücke Definition Äquivalenz: Reguläre Ausdrücke und endliche Automaten Operatoren für reguläre Ausdrücke in Programmiersprachen Attraktivität endlicher Automaten für die Sprachverarbeitung Adäquatheit endlicher Automaten für die Sprachverarbeitung © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

24 Basisoperatoren und abgeleitete Operatoren
© Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

25 Auswertungsreihenfolge der Operatoren regulärer Ausdrücke
Klammern sparen beim Schreiben: Wie für die algebraischen Operatoren ’+’ und ’∙’ gibt es auch für die Operatoren regulärer Ausdrücke eine festgelegte Auswertungsreihenfolge. Für den Ausdruck 4+5∙2 gilt, dass zuerst die Multiplikation und dann die Addition durchzuführen ist. Für die Operatoren für reguläre Ausdrücke gilt folgende Reihenfolge: Kleenesche Hülle (Symbol: *) Multiplikation bzw. Verkettung (Symbol ’∙’ oder ohne explizites Symbol). Addition bzw. Vereinigung (Symbol ’+’ oder ’|’). © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

26 Muster für nicht-reguläre Sprachen in Programmiersprachen
einige Programmiersprachen (z.B. Perl) erlauben auch Muster, die über reguläre Ausdrücke hinausgehen Beispiel in Perl: (.*)\1 beliebige Zeichenfolge, verkettet mit der Zeichenfolge, die durch die erste Klammer beschrieben wird Zusatzspeicher zum Merken von Klammerinhalten erforderlich (endliche Automaten haben aber kein Gedächtnis) Muster mit unbegrenzter Zahl von Rückverweisen beschreiben nicht einmal kontextfreie Sprachen, Erkennung NP-vollständig © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

27 Themen Endliche Automaten Abstrakte Automaten
Abstrakte endliche Automaten Automatentheorie: endl. Automaten haben kein Gedächtnis Reguläre Ausdrücke Definition Äquivalenz: Reguläre Ausdrücke und endliche Automaten Operatoren für reguläre Ausdrücke in Programmiersprachen Attraktivität endlicher Automaten für die Sprachverarbeitung Adäquatheit endlicher Automaten für die Sprachverarbeitung © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

28 Attraktivität endlicher Automaten (1)
Effizienz in der Regel besonders effizientes Laufzeitverhalten: Traversion deterministischer endlicher Automaten: O(n) platzsparende Repräsentation © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

29 Attraktivität endlicher Automaten (2)
Grundlagen mathematisch wohl-fundiert daher systematisch und kontrolliert handhabbar Softwaretechnik direkte Umsetzungen in Computerprogramme für Datenstrukturen und Operationen auf den Datenstrukturen abstrakte Spezifikation mit regulären Ausdrücken modulare und inkrementelle Entwicklung durch Komponierbarkeit von Automaten © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

30 Anwendungsgebiete Übersetzung Spracherkennung Text:Sprechen Phonologie
flaches Parsing Sprechen:Text part-of-speech tagging head-modifier- Paare Morphologie Textzerlegung Fakten- extraktion Rechtschreib- Korrektur Lexika Analyse Synthese Transfer Regeln © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

31 Endliche Automaten in der Sprachtechnologie
direkte Anwendung Spracherkennung, Sprechen:Text, Text:Sprechen Übersetzung, Faktenextraktion, Rechtschreibkorrektur, SMS-Lexika direkte Anwendung für linguistische Teilaufgaben Worterkennung, Textzerlegung Phonologie, Morphologie part-of-speech-tagging flaches Parsing head-modifier-Paare © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

32 Endliche Automaten in der Sprachtechnologie
Kompakte Repräsentation Wörterbücher Systemlexika und lexikalische Regeln Morphologie, Phonologie partielle syntaktische Strukturen (chunks) Indexierung von Texten Grundlage vieler Parsing-Mechanismen anwendbar zum Parsing kontextfreier Sprachen (RTN, Woods, 1970) erweiterbar für Kontext-Abhängigkeiten grundlegende Implementierungstechniken © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

33 Themen Endliche Automaten Abstrakte Automaten
Abstrakte endliche Automaten Automatentheorie: endl. Automaten haben kein Gedächtnis Reguläre Ausdrücke Definition Äquivalenz: Reguläre Ausdrücke und endliche Automaten Operatoren für reguläre Ausdrücke in Programmiersprachen Attraktivität endlicher Automaten für die Sprachverarbeitung Adäquatheit endlicher Automaten für die Sprachverarbeitung © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

34 Sind menschliche Sprachen reguläre Sprachen?
man muss unterscheiden zwischen der Komplexität der Sprache (= Menge von Zeichenketten) der Komplexität der Maschine zur Erkennung bestimmter Konstruktionen eine reguläre Sprache kann auch eine kontextfreie oder kontextsensitive Teilmenge enthalten; Beispiel: L = {apbq : p, q ∈ ℕ } ist eine reguläre Sprache Ein Automat, der L erkennt, erkennt auch L1 = {anbn : n ∈ ℕ } L2 = {wwR: w ∈ Σ*} wR Spiegelbild der Sequenz w Mohri/Sproat 2006 © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

35 Sind menschliche Sprachen reguläre Sprachen?
Das Vorkommen der Teilmengen L1 und L2 sagt also nichts über die Komplexität von L aber: die Teilmengen L1 und L2 sind möglicherweise linguistisch motivierte Teilmengen, die man besonders auszeichnen möchte Mohri/Sproat 2006 © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

36 Sind menschliche Sprachen reguläre Sprachen
Sind menschliche Sprachen reguläre Sprachen? Fehlerhafte Argumentationen in Lehrbüchern Chomsky (1957): English is not a finite state language. (Korrekte Terminologie: regular language) Large classes of context-free languages such as some of those used in Chomsky’s argument have been proved to be representable by weighted finite automata (Cortes & Mohri 2000). Hobbs & al. (1997) Finite-state models are clearly not adequate for full natural language processing... . Every computational linguistics graduate student knows, from the first textbook that introduces the Chomsky hierarchy, that English has constructs, such as center embedding, that cannot be described by any finite-state grammar. (Arnold 2000). Natural Languages are not Finite State (‘regular’). There is no FSA (hence type 3 grammar) that can generate anbn. Natural Languages are infinite, and have constructions like anbn, i.e. ‘nested dependencies’... Mohri/Sproat 2006 © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

37 Sind menschliche Sprachen reguläre Sprachen?
Morphologie Mittel der Wahl: Typ-3-Grammatiken, reguläre Sprachen einige Fälle können durch geringe spezielle Erweiterungen endlicher Automaten effizienter behandelt werden Syntax Für die endliche "Kernsprache" der tatsächlich vorkommenden akzeptablen Sätze des Deutschen (und anderer Sprachen) kann man annehmen, dass eine nicht-triviale Beschreibung als Typ-3-Sprache möglich ist Der menschliche Analysator bewältigt nur bestimmte Schachtelungstiefen (für begrenzte Schachtelungstiefen reicht Typ-3) Kunze 2001: 143f © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

38 Morphologie: Buchstabenfolgen und ihre Strukturen
weitgehend regulär Ausnahmen im Deutschen: ge-mach-t (aber nicht: ge-mach-st; Gedächtnis für „ge“ erforderlich) um-zu-bau-en Kompositionsmorphologie komplexer einfache Ergänzungen endlicher Automaten zur zusätzlichen Handhabung von Einschränkungen © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

39 Morphologie: Buchstabenfolgen und ihre Strukturen
Erweiterung endlicher Automaten für long distance dependencies: einfaches Gedächtnis: flags prozedurale Interpretation mit Bitvektor-Operationen verb-stems ε ge inflection suffixes en et n t @set(+ge) @require(+ge) @require(-ge) Beesley/Karttunen, 2003 © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

40 Sätze: Wortfolgen und ihre Strukturen
hier sind zu unterscheiden syntaktische Strukturen die regulär darstellbar sind die nicht regulär darstellbar sind syntaktische Strukturen und semantische Strukturen © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

41 Satzstruktur Syntax vs. semantische/pragmatische Interpretation
erkennbar auf der Basis rein formaler Eigenschaften (Kasus, Folge von Wortarten, ..) teilweise: reguläre Konstrukte teilweise: nicht-reguläre Konstrukte (sofern unendlich) Interpretation alle Entscheidungen, die darüberhinaus auf der Basis der Erfahrung der Sprachverwendung beruhen Satzstrukturen sind Mischungen aus Syntax und Interpretation © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

42 Satzstruktur: Syntax: reguläre Konstrukte Lokale Syntagmen
e = (dete,adje,nomn) | (dete,nomn) | (adje,nomn) | (nomn) A dete 1 adje 2 nomn 3 e = (dete|ε) (adje|ε) nomn e = dete? adje? nomn beschreiben erkennen L(e)= { (dete,adje,nomn), (dete,nomn), (adje, nomn), (nomn) } L(A)= { (dete,adje,nomn), (dete,nomn), (adje, nomn), (nomn) } © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

43 Satzstruktur: Syntax nicht-reguläre Konstrukte
viele beobachteten Konstrukte sind nur dann nicht-regulär, wenn die Folge der Wörter oder Sätze als unbegrenzt angenommen wird keines der genannten Argumente ist interessant, wenn man die Länge der Sätze (oder Wörter) als begrenzt durch eine große Zahl N annimmt alle Beweise einer höheren Komplexität als regulärer Sprachen gelten nicht, wenn die Phänomene nicht als unbegrenzt angenommen werden können. so auch Chomsky 1957 der endliche Automat zur Beschreibung der Sprache kann allerdings sehr groß werden Mohri/Sproat 2006 © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

44 Satzstruktur: Syntax nicht-reguläre Konstrukte (falls infinit)
Bei Fortsetzung der „Kernsprache“ ins Unendliche tritt ein „Komplexitätsschub“ bei Zentraleinbettungen auf nicht mit Typ-3 Grammatik darstellbare Bedingungen: Anzahl der Nomina und Verben muss übereinstimmen gewisse Merkmale, die eine Kongruenz sichern, müssen übereinstimmen Unendliche Einbettungen kommen in der Praxis nicht vor © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

45 Satzstruktur: Syntax nicht reguläre Konstrukte (falls infinit)
obligatorische paarweise Korrespondenzen either ... or, if ... then können ineinander geschachtelt werden nicht regulär kontrollierbar: Anzahl der „öffnenden“ und „schließenden“ Klammern und ihre Korrespondenz Unendliche Einbettungen kommen in der Praxis nicht vor © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

46 Satzstruktur: Syntax nicht reguläre Konstrukte
überkreuzende Abhängigkeit (cross-serial dependency) Jan säit das mer d’chind em Hans es huus lönd hälfe aastriiche x1 x2 x3 y1 y2 y3 John said that we the children-acc let Hans-dat help the house paint Shieber, 1985 © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

47 Satzstruktur: Syntax / Semantik syntakt. vs. semant. /pragmat
Satzstruktur: Syntax / Semantik syntakt. vs. semant./pragmat. Interpretation with stopper fastening cork material or made of bottle closed PP AP NP NP-c syntactic link semantic link text structure © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

48 Satzstruktur: Semantik
Überfrachtung der Syntax mit semantischer Interpretation führt zu kombinatorischer Explosion von Lesarten Erzeugung kostet unnötige Rechenzeit bringt keinen verwertbaren Informationsgewinn (455 Lesarten!) Bod, 1998: 2 © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

49 „All Grammars Leak“ Edward Sapir, 1921
exakte und vollständige Charakterisierung aller wohlgeformten Äußerungen nicht möglich Regeln nicht völlig unbegründet irgendwie müssen wir die Dinge lockerer handhaben, um der Kreativität der Sprache Rechnung zu tragen Manning/Schütze, 1999, S. 3 © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

50 Satzstrukturen Flache Ansätze
finite-state approximation of sentence structures (Abney 1995) finite-state cascades: sequences of levels of regular expressions recognition approximation: tail-recursion replaced by iteration interpretation approximation: embedding replaced by fixed levels finite-state approximation of phrase structure grammars (Pereira/Wright 1997) flattening of shift-reduce-recogniser no interpretation structure (acceptor only) used in speech recognition where syntactic parsing serves to rank hypotheses for acoustic sequences finite-state approximation (Sproat 2002) bounding of centre embedding reduction of recognition capacity flattening of interpretation structure © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

51 Satzstruktur Ansatz: Finite-State Cascades (Abney)
L3 ---- S S T3 L2 ---- NP PP VP NP VP T2 L1 ---- NP P NP VP NP VP T1 L0 ---- D N P D N N V-tns Pron Aux V-ing the woman in the lab coat thought you were sleeping Regular-Expression Grammar © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

52 Satzstruktur Finite State Kaskaden (Abney)
patterns: reliable indicators of bits of syntactic structure parsing easy-first parsing (easy calls first) proceeds by growing islands of certainty into larger and larger phrases no systematic parse tree from bottom to top recognition of recognizable structures containment of ambiguity prepositional phrases and the like are left unattached noun-noun modifications not resolved no unification of features: additional bit vector operations possible © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

53 Satzstruktur Finite State Kaskaden (Abney) + Bitvektoren
© Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

54 Satzstruktur Ansatz: Begrenzung der Zentral-Einbettung
Sproat, 2002: observation: unbounded centre embedding does not occur in language use seems to be too complex for human mental capacities finite state modelling of bounded centre embedding S → the (man|dog) S1 (bites|walks) S1 → the (man|dog) S2 (bites|walks) S2 → the (man|dog) (bites|walks) S1 → ε S2 → ε 4 the 1 man 2 3 6 7 9 bites 8 5 dog walkes © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

55 Anwendungen endlicher Automaten im Information Retrieval: Beispiele
Dokumentindex als endlicher Automat kompakt, schnell traversierbar Faktenextraktion mit endlichen Automaten schnelle Durchsuchung sehr großer Textmengen linguistisch adäquat für schablonenartige Information teilstrukturierte Information (HTML) abstrakte Sprache für die Anwendung: spezifizierbar mit regulären Ausdrücken Dokumentanalyse/Sprachverarbeitung Traversion eines deterministischen endlichen Automaten: O(n) linguistisch adäquat für Morphologie und Syntax © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

56 Literatur Abney, Steven (1995). Partial Parsing via Finite-State Cascades. In: Journal of Natural Language Engineering, 2(4): Beesley Kenneth R. und Lauri Karttunen (2003). Finite-State Morphology. Distributed for the Center for the Study of Language and Information. (CSLI- Studies in Computational Linguistics) Bod, Rens (1998). Beyond Grammar. An Experienced-Based Theory of Language. CSLI Lecture Notes, 88, Standford, California: Center for the Study of Information and Language Hopcroft, John E. und Jeffrey D. Ullman (1988). Einführung in die Automatentheorie, formale Sprachen und Komplexitätstheorie. Bonn u. a.: Addison-Wesley, 1988 (engl. Original Introduction to automata theory, languages and computation). Hopcroft, John E., Rajeev Motwani und Jeffrey D. Ullman (2002). Einführung in die Automatentheorie, Formale Sprachen und Komplexität. Pearson Studium engl. Original: Introduction to Automata Theory, Languages and Computation. Addison-Wesley. www-db.stanford.edu/~ullman/ialc.html © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

57 Literatur Kleene, Stephen Cole (1956). Representations of Events in Nerve Sets and Finite Automata, In: C. E. Shannon and J. McCarthy, Hgg., Automata Studies, S. 3-42, Princeton, NJ, Princeton University Press. Kunze, Jürgen (2001). Computerlinguistik. Voraussetzungen, Grundlagen, Werkzeuge. Vorlesungsskript. Humboldt-Universität zu Berlin. Jurafsky, Daniel und James H. Martin (2000): Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. New Jersey: Prentice Hall. Manning, Christopher D.; Schütze, Hinrich (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass., London: The MIT Press. © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

58 Literatur Mehryar Mohri und Richard Sproat (2006). On a Common Fallacy in Computational Linguistics. In: Mickael Suominen, Antti Arppe, Anu Airola, Orvokki Heinämäki, Matti Miestamo, Urho Määttä, Jussi Niemi, Kari K. Pitkänen and Kaius Sinnemäki (Hrsg.). A Man of Measure: Festschrift in Honour of Fred Karlsson on this 60th Birthday. pages SKY Journal of Linguistics, Volume 19, 2006. Pereira, Fernando C. N. and Rebecca N. Wright (1997). Finite-State Approximation of Phrase-Structure Grammars. In: Roche/Schabes 1997. Shieber, Stuart Evidence against the context-freeness of natural language. Linguistics and Philosophy 8: 333–343. Sproat, Richard (2002). The Linguistic Significance of Finite-State Techniques. February 18, Starke, Peter H. (1969). Abstrakte Automaten. VEB Deutscher Verlag der Wissenschaften: Berlin (ältere, aber sehr gute mathematische Darstellung) © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,


Herunterladen ppt "Endliche Automaten in der Sprachverarbeitung Eine kleine Einführung"

Ähnliche Präsentationen


Google-Anzeigen