Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Endliche Automaten in der Sprachverarbeitung Eine kleine Einführung Karin Haenelt 6.12.2012.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Endliche Automaten in der Sprachverarbeitung Eine kleine Einführung Karin Haenelt 6.12.2012."—  Präsentation transkript:

1 1 Endliche Automaten in der Sprachverarbeitung Eine kleine Einführung Karin Haenelt

2 Themen Endliche Automaten Abstrakte Automaten Abstrakte endliche Automaten Automatentheorie: endl. Automaten haben kein Gedächtnis Reguläre Ausdrücke Definition Äquivalenz: Reguläre Ausdrücke und endliche Automaten Operatoren für reguläre Ausdrücke in Programmiersprachen Attraktivität endlicher Automaten für die Sprachverarbeitung Adäquatheit endlicher Automaten für die Sprachverarbeitung © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

3 Abstrakte Automaten ein abstrakter Automat ist ein mathematisches Modell für einfache Maschinen/Programme, die bestimmte Probleme lösen beschreibt nicht einen bestimmten Automaten, sondern gemeinsame Grundprinzipien einer Klasse von Automaten Grundlegende Komponenten Zustände Eingabesymbole Zustandsübergänge: reagiert auf Eingaben durch Übergang in einen anderen Zustand © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, Zustände des Automaten EingabeAusgabe

4 Abstrakte Automaten Definitionen Seien X, Y, Z beliebige nichtleere Mengen, dann ist A = (X, Y, Z, γ) ein determinierter abstrakter Automat, wenn γ eine auf Z X definierte Funktion ist, deren Werte in Y Z liegen. B = (X, Y, Z, h) ein nicht-deterministischer Automat, wenn h eine eindeutige Abbildung von Z X in *(Z Y) ist. C = (X, Y, Z, H) ein stochastischer Automat, wenn H eine auf Z X definierte Funktion ist, die diskrete Wahrscheinlichkeitsmaße über Y Z als Werte H(z,x) hat © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, (Starke 1969: 22 (A), 121 (B), 211 (C))

5 Abstrakte Automaten Interpretation der Definition determ. abstrakt. A A = (X, Y, Z, γ) ein determinierter abstrakter Automat, wenn γ eine auf Z X definierte Funktion ist, deren Werte in Y Z liegen. (Starke 1969:22) Interpretation XMenge der Eingabesymbole YMenge der Ausgabesymbole ZMenge der Zustände © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, Z × X ab 0Y × Z A1B1

6 Abstrakte endliche Automaten Definitionen endlicher determinierter Automat (Starke 1969: 25) Ein determinierter Automat A = [X,Y,Z,δ,λ] heißt X-endlich, Y- endlich bzw. Z-endlich bzw. (X,Y)-endlich usw., wenn die jeweils angegebenen Mengen endlich sind. (X,Y,Z)-endliche Automaten bezeichnen wir schlechthin als endlich (X,Y,Z)-endliche nichtdeterministische Automaten …endlich. (X,Y,Z)-endliche stochastische Automaten … endlich. © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

7 Endliche Automaten eine Standardnotation EA = (Q,q 0,F,Σ,Δ,,δ,σ,ρ) © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, p,q Q δ(p,i) = q σ(p,i,q) = o i Σ o Δ Zustände Eingabesymbole Ausgabesymbole Zustandsübergangsfunktion Ausgabefunktion pq i o ZustandFolgezustand Eingabesymbol Ausgabesymbol w / Gewicht w Gewichte ρ(p,i,o,q) = w Gewichtungsfunktion F Q Endzustände q 0 Q Startzustand

8 Typen endlicher Automaten Graphische Darstellung Akzeptoren Automaten ohne Ausgabe Transduktoren Automaten mit Ausgabe deterministisch jedem Paar [p,i] ist ein Paar [o,q] eindeutig zugeordnet nicht-deterministisch einem Paar [p,i] können mehrere mögliche Paare [o,q] zugeordnet sein stochastisch jedem Paar [p,i] ist für ein Paar [o,q] ein Wahrscheinlichkeitsmaß zugeordnet © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, pq i o p q2q2 q1q1 i o 2 /w 2 i o 1 /w 1 p q2q2 q1q1 i o2o2 i o1o1

9 Automatentheorie klassifiziert Algorithmen nach der Art des Speichers, der für die Implementierung zum Merken von Zwischergebnissen gebraucht wird © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, Speziali- sierungen

10 Automatentheorie Endliche Automaten haben kein Gedächtnis Mengen der Zustände, der Eingabesignale, der Ausgabesignale sind endlich kein Gedächtnis zur Speicherung durchlaufener Zustände: Übergang von Zustand zur Zeit t in Zustand zur Zeit t+1 nur abhängig von Zustand zur Zeit t und Eingabe im Zustand zur Zeit t Vorhergehende Zustände nur dadurch wirksam, dass sie über eine bestimmte Eingabe in den aktuellen Zustand geführt haben, und dieser aktuelle Zustand ein bestimmtes Ergebnis repräsentiert. © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, BBuBucBuch Start Buch

11 Themen Endliche Automaten Abstrakte Automaten Abstrakte endliche Automaten Automatentheorie: endl. Automaten haben kein Gedächtnis Reguläre Ausdrücke Definition Äquivalenz: Reguläre Ausdrücke und endliche Automaten Operatoren für reguläre Ausdrücke in Programmiersprachen Attraktivität endlicher Automaten für die Sprachverarbeitung Adäquatheit endlicher Automaten für die Sprachverarbeitung © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

12 Was sind reguläre Ausdrücke? Reguläre Ausdrücke sind eine Notation zur Beschreibung der Sprachen, die mit endlichen Automaten erkannt werden können wie arithmetische Ausdrücke aus Konstanten und Operatoren aufgebaut zumeist bekannt aus ihrer Verwendung in Suchfunktionen in Betriebssystemen (grep) Texteditoren Textverarbeitungsprogrammen und Suchmaschinen Textmusterspezifikation in Programmiersprachen © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

13 Reguläre Mengen, Reguläre Sprachen, Reguläre Ausdrücke Stephen Kleene Stephen Kleene (Mathematiker) untersuchte (1956), welche Mengen von Zeichenketten von endlichen Automaten akzeptiert werden können entwickelte für diese Mengen eine syntaktische Charakterisierung: Komposition der Zeichenketten aus Elementen und Teilmengen nach bestimmten Regeln führte für diese Mengen den Begriff reguläre Mengen ein © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

14 Reguläre Mengen, Reguläre Sprachen, Reguläre Ausdrücke Stephen Kleene © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, (Kleene, 1956)

15 Definitionen (1) Symbol a ein Symbol ist ein unzerlegbares Grundzeichen unzerlegbar bezüglich der Art der Betrachtung, um die es gerade geht Beispiele: a, b, c dete, adje, nomn Alphabet Σ ein Alphabet ist eine endliche nichtleere Menge von Symbolen © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

16 Definitionen (2) Wort w ein Wort ist eine endliche Folge von Symbolen aus einem Alphabet. Wir schließen das leere Wort (Wort, das kein Zeichen enthält) in die Definition ein und bezeichnen es mit ε. © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

17 Definitionen (3) Sprache L Eine Sprache ist die Menge aller endlichen Folgen w von Symbolen aus Σ. es gilt die leere Sprache ist eine Sprache { ε} die Menge, die nur ein leeres Wort enthält, ist eine Sprache Σ* die Universalsprache, die aus der Menge aller endlichen Folge von Symbolen aus einem Alphabet besteht, ist eine Sprache © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

18 Definitionen (4) Reguläre Ausdrücke © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, Hopcroft/Ullmann 1988:29

19 Themen Endliche Automaten Abstrakte Automaten Abstrakte endliche Automaten Automatentheorie: endl. Automaten haben kein Gedächtnis Reguläre Ausdrücke Definition Äquivalenz: Reguläre Ausdrücke und endliche Automaten Operatoren für reguläre Ausdrücke in Programmiersprachen Attraktivität endlicher Automaten für die Sprachverarbeitung Adäquatheit endlicher Automaten für die Sprachverarbeitung © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

20 Theorem von Kleene Kleene-Theorem: Eine Sprache ist genau dann regulär, wenn sie durch einen endlichen Automaten erkannt werden kann Kleenes Formulierung (1956): Synthesetheorem (Kleene, 1956, Theorem 3) : Jede reguläre Sprache kann in einem endlichen Automaten dargestellt werden Analysetheorem (Kleene, 1956, Theorem 5) : Jede in einem endlichen Automaten darstellbare Sprache ist regulär © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

21 Reguläre Mengen, Reguläre Sprachen, Reguläre Ausdrücke Äquivalenzen © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, Endliche Automaten Reguläre Ausdrücke spezifizieren akzeptieren sind äquivalent regEx Σ A(regEx Σ ) Reguläre Sprachen L(regEx Σ ) = L (A(regEx Σ )) nach einer Darstellung von Martin Kay, zitiert in Jurafsky/Martin (2000)

22 Äquivalenzen: Endliche Automaten, reguläre Sprachen, reguläre Ausdrücke 22 spezifizieren akzeptieren sind äquivalent Reguläre Ausdrücke de([mnrs]|ssen) d 01 e 2 m 3 n r 5 s 4 s 7 e 6 n Endliche Automaten {dem, den, der, des, dessen} Reguläre Sprachen © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

23 Themen Endliche Automaten Abstrakte Automaten Abstrakte endliche Automaten Automatentheorie: endl. Automaten haben kein Gedächtnis Reguläre Ausdrücke Definition Äquivalenz: Reguläre Ausdrücke und endliche Automaten Operatoren für reguläre Ausdrücke in Programmiersprachen Attraktivität endlicher Automaten für die Sprachverarbeitung Adäquatheit endlicher Automaten für die Sprachverarbeitung © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

24 Basisoperatoren und abgeleitete Operatoren © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, abgeleitete OperatorenBasis

25 Auswertungsreihenfolge der Operatoren regulärer Ausdrücke Klammern sparen beim Schreiben: Wie für die algebraischen Operatoren + und gibt es auch für die Operatoren regulärer Ausdrücke eine festgelegte Auswertungsreihenfolge. Für den Ausdruck 4+52 gilt, dass zuerst die Multiplikation und dann die Addition durchzuführen ist. Für die Operatoren für reguläre Ausdrücke gilt folgende Reihenfolge: 1.Kleenesche Hülle (Symbol: *) 2.Multiplikation bzw. Verkettung (Symbol oder ohne explizites Symbol). 3.Addition bzw. Vereinigung (Symbol + oder |). © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

26 Muster für nicht-reguläre Sprachen in Programmiersprachen einige Programmiersprachen (z.B. Perl) erlauben auch Muster, die über reguläre Ausdrücke hinausgehen Beispiel in Perl: (.*)\1 beliebige Zeichenfolge, verkettet mit der Zeichenfolge, die durch die erste Klammer beschrieben wird Zusatzspeicher zum Merken von Klammerinhalten erforderlich (endliche Automaten haben aber kein Gedächtnis) Muster mit unbegrenzter Zahl von Rückverweisen beschreiben nicht einmal kontextfreie Sprachen, Erkennung NP-vollständig © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

27 Themen Endliche Automaten Abstrakte Automaten Abstrakte endliche Automaten Automatentheorie: endl. Automaten haben kein Gedächtnis Reguläre Ausdrücke Definition Äquivalenz: Reguläre Ausdrücke und endliche Automaten Operatoren für reguläre Ausdrücke in Programmiersprachen Attraktivität endlicher Automaten für die Sprachverarbeitung Adäquatheit endlicher Automaten für die Sprachverarbeitung © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

28 Attraktivität endlicher Automaten (1) Effizienz in der Regel besonders effizientes Laufzeitverhalten: Traversion deterministischer endlicher Automaten: O(n) platzsparende Repräsentation © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

29 Attraktivität endlicher Automaten (2) Grundlagen mathematisch wohl-fundiert daher systematisch und kontrolliert handhabbar Softwaretechnik direkte Umsetzungen in Computerprogramme für Datenstrukturen und Operationen auf den Datenstrukturen abstrakte Spezifikation mit regulären Ausdrücken modulare und inkrementelle Entwicklung durch Komponierbarkeit von Automaten © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

30 Anwendungsgebiete © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, flaches Parsing head-modifier- Paare Textzerlegung Spracherkennung Übersetzung Rechtschreib- Korrektur Lexika Regeln Analyse Synthese Transfer Phonologie Morphologie Fakten- extraktion Text:Sprechen Sprechen:Text part-of-speech tagging

31 Endliche Automaten in der Sprachtechnologie direkte Anwendung Spracherkennung, Sprechen:Text, Text:Sprechen Übersetzung, Faktenextraktion, Rechtschreibkorrektur, SMS-Lexika direkte Anwendung für linguistische Teilaufgaben Worterkennung, Textzerlegung Phonologie, Morphologie part-of-speech-tagging flaches Parsing head-modifier-Paare © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

32 Endliche Automaten in der Sprachtechnologie Kompakte Repräsentation Wörterbücher Systemlexika und lexikalische Regeln Morphologie, Phonologie partielle syntaktische Strukturen (chunks) Indexierung von Texten Grundlage vieler Parsing-Mechanismen anwendbar zum Parsing kontextfreier Sprachen (RTN, Woods, 1970) erweiterbar für Kontext-Abhängigkeiten grundlegende Implementierungstechniken © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

33 Themen Endliche Automaten Abstrakte Automaten Abstrakte endliche Automaten Automatentheorie: endl. Automaten haben kein Gedächtnis Reguläre Ausdrücke Definition Äquivalenz: Reguläre Ausdrücke und endliche Automaten Operatoren für reguläre Ausdrücke in Programmiersprachen Attraktivität endlicher Automaten für die Sprachverarbeitung Adäquatheit endlicher Automaten für die Sprachverarbeitung © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

34 Sind menschliche Sprachen reguläre Sprachen? man muss unterscheiden zwischen der Komplexität der Sprache (= Menge von Zeichenketten) der Komplexität der Maschine zur Erkennung bestimmter Konstruktionen eine reguläre Sprache kann auch eine kontextfreie oder kontextsensitive Teilmenge enthalten; Beispiel: L = {a p b q : p, q } ist eine reguläre Sprache Ein Automat, der L erkennt, erkennt auch L 1 = {a n b n : n } L 2 = {ww R : w Σ*} w R Spiegelbild der Sequenz w © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, Mohri/Sproat 2006

35 Sind menschliche Sprachen reguläre Sprachen? Das Vorkommen der Teilmengen L 1 und L 2 sagt also nichts über die Komplexität von L aber: die Teilmengen L 1 und L 2 sind möglicherweise linguistisch motivierte Teilmengen, die man besonders auszeichnen möchte © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, Mohri/Sproat 2006

36 Sind menschliche Sprachen reguläre Sprachen? Fehlerhafte Argumentationen in Lehrbüchern Chomsky (1957): English is not a finite state language. (Korrekte Terminologie: regular language) Large classes of context-free languages such as some of those used in Chomskys argument have been proved to be representable by weighted finite automata (Cortes & Mohri 2000). Hobbs & al. (1997) Finite-state models are clearly not adequate for full natural language processing.... Every computational linguistics graduate student knows, from the first textbook that introduces the Chomsky hierarchy, that English has constructs, such as center embedding, that cannot be described by any finite-state grammar. (Arnold 2000). Natural Languages are not Finite State (regular). There is no FSA (hence type 3 grammar) that can generate a n b n. Natural Languages are infinite, and have constructions like a n b n, i.e. nested dependencies... © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, Mohri/Sproat 2006

37 Sind menschliche Sprachen reguläre Sprachen? Morphologie Mittel der Wahl: Typ-3-Grammatiken, reguläre Sprachen einige Fälle können durch geringe spezielle Erweiterungen endlicher Automaten effizienter behandelt werden Syntax Für die endliche "Kernsprache" der tatsächlich vorkommenden akzeptablen Sätze des Deutschen (und anderer Sprachen) kann man annehmen, dass eine nicht- triviale Beschreibung als Typ-3-Sprache möglich ist Der menschliche Analysator bewältigt nur bestimmte Schachtelungstiefen (für begrenzte Schachtelungstiefen reicht Typ-3) © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, Kunze 2001: 143f

38 Morphologie: Buchstabenfolgen und ihre Strukturen © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, weitgehend regulär Ausnahmen im Deutschen: ge-mach-t (aber nicht: ge-mach-st; Gedächtnis für ge erforderlich) um-zu-bau-en Kompositionsmorphologie komplexer einfache Ergänzungen endlicher Automaten zur zusätzlichen Handhabung von Einschränkungen

39 Morphologie: Buchstabenfolgen und ihre Strukturen Erweiterung endlicher Automaten für long distance dependencies: einfaches Gedächtnis: flags prozedurale Interpretation mit Bitvektor-Operationen © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, verb-stems ε ge inflection suffixes en et n Beesley/Karttunen, 2003

40 Sätze: Wortfolgen und ihre Strukturen hier sind zu unterscheiden 1.syntaktische Strukturen 1.die regulär darstellbar sind 2.die nicht regulär darstellbar sind 2.syntaktische Strukturen und semantische Strukturen © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

41 Satzstruktur Syntax vs. semantische/pragmatische Interpretation Syntax erkennbar auf der Basis rein formaler Eigenschaften (Kasus, Folge von Wortarten,..) teilweise: reguläre Konstrukte teilweise: nicht-reguläre Konstrukte (sofern unendlich) Interpretation alle Entscheidungen, die darüberhinaus auf der Basis der Erfahrung der Sprachverwendung beruhen Satzstrukturen sind Mischungen aus Syntax und Interpretation © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

42 Satzstruktur: Syntax: reguläre Konstrukte Lokale Syntagmen © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, L(e)= { (dete,adje,nomn), (dete,nomn), (adje, nomn), (nomn) } L(A)= { (dete,adje,nomn), (dete,nomn), (adje, nomn), (nomn) } e = (dete,adje,nomn) | (dete,nomn) | (adje,nomn) | (nomn) e = (dete|ε) (adje|ε) nomn e = dete? adje? nomn beschreibenerkennen 0 dete 1 adje 2 nomn 3 adje A

43 Satzstruktur: Syntax nicht-reguläre Konstrukte viele beobachteten Konstrukte sind nur dann nicht-regulär, wenn die Folge der Wörter oder Sätze als unbegrenzt angenommen wird keines der genannten Argumente ist interessant, wenn man die Länge der Sätze (oder Wörter) als begrenzt durch eine große Zahl N annimmt alle Beweise einer höheren Komplexität als regulärer Sprachen gelten nicht, wenn die Phänomene nicht als unbegrenzt angenommen werden können. so auch Chomsky 1957 der endliche Automat zur Beschreibung der Sprache kann allerdings sehr groß werden © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, Mohri/Sproat 2006

44 Satzstruktur: Syntax nicht-reguläre Konstrukte (falls infinit) Bei Fortsetzung der Kernsprache ins Unendliche tritt ein Komplexitätsschub bei Zentraleinbettungen auf nicht mit Typ-3 Grammatik darstellbare Bedingungen: Anzahl der Nomina und Verben muss übereinstimmen gewisse Merkmale, die eine Kongruenz sichern, müssen übereinstimmen Unendliche Einbettungen kommen in der Praxis nicht vor © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

45 Satzstruktur: Syntax nicht reguläre Konstrukte (falls infinit) obligatorische paarweise Korrespondenzen either... or, if... then können ineinander geschachtelt werden nicht regulär kontrollierbar: Anzahl der öffnenden und schließenden Klammern und ihre Korrespondenz Unendliche Einbettungen kommen in der Praxis nicht vor © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

46 Satzstruktur: Syntax nicht reguläre Konstrukte überkreuzende Abhängigkeit (cross-serial dependency) © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, x1x1 x2x2 x3x3 y1y1 y2y2 y3y3 John said that we the children-acc let Hans-dat help the house paint Jan säit das mer dchind em Hans es huus lönd hälfe aastriiche Shieber, 1985

47 Satzstruktur: Syntax / Semantik syntakt. vs. semant./pragmat. Interpretation © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, with stopperfasteningcorkmaterialormade ofwithbottleclosed PP AP NP NP-c AP NP syntactic link semantic link text structure

48 Satzstruktur: Semantik Überfrachtung der Syntax mit semantischer Interpretation führt zu kombinatorischer Explosion von Lesarten Erzeugung kostet unnötige Rechenzeit bringt keinen verwertbaren Informationsgewinn (455 Lesarten!) © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, Bod, 1998: 2

49 All Grammars LeakEdward Sapir, 1921 exakte und vollständige Charakterisierung aller wohlgeformten Äußerungen nicht möglich Regeln nicht völlig unbegründet irgendwie müssen wir die Dinge lockerer handhaben, um der Kreativität der Sprache Rechnung zu tragen © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, Manning/Schütze, 1999, S. 3

50 Satzstrukturen Flache Ansätze finite-state approximation of sentence structures (Abney 1995) finite-state cascades: sequences of levels of regular expressions recognition approximation: tail-recursion replaced by iteration interpretation approximation: embedding replaced by fixed levels finite-state approximation of phrase structure grammars (Pereira/Wright 1997) flattening of shift-reduce-recogniser no interpretation structure (acceptor only) used in speech recognition where syntactic parsing serves to rank hypotheses for acoustic sequences finite-state approximation (Sproat 2002) bounding of centre embedding reduction of recognition capacity flattening of interpretation structure © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

51 Satzstruktur Ansatz: Finite-State Cascades (Abney) © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, DNPDNNV-tnsPron thewomaninthelabcoatthoughtyou AuxV-ing weresleeping NPP VPNPVP NPPPVPNPVP SS L L L L T2T2 T1T1 T3T3 Finite-State Cascade Regular-Expression Grammar

52 Satzstruktur Finite State Kaskaden (Abney) patterns: reliable indicators of bits of syntactic structure parsing easy-first parsing (easy calls first) proceeds by growing islands of certainty into larger and larger phrases no systematic parse tree from bottom to top recognition of recognizable structures containment of ambiguity prepositional phrases and the like are left unattached noun-noun modifications not resolved no unification of features: additional bit vector operations possible © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

53 Satzstruktur Finite State Kaskaden (Abney) + Bitvektoren © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

54 Satzstruktur Ansatz: Begrenzung der Zentral-Einbettung Sproat, 2002: observation: unbounded centre embedding does not occur in language use seems to be too complex for human mental capacities finite state modelling of bounded centre embedding © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung, the 0 1 man the man the man 9 bites 8 5 dog walkes bites walkes bites walkes bites walkes S the (man|dog) S 1 (bites|walks) S 1 the (man|dog) S 2 (bites|walks) S 2 the (man|dog) (bites|walks) S 1 ε S 2 ε

55 Anwendungen endlicher Automaten im Information Retrieval: Beispiele Dokumentindex als endlicher Automat kompakt, schnell traversierbar Faktenextraktion mit endlichen Automaten schnelle Durchsuchung sehr großer Textmengen linguistisch adäquat für schablonenartige Information teilstrukturierte Information (HTML) abstrakte Sprache für die Anwendung: spezifizierbar mit regulären Ausdrücken Dokumentanalyse/Sprachverarbeitung Traversion eines deterministischen endlichen Automaten: O(n) linguistisch adäquat für Morphologie und Syntax © Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

56 Literatur Abney, Steven (1995). Partial Parsing via Finite-State Cascades. In: Journal of Natural Language Engineering, 2(4): Beesley Kenneth R. und Lauri Karttunen (2003). Finite-State Morphology. Distributed for the Center for the Study of Language and Information. (CSLI- Studies in Computational Linguistics) Bod, Rens (1998). Beyond Grammar. An Experienced-Based Theory of Language. CSLI Lecture Notes, 88, Standford, California: Center for the Study of Information and Language Hopcroft, John E. und Jeffrey D. Ullman (1988). Einführung in die Automatentheorie, formale Sprachen und Komplexitätstheorie. Bonn u. a.: Addison-Wesley, 1988 (engl. Original Introduction to automata theory, languages and computation). Hopcroft, John E., Rajeev Motwani und Jeffrey D. Ullman (2002). Einführung in die Automatentheorie, Formale Sprachen und Komplexität. Pearson Studium engl. Original: Introduction to Automata Theory, Languages and Computation. Addison-Wesley. www-db.stanford.edu/~ullman/ialc.htmlPearson Studiumwww-db.stanford.edu/~ullman/ialc.html 56© Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

57 Literatur Kleene, Stephen Cole (1956). Representations of Events in Nerve Sets and Finite Automata, In: C. E. Shannon and J. McCarthy, Hgg., Automata Studies, S. 3-42, Princeton, NJ, Princeton University Press. Kunze, Jürgen (2001). Computerlinguistik. Voraussetzungen, Grundlagen, Werkzeuge. Vorlesungsskript. Humboldt-Universität zu Berlin. Jurafsky, Daniel und James H. Martin (2000): Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. New Jersey: Prentice Hall. Manning, Christopher D.; Schütze, Hinrich (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass., London: The MIT Press. 57© Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,

58 Literatur Mehryar Mohri und Richard Sproat (2006). On a Common Fallacy in Computational Linguistics. In: Mickael Suominen, Antti Arppe, Anu Airola, Orvokki Heinämäki, Matti Miestamo, Urho Määttä, Jussi Niemi, Kari K. Pitkänen and Kaius Sinnemäki (Hrsg.). A Man of Measure: Festschrift in Honour of Fred Karlsson on this 60th Birthday. pages SKY Journal of Linguistics, Volume 19, 2006.On a Common Fallacy in Computational Linguistics Pereira, Fernando C. N. and Rebecca N. Wright (1997). Finite-State Approximation of Phrase-Structure Grammars. In: Roche/Schabes Shieber, Stuart Evidence against the context-freeness of natural language. Linguistics and Philosophy 8: 333–343. Sproat, Richard (2002). The Linguistic Significance of Finite-State Techniques. February 18, Starke, Peter H. (1969). Abstrakte Automaten. VEB Deutscher Verlag der Wissenschaften: Berlin (ältere, aber sehr gute mathematische Darstellung) 58© Karin Haenelt, Endliche Automaten in der Sprachverarbeitung,


Herunterladen ppt "1 Endliche Automaten in der Sprachverarbeitung Eine kleine Einführung Karin Haenelt 6.12.2012."

Ähnliche Präsentationen


Google-Anzeigen