1 Abstrakte Operatoren für komplexe reguläre Ausdrücke Karin Haenelt 5.7.2010.

Slides:



Advertisements
Ähnliche Präsentationen
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Advertisements

On the Criteria to Be Used in Decomposing Systems into Modules
Default Logiken Zhao Li
Art der Arbeit (Projekt-/Studien-/Diplomarbeit/
Grammatiken, Definitionen
Kapitel 4 Syntaktische Analyse: LR Parsing.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Endliche Automaten Einführung in den Themenbereich
Reguläre Sprachen Karin Haenelt.
Endliche Automaten Akzeptoren
Transduktoren für die Sprachverarbeitung
1 Endliche Automaten in der Sprachtechnologie Einführung Karin Haenelt
Endliche Automaten Überführung regulärer Ausdrücke in endliche Automaten Karin Haenelt
Reguläre Ausdrücke Karin Haenelt
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
Informationsextraktion mit endlichen Automaten
1 Endliche Automaten in der Sprachtechnologie Kursthemen Karin Haenelt
Parsing regulärer Ausdrücke
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
1 Komplexität menschlicher Sprachen Karin Haenelt
© Karin Haenelt 2005, Endliche Automaten: Alphabet, Zeichenreihe, Sprache, Endliche Automaten Grundlagen: Alphabet, Zeichenreihe, Sprache.
Transduktoren für die Sprachverarbeitung
Transduktoren für die Sprachverarbeitung: Komposition zweier Transduktoren Karin Haenelt
© Karin Haenelt, Transduktoren, Transduktoren für die Sprachverarbeitung Vereinigung von Transduktoren Karin Haenelt Karin Haenelt, Transduktoren,
Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Christian Schindelhauer
Christian Schindelhauer
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
Überführung regulärer Ausdrücke in endliche Automaten Der Algorithmus von Glushkov und McNaughton/Yamada Karin Haenelt
Die Geschichte von Rudi
Syntaxanalyse Bottom-Up und LR(0)
Guten Morgen!.
HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Einführung Sprache.
Formale Sprachen Reguläre Sprachen Rudolf FREUND, Marian KOGLER.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Negation is when you dont have or dont do something.
Analyseprodukte numerischer Modelle
Der Erotik Kalender 2005.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Modalverben.
prof. dr. dieter steinmannfachhochschule trier © prof. dr. dieter steinmann Folie 1 vom Montag, 30. März 2015.
Sprachneuerungen des .NET Frameworks 3.5
Kapitel 4 Alles für die Schule Lernziel: Formation of Plural.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Stephanie Müller, Rechtswissenschaftliches Institut, Universität Zürich, Rämistrasse 74/17, 8001 Zürich, Criminal liability.
E STUNDE Deutsch AP. Freitag, der 24. Mai 2013 Deutsch AP (E Stunde)Heute ist ein D Tag Goal: to understand authentic written text, audio material and.
Literary Machines, zusammengestellt für ::COLLABOR:: von H. Mittendorfer Literary MACHINES 1980 bis 1987, by Theodor Holm NELSON ISBN
E STUNDE Deutsch AP. Mittwoch, der 24. April 2013 Deutsch AP (E Stunde)Heute ist ein C Tag Goal: to understand authentic written text, audio material.
E STUNDE Deutsch AP. Freitag, der 19. April 2013 Deutsch AP (E Stunde)Heute ist ein G Tag Goal: to understand authentic written text, audio material and.
E STUNDE Deutsch AP. Donnerstag, der 9. Mai 2013 Deutsch AP (E Stunde)Heute ist ein G Tag Goal: to understand authentic written text, audio material and.
? What is Open PS? SAP Open PS based on EPS 4.0
Possessive Adjectives How to show belonging… The information contained in this document may not be duplicated or distributed without the permission of.
E STUNDE Deutsch AP. Dienstag, der 23. April 2013 Deutsch AP (E Stunde)Heute ist ein B Tag Goal: to understand authentic written text, audio material.
E STUNDE Deutsch AP. Donnerstag, der 11. April 2013 Deutsch AP (E Stunde)Heute ist ein A Tag Goal: to understand authentic written text, audio material.
Die toten hosen German punk rock band since thirty years With many well known hits.
G Stunde DEUTSCH 1.  Unit: Family & homeFamilie & Zuhause  Objectives:  Phrases about date, weather and time-telling  Family and family relations.
Technische Universität München Institute of Aeronautical Engineering Prof. Dr.-Ing. Horst Baier Presentation of the Institute (December 2009)
(Name of presenter) (Short title of presentation).
Your Logo Presentation Title Presentation Subtitle.
Interrogatives and Verbs
FREE ICONS POWERPOINT TEMPLATE.
The Dative Indirect Objects.
Safe but attractive. Bike accessories
Synonyms are two or more words belonging to the same part of speech and possessing one or more identical or nearly identical denotational meanings, interchangeable.
Thema Kraftfeld-Analyse
 Präsentation transkript:

1 Abstrakte Operatoren für komplexe reguläre Ausdrücke Karin Haenelt

Themen Einführung Notationskonventionen Abstrakte Operatoren Enthaltensein Restriktion Ersetzungen Theoretische Basis des Ersetzungsoperators: Einschränkung der Mächtigkeit kontextsensitiver Regeln Anwendungsbeispiele Restriktionsoperator: Parsing Ersetzungsregel: Regelhafte Pluralbildung © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Abstrakte Operatoren für komplexe reguläre Ausdrücke erweitern die Notation für reguläre Ausdrücke zur einfacheren Formulierung linguistischer Regeln Konstrukte Enthaltensein $ Restriktionen Ersetzungen erweitern nicht die deskriptive Mächtigkeit regulärer Ausdrücke stellen eine höhere Abstraktionsebene zur Verfügung Quellen: Koskenniemi (1983), Karttunen (1995) und Beesley/Karttunen (2003)) 3© Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Themen Einführung Notationskonventionen Abstrakte Operatoren Enthaltensein Restriktion Ersetzungen Theoretische Basis des Ersetzungsoperators: Einschränkung der Mächtigkeit kontextsensitiver Regeln Anwendungsbeispiele Restriktionsoperator: Parsing Ersetzungsregel: Regelhafte Pluralbildung 4© Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Notationskonventionen 5 Karttunen, Chanod, Grefenstette, Schiller 1997 © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Themen Einführung: Komplexe Reguläre Ausdrücke Notationskonventionen: Basisoperatoren Definitionen komplexer regulärer Ausdrücke Enthaltensein Restriktion Ersetzungen Theoretische Basis des Ersetzungsoperators: Einschränkung der Mächtigkeit kontextsensitiver Regeln Anwendungsbeispiele Restriktionsoperator: Parsing Ersetzungsregel: Phonologisches Beispiel 6© Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Enthaltensein-Operator $ Definition $A = def [?* A ?*] Beispiel: $[a|b] bezeichnet alle Zeichenketten, die mindestens ein a oder b enthalten Beispiel: $a bezeichnet alle Zeichenketten, die ein a enthalten 7 Karttunen, Chanod, Grefenstette, Schiller 1997 a a, ?? [?* a ?*] © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Restriktionsoperator => Definition A B _ C = def [~[[~[?* B] A ?*] | [?* A ~[C ?*]]]] 1) oder auch A B _ C = def ~ [ ~ [?* B] A ?*] & ~ [?* A ~[C ?*]] 2) Jedes A muss einen Vorgänger B und einen Nachfolger C haben 8 1) Beesley, Karttunen 2003 Karttunen, Chanod, Grefenstette, Schiller )Karttunen, 2005, Folie 44 3)Graphik: Karttunen 2005, Folie 44 ?, c b b a c Σ = {a,b,c,?} © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Restriktionsoperator kodiert auf kompakte Art eine nützliche Bedingung, die mit primitiveren Operatoren nur sehr umständlich auszudrücken ist kompakte Darstellung a b _ c äquivalente reguläre Ausdrücke (Definition): Version 1) ~ [ ~ [?* b] a ?*] & ~ [?* a ~[c ?*]] Version 2) [~[[~[?* b] a ?*] | [?* a ~[c ?*]]]] 9 1) Beesley, Karttunen 2003 Karttunen, Chanod, Grefenstette, Schiller )Karttunen, 2005, Folie 44 ?, c b b a c Σ = {a,b,c,?} © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Restriktionsoperator äquivalente reguläre Ausdrücke (Definition): ~ [~[?* b] a ?*] & ~ [?* a ~[c ?*]] [~[ [~[?* b] a ?*] | [?* a ~[c ?*]] ]] De Morgansches Gesetz: ~(x|y) = ~x & ~y Paraphrase [~[?* B] A ?*] (entspricht x) – direkt vor A steht kein B [?* A ~[C ?*]] (entspricht y) – direct hinter A steht kein C beide Definitionen schließen diese beiden Fälle aus. 10© Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

XEROX Finite State Compiler 11 1)nicht mehr online, download: auch auf CD in Beesley/Karttunen © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Restriktionsoperator Vergleich der beiden Definitionsvarianten 12 XEROX Finite State Compiler ( nicht mehr online, download: & auf CD in Beesley/Karttunen 2003) © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Ersetzungsoperator Definition A B = def [ [~$[A - []] [A.x. B]]* ~$[A – []]] ersetze A durch B A und B bezeichnen reguläre Sprachen, aber der Ausdruck als Ganzes bezeichnet eine Relation Die [A B] Relation bildet jede Zeichenkette, die kein A enthält, auf sich selbst ab Zeichenketten, die ein A enthalten, werden Kopien zugeordnet, in denen jedes A gegen ein B ausgetauscht ist, die sonst aber mit der Kette identisch sind 13 Karttunen, Chanod, Grefenstette, Schiller 1997 © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Ersetzungsoperator Graphische Darstellung 14 (Karttunen, 1993) Transduktor zur Regel ε ab / _b (optional) © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Themen Einführung Notationskonventionen Abstrakte Operatoren Enthaltensein Restriktion Ersetzungen Theoretische Basis des Ersetzungsoperators: Einschränkung der Mächtigkeit kontextsensitiver Regeln Anwendungsbeispiele Restriktionsoperator: Parsing Ersetzungsregel: Regelhafte Pluralbildung 15© Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Theoretische Basis des Ersetzungsoperators Entwicklung stammt ursprünglich aus dem Bereich der Modellierung phonologischer Regeln Regeln der Form αβ/ γ_δ Chomsky /Halle (1968) ersetze α, das zwischen γ und δ steht, durch β kontextsensitiv kontextsensitive Regeln sind nicht so mächtig wie es scheint, wenn man bestimmte Einschränkungen annimmt 16© Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Theoretische Basis komplexer regulärer Ausdrücke Schützenberger (1961): für jedes Paar sequentiell anwendbarer Transduktoren existiert ein äquivalenter einzelner Transduktor Johnson (1972) (seinerzeit nicht beachtet und vergessen) Kaplan und Kay (um 1980) (neu entdeckt): Eingabe-Ausgabepaare einer kontextsensitiven Regel stellen reguläre Relationen dar, wenn eine kontextsensitive Regel im nächsten Zyklus nicht wieder auf ihre eigene Ausgabe angewendet werden darf 17© Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Theoretische Basis Folgerung aus der Beobachtung Schützenbergers 18 (Karttunen, 2005 (1), Folie 21) Folgerung: jede sequentielle Regelanwendung kann äquivalent durch eine Regel beschrieben werden © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Theoretische Basis Beobachtungen von Johnson und Kaplan und Kay Effekt der Einschränkung der Anwendungsposition kontextsensitiver Regeln Regel ε ab / _b (optional) füge optional die Zeichenkette ab vor einem b ein zwei Arten der Anwendung: 19 a b a a b b a a a b b b... a a n b n b a b a a b b a a b a b b... a [a b] n b (Karttunen, 1993) kontextfreie Sprachereguläre Sprache © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Themen Einführung Notationskonventionen Abstrakte Operatoren Enthaltensein Restriktion Ersetzungen Theoretische Basis des Ersetzungsoperators: Einschränkung der Mächtigkeit kontextsensitiver Regeln Anwendungsbeispiele Restriktionsoperator: Parsing Ersetzungsregel: Regelhafte Pluralbildung 20© Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999), Regeln für Nominalphrasen vereinfachte Regel für französische Nominalphrasen Kompilationsschritte Überführung der Einzelregeln in endliche Automaten Intersektion der Einzelautomaten (Ausführung der &- Verknüpfung) 21© Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999), Erläuterung -1- [Noun => _ [ PAdj | Prep |.#. ] ] hinter einem Nomen steht ein PAdj (nachgestelltes prädikatives Adjektiv) oder eine Präposition das Ende der Eingabe ist erreicht.# ?, PAdj,Prep PAdj,Prep Noun © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999), Erläuterung -2- [ Art | Noun ] [ Art | Noun | PAdj | Prep ] * Art oder Noun, dann dürfen folgen Art | Noun | PAdj | Prep Art,Noun Art,Noun, PAdj,Prep © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999), Erläuterung -3- A 9 : Schnittbildung der Automaten [ Art _ [Noun] & [ Noun _ [PAdj | Prep |.#. ] & [ PAdj _ [PAdj | Prep |.#. ] & [ Prep _ [Art | Noun] ? Art 2 Noun Noun, PAdj 3 Prep PAdj Art Noun © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999), Erläuterung © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999), Erläuterung Art 3 Prep 2 Noun PAdj Art Noun PAdj 01 Art Prep 2 Noun minimieren © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Themen Einführung Notationskonventionen Abstrakte Operatoren Enthaltensein Restriktion Ersetzungen Theoretische Basis des Ersetzungsoperators: Einschränkung der Mächtigkeit kontextsensitiver Regeln Anwendungsbeispiele Restriktionsoperator: Parsing Ersetzungsregel: Regelhafte Pluralbildung 27© Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Ersetzungsoperator: Anwendungsbeispiel 28 Jurafsky/Martin, 2000, S. 78 r0r0 r1r1 r2r2 r3r3 r4r4 r5r5 s # :e ^: z,x z,s,x #,other z,s,x ^: # other ^:s z,s,x #,other Regel für die Einfügung von –e im Plural der englischen Nomina, die auf x,s,z enden (foxes) © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Literatur Beesley Kenneth R. und Lauri Karttunen (2003). Finite-State Morphology. Distributed for the Center for the Study of Language and Information. 696 p. (est.) Series: (CSLI-SCL) Studies in Computational Linguistics Chomsky, Noam and Morris Halle The Sound Pattern of English. NewYork: Harper and Row. Grefenstette, Gregory (1999). Light Parsing as Finite State Filtering. In: Kornai 1999, S frühere Version: In: Workshop on Extended finite state models of language, Budapest, Hungary, Aug , ECAI'96." Johnson, C. Douglas (1972). Formal Aspects of Phonological Description. Mouton. Jurafsky, Daniel und James H. Martin (2000): Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. New Jersey: Prentice Hall. S Kaplan, R. M. and Kay, M. (1981). Phonological rules and finite-state transducers. In Linguistic Society of America Meeting Handbook, Fifty-Sixth Annual Meeting, New York. Abstract. Kaplan, R. M. and Kay, M. (1994). Regular models of phonological rule systems. In: Computational Linguistics, 20(3):331– © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Literatur Karttunen, Lauri (2005). Finite-State Methods in Natural Language Processing. LSA Summer Institute. Lecture Notes, 1 : , 2 : , 3 : , 4 : , 5 : , 6 : Karttunen, Lauri (1995). The Replace Operator. In: Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. ACL-95, S , Boston, Massachusetts. Karttunen, Lauri (1993). Finite-state Constraints. Karttunen, Lauri und Kenneth R. Beesley (2005). Twenty-Five Years of Finite-State Morphology. In: Antti Arppe, Lauri Carlson, Krister Lindén, Jussi Piitulainen, Mickael Suominen, Martti Vainio, Hanna Westerlund and Anssi Yli-Jyrä (Eds.). Inquiries into Words, Constraints and Contexts. Festschrift for Kimmo Koskenniemi on his 60th Birthday. S © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Literatur Karttunen, Lauri; Jean-Pierre Chanod, Gregrory Grefenstette und Anne Schiller (1997). Regular Expressions for Natural Language Engineering. In: Natural Language Engineering, S Koskenniemi, K. (1983). Two-level morphology: A general computational model for word- form recognition and production. Publication 11, University of Helsinki, Department of General Linguistics, Helsinki. Schützenberger, Marcel-Paul. (1961). A remark on finite transducers. Information and Control 4:185–196. Anssi Yli-Jyrä and Kimmo Koskenniemi (2004). Compiling Contextual Restrictions on Strings into Finite-State Automata. Post-proceedings of Eindhoven Fastar Days, September 3-4, 2004 XEROX Finite State Compiler analysis/fsCompiler/fsnetwork.html (nicht mehr unter dieser Adresse online) Download unter auch enthalten auf CD in Beesley/Karttunen 2003, Finite State Morphology (CLSI Publications 2003) analysis/fsCompiler/fsnetwork.html 31© Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Versionen , © Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke

Copyright © Karin Haenelt, 2009, 2010 All rights reserved. The German Urheberrecht (esp. § 2, § 13, § 63, etc.). shall be applied to these slides. In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below.Urheberrecht Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please observe the laws (copyright, Urheberrecht, etc.) Please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.). Deletion or omission of the footer (with name, data and copyright sign) is not permitted Bibliographic data. Karin Haenelt. Komplexe reuläre Ausdrücke ( ) For commercial use: No commercial use is allowed without written permission from the author. In case you are interested in commercial use please contact the author. Court of Jurisdiction is Darmstadt, Germany 33© Karin Haenelt, Abstrakte Operatoren für komplexe reguläre Ausdrücke