1 Komplexität menschlicher Sprachen Karin Haenelt 19.6.2010.

Slides:



Advertisements
Ähnliche Präsentationen
Kathrin von Randow S: Entwicklung der Sprache SS 2007
Advertisements

Vorlesung Compilertechnik Sommersemester 2008
Christian Schindelhauer
Statistische Aspekte der PSG
Software-Engineering II Eingebettete Systeme, Softwarequalität, Projektmanagement Prof. Dr. Holger Schlingloff Institut für Informatik der Humboldt.
8. Formale Sprachen und Grammatiken
Grammatiken, Definitionen
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Grammatiken beschreiben Sprachen L µ *, indem.
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Reduktionen Def: L · L (L ist reduzierbar auf.
FH-Hof Grammatiken Richard Göbel. FH-Hof Begriffe Eine Grammatik definiert die Struktur (Syntax) einer Zeichenkette Eine Grammatik definiert nicht die.
M a r c – o l i v e r p a h l Informatik II – Kapitel 18 Übersetzung Zusammenfassung des Kapitel 18 Küchlin, Weber, Vorversion Einführung in die Informatik,
Prof. Dr. rer.nat. Ralph Großmann Fakultät Informatik / Mathematik Sommersemester 2012 Internet-Technologien XML-basierte Techniken Teil Metasprache der.
Prolog Grundkurs WS 98/99 Christof Rumpf
Reguläre Sprachen Karin Haenelt.
Endliche Automaten in der Sprachverarbeitung Eine kleine Einführung
1 Endliche Automaten in der Sprachtechnologie Einführung Karin Haenelt
1 Abstrakte Operatoren für komplexe reguläre Ausdrücke Karin Haenelt
Reguläre Ausdrücke Karin Haenelt
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
Informationsextraktion mit endlichen Automaten
© Karin Haenelt, Modellierung Menschlicher.Sprachen mit Regulären Ausdrücken, Modellierung menschlicher Sprachen mit Regulären Ausdrücken.
Parsing regulärer Ausdrücke
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
© Karin Haenelt 2005, Endliche Automaten: Alphabet, Zeichenreihe, Sprache, Endliche Automaten Grundlagen: Alphabet, Zeichenreihe, Sprache.
© Karin Haenelt, Transduktoren, Transduktoren für die Sprachverarbeitung Vereinigung von Transduktoren Karin Haenelt Karin Haenelt, Transduktoren,
Java – Werkzeuge zur Entwicklung endlicher Automaten
Beispiele für Ausdrucksalgebren
Grammatik als Deduktionssystem
Grundkurs praktische Philosophie 13. Dezember 2004 Politische Philosophie: wozu Staaten gut sind Text: A. John Simmons, Philosophical Anarchism, in: J.
Christian Schindelhauer
Christian Schindelhauer
Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Wintersemester 2005/ Vorlesung Dominic Dumrauf.
Christian Schindelhauer
Christian Schindelhauer
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
Grenzen der Regularität
You need to use your mouse to see this presentation © Heidi Behrens.
© Wortstellung im Deutschen Norbert Fries.
NATIVIST THEORIE.
Formale Sprachen Grammatiken und die Chomsky-Hierarchie
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Beispiele: KFG 2.Teil Beispiel 1: Sei G eine Grammatik mit den folgenden Regeln: S  Ac | Bd A  aAb | ab B  aBbb | abb Definieren Sie.
Noam CHOMSKY, Sheila GREIBACH
Noam CHOMSKY, Sheila GREIBACH
DEUTSCHE VERBEN I. REGULAR VERBS.
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 3: Potenzreihen und kontextfreie Sprachen (Vgl. Buch von A. Salomaa)
Christian Schindelhauer Wintersemester 2006/07 2. Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Der formelle Imperativ – the Imperative
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.
7. Formale Sprachen und Grammatiken
Die Fragen Wörter Wer? Was? Wann?.
Kapitel 4:Die Chomsky Hierarchie
Einführung in die Syntax
COMMANDS imperative 1. you (formal): Sie 2. you (familiar plural): ihr
Kapitel 4 Grammar INDEX 1.Ordinal Numbers 2.Relative Pronouns and Relative Clauses 3.Conditional Sentences 4.Posessive: Genitive Case.
Kapitel 2 Grammar INDEX 1.Subjects & Verbs 2.Conjugation of Verbs 3.Subject Verb Agreement 4.Person and Number 5.Present Tense 6.Word Order: Position of.
© Crown copyright 2011, Department for Education These materials have been designed to be reproduced for internal circulation, research and teaching or.
Kapitel 3 Grammar INDEX 1.Modal Verbs: Möchten 2.3 rd Person Pronoun.
Kapitel 8 Grammar INDEX 1.Command Forms: The Du-Command Form & Ihr- Command 2.Sentences & Clauses.
10.3 Lektion 10 Geschichte und Gesellschaft STRUKTUREN © and ® 2012 Vista Higher Learning, Inc Der Konjunktiv I and indirect speech —Ich komme.
Kapitel 9 Grammar INDEX 1.Formal Sie- Command 2.There Is/There Are 3.Negation: Nicht/Klein.
Kapitel 1 Grammar INDEX 1.Verbs, Present Tense (Review)
On the case of German has 4 cases NOMINATIVE ACCUSATIVE GENITIVE DATIVE.
Freizeit Thema 5 Kapitel 1 (1)
you: ihr ( familiar plural ) you: du ( familiar singular)
Grundlagen Englisch Passive voice HFW Bern.
you: ihr ( familiar plural ) you: du ( familiar singular)
Students have revised SEIN and HABEN for homework
School supplies.
 Präsentation transkript:

1 Komplexität menschlicher Sprachen Karin Haenelt

Komplexität menschlicher Sprachen und Bestimmung der Komplexität Menschliche Sprachen haben vermutlich die Komplexität schwach-kontextsensitiver Sprachen Bestimmung der Komplexität korrekter Beweis (Shieber 1985): Schnitt einer beobachteten Konstruktion (cross-serial dependency) mir einer regulären Sprache ergibt eine schwach-kontextsensitive Sprache fehlerhafte Argumente: schließen von der Beobachtung einer nicht-regulären Konstruktion auf die Komplexität der umfassenden Sprache vermischen Komplexität der Sprache und Komplexität der Maschine zur Erkennung bestimmter Konstruktionen 2© Karin Haenelt, Komplexität menschlicher Sprachen Mohri/Sproat 2006

Beweis von Shieber 1985: Schweizerdeutsch ist schwach-kontextsensitiv Basis: beobachtetes Phänomen: überkreuzende Abhängigkeit (cross-serial dependency) 3 x1x1 x2x2 x3x3 y1y1 y2y2 y3y3 John said that we the children-acc let Hans-dat help the house paint Jan säit das mer dchind em Hans es huus lönd hälfe aastriiche © Karin Haenelt, Komplexität menschlicher Sprachen

Beweis von Shieber 1985: Schweizerdeutsch ist schwach-kontextsensitiv Form der überkreuzenden Abhängigkeit: v 1 noun 1 m noun 2 n v 2 verb 1 m verb 2 n v 3 noun {1,2} : Nomina, verb {1,2} : korrespondierende Verben, v i weitere Ausdrücke Homomorphismus v {1,2,3} w bzw. x bzw. y noun {1,2} a bzw. b verb {1,2} c bzw. d Intersektion mit der regulären Sprache wa*b*xc*d*y ergibt schwach-kontextsensitive Sprache wa m b n xc m d n y 4© Karin Haenelt, Komplexität menschlicher Sprachen Mohri/Sproat 2006

Beweis von Shieber 1985: Schweizerdeutsch ist schwach-kontextsensitiv kontextfreie Sprachen sind abgeschlossen unter Homomorphismus und unter Schnittbildung mit regulären Sprachen daher kann die Ausgangssprache der Schnittbildung keine strikt-kontextfreie Sprache gewesen sein Shiebers Beweis beruht nicht auf Annahmen über die syntaktische Struktur der Konstruktion sondern auf der Betrachtung der Sprache als Menge von Ketten (zur Unterscheidung: eine Kette kann durch verschiedene Grammatiken verschiedene Strukturierungen erhalten) 5© Karin Haenelt, Komplexität menschlicher Sprachen Mohri/Sproat 2006

Voraussetzungen der Argumentation: Länge der Sätze oder Wörter sei unbegrenzt alle Beweise einer höheren Komplexität als regulärer Sprachen gelten nicht, wenn die Phänomene nicht als unbegrenzt angenommen werden können. keines der genannten Argumente ist interessant, wenn man die Länge der Sätze (oder Wörter) als begrenzt durch eine große Zahl N annimmt viele beobachteten Konstrukte sind nur dann nicht-regulär, wenn die Folge der Wörter oder Sätze als unbegrenzt angenommen wird so auch Chomsky 1957 der endliche Automat zur Beschreibung der Sprache kann allerdings sehr groß werden 6 Mohri/Sproat 2006 © Karin Haenelt, Komplexität menschlicher Sprachen

Fehlerhafte Argumentation Eine Schwalbe mache einen Sommer Fehlerhafte Argumentation Man entdeckt eine spezielle Konstruktion K einer Sprache L, die eine Sprache L L erzeugt, die an einer wohl- definierten Position P in der Chomsky-Hierarchie liegt. Hieraus folgert man, dass L an Position P P liegt. Sei beispielsweise L kontextsensitiv, so sei L mindestens kontextsensitiv. reguläre Sprachen können nicht-reguläre Konstrukte enthalten jede Sprache L über einem Alphabet Σ ist eine Teilmenge der Sprache L = Σ*. Die Entdeckung einer Subsprache L L – egal wie komplex - besagt nichts über die Komplexität von L 7 Mohri/Sproat 2006 © Karin Haenelt, Komplexität menschlicher Sprachen

… Beispiel L = {a p b q : p, q } ist eine reguläre Sprache Ein Automat, der L erkennt, erkennt auch L 1 = {a n b n : n } L 2 = {ww R : w Σ*} 8 Mohri/Sproat 2006 © Karin Haenelt, Komplexität menschlicher Sprachen

Fehlerhafte Argumentation Sprache (Menge von Zeichenfolgen) – Struktur einer Konstruktion versäumt zu unterscheiden: Komplexität der Sprache und Komplexität der Maschine zur Erkennung bestimmter Konstruktionen Sprache und Struktur 9 Mohri/Sproat 2006 © Karin Haenelt, Komplexität menschlicher Sprachen

Beispiele fehlerhafter Argumentationen Chomsky (1957): English is not a finite state language. (Korrekte Terminologie: regular language) Large classes of context-free languages such as some of those used in Chomskys argument have been proved to be representable by weighted finite automata (Cortes & Mohri 2000). Hobbs & al. (1997) Finite-state models are clearly not adequate for full natural language processing.... Every computational linguistics graduate student knows, from the first textbook that introduces the Chomsky hierarchy, that English has constructs, such as center embedding, that cannot be described by any finite-state grammar. (Arnold 2000).Natural Languages are not Finite State (regular). There is no FSA (hence type 3 grammar) that can generate a n b n. Natural Languages are infinite, and have constructions like a n b n, i.e. nested dependencies Mohri/Sproat 2006 © Karin Haenelt, Komplexität menschlicher Sprachen

Modellierung der Struktur menschlicher Sprachen Morphologie Mittel der Wahl: Typ-3-Grammatiken, reguläre Sprachen einige Fälle können durch geringe spezielle Erweiterungen endlicher Automaten effizienter behandelt werden Syntax Für die endliche "Kernsprache" der tatsächlich vorkommenden akzeptablen Sätze des Deutschen (und anderer Sprachen) kann man annehmen, dass eine nicht- triviale Beschreibung als Typ-3-Sprache möglich ist Der menschliche Analysator bewältigt nur bestimmte Schachtelungstiefen (für begrenzte Schachtelungstiefen reicht Typ-3) 11 Kunze 2001: 143f © Karin Haenelt, Komplexität menschlicher Sprachen

Modellierung der Struktur menschlicher Sprachen Bei Fortsetzung der Kernsprache ins Unendliche tritt ein Komplexitätsschub bei Zentraleinbettungen auf Bedingungen nicht mit Typ-3 Grammatik darstellbar Anzahl der Nomina und Verben muss übereinstimmen gewisse Merkmale, die eine Kongruenz sichern, müssen übereinstimmen Unendliche Einbettungen kommen in der Praxis nicht vor 12 Kunze 2001: 143ff © Karin Haenelt, Komplexität menschlicher Sprachen

… Trend in der Folge von Chomsky 1957: Suche nach immer komplexeren Konstruktionen Motiv eher Konstruktion neuer formaler Theorien als Sammlung und Beobachtung von Sprachdaten 13© Karin Haenelt, Komplexität menschlicher Sprachen

Effektivität und Effizienz Effektivität eine Struktur mit einer Typ-3-Grammatik beschreiben zu können, bedeutet nicht, dass man sie auf diese Weise effektiv beschreiben kann beispielsweise kann eine einzige kontextsensitive Regel einer großen Menge kontextfreier Regeln entsprechen Effizienz endliche Automaten haben eine viel bessere Laufzeit – O(n)- als Automaten mit zusätzlichen Speichern – O(n x ) 14 Kunze 2001: 143ff © Karin Haenelt, Komplexität menschlicher Sprachen

Literatur Arnold, Doug (2000) LG511 Computational Linguistics I: Parsing and Generation. University of Essex. URL: 7.html. Chomsky, Noam (1957) Syntactic Structures. The Hague: Mouton. Cortes, Corinna & Mehryar Mohri (2000) Context-Free Recognition with Weighted Automata. Grammars 3: 2–3. Hobbs, Jerry R., Douglas Appelt, John Bear, David Israel, Megumi Kameyama, Mark Stickel & Mabry Tyson (1997) FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text. In Emmanuel Roche & Yves Schabes (eds.) Finite-State Language Processing, pp. 383–406. Language, Speech, and Communication. Cambridge, MA: The MIT Press. 15© Karin Haenelt, Komplexität menschlicher Sprachen

Literatur Jürgen Kunze (2001). Computerlinguistik. Voraussetzungen, Grundlagen, Werkzeuge. Vorlesungsskript. Humboldt-Universität zu Berlin. Mehryar Mohri und Richard Sproat (2006) On a Common Fallacy in Computational Linguistics. In: Mickael Suominen, Antti Arppe, Anu Airola, Orvokki Heinämäki, Matti Miestamo, Urho Määttä, Jussi Niemi, Kari K. Pitkänen and Kaius Sinnemäki (Hrsg.). A Man of Measure: Festschrift in Honour of Fred Karlsson on this 60th Birthday. pages SKY Journal of Linguistics, Volume 19, On a Common Fallacy in Computational Linguistics Shieber, Stuart Evidence against the context-freeness of natural language. Linguistics and Philosophy 8: 333– © Karin Haenelt, Komplexität menschlicher Sprachen