für Kommunikation, Informationstechnik und Ergonomie

Slides:



Advertisements
Ähnliche Präsentationen
für Kommunikation, Informationstechnik und Ergonomie
Advertisements

Eine dynamische Menge, die diese Operationen unterstützt,
Polynomial Root Isolation
Statistische Aspekte der PSG
Semantik und Wissensrepräsentation
Schnelle Matrizenoperationen von Christian Büttner
Teil 9 Lexical Functional Grammar (2) Übung
Lexikalisch-Funktionale-Grammatik
Prof. Dr. W. Conen 15. November 2004
Linguistische Grundlagen
Sommersemester, 1999 © Frank Schilder Semantik und Pragmatik Referentielle Netze Frank Schilder.
Grammatikentwicklung
[28166] Theorien und Methoden der formalen Sprachbeschreibung Modul: MSW_3 (Sprachtheoretische Konzeptionen) Kolloquium, 2 SWS (14-täglich) Prof. Dr. Peter.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Semantik von Prolog & Unifikation
Prolog Grundkurs WS 98/99 Christof Rumpf
PATR II Interpreter Prolog Aufbaukurs SS 2000 Heinrich-Heine-Universität Düsseldorf Christof Rumpf.
Reguläre Sprachen Karin Haenelt.
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
Sprachwissenschaftliches Institut Einführung in die HPSG Grammatiktheorie 4./11. Mai 2004.
Grammatik als Deduktionssystem
Lexikalisch-Funktionale-Grammatik
Einführung in die Syntax
für Kommunikation, Informationstechnik und Ergonomie
NP-Bewegung & wh-Bewegung
High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.
Lexikalisch-Funktionale Grammatik
Lexikalisch-Funktionale Grammatik
6 Normalformen Normalisieren Schlüssel
© Fraunhofer FKIE Computerlinguistik apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie
Grammatiktheorien Head-Driven Phrase Structure Grammar Einführung.
Was bedeutet "Weiche drei schalten"?
Teil 8 Lexical Functional Grammar Einführung
Grammatikentwicklung
Statistische Methoden II
Die Vorlesung Statistische Methoden II findet am (nächste Woche) nicht nicht statt. Diese Vorlesung wird zu einem späteren Termin, der noch bekannt.
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Semantische Sprachverarbeitung Vorlesung 7 Diskursrepräsentationstheorie.
Grundelemente der Dependenzsyntax
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Objektmodellierung Objekte und Klassen Ein Objekt ist ein Exemplar.
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
Relation Umkehrrelation Funktion Umkehrfunktion
GRAMMATIK DEKLINATION.
© Wortstellung im Deutschen Norbert Fries.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Multivariate Statistische Verfahren
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 3: Potenzreihen und kontextfreie Sprachen (Vgl. Buch von A. Salomaa)
Physik - Mechanik Vektoraddition - Kräfteaddition F2 F1 F2 F1 F2
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
2 Grundlagen In diesem Abschnitt werden die Grundbegriffe und Methoden der Theorie der formalen Sprachen und der Automaten wiederholt, soweit diese ben.
Theorie, Anwendungen, Verallgemeinerungen
Funktionale Unifikations-Grammatik (FUG)   Hauptmerkmale der FUG.
Grammatik als Deduktionssystem Theorie, Grammatik, Grammatiktheorie Grammatik Sprache Hypothese Sprachtheorie Theorie Erklärung Theoretisches Konstrukt.
Funktionale Unifikations-Grammatik (FUG)  Hauptmerkmale der FUG.
Lexikalisch-Funktionale Grammatik   Kontrollphänomene   Funktionale Kontrolle   Anaphorische Kontrolle.
Lexikalisch-Funktionale Grammatik   Subsumption   Unifikation   Von der K-Struktur zur F-Struktur.
Lexikalisch-Funktionale-Grammatik  Formaler Aufbau der F-Strukturen  Funktionale Beschreibungen  Funktionale Annotationen  Von der K-Struktur zur F-Struktur.
Merkmale und Merkmalstrukturen
LFG als Interlingua in der maschinellen Übersetzung
Der PATR II Formalismus
Merkmale und Merkmalstrukturen   Merkmale   Merkmalstrukturen   Unifikation.
Lexikalisch-Funktionale-Grammatik  Architektur der LFG  K-Strukturen  Funktionale Beschreibungen  F-Strukturen.
RELATIVSÄTZE Relativpronomen.
When a German gets his hands on an adjective,
ADJEKTIVDEKLINATION.
Adjektivdeklination im Singular
 Präsentation transkript:

für Kommunikation, Informationstechnik und Ergonomie Computerlinguistik 8. Vorlesung (03.12.2009) apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de

Computerlinguistik Inhalt der Vorlesung Einführung Methoden Parsing Tagging Ontologien Anwendungen Maschinelle Übersetzung Informationsextraktion Textanalyse Gesamtsystem

Computerlinguistik Unifikation HPSG und LFG sind unifikationsbasierte Grammatiktheorien. Unifikation ist eine (mathematische) Operation auf so genannten Merkmal-Wert-Matrizen. Die mathematische Theorie, die der Unifikation zugrunde liegt, ist die Gittertheorie.

Computerlinguistik Merkmal-Wert-Matrizen sind Mengen von Paaren. Unifikation Merkmal-Wert-Matrizen sind Mengen von Paaren. Das erste Element eines solchen Paares ist das Merkmal („Attribute“ oder „Feature“); das zweite der Wert („Value“). Merkmale sind atomar. Werte sind entweder atomar oder ihrerseits Merkmal-Wert-Matrizen. Jedem Merkmal in einer Matrix ist höchstens ein Wert zugeordnet.

Computerlinguistik Beispiel: cat: nomen pred: „clown“ Unifikation Beispiel: cat: nomen pred: „clown“ agreement: kasus: nominativ numerus: singular genus: maskulin person: 3 Der Wert des Merkmals „agreement“ Ist eine Matrix.

Computerlinguistik Unifikation Weil Merkmal-Wert-Matrizen Mengen sind, ist die Anordnung der Merkmal-Wert-Paare in der Matrix irrelevant. kasus: nominativ numerus: singular numerus: singular kasus: nominativ ist identisch zu

Computerlinguistik Unifikation Jedem Merkmal in einer Matrix ist höchstens ein Wert zugeordnet. pred: „das“ kasus: nominativ kasus: akkusativ numerus: singular genus: neutrum ist nicht erlaubt.

Computerlinguistik Unifikation Unifikation bedeutet das Verschmelzen zweier Merkmal-Wert-Matrizen zu einer einzigen, welche alle Informationen der ursprünglichen Matrizen vereint. pred: „das“ pred: „das“ kas: nom num: sg = kas: nom num: sg gen: neutr num: sg gen: neutr Nochmals: Die Reihenfolge der Paare ist „egal“!

Computerlinguistik Unifikation Unifikation bedeutet das Verschmelzen zweier Merkmal-Wert-Matrizen zu einer einzigen, welche alle Informationen der ursprünglichen Matrizen vereint. Sind die Informationen nicht vereinbar, schlägt die Unifikation fehl. pred: „das“ kas: nom num: pl = fail num: sg gen: neutr

Computerlinguistik Unifikation Unifikation bedeutet das Verschmelzen zweier Merkmal-Wert-Matrizen zu einer einzigen, welche alle Informationen der ursprünglichen Matrizen vereint. Sind die Informationen nicht vereinbar, schlägt die Unifikation fehl. spec: cat: det head: cat: n spec: cat: det pred: „der“ pred: „bus“ = pred: „der“ head: cat: n pred: „bus“

Computerlinguistik Formale Definition der Unifikation: Sei M eine Merkmal-Wert-Matrix. M M = M für alle M M [ ] = M für alle M; [ ] ist die „leere“ Matrix.

Computerlinguistik Formale Definition der Unifikation: Merkmal1: Wert1 Merkmal1: Wert2 Merkmal1: Wert3 Restmatrix1 Restmatrix2 Restmatrix3 mit Wert3 = Wert1, falls Wert1 atomar und Wert2 = Wert1 mit Wert3 = Wert1 Wert2, falls Wert1 Matrix und mit Restmatrix3 = Restmatrix1 Restmatrix2 =

Computerlinguistik Formale Definition der Unifikation: Merkmal1: Wert1 Merkmal1: Wert1 Restmatrix1 Restmatrix3 mit Restmatrix3 = Restmatrix1 Matrix2 , falls kein Merkmal-Wert-Paar mit Merkmal1 in Matrix2 enthalten ist. Matrix2 =

Computerlinguistik M1 M2 = M2 M1 Formale Definition der Unifikation: Falls keiner der genannten Fälle zum Erfolg führt, misslingt die Unifikation. Anmerkung: Unifikation ist kommutativ. M1 M2 = M2 M1

Computerlinguistik Syntax ist lexikongesteuert. LFG – „Credo“ Syntax ist lexikongesteuert. Satz  c-structure  f-structure  a-structure Wohlgeformtheitsbedingungen Einzigartigkeitsbedingung Vollständigkeitsbedingung Kohärenzbedingung LEXIKON Phrasenstrukturregeln X‘-Theorie Prinzipien der f-structure Assoziation

Computerlinguistik X‘-Theorie X (head) X‘ X‘‘ (Phrase) N N‘ NP V V‘ VP LFG X‘-Theorie X (head) X‘ X‘‘ (Phrase) N N‘ NP V V‘ VP P P‘ PP Adj Adj‘ AdjP - S S‘ In der LFG haben Sätze keinen „head“.

LFG – Phrasenstrukturregeln Computerlinguistik LFG – Phrasenstrukturregeln In der LFG sind die Regeln mit Funktionsschemata annotiert: S  NP VP (SUBJ = )  =  VP V NP NP (OBJ1 = ) (Obj2 = ) NP DET N Die Metavariablen  (down) und  (up) dienen dem Aufbau der f-structure aus der c-structure.

LFG – Phrasenstrukturregeln Computerlinguistik LFG – Phrasenstrukturregeln Die Metavariablen  (down) und  (up) dienen dem Aufbau der f-structure aus der c-structure. (up) verweist auf die f-structure des Mutterknotens. (down) verweist auf die f-structure des Knotens selbst. (Beispiel folgt.)

Computerlinguistik LFG – Lexikon Quelltext: A clown handed the child a balloon. LFG-Lexikon (Vollformlexikon): handed: V ( TENSE = Past) ( PRED = „hand(( SUBJ)(OBJ2)( OBJ1))“) clown: N ( NUM = SG) ( PRED = „clown“) child: N ( NUM = SG) ( PRED = „child“)

Computerlinguistik LFG – Lexikon Quelltext: A clown handed the child a balloon. LFG-Lexikon: balloon: N ( NUM = SG) ( PRED = „balloon“) a: DET ( NUM = SG) ( SPEC = INDEF) the: DET ( SPEC = DEF)

Computerlinguistik LFG – c-structure S VP NP NP NP V DET N DET N DET N a clown handed the child a balloon

Computerlinguistik LFG – c-structure annotiert S VP NP NP NP V DET N  =  VP SUBJ =  NP NP OBJ1 =  NP OBJ2 =  V DET N DET N ( TENSE = PAST) ( PRED = „hand(( SUBJ)(OBJ2)( OBJ1))“) DET N SPEC = INDEF NUM = SG SPEC = INDEF NUM = SG SPEC = DEF a clown handed the child a balloon PRED = „clown“ NUM = SG PRED = „child“ NUM = SG PRED = „balloon“ NUM = SG

Computerlinguistik LFG – f-structure Aufbau der f-structure S f1 f3 VP NP NP f4 NP f5 V DET N DET N DET N a clown handed the child a balloon

Computerlinguistik LFG – f-structure Aufbau der f-structure: Die funktionalen Gleichungen (f2 SPEC) = INDEF (f5 NUM) = SG (f2 NUM) = SG (f5 NUM) = SG (f2 NUM) = SG (f5 PRED) = „balloon“ (f2 PRED) = „clown“ (f1 SUBJ) = f2 (f3 TENSE) = PAST f1 = f3 (f3 PRED) = „hand(( SUBJ)(OBJ2)( OBJ1))“) (f3 OBJ1) = f4 (f4 SPEC) = DEF (f3 OBJ2) = f5 (f4 NUM) = SG (f4 PRED) = „child“ (f5 SPEC) = INDEF

Computerlinguistik LFG – f-structure Aufbau der f-structure: die Merkmal-Wert-Matrizen f1 f1, f3 SUBJ: f2 OBJ1: f4 f1, f3 OBJ2: f5 usw. (Tafel)

LFG – Wohlgeformtheitsbedingungen Computerlinguistik LFG – Wohlgeformtheitsbedingungen Einzigartigkeitsbedingung: Jedem Merkmal darf maximal ein Wert zugeordnet werden. (Dies ergibt sich auch aus der Unifikation.) Vollständigkeitsbedingung: Jede f-structure, die durch einen pred-Eintrag angefordert wird, muss existieren und dabei einen eigenen pred-Eintrag enthalten. Kohärenzbedingung: Jede regierbare grammatische Funktion, die auftritt muss von dem regierenden pred-Eintrag verlangt werden.

LFG – Wohlgeformtheitsbedingungen Computerlinguistik LFG – Wohlgeformtheitsbedingungen Vollständigkeitsbedingung und Kohärenzbedingung sind Subkategorisierungsbedingungen. Wird eine der Wohlgeformtheitsbedingungen verletzt, so ist der Satz nicht wohlgeformt (nach den vorliegenden Regeln).

Computerlinguistik LFG – a-structure c-structure constituent structure f-structure functional structure a-structure argument structure Die a-Structure wird durch das Einsetzen der pred-Einträge erstellt. „hand(( SUBJ)(OBJ2)( OBJ1))“) ( SUBJ PRED) = „clown“ ( OBJ2 PRED) = „balloon“ ( OBJ1 PRED) = „child“ hand(clown, balloon, child)

Computerlinguistik Literatur Bresnan, J. (2000). Lexical-Functional Syntax. Oxford, UK: Blackwell. Kaplan, R. & Bresnan, J. (1982). Lexical-Functional Grammar: A formal system for grammatical representation. In: Bresnan, J. (Ed.), The Mental Representation of Grammatical Relations. Cambridge, MA: MIT Press. Nachgedruckt in: Dalrymple, M., Kaplan, R.M., and Maxwell III, J.T. (Eds.), Formal Issues in Lexical-Functional Grammar. Stanford, CA: CSLI, 1995. Sells, P. (1985). Lectures on Contemporary Syntactic Theories (= CSLI Lecture Notes 3). Stanford, CA: CSLI. Shieber, S.M. (1986). An Introduction to Unification-Based Approaches to Grammar (= CSLI Lecture Notes 4). Stanford, CA: CSLI.

Computerlinguistik Inhalt der Vorlesung Einführung Methoden Parsing Tagging Ontologien Anwendungen Maschinelle Übersetzung Informationsextraktion Textanalyse Gesamtsystem

Maschinelle Übersetzung Computerlinguistik Maschinelle Übersetzung Bei der maschinellen Übersetzung unterscheiden wir (ältere) regelbasierte Verfahren, (neuere) statistikbasierte Verfahren und (noch neuere) hybride Verfahren.

Beispielbasierte Übersetzung Computerlinguistik Beispielbasierte Übersetzung Die beispielbasierte Übersetzung benötigt (wie alle statistischen Verfahren ) ein (umfangreiches) Korpus an Übersetzungsbeispielen. Beispiel: Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.

Beispielbasierte Übersetzung Computerlinguistik Beispielbasierte Übersetzung Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Wir suchen nun die Übersetzung von Heute verkehren keine Züge zwischen Köln und Frankfurt.

Beispielbasierte Übersetzung Computerlinguistik Beispielbasierte Übersetzung Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Heute verkehren keine Züge zwischen Köln und Frankfurt. Vandaag rijden geen treinen tussen Köln en Frankfurt. ??

Beispielbasierte Übersetzung Computerlinguistik Beispielbasierte Übersetzung Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Probleme: Wir benötigen jeweils relevantes Sprachmaterial. Wir müssen identifizieren, was einander entspricht (Alignment).

Beispielbasierte Übersetzung Computerlinguistik Beispielbasierte Übersetzung Alignment Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.

Beispielbasierte Übersetzung Computerlinguistik Beispielbasierte Übersetzung Alignment Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.

Beispielbasierte Übersetzung Computerlinguistik Beispielbasierte Übersetzung Korpus nigatsu jūsannichi 13. Februar nigatsu jūgonichi 15. Februar nigatsu nijūgonichi 25. Februar sangatsu jūsannichi 13. März sangatsu sanjūnichi 30. März Aufgabe ? 12. Mai

Computerlinguistik Literatur Hutchins, J. (2003). Machine Translation: General Overview. In: Mitkov (Ed.), The Oxford Handbook of Computational Linguistics. Mitkov, R. (2003). The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press. Somers, H. (2003). Machine Translation: Latest Developments. In: Mitkov (Ed.), The Oxford Handbook of Computational Linguistics.