Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

© Fraunhofer FKIE Computerlinguistik apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie

Ähnliche Präsentationen


Präsentation zum Thema: "© Fraunhofer FKIE Computerlinguistik apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie"—  Präsentation transkript:

1 © Fraunhofer FKIE Computerlinguistik apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie 8. Vorlesung ( )

2 © Fraunhofer FKIE Computerlinguistik Einführung Methoden Parsing Tagging Ontologien Anwendungen Maschinelle Übersetzung Informationsextraktion Textanalyse Gesamtsystem Inhalt der Vorlesung

3 © Fraunhofer FKIE Computerlinguistik HPSG und LFG sind unifikationsbasierte Grammatiktheorien. Unifikation ist eine (mathematische) Operation auf so genannten Merkmal-Wert-Matrizen. Die mathematische Theorie, die der Unifikation zugrunde liegt, ist die Gittertheorie. Unifikation

4 © Fraunhofer FKIE Computerlinguistik Merkmal-Wert-Matrizen sind Mengen von Paaren. Das erste Element eines solchen Paares ist das Merkmal (Attribute oder Feature); das zweite der Wert (Value). Merkmale sind atomar. Werte sind entweder atomar oder ihrerseits Merkmal-Wert- Matrizen. Jedem Merkmal in einer Matrix ist höchstens ein Wert zugeordnet. Unifikation

5 © Fraunhofer FKIE Computerlinguistik Beispiel: cat: nomen pred: clown agreement: kasus: nominativ numerus: singular genus: maskulin person: 3 Unifikation Der Wert des Merkmals agreement Ist eine Matrix.

6 © Fraunhofer FKIE Computerlinguistik Weil Merkmal-Wert-Matrizen Mengen sind, ist die Anordnung der Merkmal-Wert-Paare in der Matrix irrelevant. kasus: nominativ numerus: singular numerus: singular kasus: nominativ Unifikation ist identisch zu

7 © Fraunhofer FKIE Computerlinguistik Jedem Merkmal in einer Matrix ist höchstens ein Wert zugeordnet. pred: das kasus: nominativ kasus: akkusativ numerus: singular genus: neutrum Unifikation ist nicht erlaubt.

8 © Fraunhofer FKIE Computerlinguistik Unifikation bedeutet das Verschmelzen zweier Merkmal-Wert- Matrizen zu einer einzigen, welche alle Informationen der ursprünglichen Matrizen vereint.pred: das kas: nom num: sg =kas: nom num: sg gen: neutr num: sg gen: neutr Unifikation Nochmals: Die Reihenfolge der Paare ist egal!

9 © Fraunhofer FKIE Computerlinguistik Unifikation bedeutet das Verschmelzen zweier Merkmal-Wert- Matrizen zu einer einzigen, welche alle Informationen der ursprünglichen Matrizen vereint. Sind die Informationen nicht vereinbar, schlägt die Unifikation fehl. pred: das kas: nom num: pl =fail num: sg gen: neutr Unifikation

10 © Fraunhofer FKIE Computerlinguistik Unifikation bedeutet das Verschmelzen zweier Merkmal-Wert- Matrizen zu einer einzigen, welche alle Informationen der ursprünglichen Matrizen vereint. Sind die Informationen nicht vereinbar, schlägt die Unifikation fehl. spec: cat: det head: cat: n spec: cat: det pred: der pred: bus = pred: der head: cat: n pred: bus Unifikation

11 © Fraunhofer FKIE Computerlinguistik Formale Definition der Unifikation: Sei M eine Merkmal-Wert-Matrix. M M = M für alle M M [ ] = M für alle M; [ ] ist die leere Matrix. Unifikation

12 © Fraunhofer FKIE Computerlinguistik Formale Definition der Unifikation: Merkmal1: Wert1 Merkmal1: Wert2Merkmal1: Wert3 Restmatrix1 Restmatrix2Restmatrix3 mit Wert3 = Wert1, falls Wert1 atomar und Wert2 = Wert1 mit Wert3 = Wert1 Wert2, falls Wert1 Matrix und mit Restmatrix3 = Restmatrix1 Restmatrix2 Unifikation =

13 © Fraunhofer FKIE Computerlinguistik Formale Definition der Unifikation: Merkmal1: Wert1 Merkmal1: Wert1 Restmatrix1 Restmatrix3 mit Restmatrix3 = Restmatrix1 Matrix2, falls kein Merkmal-Wert-Paar mit Merkmal1 in Matrix2 enthalten ist. Unifikation = Matrix2

14 © Fraunhofer FKIE Computerlinguistik Formale Definition der Unifikation: Falls keiner der genannten Fälle zum Erfolg führt, misslingt die Unifikation. Anmerkung: Unifikation ist kommutativ. Unifikation M1 M2 = M2 M1

15 © Fraunhofer FKIE Computerlinguistik Syntax ist lexikongesteuert. Satz c-structure f-structure a-structure LFG – Credo LEXIKON Wohlgeformtheitsbedingungen Einzigartigkeitsbedingung Vollständigkeitsbedingung Kohärenzbedingung Phrasenstrukturregeln X-Theorie Prinzipien der f-structure Assoziation

16 © Fraunhofer FKIE Computerlinguistik X-Theorie LFG X (head)XX (Phrase) NNNP VVVP PPPP Adj AdjP -SS In der LFG haben Sätze keinen head.

17 © Fraunhofer FKIE Computerlinguistik LFG – Phrasenstrukturregeln In der LFG sind die Regeln mit Funktionsschemata annotiert: S NPVP ( SUBJ = ) = VP VNPNP ( OBJ1 = ) ( Obj2 = ) NP DET N Die Metavariablen (down) und (up) dienen dem Aufbau der f-structure aus der c-structure.

18 © Fraunhofer FKIE Computerlinguistik LFG – Phrasenstrukturregeln Die Metavariablen (down) und (up) dienen dem Aufbau der f-structure aus der c-structure. (up) verweist auf die f-structure des Mutterknotens. (down) verweist auf die f-structure des Knotens selbst. (Beispiel folgt.)

19 © Fraunhofer FKIE Computerlinguistik LFG – Lexikon Quelltext: A clown handed the child a balloon. LFG-Lexikon (Vollformlexikon): handed: V( TENSE = Past) ( PRED = hand(( SUBJ)( OBJ2)( OBJ1))) clown: N( NUM = SG) ( PRED = clown) child: N( NUM = SG) ( PRED = child)

20 © Fraunhofer FKIE Computerlinguistik LFG – Lexikon Quelltext: A clown handed the child a balloon. LFG-Lexikon: balloon: N( NUM = SG) ( PRED = balloon) a: DET( NUM = SG) ( SPEC = INDEF) the: DET( SPEC = DEF)

21 © Fraunhofer FKIE Computerlinguistik LFG – c-structure S NP clown VP N handed V balloonachildthea DET NP NDET NP NDET

22 © Fraunhofer FKIE Computerlinguistik LFG – c-structure annotiert S NP clown VP N handed V balloonachildthea DET NP NDET NP NDET SUBJ = = SPEC = INDEF NUM = SG PRED = clown NUM = SG ( TENSE = PAST) ( PRED = hand(( SUBJ)( OBJ2)( OBJ1))) SPEC = INDEF NUM = SG SPEC = DEF PRED = child NUM = SG PRED = balloon NUM = SG OBJ1 = OBJ2 =

23 © Fraunhofer FKIE Computerlinguistik LFG – f-structure S NP clown VP N handed V balloonachildthea DET NP NDET NP NDET Aufbau der f-structure f1 f2 f3 f4f5

24 © Fraunhofer FKIE Computerlinguistik LFG – f-structure Aufbau der f-structure: Die funktionalen Gleichungen (f2 SPEC) = INDEF (f5 NUM) = SG (f2 NUM) = SG(f5 NUM) = SG (f2 NUM) = SG(f5 PRED) = balloon (f2 PRED) = clown(f1 SUBJ) = f2 (f3 TENSE) = PASTf1 = f3 (f3 PRED) = hand(( SUBJ)( OBJ2)( OBJ1)))(f3 OBJ1) = f4 (f4 SPEC) = DEF(f3 OBJ2) = f5 (f4 NUM) = SG (f4 PRED) = child (f5 SPEC) = INDEF

25 © Fraunhofer FKIE Computerlinguistik LFG – f-structure Aufbau der f-structure: die Merkmal-Wert-Matrizen f1f1, f3 SUBJ: f2 OBJ1: f4 f1, f3 OBJ2: f5 usw. (Tafel)

26 © Fraunhofer FKIE Computerlinguistik LFG – Wohlgeformtheitsbedingungen Einzigartigkeitsbedingung: Jedem Merkmal darf maximal ein Wert zugeordnet werden. (Dies ergibt sich auch aus der Unifikation.) Vollständigkeitsbedingung: Jede f-structure, die durch einen pred-Eintrag angefordert wird, muss existieren und dabei einen eigenen pred-Eintrag enthalten. Kohärenzbedingung: Jede regierbare grammatische Funktion, die auftritt muss von dem regierenden pred-Eintrag verlangt werden.

27 © Fraunhofer FKIE Computerlinguistik LFG – Wohlgeformtheitsbedingungen Vollständigkeitsbedingung und Kohärenzbedingung sind Subkategorisierungsbedingungen. Wird eine der Wohlgeformtheitsbedingungen verletzt, so ist der Satz nicht wohlgeformt (nach den vorliegenden Regeln).

28 © Fraunhofer FKIE Computerlinguistik LFG – a-structure c-structureconstituent structure f-structurefunctional structure a-structureargument structure Die a-Structure wird durch das Einsetzen der pred-Einträge erstellt. hand(( SUBJ)( OBJ2)( OBJ1))) ( SUBJ PRED) = clown ( OBJ2 PRED) = balloon ( OBJ1 PRED) = child hand(clown, balloon, child)

29 © Fraunhofer FKIE Literatur Computerlinguistik Bresnan, J. (2000). Lexical-Functional Syntax. Oxford, UK: Blackwell. Kaplan, R. & Bresnan, J. (1982). Lexical-Functional Grammar: A formal system for grammatical representation. In: Bresnan, J. (Ed.), The Mental Representation of Grammatical Relations. Cambridge, MA: MIT Press. Nachgedruckt in: Dalrymple, M., Kaplan, R.M., and Maxwell III, J.T. (Eds.), Formal Issues in Lexical-Functional Grammar. Stanford, CA: CSLI, Sells, P. (1985). Lectures on Contemporary Syntactic Theories (= CSLI Lecture Notes 3). Stanford, CA: CSLI. Shieber, S.M. (1986). An Introduction to Unification-Based Approaches to Grammar (= CSLI Lecture Notes 4). Stanford, CA: CSLI.

30 © Fraunhofer FKIE Computerlinguistik Einführung Methoden Parsing Tagging Ontologien Anwendungen Maschinelle Übersetzung Informationsextraktion Textanalyse Gesamtsystem Inhalt der Vorlesung

31 © Fraunhofer FKIE Computerlinguistik Bei der maschinellen Übersetzung unterscheiden wir (ältere) regelbasierte Verfahren, (neuere) statistikbasierte Verfahren und (noch neuere) hybride Verfahren. Maschinelle Übersetzung

32 © Fraunhofer FKIE Computerlinguistik Die beispielbasierte Übersetzung benötigt (wie alle statistischen Verfahren ) ein (umfangreiches) Korpus an Übersetzungsbeispielen. Beispiel: Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Beispielbasierte Übersetzung

33 © Fraunhofer FKIE Computerlinguistik Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Wir suchen nun die Übersetzung von Heute verkehren keine Züge zwischen Köln und Frankfurt. Beispielbasierte Übersetzung

34 © Fraunhofer FKIE Computerlinguistik Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Heute verkehren keine Züge zwischen Köln und Frankfurt. Vandaag rijden geen treinen tussen Köln en Frankfurt. ?? Beispielbasierte Übersetzung

35 © Fraunhofer FKIE Computerlinguistik Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Probleme: Wir benötigen jeweils relevantes Sprachmaterial. Wir müssen identifizieren, was einander entspricht (Alignment). Beispielbasierte Übersetzung

36 © Fraunhofer FKIE Computerlinguistik Alignment Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Beispielbasierte Übersetzung

37 © Fraunhofer FKIE Computerlinguistik Alignment Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Beispielbasierte Übersetzung

38 © Fraunhofer FKIE Computerlinguistik Korpus nigatsu jūsannichi13. Februar nigatsu jūgonichi15. Februar nigatsu nijūgonichi25. Februar sangatsu jūsannichi13. März sangatsu sanjūnichi30. März Aufgabe ?12. Mai Beispielbasierte Übersetzung

39 © Fraunhofer FKIE Literatur Computerlinguistik Hutchins, J. (2003). Machine Translation: General Overview. In: Mitkov (Ed.), The Oxford Handbook of Computational Linguistics. Mitkov, R. (2003). The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press. Somers, H. (2003). Machine Translation: Latest Developments. In: Mitkov (Ed.), The Oxford Handbook of Computational Linguistics.


Herunterladen ppt "© Fraunhofer FKIE Computerlinguistik apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie"

Ähnliche Präsentationen


Google-Anzeigen