Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

für Kommunikation, Informationstechnik und Ergonomie

Ähnliche Präsentationen


Präsentation zum Thema: "für Kommunikation, Informationstechnik und Ergonomie"—  Präsentation transkript:

1 für Kommunikation, Informationstechnik und Ergonomie
Computerlinguistik 8. Vorlesung ( ) apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie

2 Computerlinguistik Inhalt der Vorlesung Einführung Methoden Parsing
Tagging Ontologien Anwendungen Maschinelle Übersetzung Informationsextraktion Textanalyse Gesamtsystem

3 Computerlinguistik Unifikation HPSG und LFG sind unifikationsbasierte Grammatiktheorien. Unifikation ist eine (mathematische) Operation auf so genannten Merkmal-Wert-Matrizen. Die mathematische Theorie, die der Unifikation zugrunde liegt, ist die Gittertheorie.

4 Computerlinguistik Merkmal-Wert-Matrizen sind Mengen von Paaren.
Unifikation Merkmal-Wert-Matrizen sind Mengen von Paaren. Das erste Element eines solchen Paares ist das Merkmal („Attribute“ oder „Feature“); das zweite der Wert („Value“). Merkmale sind atomar. Werte sind entweder atomar oder ihrerseits Merkmal-Wert-Matrizen. Jedem Merkmal in einer Matrix ist höchstens ein Wert zugeordnet.

5 Computerlinguistik Beispiel: cat: nomen pred: „clown“
Unifikation Beispiel: cat: nomen pred: „clown“ agreement: kasus: nominativ numerus: singular genus: maskulin person: 3 Der Wert des Merkmals „agreement“ Ist eine Matrix.

6 Computerlinguistik Unifikation Weil Merkmal-Wert-Matrizen Mengen sind, ist die Anordnung der Merkmal-Wert-Paare in der Matrix irrelevant. kasus: nominativ numerus: singular numerus: singular kasus: nominativ ist identisch zu

7 Computerlinguistik Unifikation Jedem Merkmal in einer Matrix ist höchstens ein Wert zugeordnet. pred: „das“ kasus: nominativ kasus: akkusativ numerus: singular genus: neutrum ist nicht erlaubt.

8 Computerlinguistik Unifikation Unifikation bedeutet das Verschmelzen zweier Merkmal-Wert-Matrizen zu einer einzigen, welche alle Informationen der ursprünglichen Matrizen vereint. pred: „das“ pred: „das“ kas: nom num: sg = kas: nom num: sg gen: neutr num: sg gen: neutr Nochmals: Die Reihenfolge der Paare ist „egal“!

9 Computerlinguistik Unifikation Unifikation bedeutet das Verschmelzen zweier Merkmal-Wert-Matrizen zu einer einzigen, welche alle Informationen der ursprünglichen Matrizen vereint. Sind die Informationen nicht vereinbar, schlägt die Unifikation fehl. pred: „das“ kas: nom num: pl = fail num: sg gen: neutr

10 Computerlinguistik Unifikation Unifikation bedeutet das Verschmelzen zweier Merkmal-Wert-Matrizen zu einer einzigen, welche alle Informationen der ursprünglichen Matrizen vereint. Sind die Informationen nicht vereinbar, schlägt die Unifikation fehl. spec: cat: det head: cat: n spec: cat: det pred: „der“ pred: „bus“ = pred: „der“ head: cat: n pred: „bus“

11 Computerlinguistik Formale Definition der Unifikation:
Sei M eine Merkmal-Wert-Matrix. M M = M für alle M M [ ] = M für alle M; [ ] ist die „leere“ Matrix.

12 Computerlinguistik Formale Definition der Unifikation:
Merkmal1: Wert Merkmal1: Wert2 Merkmal1: Wert3 Restmatrix Restmatrix2 Restmatrix3 mit Wert3 = Wert1, falls Wert1 atomar und Wert2 = Wert1 mit Wert3 = Wert1 Wert2, falls Wert1 Matrix und mit Restmatrix3 = Restmatrix1 Restmatrix2 =

13 Computerlinguistik Formale Definition der Unifikation:
Merkmal1: Wert Merkmal1: Wert1 Restmatrix Restmatrix3 mit Restmatrix3 = Restmatrix Matrix2 , falls kein Merkmal-Wert-Paar mit Merkmal1 in Matrix2 enthalten ist. Matrix2 =

14 Computerlinguistik M1 M2 = M2 M1 Formale Definition der Unifikation:
Falls keiner der genannten Fälle zum Erfolg führt, misslingt die Unifikation. Anmerkung: Unifikation ist kommutativ. M M2 = M M1

15 Computerlinguistik Syntax ist lexikongesteuert.
LFG – „Credo“ Syntax ist lexikongesteuert. Satz  c-structure  f-structure  a-structure Wohlgeformtheitsbedingungen Einzigartigkeitsbedingung Vollständigkeitsbedingung Kohärenzbedingung LEXIKON Phrasenstrukturregeln X‘-Theorie Prinzipien der f-structure Assoziation

16 Computerlinguistik X‘-Theorie X (head) X‘ X‘‘ (Phrase) N N‘ NP V V‘ VP
LFG X‘-Theorie X (head) X‘ X‘‘ (Phrase) N N‘ NP V V‘ VP P P‘ PP Adj Adj‘ AdjP - S S‘ In der LFG haben Sätze keinen „head“.

17 LFG – Phrasenstrukturregeln
Computerlinguistik LFG – Phrasenstrukturregeln In der LFG sind die Regeln mit Funktionsschemata annotiert: S  NP VP (SUBJ = )  =  VP V NP NP (OBJ1 = ) (Obj2 = ) NP DET N Die Metavariablen  (down) und  (up) dienen dem Aufbau der f-structure aus der c-structure.

18 LFG – Phrasenstrukturregeln
Computerlinguistik LFG – Phrasenstrukturregeln Die Metavariablen  (down) und  (up) dienen dem Aufbau der f-structure aus der c-structure. (up) verweist auf die f-structure des Mutterknotens. (down) verweist auf die f-structure des Knotens selbst. (Beispiel folgt.)

19 Computerlinguistik LFG – Lexikon
Quelltext: A clown handed the child a balloon. LFG-Lexikon (Vollformlexikon): handed: V ( TENSE = Past) ( PRED = „hand(( SUBJ)(OBJ2)( OBJ1))“) clown: N ( NUM = SG) ( PRED = „clown“) child: N ( NUM = SG) ( PRED = „child“)

20 Computerlinguistik LFG – Lexikon
Quelltext: A clown handed the child a balloon. LFG-Lexikon: balloon: N ( NUM = SG) ( PRED = „balloon“) a: DET ( NUM = SG) ( SPEC = INDEF) the: DET ( SPEC = DEF)

21 Computerlinguistik LFG – c-structure S VP NP NP NP V DET N DET N DET N
a clown handed the child a balloon

22 Computerlinguistik LFG – c-structure annotiert S VP NP NP NP V DET N
 =  VP SUBJ =  NP NP OBJ1 =  NP OBJ2 =  V DET N DET N ( TENSE = PAST) ( PRED = „hand(( SUBJ)(OBJ2)( OBJ1))“) DET N SPEC = INDEF NUM = SG SPEC = INDEF NUM = SG SPEC = DEF a clown handed the child a balloon PRED = „clown“ NUM = SG PRED = „child“ NUM = SG PRED = „balloon“ NUM = SG

23 Computerlinguistik LFG – f-structure Aufbau der f-structure S f1 f3 VP
NP NP f4 NP f5 V DET N DET N DET N a clown handed the child a balloon

24 Computerlinguistik LFG – f-structure
Aufbau der f-structure: Die funktionalen Gleichungen (f2 SPEC) = INDEF (f5 NUM) = SG (f2 NUM) = SG (f5 NUM) = SG (f2 NUM) = SG (f5 PRED) = „balloon“ (f2 PRED) = „clown“ (f1 SUBJ) = f2 (f3 TENSE) = PAST f1 = f3 (f3 PRED) = „hand(( SUBJ)(OBJ2)( OBJ1))“) (f3 OBJ1) = f4 (f4 SPEC) = DEF (f3 OBJ2) = f5 (f4 NUM) = SG (f4 PRED) = „child“ (f5 SPEC) = INDEF

25 Computerlinguistik LFG – f-structure
Aufbau der f-structure: die Merkmal-Wert-Matrizen f1 f1, f3 SUBJ: f2 OBJ1: f4 f1, f3 OBJ2: f5 usw. (Tafel)

26 LFG – Wohlgeformtheitsbedingungen
Computerlinguistik LFG – Wohlgeformtheitsbedingungen Einzigartigkeitsbedingung: Jedem Merkmal darf maximal ein Wert zugeordnet werden. (Dies ergibt sich auch aus der Unifikation.) Vollständigkeitsbedingung: Jede f-structure, die durch einen pred-Eintrag angefordert wird, muss existieren und dabei einen eigenen pred-Eintrag enthalten. Kohärenzbedingung: Jede regierbare grammatische Funktion, die auftritt muss von dem regierenden pred-Eintrag verlangt werden.

27 LFG – Wohlgeformtheitsbedingungen
Computerlinguistik LFG – Wohlgeformtheitsbedingungen Vollständigkeitsbedingung und Kohärenzbedingung sind Subkategorisierungsbedingungen. Wird eine der Wohlgeformtheitsbedingungen verletzt, so ist der Satz nicht wohlgeformt (nach den vorliegenden Regeln).

28 Computerlinguistik LFG – a-structure c-structure constituent structure
f-structure functional structure a-structure argument structure Die a-Structure wird durch das Einsetzen der pred-Einträge erstellt. „hand(( SUBJ)(OBJ2)( OBJ1))“) ( SUBJ PRED) = „clown“ ( OBJ2 PRED) = „balloon“ ( OBJ1 PRED) = „child“ hand(clown, balloon, child)

29 Computerlinguistik Literatur
Bresnan, J. (2000). Lexical-Functional Syntax. Oxford, UK: Blackwell. Kaplan, R. & Bresnan, J. (1982). Lexical-Functional Grammar: A formal system for grammatical representation. In: Bresnan, J. (Ed.), The Mental Representation of Grammatical Relations. Cambridge, MA: MIT Press. Nachgedruckt in: Dalrymple, M., Kaplan, R.M., and Maxwell III, J.T. (Eds.), Formal Issues in Lexical-Functional Grammar. Stanford, CA: CSLI, 1995. Sells, P. (1985). Lectures on Contemporary Syntactic Theories (= CSLI Lecture Notes 3). Stanford, CA: CSLI. Shieber, S.M. (1986). An Introduction to Unification-Based Approaches to Grammar (= CSLI Lecture Notes 4). Stanford, CA: CSLI.

30 Computerlinguistik Inhalt der Vorlesung Einführung Methoden Parsing
Tagging Ontologien Anwendungen Maschinelle Übersetzung Informationsextraktion Textanalyse Gesamtsystem

31 Maschinelle Übersetzung
Computerlinguistik Maschinelle Übersetzung Bei der maschinellen Übersetzung unterscheiden wir (ältere) regelbasierte Verfahren, (neuere) statistikbasierte Verfahren und (noch neuere) hybride Verfahren.

32 Beispielbasierte Übersetzung
Computerlinguistik Beispielbasierte Übersetzung Die beispielbasierte Übersetzung benötigt (wie alle statistischen Verfahren ) ein (umfangreiches) Korpus an Übersetzungsbeispielen. Beispiel: Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.

33 Beispielbasierte Übersetzung
Computerlinguistik Beispielbasierte Übersetzung Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Wir suchen nun die Übersetzung von Heute verkehren keine Züge zwischen Köln und Frankfurt.

34 Beispielbasierte Übersetzung
Computerlinguistik Beispielbasierte Übersetzung Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Heute verkehren keine Züge zwischen Köln und Frankfurt. Vandaag rijden geen treinen tussen Köln en Frankfurt. ??

35 Beispielbasierte Übersetzung
Computerlinguistik Beispielbasierte Übersetzung Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse. Probleme: Wir benötigen jeweils relevantes Sprachmaterial. Wir müssen identifizieren, was einander entspricht (Alignment).

36 Beispielbasierte Übersetzung
Computerlinguistik Beispielbasierte Übersetzung Alignment Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.

37 Beispielbasierte Übersetzung
Computerlinguistik Beispielbasierte Übersetzung Alignment Wegens een ontsporing in Duitsland rijden er vandaag geen ICE-treinen tussen Nederland en Duitsland. Tussen Arnhem en Emmerich rijden treinvervangende bussen. Wegen einer Entgleisung in Deutschland verkehren heute keine ICE-Zügen zwischen den Niederlanden und Deutschland. Zwischen Arnheim und Emmerich verkehren Ersatzbusse.

38 Beispielbasierte Übersetzung
Computerlinguistik Beispielbasierte Übersetzung Korpus nigatsu jūsannichi 13. Februar nigatsu jūgonichi 15. Februar nigatsu nijūgonichi 25. Februar sangatsu jūsannichi 13. März sangatsu sanjūnichi 30. März Aufgabe ? Mai

39 Computerlinguistik Literatur
Hutchins, J. (2003). Machine Translation: General Overview. In: Mitkov (Ed.), The Oxford Handbook of Computational Linguistics. Mitkov, R. (2003). The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press. Somers, H. (2003). Machine Translation: Latest Developments. In: Mitkov (Ed.), The Oxford Handbook of Computational Linguistics.


Herunterladen ppt "für Kommunikation, Informationstechnik und Ergonomie"

Ähnliche Präsentationen


Google-Anzeigen