Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Syntactic mismatches in machine translation Igor Melčuk, Leo Wanner Referentin: Hasti Feshangchi LMU München - CIS Proseminar Paraphrasenbegriff WS 2007/08.

Ähnliche Präsentationen


Präsentation zum Thema: "Syntactic mismatches in machine translation Igor Melčuk, Leo Wanner Referentin: Hasti Feshangchi LMU München - CIS Proseminar Paraphrasenbegriff WS 2007/08."—  Präsentation transkript:

1 Syntactic mismatches in machine translation Igor Melčuk, Leo Wanner Referentin: Hasti Feshangchi LMU München - CIS Proseminar Paraphrasenbegriff WS 2007/08

2 syntactic mismaches in machine translation2 Syntactic mismtaches : Ein zentrales Problem, das in der maschiniellen Übersetzung whärend der Übertragung von syntaktischen Struktur eines Satzes in der Ausgangssprache zu einer äquivalente Struktur in der Zielsprache auftaucht. Dieser Beitrag wird syntactic mismaches auf der Übertragungsebene(Tiefenstrukturebene) während der sentance to sentance maschiniellen Übersetzung im Rahmen eines paradigmatischen Transfer betrachten.

3 syntactic mismaches in machine translation3 Die Übertragung(Transfer) auf syntaktischen Ebene hat mit der Übertragung 3 grossen Arten der linguistischen Informationen zu tun: 1. Lexikal units( lexical transfer) 2. Grammemic transfer( inflectional meanings) 3. Syntactic constructions( syntactic transfer)

4 syntactic mismaches in machine translation4 Problem der syntactic mismaches: 1. Interlinguistische und intralinguistische Natur der syntactic mismaches. 2. Relevante Aspekte von theoretical framework: The Meaning-Text Theory(MTT).

5 syntactic mismaches in machine translation5 Arten der mismaches ( translation divergences) Dorr(1993,1994) 1. Themtic divergence: mismatches aufgrund der syntaktischen actant-permutation oder conversion. I like this picture. Mne navritsja èta kartina. Das englische syntaktische Subjekt I entspricht semantisch dem indirektem Objekt Mne im Russischen.

6 syntactic mismaches in machine translation6 2. demotional/promotional divergence: mismatches aufgrund der dependency Inversion oder head switsching. I just learnd that. Je viens de laapprendre. ( I COME FROM THAT TO-LEARN) Ich schwimme gern. I like swimming. Die adverbialbestimmung Modifikator in dem ersten Satz jedes Paares entspricht semantisch dem finiten Verb des zweiten Satzes.

7 syntactic mismaches in machine translation7 3. lexical conflational divergence: mismatches aufgrund lexeme-phrase substitution oder lexical fission/fussion. I stabbed John. Yo le di a John una puñalada. ( I TO-HIM GAVE TO JOHN A STAB) I like Mary. Ich habe Mary gern. Die verbale lexeme im ersten Satz vom jeden Paar entspricht einer verbalen Ausdruck im zweiten Satz.

8 syntactic mismaches in machine translation8 4. categorial divergence: Mismatches aufgrund part-of-speech Änderungen. I am hungry. Jai faim. (I HAVE HUNGER) Die gleiche Bedeutung wird durch ein Adjektiv im Englischen und ein Substantiv im Französischen zum Ausdruck gebracht.

9 syntactic mismaches in machine translation9 5.structural divergence: Mismatches aufgrund function-word introduction/elimination Je lirai. (I READ +fut+1st+person) I will read. He entered the room. Er trat in das Zimmer ein. (HE STEPPED IN THE ROOM IN) Die gleiche Bedeutung wird durch ein Aufix im Französischen und ein Auxiliary im Englischen, oder durch ein Verb ohne Präposition im Englischen und ein Verb mit Präposition, im Deutschen zum Ausdruck gebracht.

10 syntactic mismaches in machine translation10 Dorr's Typologie diente als Ausgangspunkt für eine Reihe von Untersuchungen über das Problem der syntactic mismatches im MT. Mit Hilfe dieser Typologie versucht man einen universellen Kalkül der syntactic mismatches zwischen den Sprachen zu entwickeln und eine Methode für seine Abgabe in einer einheitlichen Art und Weise vorzuschlagen.

11 syntactic mismaches in machine translation11 Die intra und inter-linguistische Natur der syntactic mismaches : Das Phänomen der syntaktischen mismatches ist so viel interlinguistik wie intralinguistik. In anderen Worten, äquivalente Strukturen innerhalb einer Sprache(Paraphrasen), zeigen mismaches von der gleichen Art wie die Art zwischen äquivalent syntaktische Strukturen zwischen zwei verschiedenen Sprachen.

12 syntactic mismaches in machine translation12 Intralinguistische Beispiele: 1. Actant conversion mismatch: Ich mag das Bild.- Mir gefällt das Bild. 2. Head-switching mismatch: Ich mag schwimmen.- Ich schwimme gern. 3. lexical fission/fusion mismatch: Ich schuss auf john.- Ich gab auf john einen Schuss ab.

13 syntactic mismaches in machine translation13 4. Part-of-Speech mismatch: Ich bin hungrig.-Ich hab Hunger. 5. Functional word introduction/elimination mismatch. a. Er las.- Er hat gelesen. b. Er betrat das Zimmer.- Er trat in das Zimmer ein. c. Ja budu sobiratsja zavtra.- Ja soberus zavtra.

14 syntactic mismaches in machine translation14 Deshalb können wir schließen, dass strukturelle mismatches zwischen semantisch äquivalenten Ausdrücken verschiedener Sprachen, einen bestimmten Fall von einem allgemeinen Phänomen repräsentieren: Die Gründung der Entsprechungen zwischen semantisch äquivalente aber strukturell (= syntaktisch) divergierende Ausdrücke ist nichts als paraphrasieren. Daher kann das Problem der structural mismaches im MT gelöst werden, indem einen allgemeinen Mechanismus zu paraphrasieren - sowohl intra- als auch interlinguistisch benutzt wird.

15 syntactic mismaches in machine translation15 MTT MTT bietet eine allgemeine intralinguistic paraphrasingsystem(Žolkovskij 1967; Melčuk 1974, pp 149, 1988b, 1992; Milicevic 2003). Diese paraphrasingsystem ist früher, unter anderen Systemen, von Sanromán vilas ua. (1999) und Apresjan ua. (Im Druck), intralinguistisch an der Quell-Sprache Seite benutzt worden, um die Quellsprache-Strukturen zu den Zielsprache- Strukturen anzupassen. Wir nehmen dieses System in unserem Konzept für die interlinguistische Auflösung von Quell- und Zielsprache Structure-mismaches.

16 syntactic mismaches in machine translation16 Die theoretischen Rahmen(theoretical framework) Angesichts der Komplexität der Aufgabe in MT, muss die Übertragungsphase so viel wie möglich verkürzt werden, und die intralinguistische Phenomene müssen an der Quell- Seite(=während der Analyse), oder an der Ziel-Seite(während der Synthese) behandelt werden. Die Ebene, auf der die Übertragung erfolg ist, ist in MTT die Tifensyntaktischen Struktur. Die TSyntS(DSyntS) ist abstrakt genug, um alle Arten von lexikalischen und syntaktischen divergences zu verhindern.

17 syntactic mismaches in machine translation17 General Schema der Übertragung

18 syntactic mismaches in machine translation18 Unser Ziel ist in diesem Beitrag ein zweifaches: (i) eine Beschreibung aller logisch möglichen Arten von syntactic missmaches (ii) zu definieren und zu zeigen, dass die Struktur der Universal-Transfer(paraphrasieren)-Regeln notwendig und ausreichend für die Zuordnung zwischen zwei beliebigen tief syntaktischen Strukturen sind, in denen mindestens ein mismatches zu finden ist. Der Vorschlag: Transfer als paraphrasieren

19 syntactic mismaches in machine translation19 The syntactic transfer engine(STE) Die Natur dieser Regeln setzt eine besondere Architektur des Übertragung-Motors voraus, die in der Lage ist, mit syntactic mismatches zwischen den TsyntS-en umgehen zu können.(der syntaktische Transfer Engine, STE).

20 syntactic mismaches in machine translation20 STE muss die folgenden drei Hauptkomponenten haben: 1. Formalisierte einsprachige "erklärende kombinatorische Wörterbücher"(ECDs) für die Sprachen. Diese Lexika sind unabhängig von dem Paar-Sprachen und neutraler, in dem Sinne, dass jeder kann entweder als eine Quell- oder eine Zielsprache lexikon benutzt werden. Sie beinhalten unter anderem die lexikalische co-occurrence Informationen der Sprache, die in Bezug auf die lexikalischen Funktionen sind. (LFs) (vgl. Ziff und Mel'fuk 1996 für eine detaillierte Einführung in die LFs).

21 syntactic mismaches in machine translation21 2. Eine Reihe von lexikalischen zweisprachigen Korrespondenz Indizes für die Sprachpaare. Eine zweisprachige lexikalische Index (BLI), die für jedes Paar von Sprachen spezifisch ist und eine neutrale Liste von Paaren der translationale equivalent-LUs von LS und LT darstellt. 3. Eine Reihe von Transfer-Paraphrasing-Regeln, die die Zuordnung zwischen equivalent-syntaktischen Strukturen von LS und LT durchführen.

22 syntactic mismaches in machine translation22 Bilingual lexikalische Index BLI ist grundsätzlich auf tiefe LUs der Sprach-Paare beteiligt. So, in der englischen Teil eines englischen BLI ist PAY nicht als in pay attention, sondern nur so beteiligt: ATTENTION:Pay ist eines der Elemente des Wertes LF Oper1 von ATTENTION. Weder enthält er LAUNCH noch ATTACK N wie in launch an attack, sondern nur ATTACK V : ATTACK N ist ein Element des Wertes LF S 0 auf ATTACK V. Und es ist weder HEAVY noch RAIN N wie in heavy rain, aber nur RAIN V.

23 syntactic mismaches in machine translation23 regular u. irregular Äquivalenze Lexikalische Äquivalenzen in einer BLI lassen sich in zwei großen Klassen aufteilen: "regular"Äquivalenze, die keine structural mismatches zeigen und können in Form von LU- Paare zum Ausdruck kommen, und "irregular"Äquivalenzen, die zu einer structural mismatches zeigen und eine spezifische Umwandlung erforderlich ist, um diese mismatches aufzulösen.

24 syntactic mismaches in machine translation24 regulär Äquivalenzen Mit Bezug auf die regulär lexikalische Äquivalenzen, sind wieder zwei Fälle zu unterscheiden : 1. LS hat mindestens eine semantisch voll passende Übersetzung, die LT entspricht. In diesem Fall erhält LS nur diese LT als seine Übersetzungsäquivalent und alle exakte und mehr spezielle Synonyme von LT sind nicht in der BLI, sondern in der Monolingual LT ECD zu finden, und werden bei der Synthese ausgesucht. Beispiel: (DEEP, PROFOND) (CHAIR1, CHAISE) (CHAIR2, CHAIRE)

25 syntactic mismaches in machine translation25 2. LS verfügt nicht über eine voll passende Übersetzungsäquivalent, aber ein oder mehrere semantisch nicht genau passende Übersetzungsäquivalente, die kreuzende Synonyme von einander sind. In diesem Fall, LS erhält alle diese Synonyme als seine Übersetzungsäquivalente. Beispiele: (ANSPRACHE, OBRAŠČENIE, PRIZYV, VOZZVANIE)

26 syntactic mismaches in machine translation26 irregulär Äquivalenzen Was als irregulär lexikalische Äquivalenzen betroffen sind, jede Übersetzungsäquivalenz ist von der Form (LS, LT, Ψ), wo Ψ ein LF ist. Ψ(LS)= LT - Auf diese Weise, bestimmt Ψ eindeutig die Art des mismaches, die durch die Übersetzung LS zu LT auftaucht und auch ihre Resolution. (Anti, Conv21 und //Adv1 sind LFs, deren Werte sich in der entsprechenden einsprachige ECDs befinden.) Beispiel: a. (SHALLOW, PROFOND, Anti) b. (LIKE, PLAIRE, Conv21) c. (SOLER, HABITUELLEMENT, //AdV1) Julie likes Paul. Paul plait à Julie. Maria suele leer. Maria lit habituellement. "Maria usually reads."

27 syntactic mismaches in machine translation27 Transfer- paraphrasierungsregeln Drei verschiedene Arten von Transfer- paraphrasierungsregeln sind zu unterscheiden: 1. Eine Reihe von elementaren lexikalischen Äquivalenzen ausgedrückt in der LFs. Sie sind universall. 2. Eine Reihe von elementaren syntaktischen Operationen, die den tief syntaktischen Baum in Zielsprache "durch die Anwendung einer lexikalischen Äquivalent darstellen. Die sind notwendig, um sicherzustellen, dass der Baum wohlgeformt und semantisch äquivalent zu dem tief syntaktischen Baum in Ausgangsprache ist. 3. Eine Reihe von syntaktischen Anpassungsoperationen, die sich um den Kontext kümmern.

28 syntactic mismaches in machine translation28 Definition von TsynS Ld, Gsem und Rdsynt sind drei disjunkten Alphabeten der TsyntS, wo Ld die Menge der tiefenlexikalischen Einheiten (LU), Gsem die Menge der semantischen grammemes und Rdsynt die Menge der tiefensyntaktischen Beziehungen ist. TsyntS ist eine Tupel über Ld U Gsem U Rdsynt.

29 syntactic mismaches in machine translation29 Ld: Deep lexical units (tiefenlexikalischen Einheiten): Die Menge der tiefen LUs von L enthält alle LUs ( Lexeme und Idiome) von L mit folgenden Ergänzungen und Eliminierungen. Ergänzungen: (i) LF Sombole, (ii) fiktive lexeme Eliminierungen: (i) strukturelle Wörter, (ii) Personalpronomen, (iii) Wert der LF -Eine analytische Form: have been paid PAYind, pass, pres, perf, non-progr. -Alle propositionen und konjunktionen werden weggelassen: Insists on departure: INSIST-ΙΙ DEPARTURE Quarrel between friends: QUARREL-Ι FRIENDS Know that she is sleeping: KNOW- ΙΙ SLEEPind, act, pres, non-perf, progr-Ι SHE

30 syntactic mismaches in machine translation30 -All Personalpronomen(3rd person) werden durch ihre References ersetzt: a. Taking the book, John put it on the table. b. Taking the book, John put THE BOOK on the table. -Ein Idiom wird als eine Knote repräsentiert: a. John got his second wind: JOHN Ι -[ GET- ONES- SECOND- WIND] b. John barks up the wrong tree: JOHN Ι -[BARK- UP- THE- WRONG- TREE ]

31 syntactic mismaches in machine translation31 LF LF lassen sich in zwei Arten aufteilen: Paradigmatische LF und syntagmatische LF Paradigmatische LF vertreten lexikosemantische Ableitungen( wie der Namen der Aktion, Prozess, etc.): Adverbial noun (S 0 ) The name of the actant of an action, State, process, etc. (S i ) The name of the characteristic property of the ith actant of an action, state, process, etc. (A i ) The name of a conversiv of L (Conv ij ) Syntagmatische LF: Magn, Operi, Reali, Son

32 syntactic mismaches in machine translation32

33 syntactic mismaches in machine translation33

34 syntactic mismaches in machine translation34 Der Wert eines syntagmatischen LF ist in den meisten Fällen zusammen mit L als einen syntaktischen Abhängigen oder gouvernor von L zum Ausdruck gebracht. Aber in einigen Fällen, ein Element der Wert von f(L) drückt den Sinn des LF f zusammen mit der Bedeutung von L. Ein solches Element wird als fused bezeichnet: Heavy= Magn(RAIN) Downpour= //Magn(RAIN) Spread=PreparReal 1 (BUTTER) Butter= //PreparLabreal 12 (BUTTER)

35 syntactic mismaches in machine translation35 In paradigmatischen LFs kann ein Lexem L1, der ein Element der Wert einer paradigmatischen LF f von dem Schlüsselwort L2 ist, in TsyntS durch die funktionale Notation ersetzt werden, nur wenn die drei folgenden Bedingungen gleichzeitig erfüllt sind: - f steht nicht für eine Synonym, eine Antonym oder ein konversiv. - Die Bedeutung von L1 ist die genaue zusammensetzung der Bedeutung von L2 und f. - Die Bedeutung von L1 und L2 ist gleich und L2 ist semantisch die Grundlage(Basis) von L1: V 0 (ATTACK N ) erscheint nicht in der TsyntS. Der Nomen Attack ist nicht semantisch der Basis von den Verb attack aber die umgekehrte Form ist schon richtig: S 0 (ATTACK V )

36 syntactic mismaches in machine translation36 Gsem: deep grammemes( tief-grammemes): Geschlecht, case, verbal Person und Numerus sind syntaktische grammemes und erscheinen nicht in OsyntS und TsyntS. RTsynt: deep- syntactic relation (tiefensyntaktischen Beziehungen): Die sechs actantial DsyntRels( Ι, ΙΙ,...,VΙ) Attributive TsyntRel(ATTR) Coordinative TsyntRel(COORD) Appenditive TsyntRel(APPEND)

37 syntactic mismaches in machine translation37 Vier lexikalischen Elemente der TsyntS, die nicht in der OsyntS erscheinen : Zero LUs (unpersönliche Pronomen):

38 syntactic mismaches in machine translation38 - LF Symbole - Elidierte Lus: DuermoI sleep erscheint in TsyntS als YOΙ-DORMIRind,pres,non-perf,non-progr - Fiktive LUs, die Bedeutungen durch syntaktischen Konstruktionen repräsentieren:

39 syntactic mismaches in machine translation39 Andere Tranfer-Repräsentationen Jackendoffs(1990) Lexical Conceptual Structures(LCS s ) LFGs f-structure (Bresnan 1982) Discourse Representation Theory (DRT)( Kamp und Reyle 1993; Reyle 1993) Situation Semantics(Barwise und Perry 1983)

40 syntactic mismaches in machine translation40 Beispiel von TsyntS:

41 syntactic mismaches in machine translation41

42 syntactic mismaches in machine translation42 Pseudo-mismatches: Pseudo mismatches aufgrund oberflächensyntaktischen Phänomene: Hilfsverben aller Art: LIREfut - Ι MOI READfut- Ι Ι (French) le loup THE WOLF (Romanian) lupul WOLF-def the wolf (English) more beautiful (German) schöner BEAUTIFUL-comp

43 syntactic mismaches in machine translation43 Präpositionen und Konjunktionen:

44 syntactic mismaches in machine translation44 Die Idiome(teilweise) Syntaktische Idiosyncrasies:

45 syntactic mismaches in machine translation45 2- Pseudo mismatches aufgrund eingeschränkten lexikalischen co-accurrence:


Herunterladen ppt "Syntactic mismatches in machine translation Igor Melčuk, Leo Wanner Referentin: Hasti Feshangchi LMU München - CIS Proseminar Paraphrasenbegriff WS 2007/08."

Ähnliche Präsentationen


Google-Anzeigen