Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003.

Slides:



Advertisements
Ähnliche Präsentationen
Vorlesung Compilertechnik Sommersemester 2008
Advertisements

Semantik und Wissensrepräsentation
Teil 9 Lexical Functional Grammar (2) Übung
Lexikalisch-Funktionale-Grammatik
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Zum Nutzen der kontrastiven Linguistik
Maschinelle Übersetzung I
Dissimilation und ihre Bedeutung für den diachronen Lautwandel
Was ist die artikulatorische Grundlage von Locus-Gleichungen? Hauptseminar: Modelle der Sprachproduktion & - perzeption Dozent: Prof. Dr. Jonathan Harrington.
HTML - Eine erste Annäherung
1 Ein Computermodell zur Bestimmung von Begriffstypen Christof Rumpf Heinrich-Heine-Universität Tag der Forschung
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger
Sprachkonstruktion I Konstruktion einer neuen Sprache Einladung zu einem Sprachexperiment Sie sind eingeladen, sich an einem Sprachexperiment zu beteiligen.
SYSTRAN Information and translation technologies.
Grammatik als Deduktionssystem
Lexikalisch-Funktionale-Grammatik
Einführung in die Syntax
NP-Bewegung & wh-Bewegung
Lexikalisch-Funktionale Grammatik
Lexikalisch-Funktionale Grammatik
Seminar: Verteilte Datenbanken
Was bedeutet "Weiche drei schalten"?
Teil 8 Lexical Functional Grammar Einführung
Semantik und Pragmatik Übung 4 Fragment 2 Skopusambiguitäten Frank Schilder.
Semantische Sprachverarbeitung Vorlesung 7 Diskursrepräsentationstheorie.
IMSLex – ein NLP Lexikon
Die Registervariablen: Mode of Discourse
Die verschiedenen Arten von Dependenzen zwischen Wordformen Ludwig-Maximilians-Universität München Hauptseminar: Syntaxanalyse des Russischen im maschinellen.
Grundelemente der Dependenzsyntax
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
Semesterplan Grammatikschreibung des Deutschen
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
VALENZ: Das Vollverb (VV) beäug fordert zwei Ergänzungen x und y
alle Nomen haben einen Artikel und werden groß geschrieben
Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.
© Wortstellung im Deutschen Norbert Fries.
AE Goldberg, Trends in Cognitive Sciences 2003
Thema: Die Phrasenstrukturgrammatik
Wortbildung: Grundlagen, Klassen von Affixen
Übung zu Einführung in die LDV I
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Elternabend der Schule … vom …
Why Connectionism? Friedrich & Assadollahi. Satz Fritz geht nach Hause.
Teil II: Phrasen und Phrasenstruktur
Informatik Formale Sprachen 1.2 Grammatiken formaler Sprachen
KLASSIFIZIERUNG DER VERBEN NACH MORPHOLOGISCHEN KRITERIEN
Tasks UNDERSTAND KNOW COMPREHEND know comprehend understandit ž, n, d, c, r, s, t, a, n, d w, t žn dcr stan dwt [žn] – [dcr] – [stan] – [dwt] SELECTION.
Mensch – Maschine - Kommunikation
Äquivalenz.
7. Formale Sprachen und Grammatiken
EINFÜHRUNG IN DIE MORPHOLOGIE Morphologie = Formenlehre
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Wortarten Verben - veränderbare (flektierbare) Wortart, die eine Tätigkeit, ein Geschehen, einen Vorgang oder einen Zustand bezeichnet - konjugierbar.
Funktionale Unifikations-Grammatik (FUG)   Hauptmerkmale der FUG.
Grammatik als Deduktionssystem Theorie, Grammatik, Grammatiktheorie Grammatik Sprache Hypothese Sprachtheorie Theorie Erklärung Theoretisches Konstrukt.
Funktionale Unifikations-Grammatik (FUG)  Hauptmerkmale der FUG.
Lexikalisch-Funktionale Grammatik   Kontrollphänomene   Funktionale Kontrolle   Anaphorische Kontrolle.
Lexikalisch-Funktionale Grammatik   Subsumption   Unifikation   Von der K-Struktur zur F-Struktur.
Lexikalisch-Funktionale-Grammatik  Formaler Aufbau der F-Strukturen  Funktionale Beschreibungen  Funktionale Annotationen  Von der K-Struktur zur F-Struktur.
Merkmale und Merkmalstrukturen
Einführung in die Syntax
Der PATR II Formalismus
Lexikalische Semantik
Academic writing in German Deutsche Wissenschaftssprache Transition Module 5a developed by Elisabeth Wielander.
VORLESUNG 1 Sprachbau Sememe Sätze Redeteilen Wortformen Wortgruppe Morpheme (Begriffe)
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
Lerndesignarbeit: WAS – WIE sichtbarmachen – WER – WIE - Das Ziel ist das Ziel. Viele Wege führen nach Rom. Lern- & Lehr- prozesse vom Ende her ZIEL START.
VALENZ: Das Vollverb (VV) beäug fordert zwei Ergänzungen x und y
 Präsentation transkript:

Distributed Language Translation Referat im Kurs Übersetzung durch Mensch und Maschine an der Universität Bremen Referentin: Carolin Hinz 15. Januar 2003

Gliederung Allgemeines Entwicklungsgeschichte linguistische Grundlagen Übersetzungsprozess Zusammenfassung Literatur

Allgemeines Entwickelt von der Softwarefirma BSO (Buro voor Systemontwikkeling) in Utrecht/Holland Interlinguasystem linguistische Grundlagen: Dependenzgrammatik und Esperanto als Interlingua Software wurde in Prolog entwickelt System lief auf Sun-Rechnern unter dem Betriebssystem Unix modulares System Übersetzungsprozess ist auf mehrere Terminal verteilt: distributed

Entwicklungsgeschichte 1979: Beginn erster Untersuchungen durch A.P.M. (Toon) Witkam 1983: Veröffentlichung einer Studie zur Durchführbarkeit 1985: 6-Jahresvertrag mit dem niederländischen Finanzministerium Ziel: Erstellung eines Prototyps bis 1987 und einer marktfähigen Version bis : Vorstellung des ersten Prototyps: Übersetzung von einer vereinfachter Form des Englischen (Simplified English) in Französisch 1991: Trotz langfristiger Planungen plötzliches Einstellen des Projektes

Linguistische Grundlagen 1: Dependenzgrammatik Dependenz = Abhängigkeitsverhältnis zwischen fakultativen und obligatorischen Bestandteilen eines Satzes Kopf = obligatorischer Bestandteil einer Konstituente Dependens = fakultativer oder abhängiger Bestandteil Verbzentrierung: Man nimmt an, dass alle Satzglieder vom finiten Verb desselben Satzes unmittelbar oder mittelbar abhängen

Linguistische Grundlagen I: Dependenzgrammatik Wenn ein Kopf festlegt, welche Wortform sein Dependens haben darf, dann ist dies ein Indiz dafür, dass der Kopf das Dependens regiert. Diese Wirkung nennt man Rektion. Das regierende Element wird oft als Regens, das regierte als Rectum bezeichnet. Metataxis: kontrastive Syntaxregeln, um einen Dependenzbaum einer Sprache in einen equivalenten Baum in einer anderen Sprache zu transformieren

Linguistische Grundlagen II: Esperanto Plansprache, die zum Einsatz als internationale Verkehrssprache von Ludovic Lazar Zamenhof 1887 konstruiert wurde Esperantobewegung große Sprachgemeinschaft durch verbreiteten Gebrauch über längere Zeit sprachliche Entwicklung und Innovation Vokabular stammt aus europäischen Sprachen Vorwurf des Eurozentrismus

Linguistische Grundlagen II: Esperanto Esperanto gilt als eine leicht zu erlernende Sprache. Dies folgt vor allem aus der vollständigen Regelhaftigkeit der Sprache. Grammatische Regeln haben keine Ausnahmen und die agglutinierende morphologische Struktur erleichtert den Wortschatzerwerb gegenüber anderen Sprachen.

Linguistische Grundlagen II: Esperanto 1. Morphologie Esperanto ist eine agglutinierende Sprache, d. h. jedes grammatische Merkmal wird durch ein Morphem dargestellt, das an einen Stamm angehängt wird. Jedes Morphem ist unveränderlich. Es gibt keine Allomorphie: Jedes Morphem hat genau eine bestimmte Bedeutung. Komposita sind hinsichtlich ihrer Bedeutung transparent, da sich diese aus der Bedeutung der einzelnen Bestandteile ergibt. Die Wörter des Esperanto werden aus Wurzeln und Affixen zusammengesetzt. Es gibt auch Komposita, die aus zusammengefügten Wörtern oder zusammengefügten Wurzeln bestehen.

Linguistische Grundlagen II: Esperanto 2. Wortarten Man unterscheidet vier lexikalische Hauptkategorien: Nomina, Adjektive, Adverbien und Verben. Jede dieser Wortarten wird durch Anhängen des entsprechenden Suffixes an eine Wurzel gebildet. Bsp.: Wurzel telefon- telefon -o sonor -as "Telefon-" -Subst. "Klang-" -Präs. ein Telefon klingelt

Linguistische Grundlagen II: Esperanto mi telefon -as 1.Sg. "Telefon-" -Präs. ich telefoniere telefon -a -j -n mesagx -o -j -n "Telefon-" -Adj. -Pl. -dir.Obj. "Nachricht" -Subst. -Pl. -dir.Obj. telefonische Nachrichten la instru -ist -o parol -os telefon -e kun sxi Def"Lehr-"Tätigkeit-Subst."Sprach-"Fut. "Telefon-" -Adv. mit 3.Sg.Fem. der Lehrer wird telefonisch mit ihr sprechen

Linguistische Grundlagen II: Esperanto 3. Wortstellung Die normale Wortstellung des Esperanto ist SVO. Determinatoren und Adjektive stehen gewöhnlich vor dem Nomen. Des Weiteren ist die Sprache präpositional. D.h. Adpositionen stehen vor dem Kopf. Beispiel: La instruistino parolas telefone kun li.

Linguistische Grundlagen II: Esperanto S NP VP DetN VAdvP PP AdvP NP Pron La instruistino parolas telefone kun li. Die Lehrerin spricht telefonisch mit ihm.

Übersetzungsprozess Ausgangssatz: He watches the girl with the telescope. Schritt 1: Syntaktische Analyse der SL (Source Language) durch einen Parser (in DLT: ATN Augmented Transition Network) Zugriff auf SL-Syntaxregeln und SL-Wörterbuch Ergebnis: Baumstruktur; bei syntaktischen Ambiguitäten Generierung von zwei oder mehr Bäumen

Übersetzungsprozess erster Baum: watch E-Subj E-Obj E-Circ he girl with E-Det E-Parg the telescope E-Det the

Übersetzungsprozess zweiter Baum: watch E-Subj E-Obj he girl E-Det E-Atr2 the with E-Parg telescope E-Det the

Übersetzungsprozess Legende der Dependenzlabel: Subj = Subjekt Obj = Objekt Circ = Circumstantial Atr2 = Postnominal Attribute Det = Determiner Parg = Prepositional Argument E = Englisch

Übersetzungsprozess Schritt 2: SL-IL(Intermediate Language)-Metataxis Wort-für-Wort- Übersetzung; Ersetzen der Englischen Dependenzlabel durch äquivalente in Esperanto Zugriff auf Metataxisregeln und zweisprachiges Wörterbuch (SL-IL) Ergebnis: mehrere IL-Bäume in unserem Beispiel: strukturelle Ambiguitäten; lexikalische würden an einem Baum dargestellt werden

Übersetzungsprozess erster Baum: Li observis la knabinon per la telescopo. observis Subj Obj Circ li knabinon per Det Parg la telescopo Det la

Übersetzungsprozess zweiter Baum: Li observis la knabinon kun la telescopo. observis Subj Obj li knabinon Det Atr2 la kun Parg telescopo Det la

Übersetzungsprozess Schritt 3: Semantische Wortwahl durch SWESIL SWESIL = separates Modul (Semantic Word Expert System in the Intermediate Language) Macht gewissermaßen Gebrauch von Weltwissen – bezieht dieses aus Lexical Knowledge Bank (LKB) LKB: Sammlung von Wortpaaren mit jeweils einem syntakt. Bezugspunkt in IL Content word + relator = Wortpaar Bildung aller möglichen Kombinationen aus Baum SWESIL sucht in LKB nach identischen oder ähnlichen Paaren Bewertung mit Zahlen höchster Wert am wahrscheinlichsten wird in Übersetzung übernommen

Übersetzungsprozess Schritt 4: Interaktiver Dialog Wenn Ambiguitäten durch Schritt 3 nicht aufgelöst werden konnten, wird ein Dialog initiiert. Computer gibt mehrere Auswahlmöglichkeiten in SL Nutzer wählt beste aus Zugriff auf Nutzerkenntnisse (oft: Nutzer = Autor des Textes) Beispiel: with the telescope goes with: 1.the girl 2.watched Nutzer entschließt sich für die zweite Variante

Übersetzungsprozess Ergebnis: nur noch ein IL-Baum observis Subj Obj Circ li knabinon per Det Parg la telescopo Det la

Übersetzungsprozess Schritt 5 : IL-Linearisierung Durch Zugriff auf Linearisierungsregeln wird der Ausgangssatz in der korrekten Wortstellung im Esperanto repräsentiert: Li observis la knabinon per la telescopo. Schritt 6: Alle Sätze, die in den vorhergehenden Schritten produziert wurden, werden noch einmal durch einen Parser auf ihre Wohlgeformtheit überprüft. Der akzeptierte Esperantotext wird an den Zielterminal geschickt.

Übersetzungsprozess Schritt 7 und folgende: Bei der Übersetzung IL-TL(Target Language) werden äquivalent alle Schritte wie bei SL-IL durchlaufen. Das Ergebnis ist ein linearisierter zielsprachiger Text bzw. Satz. Beispiel: Il regarde la fille avec le telescope.

Übersetzungsprozess Terminal 1: SL-Analyse SL-Il-Metataxis Semantische Wortwahl durch SWESIL Interaktiver Dialog IL-Linearisierung Überprüfung der Korrektheit Übertragung an den Zielterminal Terminal 2: IL-Analyse IL-TL-Metataxis Semantische Wortwahl durch SWESIL TL-Linerarisierung (kein Dialog; kein Post-Editing vorgesehen)

Zusammenfassung Das Ziel des DLT-Projektes war die Entwicklung eines multilingualen qualitativ hochwertigem Übersetzungsprozess mit Esperanto als Interlingua. Während der Arbeit an dem Projekt wurde jedoch die Erfahrung gemacht, dass Esperanto (mittlerweile) genauso lexikalisch und strukturell ambig ist wie andere natürliche Sprachen. Eine qualitativ hochwertige Übersetzung hätte dadurch viel Zeit beansprucht ebenso die Weiterentwicklung dieses Projektes. Doch fanden sich dafür keine Interessenten und vor allem keine Geldgeber. Dies waren laut Toon Witkam die Gründe für das Scheitern: In our information society these days, speed is often considered more important than quality.

Literatur Maxwell, Dan: Distributed Language Translation: A Multilingual Project. Utrecht: BSO Research. Reproduced by The Indiana University Linguistics Club. Bloomington Schubert, Klaus: Metataxis: Contrastive dependency syntax for machine translation. Dordrecht: Foris Hutchins, W. John & Harold L. Somers: An introduction to Machine Translation. Academic Press: London S Witkam, Toon: Why the DLT project had to be abandonned. (unveröffentlicht; persönlich per erhalten) weitere Literatur stand zur Verfügung, wurde jedoch (noch) nicht berücksichtigt (Präsentation wird möglicherweise noch einmal überarbeitet)