Computergestützte Übersetzung

Slides:



Advertisements
Ähnliche Präsentationen
Das Web in der politischen Bildung – Das Politische im Web
Advertisements

Seminar Experimentielle Evaluierung im Information Retrieval Aufgabenstellung, Ablauf, Probleme, Lösungen und Ergebnisse des Experiments Martin Jansson.
Hash-Tabellen und -Funktionen Hash-Tabellen in Java
Asymptotische Notation
Dynamische Seiten mit Dreamweaver Zugriff auf (mysql) Datenbank mit PHP.
Vorgehensweise Website Besprechung am 11. Februar 2008 Gründung und Partnerunternehmen der Wirtschaftsuniversität Wien.
BGG Definition Barrierefrei
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Termextraktion Ziele der Extraktion Stand der Extraktionsprogramme
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Wenn man hot potatoes startet erhält man folgenden Bildschirm.
Wenn man hot potatoes startet erhält man folgenden Bildschirm.
Auswertung der Interviews
Zentraleinheit CPU, Motherbord, RAM
Zentraleinheit CPU, Motherbord, RAM
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
On a Buzzword: Hierachical Structure David Parnas.
Sortierverfahren Richard Göbel.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
WS Algorithmentheorie 08 – Dynamische Programmierung (3) Konstruktion optimaler Suchbäume Prof. Dr. Th. Ottmann.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Windows Explorer.
Integrierte Übersetzungsprozesse
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
Grundlegende Analysen & Zwischendarstellungen
Translation–Memory–Systeme in der Softwarelokalisierung
Systementwicklungsprojekt:
Mit SQL GNU gettext PO-Files bearbeiten
DBD::PO Mit SQL GNU gettext PO-Files bearbeiten. Über was ich heute spreche. Vom Quelltext bis zur mehrsprachigen Anwendung. Formate Irrwege Lösungen.
FH-Hof HTML - Einführung Richard Göbel. FH-Hof Komponenten des World Wide Webs WWW Browser HyperText Transfer Protocol (HTTP) via Internet WWW Server.
Tipps und Tricks für Word 2000 Aytac, Felix, Steffen 04/05.
Verfahren zur Stammformreduktion
Computergestützte Übersetzung und Terminologieverwaltung
Knowledge Discovery mit Wordnet und Alembic Workbench
? Was ist Informatik? Was ist Informatik? Alexander Lange
Hyperlinks und Anker Links notieren
The Project is partly funded by the European Commission eTEN Programme euromuse.net training for use of Harmonise euromuse.net Das Harmonise-Interface.
Dateien Datei = File (engl.) Mögliche Inhalte einer Datei
Das fachkommunikative Dreierlei
XML-Query. Übersicht Was ist XML-Query? Vergleich RDB XML-Dokument Syntaktisches und Use-Cases Kritik und Diskussion.
Dynamische Datentypen
Lindenmayer-Systeme: Fraktale rekursiv zeichnen
Ausgabe vom Seite 1, XML Eine Einführung XML - Eine Einführung.
Abteilung für automatische Sprachverarbeitung
Textverarbeitungsprogramme
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
ICT – Modul Textverarbeitung
Wozu Terminologie? Lexalp, WP 10 – Training
Web 2.0 Interaktives Internet.
Eike Schallehn, Martin Endig
Die einfachste Variante! Anlegen, ausfüllen und senden !
SharePoint 2013 Web Services
Erstelle deine eigene Timeline
Anna Steinke‌ WG13 ‌‌‌ Köln, Wie sichere ich meine Daten? Wie mache ich meinen PC sicher?
Pädagogische Plattform - Information - Kommunikation - Kooperation -- PäPIKK Arten der Online-Dokumente Wie stelle ich Aufgaben ins Web?
Der formelle Imperativ – the Imperative
Bfu – Beratungsstelle für Unfallverhütung Transit NXT von STAR in der bfu Feierabendgespräch Tecom, 11. Juni 2014, Bern Antonio Cifelli, Übersetzer
Directors Prof. Dr.-Ing. K.D. Müller-Glaser Prof. Dr.-Ing. J. Becker Prof. Dr. rer. nat. W. Stork Institute for Information Processing Technology.
Äquivalenz.
Installation, Konfiguration, Online stellen, Zugriff © by Lars Koschinski 2003.
Künstliche Intelligenz
Zeilenzahlen einfügen Wörter zählen etc. Im gesamten Dokument.
Sortierverfahren Mit VB 2010 express edition JBS Tr, info Q1.
Übungsart: Seite: Bearbeitet von: Siegbert Rudolph Lesemotivationstraining Titel: Quelle: Nächste Folie 1 Bedienungshinweise: Makros müssen freigeschaltet.
„Warum ist Sia translations das Richtige für mich?“ „Warum ist Sia translations das Richtige für mich?“ Was bekommen Sie automatisch von uns? KKostenlose.
Hypertext 2015/2016.
Das Auge des Language Magician
Vergleich von Terminologie-Datenbanksystemen
Terminologie-Extraktion
 Präsentation transkript:

Computergestützte Übersetzung Evgenia Antokolskaya Institut für Allgemeine und Angewandte Sprachwissenschaft Seminar für Computerlinguistik PS Maschinelle Übersetzung Dr. Anke Holler 07.07.2005

Einleitung Die Idee mit Hilfe eines Computers zu übersetzen wurde erst 1980 von Martin Kay vorgeschlagen. Die Möglichkeiten, die die maschinelle Übersetzung damals anbieten konnte, waren nicht vollständich. Nämlich hat die Zielsprache nach dem Übersetzen nicht immer perfekt ausgesehen. Um das zu beseitigen könnte man sich an einen Menschen wenden. Der Computer macht die mühsame Arbeit, der Mensch kontrolliert! Oder umgekehrt umgekehrt

Computergestützte Übersetzung (Definition) der Computer übersetzt, der Mensch hilft dabei durch Vor- oder Nachbereitung des zu übersetzenden Materials (pre- bzw. post-editing). Man spricht hier von human-aided machine translation (HAMT). der Mensch übersetzt, der Computer unterstützt ihn dabei durch automatisches Nachschlagen von Terminologie (automatic dictionary look-up), durch Vergleichen von Texten mit früheren Übersetzungen (translation memory) etc. Man spricht dabei von machine-aided human translation (MAHT).

Translator´s Workbench Die Idee von der Kontrolle eines Menschen über die Arbeit eines Computers beim Übersetzen wurde weiter verfolgt. Man nennt das Verfahren ein Translator´s Work-bench (TWB) oder Translator´s Workstation.

Translator´s Workbench Dokumentenverarbeitung Mittel für die Arbeit mit einer Sprache (Monolingual resources) Mittel für die Arbeit mit Sprachpaaren (Bilingual resources) MÜ-orientierte Mittel Kommunikation Administrative Unterstützung

Translator´s Workbench Das System hat aber auch negative Seiten: Die Integrierungsprobleme Komplezierte Aufgaben, die ein TWB lösen mag, verlangen ein komplexes Interface

wichtige Komponente der CAT-Anwendungen 1)Translation Memory TM CAT BA SA 2)Bilingual Alignment 3)Subsentential Alignment

Weitere Komponente CAT Eine Terminologische Datenbank ist eine Datenbank, mit der eine Terminologie verwaltet werden kann. Dies ist vor allem für die Übersetzung sinnvoll. Die Anwendungszwecke können von einfachen Wörterbüchern und Glossaren bis hin zu strukturierten Thesauri reichen. Filterprogramme zur Anbindung an Textverarbeitung- und DTP-Programme

Translation Memory (Übersetzungsarchiv) Das TM speichert die Übersetzungen (in der Regel "menschlicher" Übersetzer) und bietet dem Bearbeiter diese bereits vorhandenen Übersetzungen später zur Wiederverwendung an. Hierbei können nicht nur identische, sondern auch ähnliche Ausgangstextsegmente erkannt werden.

Translation Memory Man braucht eine Datenbank, wo die vom Übersetzer bearbeiteten Sätze gespeichert werden. Die einzelnen Einheiten der Datenbank werden Segmente oder Translation Units (TUs) genannt. Der Zugriff auf und die Arbeit mit Translation-Memory erfolgt über Translation Memory Systeme.

Translation Memory

Translation Memory Similarity Measure – wie berechnet man die Ähnlichkeit der Sätze? Die vom System rausgesuchten und wiedergegebenen Sätze/Segmente sollen den vom Bearbeiter angewählten Sätzen semantisch und syntaktisch ähnlich sein. – ...eine sogar für den Menschen schwierige Aufgabe Input: Select one of the option 1.Choose one of the alternatives given 2.Select none of the options. 3.Make a selection.

Translation Memory Similarity Measure Das System sucht eigentlich aus der Datenbank diejenigen Sätze/Segmente raus, die die größte Anzahl von ähnlichen Worten haben. Die Probleme: Die Länge des wiedergegebenen Segmentes kann zu groß sein. Die Wortordnung. (the number format oder format the number ) Synonyme. (enter a digit oder type in a number from 0-9)

Translation Memory Stoplists String and Word Similarity; Stemming Input: Delete all the files in the folder TU-1: Put all the cartridges in the safe. TU-2: Delete folder files. Delete: deletes, deleted, deleting, deletion Relation: relate, rational

Translation Memory Inverted Files a. To add a bookmark, click on the Bookmark menu. b. Select „Add Bookmark“. c. Click on the icon. add bookmark click menu select icon a b a(2) b a c a b c a: 5 b: 3 c: 2

Translation Memory Precision Recall Zwei wichtigste Parameter bei der Wiedergabe des Ergebnisses: Precision Recall

TM System

Bilingual Alignment Im Übersetzungsprozess versteht man darunter einen Vorgang, der darin besteht, einen Ausgangstext, Segment für Segment, mit einem entsprechenden Zieltext als Äquivalente zu paaren. Die so entstehende Äquivalenztabelle wird in der Folge als Übersetzungs-speicher (TM) genutzt. Durch das Alignment können Über-setzungen genutzt werden, die zuvor ohne Computerhilfe übersetzt wurden.

Bilingual Alignment Length-based alignment Text-based alignment Ein kurzer Satz in der Augangssprache wird an einen kurzen Satz in der Zielsprache angeordnet, ein langer – an einen langen. Es geht um die Vergleichung der Worte oder anderen Textkom-ponente, z. B. Figuren, Namen, Titel, Daten zwischen den beiden Texten.

Subsentential Alignment Beim Übersetzen gibt es manchmal sehr komplezierte technische Termini, deren Übersetzung sogar ein kundiger Bearbeiter bezweifeln kann. Als Lösung kann der Bearbeiter ein Fragment aus dem schon übersetzten ähnlichen Text bekommen, wo die notwendigen Termini betroffen sind. Man sieht gleich die gesuchten Worte, die markiert sind, und den übrigen Kontext. ...on your SCSI port. The optical charakter reader is detected by the operating system. El sistema operativo detecta el lector óptico de carácteres. Una ventana... The accuracy of an optical charakter reader depends on the... La precisión de un lector óptico de carácteres depende de...

Subsentential Alignment Beim Terminology Alignment sucht das System in den beiden Sprachen nach den angewählten Fachausdrücken, erst danach versucht es die Anordnung zu erstellen: 1. Schritt: a monolingual terminology identification step. Nur die gesuchten Termini werden beachtet und bearbeitet. 2. Schritt: a bilingual step. Das Alignment selber.

Subsentential Alignment Beim Word Alignment wird nicht nur unser Fachausdruck an seine Übersetzung angeordnet, sondern auch jedes weitere Wort im Text. Word-Alignment-Algorithmus kann dann wie ein Bilingual-Wörterbuch mit entsprechend angeordneten Worten aussehen. En: Start the operating system. Launch the programm via the keyboard Sp: Comenzar el sistema operativo. Empezar el programa mediante el teclado.

Literaturverzeichnis Trujillo, A. (1999): Translation Engines: Techniques for Machine Translation, Springer Verlag. http://de.wikipedia.org/wiki/Computer_Aided_Translation http://www.cogsci.uni-osnabrueck.de/~reinhard/MT/MT06.pdf http://www.iro.umontreal.ca/~simardm/emnlp99/node3.html