Entwicklung und Einsatz von Lokalisierungswerkzeugen (Web-TCM) Informatik-, Computerlinguistik-, Fachsprachenkompetenz Uta Seewald-Heeg „Interdisziplinäre Zusammenarbeit in der Medieninformatik“ Kolloquium zu Ehren von Prof. Dr.-Ing. Detlef Klöditz Köthen, 22. November 2001
Entwicklung und Einsatz von Lokalisierungswerkzeugen Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen Kompetenzen beim Einsatz von Lokalisierungswerkzeugen Entwicklung des Lokalisierungswerkzeugs Web-TCM Resümee
Lokalisierung Anpassung, d.h. Übersetzung eines Software-Produkts an einen lokalen Markt mit seinen sprachlichen und kulturellen Besonderheiten Sprachliche und kulturelle Anpassung von Web-Seiten
Entwicklung und Einsatz von Lokalisierungswerkzeugen Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen Kompetenzen beim Einsatz von Lokalisierungswerkzeugen Entwicklung des Lokalisierungswerkzeugs Web-TCM Resümee
Lokalisierungsprozess (nach Microsoft) Lokalisierung ist ein interdisziplinäres Feld. Usability testing: A series of tests in which users are observed trying to complete a set of given tasks. The purpose of usability testing is to determine how intuitive and easy to use the test subjects find new program features. Beta testing: Distributing prerelease software to users and potential customers in order to get feedback and bug reports. The process of creating localized software involves a great deal of communication between different players in a product team. During the core phases, the development team provides files to the localization team, which translates text, resizes dialog boxes, and hands files back for compilation, if necessary. The localized executable then goes to the testing team, which reports functionality problems to development and reports user interface problems to localization. All three groups work together to resolve bugs, and the cycle continues.
Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen Internationalisierung (I18N) Globalisierung (G11N) (Sprach-, Kultur- und Plattform-Unabhängigkeit von Produkten) Lokalisierung (L10N)
Internationalisierung Bsp.: Sortierroutinen
Codierungssysteme Codepages Zuordnung von Byte-Werten auf Buchstaben eines Alphabets Byte-Werte (auch: Code-Points) sind Indizes in einer Codepage Bis zum Code 0x7F (127) werden Code-Points von allen Codepages auf die gleichen Buchstaben abgebildet (ASCII-7-Bit-Zeichensatz) Unterscheidung in der Zuordnung der Buchstaben für Codes zwischen 0x80 (128) und 0xFF (255) Byte String Windows Codepage 1252 Windows Codepage 1253 Hex Dez (W. European) (Cyrillic) 0xD6 214 Ö Ц 0xFF 252 ü ь
Locales (Variablen mit sprach- bzw Locales (Variablen mit sprach- bzw. marktabhängig unterschiedlichen Werten) encoding: #UTF_8 catalog: #labels cacheSize: 113 Hardcopy = 'Print' Cancel = 'Cancel' Help = 'Help' tryAgain = 'Retry' Icon = 'Button' inspect = 'Inspect' Action = 'Switch Window' Zeichenketten Datumsformate Kalender, Zeitformate Währungsformate Maßeinheiten Grafiken Farben Schreibstile Produktverpackung encoding: #UTF_8 catalog: #labels cacheSize: 113 Hardcopy = 'Drucken' Cancel = 'Abbruch' Help = 'Hilfe' tryAgain = 'Neuer Versuch' Icon = 'Ikone' inspect = 'Untersuchen' Action = 'Fenster umschalten' encoding: #UTF_8 catalog: #labels cacheSize: 113 Hardcopy = 'Печатать' Cancel = 'Прерывание' Help = 'Помощь' tryAgain = 'Новая попытка' Icon = 'Пиктограмма' inspect = 'Исследовать' Action = 'Окно переключить' VisualWorks 5.i
Datumsformate 22. November 2001 22.11.2001 22/11/2001 2001-11-22 11/22/2001 November 22, 2001 22 November 2001 22 novembre 2001 Deutsch EU Amerikanisch Französisch
Feldlängen !
Entwicklung und Einsatz von Lokalisierungswerkzeugen Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen Kompetenzen beim Einsatz von Lokalisierungswerkzeugen Entwicklung des Lokalisierungswerkzeugs Web-TCM Resümee
Kompetenz beim Einsatz von Lokalisierungswerkzeugen Maschinelle Übersetzungssysteme Translation-Memory-Systeme Programme zur Bearbeitung von Online-Hilfen Programme zur Lokalisierung von Software-Quelldateien Lokalisierung ist ein interdisziplinäres Feld. Usability testing: A series of tests in which users are observed trying to complete a set of given tasks. The purpose of usability testing is to determine how intuitive and easy to use the test subjects find new program features. Beta testing: Distributing prerelease software to users and potential customers in order to get feedback and bug reports. The process of creating localized software involves a great deal of communication between different players in a product team. During the core phases, the development team provides files to the localization team, which translates text, resizes dialog boxes, and hands files back for compilation, if necessary. The localized executable then goes to the testing team, which reports functionality problems to development and reports user interface problems to localization. All three groups work together to resolve bugs, and the cycle continues.
Kompetenz beim Einsatz von Lokalisierungswerkzeugen Kulturkompetenz Textsortenkompetenz IT-Kompetenz
Kulturkompetenz Navigationsleiste „Laufschrift“ von links nach rechts laufend Datumsangaben
Textsortenkompetenz Textsorten Textsorteneigenschaften Handbücher Online-Hilfe-Texte (i.d.R. HTML-Dateien) Benutzerschnittstelle (Menüs, Benutzerdialoge, Schaltflächen, Fensterinhalte, Icons) Fehlermeldungen Schulungsmaterial Lizenzverträge Textsorteneigenschaften Technische Realisierung, Formate
Benutzerschnittstelle Interne Repräsentation von Textelementen Menü in einem Entsprechung in der Quelldatei Windows-Programm (Resource File) 6 MENU FIXED IMPURE BEGIN POPUP "&DATEI" MENUITEM "&NEU...\tSTRG+N" MENUITEM "Ö&ffnen...\tSTRG+O" MENUITEM "S&chließen" MENUITEM SEPARATOR MENUITEM "S&peichern\tSTRG+S" MENUITEM "&Speichern &unter..." MENUITEM "Als Websei&te speichern..." MENUITEM "Pac&k & Go..." MENUITEM "&Webseitenvorschau" MENUITEM "Seite einr&ichten"
Tastenkombinationen
IT-Kompetenz Aufbau und Funktionsweise von Lokalisierungswerkzeugen PASSOLO erkennt typische Lokalisierungs-fehler wie abgeschnittene Beschriftungen von Schaltflächen
Entwicklung und Einsatz von Lokalisierungswerkzeugen Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen Kompetenzen beim Einsatz von Lokalisierungswerkzeugen Entwicklung des Lokalisierungswerkzeugs Web-TCM Resümee
Entwicklung des Lokalisierungswerkzeugs Web-TCM Web-TCM: Web Translation & Content Management Kooperationsprojekt Fachbereich Informatik der Hochschule Anhalt (Studiengang Fachübersetzen) Firma Georg Heeg Web-TCM
Smalltalk Programmier-werkzeug des Web-TCM
Web Translation & Content Management Lokalisieren, Übersetzen Content Management Verwalten von Inhalten bzw. Änderungen auf einer WWW-Seite (in einer beliebigen Sprache) Web-TCM
Web-TCM Segmentierung HTML-Seite mit Zugriffsfunktion <!doctype ....> <html> <head> <title> Fachübersetzen</title> </head> <body> ... </html> Fachübersetzen Segmentierung HTML-Seite mit Zugriffsfunktion über die Nummern der Textblöcke Extraktion der Textblöcke Nummerierung der Textblöcke 1 2 3 . n Deutsch Fachübersetzen English Français Traduction specialisée Русский технический перевод Memory Web-TCM
Traduction spécialisée Memory (TM) Nr. DE EN FR RU 1 Sprache language langue язык 2 Fachüber-setzen Traduction spécialisée 3 . n <!doctype ....> <html> <head> <title><%=tm at: 2%></title> </head> <body> ... </html> HTML-Seite mit Zugriffsfunktion über die Nummern der Textblöcke Sprachparameter (lang=de) in der URL de fr Web-TCM
Traduction spécialisée <!doctype ....> <html> <head> <title>Fachübersetzen</title> </head> <body> <h1>Fachübersetzen</h1> </html> <!doctype ....> <html> <head> <title>Traduction spécialisée</title> </head> <body> <h1>Traduction spécialisée</h1> </html> Fachübersetzen Traduction spécialisée URL http://fue.htm?lang=de URL http://fue.htm?lang=fr Fachübersetzen Traduction spécialisée Web-TCM
Workflow einsprachig → mehrsprachig HTML-Dateien bereitstellen HTML Tidy (www.w3.org) HTML-Dateien in XHTML-Dateien konvertieren Jede Datei beginnt mit einer DTD Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br /> Alle HTML-Bestandteile werden klein geschrieben. Substitution bestimmter Tags, z.B. <b> <strong> Web-TCM
XHTML <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta name="generator" content="HTML Tidy, see www.w3.org" /> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <title>Fachübersetzen</title> </head> ... Web-TCM
Workflow einsprachig → mehrsprachig HTML-Dateien bereitstellen HTML Tidy (www.w3w.org) HTML-Dateien in XHTML-Dateien konvertieren Jede Datei beginnt mit einer DTD Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br /> Alle HTML-Bestandteile werden klein geschrieben. Substitution bestimmter Tags, z.B. <b> <strong> Segmentierung der HTML-Dateien *.htm (XHTML) XML-Parser in Smalltalk (Parse-Tree) Segmentierer in Smalltalk (Baumtransformation, TM-Segmente) Generierung der ssp-Dateien (*.ssp) Ablegen der AS-Segmente (hier: deutsch) in das TM Web-TCM
SSP Smalltalk Server Pages <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <%lang := request anyParameterValueAt: 'lang'. tm := Heeg.Translator.TM new: lang.%> <html> <head> <meta name="generator" content="HTML Tidy, see www.w3.org"/> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> <title> <%=tm at: 158%> Web-TCM
Workflow einsprachig → mehrsprachig HTML-Dateien bereitstellen HTML Tidy (www.w3w.org) HTML-Dateien in XHTML-Dateien konvertieren Jede Datei beginnt mit einer DTD Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br /> Alle HTML-Bestandteile werden klein geschrieben. Substitution bestimmter Tags, z.B. <b> <strong> Segmentierung der HTML-Dateien *.htm (XHTML) XML-Parser in Smalltalk (Parse-Tree) Segmentierer in Smalltalk (Baumtransformation, TM-Segmente) Generierung der ssp-Dateien (*.ssp) Ablegen der AS-Segmente (hier: deutsch) in das TM Resegmentieren Web-TCM
Workflow einsprachig → mehrsprachig HTML-Dateien bereitstellen HTML Tidy (www.w3w.org) HTML-Dateien in XHTML-Dateien konvertieren Jede Datei beginnt mit einer DTD Jedes Tag muss beendet werden, z.B. <br></br>, kurz: </br> Alle HTML-Bestandteile werden klein geschrieben. Substitution bestimmter Tags, z.B. <b> <strong> Segmentierung der HTML-Dateien *.htm (XHTML) XML-Parser in Smalltalk (Parse-Tree) Segmentierer in Smalltalk (Baumtransformation, TM-Segmente) Generierung der ssp-Dateien (*.ssp) Ablegen der AS-Segmente (hier: deutsch) in das TM Resegmentieren Übersetzen Translation Memory in allen Zielsprachen Web-TCM
Export in kommerzielle TM-Systeme TMX-Austauschformat <?xml version="1.0"?> <!DOCTYPE tmx PUBLIC "-//LISA OSCAR:1997//DTD for Translation Memory eXchange//EN" "http://www.lisa.org/tmx/tmx11.dtd"> <tmx version="1.1"> <header creationtool="Web-TCM" creationtoolversion="0.55" datatype="HTML" o-tmf="Web-TCM" segtype="sentence" adminlang="en-us" srclang="DE" o-encoding="utf-8"> </header> <body> <tu tuid="1"> <tuv lang="de"> <seg>Sprach- und Sachfachangebot</seg> </tuv> <tuv lang="en"> <seg>Languages and application domains</seg> <tuv lang="fr"> <seg>Langues et disciplines spécialisées</seg> <tuv lang="ru"> <seg>Языка и дисциплина</seg> </tu> ... </body>
Entwicklungsaufwand Zwei Arbeitswochen Interaktive Weiterentwicklung während der Nutzung ROBUST Web-TCM
Web-TCM Vergleich mit kommerziellen TM-basierten Lokalisierungswerkzeugen Erstes Lokalisierungswerkzeug, das virtuelle Team-Arbeit real unterstützt Bei verfügbaren kommerziellen Systemen müssen TMs importiert bzw. exportiert werden und erfordern immer einen Abgleich der TMs verschiedener Übersetzer Passwort-geschützter Zugang https (http mit Verschlüsselung) Kombiniert Translation-Memory-Technologie mit Content-Management Unterstützt Export in kommerzielle TM-Systeme (TMX-Austauschformat) Unterstützt Export statischer Web-Seiten in allen verfügbaren Sprachen
Kompetenz für das Lokalisierungsprojekt und den Einsatz von Web-TCM Sprachdatenverarbeitung „Grundlagen der Lokalisierungstechnologie“ Codierungssysteme Lokalisierung von Schulungsmaterial (Text und Grafik) mit TM Dynamische Web-Seiten, HTML, XML Lokalisierungsprojekt: Web-Site-Lokalisierung (D E, F, R) Projektorganisation Projektmanager Übersetzungsteams „Proofreading”, Qualitätskontrolle Arbeitsschritte Extraktion von Textelementen aus Grafiken Vorbereitung der Terminologie Übersetzung der Webseiten „Proofreading“ Übergabe Lokalisierungswerkzeug (Web-TCM) SS 2001
Entwicklung und Einsatz von Lokalisierungswerkzeugen Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen Kompetenzen beim Einsatz von Lokalisierungswerkzeugen Entwicklung des Lokalisierungswerkzeugs Web-TCM Resümee
Resümee Sowohl Entwicklung als auch Einsatz von Lokalisierungswerkzeugen erfordern Kompetenzen aus den drei Bereichen: Informatik Computerlinguistik Sprachmittlung, Fachsprachen Einrichtung der Vertiefungsrichtung „Softwarelokalisierung“ im Diplomstudiengang Fachübersetzen am Fachbereich Informatik trägt dieser Interdisziplinarität Rechnung FB Informatik der HS Anhalt (FH) damit in der Hochschulausbildung wegweisend