Austauschformate für Terminologie MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung “Softwarelokalisierung” IIM der FH Köln, 11.-12.03.2005 Detlef Reineke Universidad de Las Palmas de Gran Canaria
Übersicht Vorteile standardisierter Terminologieaustauschformate Kurzer Rückblick MARTIF (Machine-readable terminology interchange format) TBX (TermBase eXchange Format) Datenmodellierung und –austausch in Trados MultiTerm Ausblick Detlef Reineke
Vorteile von Austauschstandards Minimierung kostspieliger Redundanzen Systemunabhängige Erarbeitung und Vertrieb (Anbieter) Angebotserweiterung (Kunde) Konzentration auf Werkzeugoptimierung 10 Formate = 180 Konvertierungen 100 Formate = 19.800 Konvertierungen 1 Update 10 Formate = 540 Konvertierungen 1 Update 100 Formate = 59.400 Konvertierungen 1 Standardaustauschformat = 20 bzw. 200 Konvertierungen Um terminologische Konsistenz über Inhalte und Formate hinweg zu gewährleisten, sind neben … Detlef Reineke
Kurzer Rückblick MATER (Magnetic Tape Exchange Format for Terminological/Lexicographical Records = ISO 6156:1986) Standard für Datenaustausch zwischen Großrechnern 9-Spur Magnetband Feste Datenstruktur Integration terminologischer UND lexikographischer Daten MicroMATER flexibles Format für den Datenaustausch zwischen Großrechnern, Rechnern der mittleren Datentechnik und Microcomputern (Datenkategorien und –länge flexible) Just zu dieser Zeit gründeten Philologen das Text Encoding Initiative-Konsortium (TEI) mit dem Vorsatz, Inhalt und Format von Texten aufgrund der rasanten Entwicklung von Betriebssystemen und Anwendungsprogrammen zu entkoppeln und über einen allgemeinen Auszeichnungsstandard zu beschreiben. Das vom TEI-Konsortium entwickelte gleichnamige Textkodierungs- und Textaustauschformat basierte zunächst auf SGML, wurde aber inzwischen auf XML abgelöst. Der vom TEI verfolgte Ansatz war auch für die Initiatoren von MATER und MicroMATER interessant. Zudem mussten im Bereich des Austauschs terminologischer Daten ähnliche Hindernisse überwunden werden wie etwa Zeichensatzproblematik, die Kodierung von Querverweisen oder die Referenzierung externer Objekte. Anfang der 90er Jahre wurde daher unter Mitwirkung von MicroMATER-Designern innerhalb des TEI-Konsortiums eine Terminologie-Arbeitsgruppe gegründet mit dem Ziel, sich von den bisher entwickelten Formaten zu lösen und einen von Grund auf neuen Standard zu erarbeiten. Um dem Standard universelle Akzeptanz zu verschaffen, entschloss man sich nach einjähriger Arbeit im TEI, weitere Bemühungen um ein einheitliches Terminologieaustauschformat unter die Schirmherrschaft der ISO zu stellen. Detlef Reineke
Kurzer Rückblick TEI (Text Encoding Initiative) Format für Auszeichnung und den Austausch von Texten Zunächst SGML-basiert (Standard Generalized Markup Language) inzwischen XML-basiert (eXtensible Markup Language) TEI.terminology TEI ISO Just zu dieser Zeit gründeten Philologen das Text Encoding Initiative-Konsortium (TEI) mit dem Vorsatz, Inhalt und Format von Texten aufgrund der rasanten Entwicklung von Betriebssystemen und Anwendungsprogrammen zu entkoppeln und über einen allgemeinen Auszeichnungsstandard zu beschreiben. Das vom TEI-Konsortium entwickelte gleichnamige Textkodierungs- und Textaustauschformat basierte zunächst auf SGML, wurde aber inzwischen auf XML abgelöst. Der vom TEI verfolgte Ansatz war auch für die Initiatoren von MATER und MicroMATER interessant. Zudem mussten im Bereich des Austauschs terminologischer Daten ähnliche Hindernisse überwunden werden wie etwa Zeichensatzproblematik, die Kodierung von Querverweisen oder die Referenzierung externer Objekte. Anfang der 90er Jahre wurde daher unter Mitwirkung von MicroMATER-Designern innerhalb des TEI-Konsortiums eine Terminologie-Arbeitsgruppe gegründet mit dem Ziel, sich von den bisher entwickelten Formaten zu lösen und einen von Grund auf neuen Standard zu erarbeiten. Um dem Standard universelle Akzeptanz zu verschaffen, entschloss man sich nach einjähriger Arbeit im TEI, weitere Bemühungen um ein einheitliches Terminologieaustauschformat unter die Schirmherrschaft der ISO zu stellen. Detlef Reineke
MARTIF (ISO 12200:1999) Machine-readable terminology interchange format ISO Technical Committee 37 (Terminology - principles and coordination), Sub-Committee 3 (Computer applications for terminology), Working Group 3 (Data interchange) Text Encoding Initiative (TEI) und LISA (Localisation Industry Standards Association) SGML (Standard Generalized Markup Language = ISO 8879) ISO 649 (7-Bit Zeichensatz = 126 Zeichen) ISO 12620 (1999): “Computer applications in terminology – Data categories” TC 37 heißt heute “Terminology and other language resources”. Detlef Reineke
MARTIF Grundstruktur I. Prolog II. Document instance (<martif lang=en>) A. header (<martifHeader>) B. text 1. front (optional) 2. body a. 1st terminological entry <termEntry> (minimum of one) b. 2nd terminological entry <termEntry> c. etc. (additional terminological entries) 3. back (optional) (ISO 12200:25) Detlef Reineke
MARTIF DTD (Document Type Definition) I. Prolog Definition der Dokumentstruktur (Elemente, Attribute und Beziehungen) Instrument zur Validierung des MARTIF-Dokuments I. Prolog <!DOCTYPE martif PUBLIC “ISO 12200:1999//DTD for MARTIF (framework/ //EN” [ (Definition der Gesamtstruktur: martifHeader, text, front, body, back, …) <!ENTITY % mtf-body “ISO 12200:1999//DTD for MARTIF (body //EN” > (Definition der Eintragsstruktur: termEntry, langSet, ntig, termGrp, …) <!ENTITY % mtf-ents “ISO 12200:1999//ENTITIES for MARTIF (sets //EN” > ] > (Zeichendefinition) II. Document instance … Die MARTIF-DTD ist modular aufgebaut (framework, mtf-body und mtf-ents). Die framework-DTD definiert die Gesamtstruktur eines MARTIF-Dokuments und verweist auf die Struktur des body-Elements, die in der mtf-body-DTD definiert wird. Die separate Handhabung des body-Elements ermöglicht die Validierung von Dokumenten, deren high-level-Struktur (header, text, front, body, back) mit der eines MARTIF-Dokuments übereinstimmt, dessen body-Inhalt aber von dem in der ISO 12200 body-Struktur abweicht. In der mtf-ents-DTD lassen sich zusätzlich Zeichen definieren, die nicht in der ISO 646 sind wie z.B. kyrillische oder griechische Schriftzeichen. Detlef Reineke
MARTIF DTD (Document Type Definition) <!ELEMENT text - - (front?, body, back?) > <!ENTITY % AuxInfo ‘descrip │ descripGrp │ admin │ adminGrp │ ptr │ ref │ date │ note’ > <!ELEMENT body - - (termEntry+) > <!ELEMENT termEntry - - ((%AuxInfo;) *, (langSet │ tig │ ntig) +) > <!ATTLIST target IDREF #IMPLIED > Detlef Reineke
MARTIF Dokumentinstanz <martif lang=en> <martifHeader>… (Angaben zum gesamten Datenbestand) </martifHeader> <text> <body>… (terminologische Einträge) </body> <back>… (bibliographische Daten) … (Verweise auf externes Referenzmaterial <xref>) </back> </text> </martif> (ISO 12200:25) Detlef Reineke
MARTIF Darstellung der Datenkategorien Obergruppen von Datenkategorien <termEntry>, <langSet>, <tig> bzw. <ntig>, <termGrp> <descrip>, <admin>, <termNote>, etc. tig = term information group, ntig = nested term information group Instantiierung der Datenkategorien mittels type-Attribut <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <termNote type=‘termType’>synonym</termNote> Die Datenkategorien der ISO 12620 werden sogenannten Metadatenkategorien (General Identifiers) zugeordnet und über ein type-Attribut instantiiert. Dieser Formalismus stellt einen kleinsten gemeinsamen Nenner dar und ermöglicht eine flexible Anwendung der Norm auf eine möglichst große Zahl von Terminologiebeständen. Detlef Reineke
MARTIF Datenkategorien und Datenelemente subject field: Materialbeschaffenheit term: Opazität part of speech: Substantiv grammatical gender: f definition: Maß für Lichtundurchlässigkeit source: DIN 6370:1996-05, S. 383 Detlef Reineke
MARTIF Terminologischer Eintrag <martif lang=en><martifHeader>… </martifHeader> <text><body> <termEntry id=‘ID0000073578’ <descrip type=’subjectField’>Materialbeschaffenheit</descrip> <langSet lang=de> <ntig><termGrp> <term>Opazität</term> <termNote type=‘partOfSpeech’>Substantiv</termNote> <termNote type=‘grammaticalGender’>f</termNote> <descripGrp> <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry> </body></text> </martif> Detlef Reineke
MARTIF Terminologischer Eintrag - Querverweis … <ntig><termGrp> <term>Opazität</term> <descripGrp> <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry> </body> <back> <refObjectList type=‘bibl’> <refObject> <item id=‘DIN-6370.1996-05’> <xref target=‘c:\bibl\normen\DIN-6370\DIN-6370-1996-05.doc</xref> </item></refObject></refObjectList></text></martif> Detlef Reineke
MARTIF “Blind interchange” (Teil 2) Verlustfreier Austausch terminologischer Daten ohne Absprache Umstellung auf XML (Unicode, Darstellung in HTML-Umgebung) Eindeutige Untermenge an Datenkategorien und Inhalten (ISO 12620) XML-Parser und Validierungswerkzeug für Überprüfung der Datenkategorie-Inhalte negotiated interchange blind interchange noun, n., sub, Substantiv n Blind interchange wird nicht weiter verfolgt, aber Anpassung an XML ja. Detlef Reineke
TBX TermBase eXchange Format OSCAR-Gruppe (Open Standards for Container/Content Allowing Re-user group) der LISA (Localisation Industry Standards Assocation) SALT-Projekt (Standards-based Access Service to Multilingual Lexicons and Terminologies) ISO 16642 (2003): “Computer applications in terminology – Terminological markup framework (TMF)” - Regeln für die Spezifikation terminologischer Markup-Sprachen (TML) MSC (MARTIF with Specified Constraints) = Blind MARTIF Detlef Reineke
TBX Metamodell (ISO 16642:18) Terminological Data Collection (TDC) Global Information (GI) Complementary Information (CI) Terminological Entry (TE) Language Section (LS) Term Section (TS) Term Component Section (TCS) * Detlef Reineke
TBX Angaben zum Gesamtbestand der terminologischen Datenbank ? = kann max. einmal vorkommen + = kommt min. einmal vor (LISA 2002:11) <?xml version='1.0'?> <!DOCTYPE martif SYSTEM "./TBXcoreStructureDTD-v-1-0.DTD"> <martif type='TBX' xml:lang='en' > <martifHeader>… </martifHeader> <text> <body> ... Detlef Reineke
TBX Eintragsebene ? = kann max. einmal vorkommen + = kommt min. einmal vor (LISA 2002:12) Detlef Reineke
TBX Terminologischer Eintrag <?xml version='1.0'?> <!DOCTYPE martif SYSTEM "./TBXcoreStructureDTD-v-1-0.DTD"> <martif type='TBX' xml:lang='en' > <martifHeader>…</martifHeader> <text><body> <termEntry id=‘ID0000073578’ <descrip type=’subjectField’>Materialbeschaffenheit</descrip> <langSet lang=de> <ntig><termGrp> <term>Opazität</term> <termNote type=‘partOfSpeech’>Substantiv</termNote> <termNote type=‘grammaticalGender’>f</termNote> <descripGrp> <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry> </body></text> </martif> Detlef Reineke
TBX DTD Rudimentäre Typendefinition Keine XML-Auszeichnung Keine Definition von Namensräumen möglich Keine Definition fester Wertemengen von Datenkategorien möglich Empfehlung: XML Schema Detlef Reineke
Trados MultiTerm ≦ MultiTerm 5.5 ** <Subject field>Materialbeschaffenheit <de>Opazität <Part of speech>Substantiv <Grammatical gender>f <Definition>Maß für die Lichtundurchlässigkeit <Source> ^DIN 6370:1996-05^, S. 383 … <en> Opacity Detlef Reineke
Trados MultiTerm ≦ MultiTerm 5.5 Flach strukturiertes Exportformat Keine Zuordnung zu Metamodell bzw. Metadatenkategorien Beziehungen zwischen den Datenkategorien nicht explizit Sprach- (langSet) und Termkomponentenebene (termCompList) nicht adäquat darstellbar Eingeschränkte Zuordnungsmöglichkeit von Attributfeldern Umständliche Konvertierung über Exportschnittstelle bzw. Zwischenformat Detlef Reineke
Trados MultiTerm MultiTerm iX <?xml version="1.0" encoding="UTF-16" ?> - <mtf> - <conceptGrp>… - <descripGrp> <descrip type=“subject field”>Materialbeschaffenheit</descrip> <descripGrp> - <languageGrp> <language type=“Deutsch”/> - <termGrp> <term>Opazität</term> <descrip type=“part of speech”>Substantiv</descrip> <descrip type=“grammatical gender”>f</descrip> … Detlef Reineke
Trados MultiTerm MultiTerm iX Detlef Reineke
TBX vs. MultiTerm iX Metadatenkategorien MultiTerm iX TBX <mtf> <martif> <conceptGrp> <termEntry> <languageGrp> nicht vorhanden <language> <langSet> nicht vorhanden <ntig>, <tig> <descrip>* <termNote>* * Bezeichnungsebene Detlef Reineke
Fazit Geringe Implementierung TBX vs. Akzeptanz XLIFF/TMX TBX-ähnliches Format bisher nur in Trados MultiTerm iX, SGML-basiertes Format in STAR Termbase Schnittstellen zu OLIF2, TMX, XLIFF Offene Detaills (z.B. Standardzeichenkodierung, Binärdateien) Feinere Datenkategorien (ISO 12620) Umstellung auf Standardformate erfordert Zeit, Geld und Fachwissen Anpassung der Hochschulstudiengänge (Bologna-Erklärung) Detlef Reineke
Vielen Dank für Ihre Aufmerksamkeit. Dr. Detlef Reineke Universidad de Las Palmas de Gran Canaria Facultad de Traducción e Interpretación C/ Pérez del Toro, 1 35003 Las Palmas de Gran Canaria www.personales.ulpgc.es/dreineke/dfm dreineke@dfm.ulpgc.es