Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Austauschformate für Terminologie

Ähnliche Präsentationen


Präsentation zum Thema: "Austauschformate für Terminologie"—  Präsentation transkript:

1 Austauschformate für Terminologie
MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung “Softwarelokalisierung” IIM der FH Köln, Detlef Reineke Universidad de Las Palmas de Gran Canaria

2 Übersicht Vorteile standardisierter Terminologieaustauschformate
Kurzer Rückblick MARTIF (Machine-readable terminology interchange format) TBX (TermBase eXchange Format) Datenmodellierung und –austausch in Trados MultiTerm Ausblick Detlef Reineke

3 Vorteile von Austauschstandards
Minimierung kostspieliger Redundanzen Systemunabhängige Erarbeitung und Vertrieb (Anbieter) Angebotserweiterung (Kunde) Konzentration auf Werkzeugoptimierung 10 Formate = 180 Konvertierungen 100 Formate = Konvertierungen 1 Update 10 Formate = 540 Konvertierungen 1 Update 100 Formate = Konvertierungen 1 Standardaustauschformat = 20 bzw. 200 Konvertierungen Um terminologische Konsistenz über Inhalte und Formate hinweg zu gewährleisten, sind neben … Detlef Reineke

4 Kurzer Rückblick MATER (Magnetic Tape Exchange Format for Terminological/Lexicographical Records = ISO 6156:1986) Standard für Datenaustausch zwischen Großrechnern 9-Spur Magnetband Feste Datenstruktur Integration terminologischer UND lexikographischer Daten MicroMATER flexibles Format für den Datenaustausch zwischen Großrechnern, Rechnern der mittleren Datentechnik und Microcomputern (Datenkategorien und –länge flexible) Just zu dieser Zeit gründeten Philologen das Text Encoding Initiative-Konsortium (TEI) mit dem Vorsatz, Inhalt und Format von Texten aufgrund der rasanten Entwicklung von Betriebssystemen und Anwendungsprogrammen zu entkoppeln und über einen allgemeinen Auszeichnungsstandard zu beschreiben. Das vom TEI-Konsortium entwickelte gleichnamige Textkodierungs- und Textaustauschformat basierte zunächst auf SGML, wurde aber inzwischen auf XML abgelöst. Der vom TEI verfolgte Ansatz war auch für die Initiatoren von MATER und MicroMATER interessant. Zudem mussten im Bereich des Austauschs terminologischer Daten ähnliche Hindernisse überwunden werden wie etwa Zeichensatzproblematik, die Kodierung von Querverweisen oder die Referenzierung externer Objekte. Anfang der 90er Jahre wurde daher unter Mitwirkung von MicroMATER-Designern innerhalb des TEI-Konsortiums eine Terminologie-Arbeitsgruppe gegründet mit dem Ziel, sich von den bisher entwickelten Formaten zu lösen und einen von Grund auf neuen Standard zu erarbeiten. Um dem Standard universelle Akzeptanz zu verschaffen, entschloss man sich nach einjähriger Arbeit im TEI, weitere Bemühungen um ein einheitliches Terminologieaustauschformat unter die Schirmherrschaft der ISO zu stellen. Detlef Reineke

5 Kurzer Rückblick TEI (Text Encoding Initiative)
Format für Auszeichnung und den Austausch von Texten Zunächst SGML-basiert (Standard Generalized Markup Language) inzwischen XML-basiert (eXtensible Markup Language) TEI.terminology TEI  ISO Just zu dieser Zeit gründeten Philologen das Text Encoding Initiative-Konsortium (TEI) mit dem Vorsatz, Inhalt und Format von Texten aufgrund der rasanten Entwicklung von Betriebssystemen und Anwendungsprogrammen zu entkoppeln und über einen allgemeinen Auszeichnungsstandard zu beschreiben. Das vom TEI-Konsortium entwickelte gleichnamige Textkodierungs- und Textaustauschformat basierte zunächst auf SGML, wurde aber inzwischen auf XML abgelöst. Der vom TEI verfolgte Ansatz war auch für die Initiatoren von MATER und MicroMATER interessant. Zudem mussten im Bereich des Austauschs terminologischer Daten ähnliche Hindernisse überwunden werden wie etwa Zeichensatzproblematik, die Kodierung von Querverweisen oder die Referenzierung externer Objekte. Anfang der 90er Jahre wurde daher unter Mitwirkung von MicroMATER-Designern innerhalb des TEI-Konsortiums eine Terminologie-Arbeitsgruppe gegründet mit dem Ziel, sich von den bisher entwickelten Formaten zu lösen und einen von Grund auf neuen Standard zu erarbeiten. Um dem Standard universelle Akzeptanz zu verschaffen, entschloss man sich nach einjähriger Arbeit im TEI, weitere Bemühungen um ein einheitliches Terminologieaustauschformat unter die Schirmherrschaft der ISO zu stellen. Detlef Reineke

6 MARTIF (ISO 12200:1999) Machine-readable terminology interchange format ISO Technical Committee 37 (Terminology - principles and coordination), Sub-Committee 3 (Computer applications for terminology), Working Group 3 (Data interchange) Text Encoding Initiative (TEI) und LISA (Localisation Industry Standards Association) SGML (Standard Generalized Markup Language = ISO 8879) ISO 649 (7-Bit Zeichensatz = 126 Zeichen) ISO (1999): “Computer applications in terminology – Data categories” TC 37 heißt heute “Terminology and other language resources”. Detlef Reineke

7 MARTIF Grundstruktur I. Prolog
II. Document instance (<martif lang=en>) A. header (<martifHeader>) B. text 1. front (optional) 2. body a. 1st terminological entry <termEntry> (minimum of one) b. 2nd terminological entry <termEntry> c. etc. (additional terminological entries) 3. back (optional) (ISO 12200:25) Detlef Reineke

8 MARTIF DTD (Document Type Definition) I. Prolog
Definition der Dokumentstruktur (Elemente, Attribute und Beziehungen) Instrument zur Validierung des MARTIF-Dokuments I. Prolog <!DOCTYPE martif PUBLIC “ISO 12200:1999//DTD for MARTIF (framework/ //EN” [ (Definition der Gesamtstruktur: martifHeader, text, front, body, back, …) <!ENTITY % mtf-body “ISO 12200:1999//DTD for MARTIF (body //EN” > (Definition der Eintragsstruktur: termEntry, langSet, ntig, termGrp, …) <!ENTITY % mtf-ents “ISO 12200:1999//ENTITIES for MARTIF (sets //EN” > ] > (Zeichendefinition) II. Document instance Die MARTIF-DTD ist modular aufgebaut (framework, mtf-body und mtf-ents). Die framework-DTD definiert die Gesamtstruktur eines MARTIF-Dokuments und verweist auf die Struktur des body-Elements, die in der mtf-body-DTD definiert wird. Die separate Handhabung des body-Elements ermöglicht die Validierung von Dokumenten, deren high-level-Struktur (header, text, front, body, back) mit der eines MARTIF-Dokuments übereinstimmt, dessen body-Inhalt aber von dem in der ISO body-Struktur abweicht. In der mtf-ents-DTD lassen sich zusätzlich Zeichen definieren, die nicht in der ISO 646 sind wie z.B. kyrillische oder griechische Schriftzeichen. Detlef Reineke

9 MARTIF DTD (Document Type Definition)
<!ELEMENT text (front?, body, back?) > <!ENTITY % AuxInfo ‘descrip │ descripGrp │ admin │ adminGrp │ ptr │ ref │ date │ note’ > <!ELEMENT body (termEntry+) > <!ELEMENT termEntry ((%AuxInfo;) *, (langSet │ tig │ ntig) +) > <!ATTLIST target IDREF #IMPLIED > Detlef Reineke

10 MARTIF Dokumentinstanz <martif lang=en>
<martifHeader>… (Angaben zum gesamten Datenbestand) </martifHeader> <text> <body>… (terminologische Einträge) </body> <back>… (bibliographische Daten) … (Verweise auf externes Referenzmaterial <xref>) </back> </text> </martif> (ISO 12200:25) Detlef Reineke

11 MARTIF Darstellung der Datenkategorien Obergruppen von Datenkategorien
<termEntry>, <langSet>, <tig> bzw. <ntig>, <termGrp> <descrip>, <admin>, <termNote>, etc. tig = term information group, ntig = nested term information group Instantiierung der Datenkategorien mittels type-Attribut <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <termNote type=‘termType’>synonym</termNote> Die Datenkategorien der ISO werden sogenannten Metadatenkategorien (General Identifiers) zugeordnet und über ein type-Attribut instantiiert. Dieser Formalismus stellt einen kleinsten gemeinsamen Nenner dar und ermöglicht eine flexible Anwendung der Norm auf eine möglichst große Zahl von Terminologiebeständen. Detlef Reineke

12 MARTIF Datenkategorien und Datenelemente
subject field: Materialbeschaffenheit term: Opazität part of speech: Substantiv grammatical gender: f definition: Maß für Lichtundurchlässigkeit source: DIN 6370: , S. 383 Detlef Reineke

13 MARTIF Terminologischer Eintrag
<martif lang=en><martifHeader>… </martifHeader> <text><body> <termEntry id=‘ID ’ <descrip type=’subjectField’>Materialbeschaffenheit</descrip> <langSet lang=de> <ntig><termGrp> <term>Opazität</term> <termNote type=‘partOfSpeech’>Substantiv</termNote> <termNote type=‘grammaticalGender’>f</termNote> <descripGrp> <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN >S. 383</ref> </descripGrp></ntig></termEntry> </body></text> </martif> Detlef Reineke

14 MARTIF Terminologischer Eintrag - Querverweis …
<ntig><termGrp> <term>Opazität</term> <descripGrp> <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN >S. 383</ref> </descripGrp></ntig></termEntry> </body> <back> <refObjectList type=‘bibl’> <refObject> <item id=‘DIN ’> <xref target=‘c:\bibl\normen\DIN-6370\DIN doc</xref> </item></refObject></refObjectList></text></martif> Detlef Reineke

15 MARTIF “Blind interchange” (Teil 2)
Verlustfreier Austausch terminologischer Daten ohne Absprache Umstellung auf XML (Unicode, Darstellung in HTML-Umgebung) Eindeutige Untermenge an Datenkategorien und Inhalten (ISO 12620) XML-Parser und Validierungswerkzeug für Überprüfung der Datenkategorie-Inhalte negotiated interchange blind interchange noun, n., sub, Substantiv n Blind interchange wird nicht weiter verfolgt, aber Anpassung an XML ja. Detlef Reineke

16 TBX TermBase eXchange Format
OSCAR-Gruppe (Open Standards for Container/Content Allowing Re-user group) der LISA (Localisation Industry Standards Assocation) SALT-Projekt (Standards-based Access Service to Multilingual Lexicons and Terminologies) ISO (2003): “Computer applications in terminology – Terminological markup framework (TMF)” - Regeln für die Spezifikation terminologischer Markup-Sprachen (TML) MSC (MARTIF with Specified Constraints) = Blind MARTIF Detlef Reineke

17 TBX Metamodell (ISO 16642:18) Terminological Data Collection (TDC)
Global Information (GI) Complementary Information (CI) Terminological Entry (TE) Language Section (LS) Term Section (TS) Term Component Section (TCS) * Detlef Reineke

18 TBX Angaben zum Gesamtbestand der terminologischen Datenbank
? = kann max. einmal vorkommen + = kommt min. einmal vor (LISA 2002:11) <?xml version='1.0'?> <!DOCTYPE martif SYSTEM "./TBXcoreStructureDTD-v-1-0.DTD"> <martif type='TBX' xml:lang='en' > <martifHeader>… </martifHeader> <text> <body> ... Detlef Reineke

19 TBX Eintragsebene ? = kann max. einmal vorkommen
+ = kommt min. einmal vor (LISA 2002:12) Detlef Reineke

20 TBX Terminologischer Eintrag <?xml version='1.0'?>
<!DOCTYPE martif SYSTEM "./TBXcoreStructureDTD-v-1-0.DTD"> <martif type='TBX' xml:lang='en' > <martifHeader>…</martifHeader> <text><body> <termEntry id=‘ID ’ <descrip type=’subjectField’>Materialbeschaffenheit</descrip> <langSet lang=de> <ntig><termGrp> <term>Opazität</term> <termNote type=‘partOfSpeech’>Substantiv</termNote> <termNote type=‘grammaticalGender’>f</termNote> <descripGrp> <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN >S. 383</ref> </descripGrp></ntig></termEntry> </body></text> </martif> Detlef Reineke

21 TBX DTD Rudimentäre Typendefinition Keine XML-Auszeichnung
Keine Definition von Namensräumen möglich Keine Definition fester Wertemengen von Datenkategorien möglich Empfehlung: XML Schema Detlef Reineke

22 Trados MultiTerm ≦ MultiTerm 5.5 **
<Subject field>Materialbeschaffenheit <de>Opazität <Part of speech>Substantiv <Grammatical gender>f <Definition>Maß für die Lichtundurchlässigkeit <Source> ^DIN 6370: ^, S. 383 <en> Opacity Detlef Reineke

23 Trados MultiTerm ≦ MultiTerm 5.5 Flach strukturiertes Exportformat
Keine Zuordnung zu Metamodell bzw. Metadatenkategorien Beziehungen zwischen den Datenkategorien nicht explizit Sprach- (langSet) und Termkomponentenebene (termCompList) nicht adäquat darstellbar Eingeschränkte Zuordnungsmöglichkeit von Attributfeldern Umständliche Konvertierung über Exportschnittstelle bzw. Zwischenformat Detlef Reineke

24 Trados MultiTerm MultiTerm iX
<?xml version="1.0" encoding="UTF-16" ?> - <mtf> - <conceptGrp>… - <descripGrp> <descrip type=“subject field”>Materialbeschaffenheit</descrip> <descripGrp> - <languageGrp> <language type=“Deutsch”/> - <termGrp> <term>Opazität</term> <descrip type=“part of speech”>Substantiv</descrip> <descrip type=“grammatical gender”>f</descrip> Detlef Reineke

25 Trados MultiTerm MultiTerm iX Detlef Reineke

26 TBX vs. MultiTerm iX Metadatenkategorien MultiTerm iX TBX <mtf>
<martif> <conceptGrp> <termEntry> <languageGrp> nicht vorhanden <language> <langSet> nicht vorhanden <ntig>, <tig> <descrip>* <termNote>* * Bezeichnungsebene Detlef Reineke

27 Fazit Geringe Implementierung TBX vs. Akzeptanz XLIFF/TMX
TBX-ähnliches Format bisher nur in Trados MultiTerm iX, SGML-basiertes Format in STAR Termbase Schnittstellen zu OLIF2, TMX, XLIFF Offene Detaills (z.B. Standardzeichenkodierung, Binärdateien) Feinere Datenkategorien (ISO 12620) Umstellung auf Standardformate erfordert Zeit, Geld und Fachwissen Anpassung der Hochschulstudiengänge (Bologna-Erklärung) Detlef Reineke

28 Vielen Dank für Ihre Aufmerksamkeit.
Dr. Detlef Reineke Universidad de Las Palmas de Gran Canaria Facultad de Traducción e Interpretación C/ Pérez del Toro, 1 35003 Las Palmas de Gran Canaria


Herunterladen ppt "Austauschformate für Terminologie"

Ähnliche Präsentationen


Google-Anzeigen