Austauschformate für Terminologie

Slides:



Advertisements
Ähnliche Präsentationen
25. Mai 2001Kleyer/Oyen/ReuseFolie 1 Fallstudie im Rahmen des Studienganges Wirtschaftsinformatik Christian Kleyer, Daniel Oyen, Svend Reuse Grundkonzeption.
Advertisements

Dateiformate Tobias Rolle IT takes more than systems …
Extensible Markup Language
Worzyk FH Anhalt Datenbanksysteme für FÜ WS 2004/2005 XML - 1 XML Extensible Markup Language.
DTD XML-Technik Dino Azzano. Definition Document Type Definition Beschreibung der Regeln zum Aufbau aller XML-Dokumente, die zu einer Dokumentklasse.
Was bedeutet XML in Office-Applikationen für Systemadministratoren? Ruprecht Dröge MCSE MCSD MCT Microsoft Pre Sales Consultant.
Anmerkungen zu XML Im September 2000 Entwicklung/Anspruch von XML
TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.
Dipl.- Dok. Rusalka Offer
XML - Aufbau und Struktur - mit Einsatz im B2B
Hands On – Einführung in XML
IMS Universität Stuttgart 1 Einführung in XML Hannah Kermes HS: Elektronische Wörterbücher Do,
HTML - Einführung Richard Göbel.
FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.
DOM (Document Object Model)
Internet Protokolle und Formate 1.1 HTTP 1.2 HTML 1.3 SGML 2. XML 3. WAP Matthias Thränhardt Sebastian Weber.
Web 3.0 – Programmierung – Semantic Web / CIDOC CRM
TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer
XML-Schema HKI Proseminar Wintersemester 2010/11 Dozentin: Frau Kurz von Jan Kohl und Christian Lütticke.
METS / MODS. METS – Metadata Encoding and Transmission Standard – 2002 veröffentlicht – XML Schema – Reale Objekte digital abbilden – hierarchische Struktur.
Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.
HTML - Eine erste Annäherung
XML-Parser Manuel Röllinghoff.
Die Nutzung von ERP-Daten für die firmenweite Terminologieverwaltung
© 2002 Prof. Dr. G. Hellberg 1 XML-Seminar XML-Technologie: XML in Theorie und Praxis Prof. Dr. G. Hellberg XML-Technologie: XML in Theorie und Praxis.
Modularization of XHTML™
Einführung XML XML Einführung Andreas Leicht.
Sebastian Hirsch Sascha Neuhaus
Multimedia - Datenformate
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
TMX Austauschformat für Translation Memory Systeme
Data Documentation Initiative (DDI)
FH-Hof HTML - Einführung Richard Göbel. FH-Hof Komponenten des World Wide Webs WWW Browser HyperText Transfer Protocol (HTTP) via Internet WWW Server.
T E I [Text Encoding Initiative] IT-Zertifikat Kurs 4 :Daten und Metadaten Dozent: Patrick Sahle.
Vortrag HTML, XHTML, DHTML
Integration heterogener verteilter Systeme mit WS-BPEL – ein Praxisbeispiel Dr. Wolf-Dieter Heinrichs.
Fortsetzung DTDs, UML  XML
Java für Fortgeschrittene
Daniel Kucher Proseminar XHTML. 1. HTML – Struktur und Versionen 2. Der – Teil 3. Der – Teil 4. Stylesheets (CSS) – Das Rückrat von XHTML.
Wohlgeformtheit und Gültigkeit Grundlagen der Datenmodellierung Anke Jackschina.
Ausgabe vom Seite 1, XML Eine Einführung XML - Eine Einführung.
Beispiele von Objektkatalogen
Kongress99-xml.ppt-1 ( ) 1999 © Maximilian Riegel XML Kommunikationsnetz Franken e.V. XML - die zukünftige Sprache des WWW? Max Riegel Daten im.
XML (Extensible Markup Language)
Version X des Programms: Datenaustausch-Probleme % ( ) (WIRBEL-BASISTEIL GR. 52) N1G29X150Y85I150J25 N2G0X150Y25 Version Y des Programms:
IT-Zertifikat Kurs IV Gunther Sarling
Hypertext Markup Language
Folge 11/ Kapitel 4.1: Datenaustausch über Extranets
Dublin Core IT-Zertifikat Daten- und Metadatenstandards.
Daten- und Metadatenstandards SoSe 2009 IT-Zertifikat der Philosophischen Fakultät der Universität zu Köln Dozent: Patrick Sahle 26. Juni 2009: Dublin.
Informationsmodell: ISO 13606
Hauptseminar Web-Services und verteilte Datenbanken Thema XML, DTDs und XML-Schema XML, DTDs und XML-Schema - Stefan Kurz, 25. April 2003.
- Warum: Das HTML-Dilemma
IT-Zertifikat der Phil.Fak Kurs 4: Daten- und Metadatenstandards Patrick Sahle XML-BasicsWS 08/09.
Seminar zur Geoinformation Folie 1 Inhalt: –XML –XML- SCHEMA –XSL –Syntax –GML Seminar zur Geoinformation Datenaustausch mit XML / GML im InternetDatenaustausch.
Vorteile von XML Die installed base von HTML, HTTP und Webbrowsern XML ist einfach und portabel XML kann Dokumente beliebiger Komplexität abbilden XML.
Vorteile von XML Die installed base von HTML, HTTP und Webbrowsern XML ist einfach und portabel XML kann Dokumente beliebiger Komplexität abbilden XML.
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
Peter Brezany Institut für Softwarewissenschaften Universität Wien
Seminar Modellgetriebene Softwareentwicklung XMI - XML Metadata Interchange Vortrag im Rahmen des Seminar Modellgetriebene Softwareentwicklung Mirko Otto.
TEI Die Text Encoding Initiative (TEI-Konsortium), 1987 gegründet - Dokumentenformat (zunächst SGML)‏
Vorteile von XML Die installed base von HTML, HTTP und Webbrowsern XML ist einfach und portabel XML kann Dokumente beliebiger Komplexität abbilden XML.
SGML, die Basis für eine optimierte Produktion von Windows-Online- Hilfen Thomas Bergerhoff, Tanner Dokuments Nürnberg.
1 Java und XML Stephan Baldes Warum XML? In welchem Format wurden die Daten gespeichert? Bernd;Thomas;3;5;1987;Freiburg;Karlsruhe Peter;Maier;7;9;1980;Karlsruhe;Freiburg.
Semantic Markup für Zwecke der Langzeitarchivierung in digitalen Bibliotheken Neubiberg,
Text Encoding Initiative (TEI) Universität zu Köln, SS 2009, HKI Seminar: Daten- und Metadatenstandards Dozent: Herr Sahle Referentin: Ulrike Henny Datum:
Dokumentenproduktion im Medienzentrum
Konzepte von Terminologie-Datenbanken
Vergleich von Terminologie-Datenbanksystemen
 Präsentation transkript:

Austauschformate für Terminologie MARTIF und TBX Austauschformate für Terminologie 2. Kölner Tagung “Softwarelokalisierung” IIM der FH Köln, 11.-12.03.2005 Detlef Reineke Universidad de Las Palmas de Gran Canaria

Übersicht Vorteile standardisierter Terminologieaustauschformate Kurzer Rückblick MARTIF (Machine-readable terminology interchange format) TBX (TermBase eXchange Format) Datenmodellierung und –austausch in Trados MultiTerm Ausblick Detlef Reineke

Vorteile von Austauschstandards Minimierung kostspieliger Redundanzen Systemunabhängige Erarbeitung und Vertrieb (Anbieter) Angebotserweiterung (Kunde) Konzentration auf Werkzeugoptimierung 10 Formate = 180 Konvertierungen 100 Formate = 19.800 Konvertierungen 1 Update 10 Formate = 540 Konvertierungen 1 Update 100 Formate = 59.400 Konvertierungen 1 Standardaustauschformat = 20 bzw. 200 Konvertierungen Um terminologische Konsistenz über Inhalte und Formate hinweg zu gewährleisten, sind neben … Detlef Reineke

Kurzer Rückblick MATER (Magnetic Tape Exchange Format for Terminological/Lexicographical Records = ISO 6156:1986) Standard für Datenaustausch zwischen Großrechnern 9-Spur Magnetband Feste Datenstruktur Integration terminologischer UND lexikographischer Daten MicroMATER flexibles Format für den Datenaustausch zwischen Großrechnern, Rechnern der mittleren Datentechnik und Microcomputern (Datenkategorien und –länge flexible) Just zu dieser Zeit gründeten Philologen das Text Encoding Initiative-Konsortium (TEI) mit dem Vorsatz, Inhalt und Format von Texten aufgrund der rasanten Entwicklung von Betriebssystemen und Anwendungsprogrammen zu entkoppeln und über einen allgemeinen Auszeichnungsstandard zu beschreiben. Das vom TEI-Konsortium entwickelte gleichnamige Textkodierungs- und Textaustauschformat basierte zunächst auf SGML, wurde aber inzwischen auf XML abgelöst. Der vom TEI verfolgte Ansatz war auch für die Initiatoren von MATER und MicroMATER interessant. Zudem mussten im Bereich des Austauschs terminologischer Daten ähnliche Hindernisse überwunden werden wie etwa Zeichensatzproblematik, die Kodierung von Querverweisen oder die Referenzierung externer Objekte. Anfang der 90er Jahre wurde daher unter Mitwirkung von MicroMATER-Designern innerhalb des TEI-Konsortiums eine Terminologie-Arbeitsgruppe gegründet mit dem Ziel, sich von den bisher entwickelten Formaten zu lösen und einen von Grund auf neuen Standard zu erarbeiten. Um dem Standard universelle Akzeptanz zu verschaffen, entschloss man sich nach einjähriger Arbeit im TEI, weitere Bemühungen um ein einheitliches Terminologieaustauschformat unter die Schirmherrschaft der ISO zu stellen. Detlef Reineke

Kurzer Rückblick TEI (Text Encoding Initiative) Format für Auszeichnung und den Austausch von Texten Zunächst SGML-basiert (Standard Generalized Markup Language) inzwischen XML-basiert (eXtensible Markup Language) TEI.terminology TEI  ISO Just zu dieser Zeit gründeten Philologen das Text Encoding Initiative-Konsortium (TEI) mit dem Vorsatz, Inhalt und Format von Texten aufgrund der rasanten Entwicklung von Betriebssystemen und Anwendungsprogrammen zu entkoppeln und über einen allgemeinen Auszeichnungsstandard zu beschreiben. Das vom TEI-Konsortium entwickelte gleichnamige Textkodierungs- und Textaustauschformat basierte zunächst auf SGML, wurde aber inzwischen auf XML abgelöst. Der vom TEI verfolgte Ansatz war auch für die Initiatoren von MATER und MicroMATER interessant. Zudem mussten im Bereich des Austauschs terminologischer Daten ähnliche Hindernisse überwunden werden wie etwa Zeichensatzproblematik, die Kodierung von Querverweisen oder die Referenzierung externer Objekte. Anfang der 90er Jahre wurde daher unter Mitwirkung von MicroMATER-Designern innerhalb des TEI-Konsortiums eine Terminologie-Arbeitsgruppe gegründet mit dem Ziel, sich von den bisher entwickelten Formaten zu lösen und einen von Grund auf neuen Standard zu erarbeiten. Um dem Standard universelle Akzeptanz zu verschaffen, entschloss man sich nach einjähriger Arbeit im TEI, weitere Bemühungen um ein einheitliches Terminologieaustauschformat unter die Schirmherrschaft der ISO zu stellen. Detlef Reineke

MARTIF (ISO 12200:1999) Machine-readable terminology interchange format ISO Technical Committee 37 (Terminology - principles and coordination), Sub-Committee 3 (Computer applications for terminology), Working Group 3 (Data interchange) Text Encoding Initiative (TEI) und LISA (Localisation Industry Standards Association) SGML (Standard Generalized Markup Language = ISO 8879) ISO 649 (7-Bit Zeichensatz = 126 Zeichen) ISO 12620 (1999): “Computer applications in terminology – Data categories” TC 37 heißt heute “Terminology and other language resources”. Detlef Reineke

MARTIF Grundstruktur I. Prolog II. Document instance (<martif lang=en>) A. header (<martifHeader>) B. text 1. front (optional) 2. body a. 1st terminological entry <termEntry> (minimum of one) b. 2nd terminological entry <termEntry> c. etc. (additional terminological entries) 3. back (optional) (ISO 12200:25) Detlef Reineke

MARTIF DTD (Document Type Definition) I. Prolog Definition der Dokumentstruktur (Elemente, Attribute und Beziehungen) Instrument zur Validierung des MARTIF-Dokuments I. Prolog <!DOCTYPE martif PUBLIC “ISO 12200:1999//DTD for MARTIF (framework/ //EN” [ (Definition der Gesamtstruktur: martifHeader, text, front, body, back, …) <!ENTITY % mtf-body “ISO 12200:1999//DTD for MARTIF (body //EN” > (Definition der Eintragsstruktur: termEntry, langSet, ntig, termGrp, …) <!ENTITY % mtf-ents “ISO 12200:1999//ENTITIES for MARTIF (sets //EN” > ] > (Zeichendefinition) II. Document instance … Die MARTIF-DTD ist modular aufgebaut (framework, mtf-body und mtf-ents). Die framework-DTD definiert die Gesamtstruktur eines MARTIF-Dokuments und verweist auf die Struktur des body-Elements, die in der mtf-body-DTD definiert wird. Die separate Handhabung des body-Elements ermöglicht die Validierung von Dokumenten, deren high-level-Struktur (header, text, front, body, back) mit der eines MARTIF-Dokuments übereinstimmt, dessen body-Inhalt aber von dem in der ISO 12200 body-Struktur abweicht. In der mtf-ents-DTD lassen sich zusätzlich Zeichen definieren, die nicht in der ISO 646 sind wie z.B. kyrillische oder griechische Schriftzeichen. Detlef Reineke

MARTIF DTD (Document Type Definition) <!ELEMENT text - - (front?, body, back?) > <!ENTITY % AuxInfo ‘descrip │ descripGrp │ admin │ adminGrp │ ptr │ ref │ date │ note’ > <!ELEMENT body - - (termEntry+) > <!ELEMENT termEntry - - ((%AuxInfo;) *, (langSet │ tig │ ntig) +) > <!ATTLIST target IDREF #IMPLIED > Detlef Reineke

MARTIF Dokumentinstanz <martif lang=en> <martifHeader>… (Angaben zum gesamten Datenbestand) </martifHeader> <text> <body>… (terminologische Einträge) </body> <back>… (bibliographische Daten) … (Verweise auf externes Referenzmaterial <xref>) </back> </text> </martif> (ISO 12200:25) Detlef Reineke

MARTIF Darstellung der Datenkategorien Obergruppen von Datenkategorien <termEntry>, <langSet>, <tig> bzw. <ntig>, <termGrp> <descrip>, <admin>, <termNote>, etc. tig = term information group, ntig = nested term information group Instantiierung der Datenkategorien mittels type-Attribut <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <termNote type=‘termType’>synonym</termNote> Die Datenkategorien der ISO 12620 werden sogenannten Metadatenkategorien (General Identifiers) zugeordnet und über ein type-Attribut instantiiert. Dieser Formalismus stellt einen kleinsten gemeinsamen Nenner dar und ermöglicht eine flexible Anwendung der Norm auf eine möglichst große Zahl von Terminologiebeständen. Detlef Reineke

MARTIF Datenkategorien und Datenelemente subject field: Materialbeschaffenheit term: Opazität part of speech: Substantiv grammatical gender: f definition: Maß für Lichtundurchlässigkeit source: DIN 6370:1996-05, S. 383 Detlef Reineke

MARTIF Terminologischer Eintrag <martif lang=en><martifHeader>… </martifHeader> <text><body> <termEntry id=‘ID0000073578’ <descrip type=’subjectField’>Materialbeschaffenheit</descrip> <langSet lang=de> <ntig><termGrp> <term>Opazität</term> <termNote type=‘partOfSpeech’>Substantiv</termNote> <termNote type=‘grammaticalGender’>f</termNote> <descripGrp> <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry> </body></text> </martif> Detlef Reineke

MARTIF Terminologischer Eintrag - Querverweis … <ntig><termGrp> <term>Opazität</term> <descripGrp> <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry> </body> <back> <refObjectList type=‘bibl’> <refObject> <item id=‘DIN-6370.1996-05’> <xref target=‘c:\bibl\normen\DIN-6370\DIN-6370-1996-05.doc</xref> </item></refObject></refObjectList></text></martif> Detlef Reineke

MARTIF “Blind interchange” (Teil 2) Verlustfreier Austausch terminologischer Daten ohne Absprache Umstellung auf XML (Unicode, Darstellung in HTML-Umgebung) Eindeutige Untermenge an Datenkategorien und Inhalten (ISO 12620) XML-Parser und Validierungswerkzeug für Überprüfung der Datenkategorie-Inhalte negotiated interchange blind interchange noun, n., sub, Substantiv n Blind interchange wird nicht weiter verfolgt, aber Anpassung an XML ja. Detlef Reineke

TBX TermBase eXchange Format OSCAR-Gruppe (Open Standards for Container/Content Allowing Re-user group) der LISA (Localisation Industry Standards Assocation) SALT-Projekt (Standards-based Access Service to Multilingual Lexicons and Terminologies) ISO 16642 (2003): “Computer applications in terminology – Terminological markup framework (TMF)” - Regeln für die Spezifikation terminologischer Markup-Sprachen (TML) MSC (MARTIF with Specified Constraints) = Blind MARTIF Detlef Reineke

TBX Metamodell (ISO 16642:18) Terminological Data Collection (TDC) Global Information (GI) Complementary Information (CI) Terminological Entry (TE) Language Section (LS) Term Section (TS) Term Component Section (TCS) * Detlef Reineke

TBX Angaben zum Gesamtbestand der terminologischen Datenbank ? = kann max. einmal vorkommen + = kommt min. einmal vor (LISA 2002:11) <?xml version='1.0'?> <!DOCTYPE martif SYSTEM "./TBXcoreStructureDTD-v-1-0.DTD"> <martif type='TBX' xml:lang='en' > <martifHeader>… </martifHeader> <text> <body> ... Detlef Reineke

TBX Eintragsebene ? = kann max. einmal vorkommen + = kommt min. einmal vor (LISA 2002:12) Detlef Reineke

TBX Terminologischer Eintrag <?xml version='1.0'?> <!DOCTYPE martif SYSTEM "./TBXcoreStructureDTD-v-1-0.DTD"> <martif type='TBX' xml:lang='en' > <martifHeader>…</martifHeader> <text><body> <termEntry id=‘ID0000073578’ <descrip type=’subjectField’>Materialbeschaffenheit</descrip> <langSet lang=de> <ntig><termGrp> <term>Opazität</term> <termNote type=‘partOfSpeech’>Substantiv</termNote> <termNote type=‘grammaticalGender’>f</termNote> <descripGrp> <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry> </body></text> </martif> Detlef Reineke

TBX DTD Rudimentäre Typendefinition Keine XML-Auszeichnung Keine Definition von Namensräumen möglich Keine Definition fester Wertemengen von Datenkategorien möglich Empfehlung: XML Schema Detlef Reineke

Trados MultiTerm ≦ MultiTerm 5.5 ** <Subject field>Materialbeschaffenheit <de>Opazität <Part of speech>Substantiv <Grammatical gender>f <Definition>Maß für die Lichtundurchlässigkeit <Source> ^DIN 6370:1996-05^, S. 383 … <en> Opacity Detlef Reineke

Trados MultiTerm ≦ MultiTerm 5.5 Flach strukturiertes Exportformat Keine Zuordnung zu Metamodell bzw. Metadatenkategorien Beziehungen zwischen den Datenkategorien nicht explizit Sprach- (langSet) und Termkomponentenebene (termCompList) nicht adäquat darstellbar Eingeschränkte Zuordnungsmöglichkeit von Attributfeldern Umständliche Konvertierung über Exportschnittstelle bzw. Zwischenformat Detlef Reineke

Trados MultiTerm MultiTerm iX <?xml version="1.0" encoding="UTF-16" ?> - <mtf> - <conceptGrp>… - <descripGrp> <descrip type=“subject field”>Materialbeschaffenheit</descrip> <descripGrp> - <languageGrp> <language type=“Deutsch”/> - <termGrp> <term>Opazität</term> <descrip type=“part of speech”>Substantiv</descrip> <descrip type=“grammatical gender”>f</descrip> … Detlef Reineke

Trados MultiTerm MultiTerm iX Detlef Reineke

TBX vs. MultiTerm iX Metadatenkategorien MultiTerm iX TBX <mtf> <martif> <conceptGrp> <termEntry> <languageGrp> nicht vorhanden <language> <langSet> nicht vorhanden <ntig>, <tig> <descrip>* <termNote>* * Bezeichnungsebene Detlef Reineke

Fazit Geringe Implementierung TBX vs. Akzeptanz XLIFF/TMX TBX-ähnliches Format bisher nur in Trados MultiTerm iX, SGML-basiertes Format in STAR Termbase Schnittstellen zu OLIF2, TMX, XLIFF Offene Detaills (z.B. Standardzeichenkodierung, Binärdateien) Feinere Datenkategorien (ISO 12620) Umstellung auf Standardformate erfordert Zeit, Geld und Fachwissen Anpassung der Hochschulstudiengänge (Bologna-Erklärung) Detlef Reineke

Vielen Dank für Ihre Aufmerksamkeit. Dr. Detlef Reineke Universidad de Las Palmas de Gran Canaria Facultad de Traducción e Interpretación C/ Pérez del Toro, 1 35003 Las Palmas de Gran Canaria www.personales.ulpgc.es/dreineke/dfm dreineke@dfm.ulpgc.es