Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Ähnliche Präsentationen


Präsentation zum Thema: "TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen."—  Präsentation transkript:

1 TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen

2 TEI – Wer und Was 1987: Initiative verschiedener international verteilter Institutionen; 2000: TEI Consortium TEI Guidelines: Standardisiertes Regelwerk für die elektronische Erfassung von Texten –Sowohl rein strukturell (Vewendung der Markupsprachen SGML/ XML) als auch semantisch (bzgl. Aussagen über den Text – Metadaten also) –Spezialisiert für geisteswissenschaftliche Texte –ständig weiterentwickelt/ gepflegt TEI -Format –Nicht-proprietär –Portabel Da TEI auf SGML bzw. XML aufsetzt, werden lediglich die Struktur und Aussagen über den Text an sich erfasst – Die Art der Darstellung des Textdokuments über den Computer wird NICHT erfasst! TEI Homepage

3 Entity: Archival Storage

4

5 Quot. marks

6

7 Nicht- standard verschlüss.

8

9

10

11 Grundstruktur eines TEI-konformen Dokuments Neben der Vollversion gibt es auch eine abgespeckte Version der TEI Guidelines: TEI Lite. Sie umfasst diejenigen Regeln, die als elementar für die TEI- konforme Erfassung eines Dokuments, sei es Prosa, Dichtung, Drama etc., erachtet werden (ca. 150 von 450 Elementen (P4)). TEI-konforme Dokumente sind in ihrer Struktur an die Vorgaben der verwendeten Auszeichnungssprache gebunden. XML: Ein TEI-konformes Dokument besteht somit strukturell aus der eigentlichen Instanz und einer dazugehörigen DTD. In ihnen werden Elemente, Attribute und Entities in Tagstruktur gebunden. Innerhalb der DTD wird unter Anwendung der TEI-Regeln definiert, welche Elemente, Attribute und Entities an welchen Stellen erlaubt sind, wie sie verwendet und verschachtelt werden können.

12 Grundstruktur Die Instanz des Dokuments besteht mindestens aus einem Header-Teil und einem Text-Teil: [header content] [text content]

13 Grundstruktur Die entsprechende DTD sieht demnach so aus: teiHeader und text können/ müssen bestimmte weitere Elemente aufnehmen.

14 Grundstruktur Das text- Element ist der Container für das eigentliche Dokument: Jedes Dokument muß ein body-Element besitzen und kann ein front bzw. back- Element besitzen. Ein Buch hat z.B. meistens eine Titelseite, Inhaltsverzeichnis oder Index, welche dann Teil der front bzw. back- Elemente wären.

15 Grundstruktur Welche Elemente innerhalb des body- Elements aufgenommen werden, hängt von der Art des Dokuments ab; eine Instanz eines Dokuments könnte so aussehen: [header content] [front content] Der Nikolaus Erstes Kapitel Er reitet hoch zu Ross [back content]

16 Tagsets TEI unterstützt verschiedene Dokumentarten und Anforderungen über Bündel von Elementen (Tagsets, Module), die eigens dafür kreiert wurden. Einige Tag Sets sind in allen TEI-DTDs enthalten, andere können nur gruppenweise verwendet werden, wieder andere können frei kombiniert werden. Man unterscheidet –Core Tag Sets: in allen TEI-DTDs vorhanden –Base Tag Sets: Eine DTD kann immer nur eines dieser Tagsets enthalten. –Additional Tag Sets: Eine DTD kann eines oder mehrere zusätzlich enthalten.

17 Tagsets Es gibt zwei Module, die immer in jeder TEI-DTD vorhanden sein müssen: Core, enthält Elemente, die für alle Textgattungen gelten, z.B. (paragraph) header, enthält Elemente des Containers Core Tag Sets

18 Tagsets Daneben gibt es Base Tag Sets, die optional verwendet werden können (aber immer genau eines). Ihre Elemente definieren den Grundaufbau verschiedener Textgattungen, z.B. enthält das Base Module für die Textgattung Dichtung Elemente wie Strophe oder Zeile, Prosa enthält dagegen typische Elemente wie Abschnitt und Kapitel. Base Tag Sets

19 Tagsets Additional Tag Sets stellen Elemente zur Verfügung, die speziellen Zwecken dienen. Additional Tag Sets z.B. Manuscript DescriptionManuscript Description

20 TEI Header Jedes TEI-konforme Dokument enthält ein obligatorisches Tagset, das allgemeine Informationen über den eigentlichen Text aufnimmt. ist somit das Tag Set, das die eigentlichen allgemeinen Metadaten aufnimmt. 4 Hauptteile:

21 TEI Header Elemente Ein minimaler TEI Header hat folgende Struktur:...

22 File Description enthält die bibliographische Beschreibung des Dokuments Titelinformationen, Autor, … Editorische Informationen Größe des Dokuments publikatorische Informationen Information zur Serie des Dokuments (falls Teil einer solchen) ergänzende Informationen, die nicht in den anderen Kategorien auftauchen bibliograph. Beschreibung des Texts aus der die elektron. Version generiert wurde

23 Beispiele Two stories by Edgar Allen Poe: a machine readable transcription Poe, Edgar Allen ( ) compiled by James D. Benson

24 Beispiele Third draft, substantially revised bytes Oxford University Press Oxford Copyright 1989, Oxford University Press

25 Beispiele The first folio of Shakespeare, prepared by Charlton Hinman (The Norton Facsimile, 1968)

26 Encoding description Spezifiziert die Methoden und editorischen Prinzipien die die Transkription des Dokuments begleitet haben Ziel und Zweck der elektron. Erfassung Beschreibung der Hintergründe undMethoden für Textsamples Texts collected for use in the Claremont Shakespeare Clinic, June Samples of 2000 words taken from the beginning of the text

27 Encoding description : Details der editor. Prinzipien Errors in transcription controlled by using the WordPerfect spelling checker. All quotation marks converted to entity references &odq; and &cdq;. : detaillierte Infos zu den verwendeten Tags

28 Encoding description spezifiziert kanonische Referenzen. The N attribute on each DIV1 and DIV2 contains the canonical reference for each such division in the form XX.yyy where XX is the book number in roman numeral and yyy is the section number in arabic. Taxonomie Library of Congress Subject Headings

29 Profile description zur Beschreibung verschiedener deskriptiver Aspekte eines Texts Info zur Entstehung eines Texts August 1992 Taos, New Mexico beschreibt die Sprache, Dialekte etc. innerhalb eines Textdokuments

30 Profile description gruppiert Information die das Thema eines Texts beschreibt (über standardisiertes Klassifikationsschema, Thesaurus etc.) English literature -- History and criticism -- Data processing. English literature -- History and criticism -- Theory etc. English language -- Style -- Dataprocessing.

31 Revision description stellt die Möglichkeit zur Dokumentation von Änderungen bereit 6/3/91: EMB ed. File format updated 5/25/90: EMB ed. Stuarts corrections entered

32 Darstellung von TEI-Dateien TEI-Dateien können (bei Verwendung von XML) mittels XSLT in andere Formate umgewandelt werden (z.B. HTML, PDF) Eine relativ einfache Methode zur akkuraten Darstellung von TEI- Dateien ist die Verwendung von Cascading Style Sheets (Bündel von Regeln zur Darstellung von einer Instanz eines Dokuments) Bsp.: A Midsummer nights dream TEI-Datei DTD CCS dazu Das Ergebnis

33 Projekte, die TEI verwenden Projekte (TEI Website)

34 Tool zur Erstellung von TEI-DTDs The TEI Pizza Chef (


Herunterladen ppt "TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen."

Ähnliche Präsentationen


Google-Anzeigen