Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Ähnliche Präsentationen


Präsentation zum Thema: "Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin."—  Präsentation transkript:

1 Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin

2 XML – (eXtensible Markup Language) Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten Namen der Elemente und Attribute sind frei wählbar Dateistruktur durch DTD oder XML Schema definierbar Heute: Metasprache in Text (TEI, XHTML), Grafik (SVG, X3D), Geodaten, Video (SMIL), Webservices (SOAP, WSDL), Datenbanken (Xquery) … 2

3 Vorteile von XML Für Mensch und Maschine verständliche Informationen (semantic Web) Lizenzfreiheit Plattformunabhängigkeit Medienneutralität Einsatz in verschiedenen Systemen Konvertierung in andere Dateiformate 3

4 Quelle für die Auszeichnung Biografie aus ADB / NDB am Beispiel von Curt GoetzADB / NDB Grafik Ohne OCR (Texterkennung) Deshalb nicht durchsuchbar Große Dateigröße 4

5 Ziel der Auszeichnung in XML Druchsuchbarer Text (geringe Dateigröße und suchmaschinenkonform) Verlinkungen innerhalb des Textes für schnelle Navigation (Evtl. Kopplung an die Originalgrafik bei älteren Texten) Schnelle Konvertierung in andere Formate (PDF, Datenbanken, CD-ROM) Semantische Struktur Für jede Personenbiografie eine Datei 5

6 Das wichtigste Element: Element ist das Kernstück einer Biografie Alle vorkommenden Personen werden damit ausgezeichnet und bekommen eine eindeutige ID Berufe und Personenbeschreibungen werden an die ID gekoppelt. Für die inter-biografische Verbindung wichtig! 6

7 Beispiel des Elements Attribute geschlecht = (männlich | weiblich) ID besteht aus Nachname_Vorname_Zahl Die Zahl in der ID soll verschiede Personen mit gleichem Vor- und Nachnamen unterscheiden Dateinamen sind identisch mit Person ID (Goetz_Curt_1.xml) 7

8 Analyse der Kurzinfo Name, Vorname Beruf Geburtsdatum / -ort; Sterbadatum / -ort Konfession Orthographisch: Hervorhebungen (fett bei Goetz; kursiv bei Curt) Entities (Stern, Kreuz ) 8

9 Auszeichnung der Kurzinfo Name wird hervorgehoben Entities werden eingefügt († für Kreuz) Beruf wird an person gekoppelt durch person_ref Beruf bekommt eine Kategorie 9

10 Absätze im Original Absätze werden durch... gekennzeichnet 10

11 Analyse der Familie Vater Mutter Ehepartner(in) Kinder Ineinander verschachtelte Personenbeschreibungen (teilweise sehr komplex) Symbole, für die es keine Entities gibt (Eheringe) 11

12 Auszeichnung des Vaters Abschnitt innerhalb Personen bekommen ID Nähere Beschreibungen in mit Referenz an die Person ID durch Attribut person_ref 12

13 Auszeichnung der Mutter Komplexe Verschachtelung Struktur Nur noch im Strukturbaum ersichtlich 13

14 Auszeichnung des Ehepartners Eheringe als Bilddatei! Mehrere möglich kann eingefügt werden (bei Goetz nicht nötig) Kinder als 14

15 Analyse der eigentlichen Biografie Durchgehender Text Weitere Personen kommen vor In anderen Biografien: Studium, Institut und Studienjahre Mehrere Absätze 15

16 Auszeichnung der eigentlichen Biografie Wird von umschlossen Personen werden ausgezeichnet mittels ID 16

17 Analyse der Werke Kategorie (Werkstyp) Titel Erscheinungsjahr Sonstige Bemerkungen 17

18 Auszeichnung der Werke bekommt Attrribute typ und jahr Titel in Sonstiges innerhalb 18

19 Seitenumbrüche im Original Seitenumbrüche werden in der XML repräsentiert durch Übergang von einer Seite zur anderen durch | Auch Seitenzahlen nach anderem Format möglich (XV|XVI; 10a|10b; 45.1|45.2 …) Vorteil: PDF wird 1:1 repräsentiert 19

20 Analyse des Literaturnachweises Autor Titel Erscheinungsjahr Verlag oder Seitennummer Literaturnachweise getrennt durch Semikolon Querverweise zu anderen Personen (Wilhelm Rocco) 20

21 Auszeichnung des Literaturnachweises Einzelne Einträge in Sinvoll in autor, titel, jahr usw. zu trennen? Kopplung der Einträge an ID (wegen W. Rocco) ? 21

22 Analyse des Fundstelle Werk Autor Seitenzahlen Bandnummer Mehrere Funstellen möglich Unterscheidung zwischen Haupteintrag und Nebeneintrag 22

23 Auszeichnung der Fundstelle Am Anfang der Datei in hat alle Angaben als Attribute und als Text Autor separat in getaggt mit persönlicher ID 23

24 Standartisierung der Struktur Für eine einheitliche Struktur für alle Einträge in der ADB / NDB: Mehrere verschiedene Strukturtypen taggen Eine DTD oder ein XML-Schema definieren Dokumentation der DTD Welche Elemente können in welchen enthalten sein? 24

25 25


Herunterladen ppt "Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin."

Ähnliche Präsentationen


Google-Anzeigen