Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Xaver Dusel Geändert vor über 10 Jahren
1
Exploring People and Monuments in Baedeker Guidebooks
Corpus travel!digital Exploring People and Monuments in Baedeker Guidebooks (1875 – 1914) Ulrike Czeitschner
2
TEXTSORTENSPEZIFISCH
Baedeker Corpus DAS BAEDEKER CORPUS TEXTSORTENSPEZIFISCH Erstauflagen deutschsprachiger Reiseführer aus dem Verlagshaus Baedeker HISTORISCH 1875 – 1914 THEMATISCH außereuropäische Destinationen ANNOTIERTE VOLLTEXTE 7 Bände = Seiten = Tokens Strukturannotation in XML/TEI (P5) LINGUISTISCHE EBENEN Lemmatisierung, PoS-Tagging TreeTagger, STTS SEMANTISCHER FOKUS Menschen und Monumente SKOS, LOD
3
Baedeker Corpus Baedeker Corpus travel!digital
4
DAS BAEDEKER CORPUS Baedeker Corpus ERSTAUFLAGEN TOKENS
PALAESTINA UND SYRIEN. Leipzig 1875 (7. u. letzte Auflage 1910) AEGYPTEN. ERSTER THEIL. UNTER-AEGYPTEN BIS ZUM FAYÛM UND DIE SINAI-HALBINSEL Leipzig 1877 (3. u. letzte Auflage 1894) ÄGYPTEN. ZWEITER THEIL. OBER-ÄGYPTEN UND NUBIEN BIS ZUM ZWEITEN KATARAKT Leipzig 1891 NORDAMERIKA. DIE VEREINIGTEN STAATEN NEBST EINEM AUSFLUG NACH MEXIKO Leipzig 1893 (2. u. letzte Auflage 1904) KONSTANTINOPEL UND DAS WESTLICHE KLEINASIEN. Leipzig 1905 (2. u. letzte Auflage 1914) DAS MITTELMEER. HAFENPLÄTZE UND SEEWEGE NEBST MADEIRA, DEN KANARISCHEN INSELN, DER KÜSTE MAROKKOS, ALGERIEN UND TUNESIEN Leipzig 1909 (2. u. letzte Auflage 1934) INDIEN. CEYLON. VORDERINDIEN. BIRMA. DIE MALAYISCHE HALBINSEL. SIAM. JAVA Leipzig 1914
5
ANNOTATION Lemmatisierung, Part-of-Speech-Tagging
Baedeker Corpus ANNOTATION Lemmatisierung, Part-of-Speech-Tagging TreeTagger (Universität Stuttgart) Lemma-Zuordnung: Rückführung der Flexionsformen auf eine Grundform Wortarten-Bestimmung: Stuttgart-Tübingen-Tagset, 54-teiliges Tagset für die Annotation deutscher Texte SKOS (Simple Knowledge Organization System) SKOS modelliert webbasierte Repräsentationen kontrollierter Vokabulare SKOS adaptiert klassische Prinzipien (Äquivalenz-, Hierarchie- und Assoziationsrelationen) SKOS basiert auf RDF (Resource Description Framework) SKOS erlaubt die Publikation, den Austausch und die Mehrfachnutzung von Begriffssystemen z. B. als Linked Open Data (LOD) 1. Nomina (N) 2. Verben (V) 3. Artikel (ART) 4. Adjektive (ADJ) 5. Pronomina (P) 6. Kardinalzahlen (CARD) 07. Adverbien (ADV) 08. Konjunktionen (KO) 09. Adpositionen (AP) 10. Interjektionen (ITJ) 11. Partikeln (PTK)
6
MENSCHEN Oberbegriffe (~ 14 %)
Baedeker Corpus Oberbegriffe (~ 14 %) Volk, Stamm, Bevölkerung, Einwohner … Geographisch orientierte Bezeichnungen (~ 3,5 %) Europäer, Nordafrikaner, Asiaten, Orientalen … Ethnisch/nationale Bezeichnungen (~ 36 %) Engländer, Deutsche, Bengalen, Wedda … Religiöse Gruppen (~ 11 %) Bruderschaft, Pilger, Buddhisten, Juden, Sikhs … Soziale Gruppen (~ 1,5 %) Kasten, Klassen, Arbeiter, Sklaven … Beruf, politische und wirtschaftliche Funktion, Lebensstil (~ 33 %) Händler, Gouverneure, Bauern, Nomaden … MENSCHEN
7
MONUMENTE Architektur (~ 38 %) Kunstwerk (~ 13 %) Natur (~ 20 %)
Baedeker Corpus Architektur (~ 38 %) Kapelle, Kirche, Kloster, Mausoleum, Friedhof, Bildungs- und Wissenschaftseinrichtung, Gesundheits- und Sporteinrichtung, Museum, Sammlung, Palast, Theater, Industriebau, Inneneinrichtung, Verkehrsbau, Ensemble, Park sakral (~ 68,9 %), profan (~ 29,5 %) Kunstwerk (~ 13 %) Denkmal, Skulptur, Gemälde, anderes Kunstwerk, Sammlung sakral (~ 29,9 %), profan (~ 7,8 %) Natur (~ 20 %) Unterkünfte (~ 14,5 %) Aussicht (~ 10 %) Sonstiges (~ 2,3 %) Aktivität, Folklore, Inschrift, Shopping, ganze Ortschaft MONUMENTE
8
RDF — RESOURCE DESCRIPTION FRAMEWORK
Baedeker Corpus RDF — RESOURCE DESCRIPTION FRAMEWORK Ressourcen sind Personen, physische Objekte, abstrakte Konzepte … RDF formuliert logische Aussagen über Ressourcen in maschinenlesbarer Form RDF-Aussagen sind als Triples modelliert: Subjekt-Prädikat-Objekt Das Ramesseum ist ein Sakralbau Einzelne Ressourcen können Subjekt u./o. Objekt mehrerer Aussagen sein Ramses II. erbaute das Ramesseum Das Ramesseum befindet sich in Theben Theben ist Teil des UNESCO-Weltkulturerbes Jede Ressource erhält einen eindeutigen Uniform Resource Identifier (URI) ist ein Kurz: RDF verknüpft Ressourcen (Subjekte und Objekte) über Eigenschaften (Prädikate) zu einem semantischen Netzwerk
9
Virtual International Authority File the Union List of Artist Names®
Baedeker Corpus LOD — LINKED OPEN DATA LOD vernetzt Ressourcen mit Hilfe von HTTP-URIs LOD vernetzt Ressourcen aus verschiedenen Datensets um auf weiterführende und verwandte Informationen zu verweisen LOD verlinkt Daten, nicht Dokumente! Subjekt- und Objekt-URIs einer Aussage können aus verschiedene Quellen stammen AAT the Art & Architecture Thesaurus ® VIAF Virtual International Authority File Baedeker Corpus TGN the Getty Thesaurus of Geographic Names® ULAN the Union List of Artist Names® CONA the Cultural Objects Name Authority®
10
Exploring People and Monuments in Baedeker Guidebooks
Corpus travel!digital Exploring People and Monuments in Baedeker Guidebooks (1875 – 1914) Vielen Dank! Ulrike Czeitschner
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.