Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Ruperta Weith Geändert vor über 9 Jahren
1
Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen Institut für Slawistik, Universität Graz April 2007 Korpuserstellung im Kontext eines AM-basierten Frameworks Institut für Informationsverarbeitung in den Geisteswissenschaften Hubert Stigler
2
Gralis Text-Korpus: "je.*"
3
Agenda Workflow zur Erstellung des Gralis Text-Korpus Ein Korpustext aus der BearbeiterInnenperspektive XML-basierte Validierung der Korpustexte Asset Management Systeme (AMS) Anwendungsbeispiel aus der Literaturwissenschaft Ein Korpus-Asset Inhaltsmodell AMS Anwendungsszenarien in der Korpuserstellung
4
Workflow zur Generierung des Gralis Text-Korpus
5
Ein Korpustext aus der BearbeiterInnenperspektive Die roten Absatzmarken markieren Segmentgrenzen, die zunächst über ein Makro unter Verwendung von Regular Expressions eingefügt und bei Bedarf im Bearbeitungsvorgang interaktiv – durch Verschieben oder Löschen – in der Office Anwendung korrigiert werden können.
6
XML-basierte Validierung der Korpustexte Gralis buildCorpus 1.1 © Hubert Stigler Searching for file triples in directory: /data/xo/gralis/data/ -- file triple: Albanija_dospjela_na_listu ok -- file triple: Albanski_politicari ok -- file triple: Albert_Einstein couldn't found hr -- file triple: Americka_vlada_izjavila couldn't validate bs -- file triple: Americki_predsjednik segment error hr: 6; sr: 6; bs: 5 -- file triple: Anatole_France ok... 124 file triples were processed 121 file triples were written to the corpus files 3 non valid triples were found Execution terminated normally Im Bulk-Modus werden die in einem Verzeichnis abgelegten Korpustexte validiert und die für die Weiterverarbeitung mit der IMS Corpus Workbench 1 benötigten vertikalisierten Korpusdateien erstellt. 1 Developed by Institute for Natural Language Processing, University of Stuttgart
7
Asset Management Systeme Dienen der metadatenbasierten Verwaltung von digitalen Ressourcen Bieten die Möglichkeit, über persistente Zitierbarkeit Assets einfach in webbasierte Kontexte zu integrieren (Lernplattformen, Frameworks u.a.) Stellen (intelligente) Suchstrategien zur Verfügung Ermöglichen Kollaboration in der Assetbearbeitung und -verwaltung Ermöglichen die Bildung von Sammlungen für unterschiedliche Zwecke Bieten Möglichkeiten zur fein granulierbaren Vergabe von Zugriffsrechten
8
Beispiel: Ulrich Schulz-Buschhaus Aufsatzwerk http://http://gams.uni-graz.at/container:usb http://gams.uni-graz.at/rss?pid=container:usb http://
9
Ein Korpus-Asset Inhaltsmodell Ein Asset dient als Speichercontainer für beschreibende Metadaten und Datenströme beliebiger Art: Texte, Audio-/Videodateien u.v.m. Zusätzlich bietet ein AMS die Möglichkeit, im sogenannten Inhaltsmodell Objektmethoden (z.B. XSLT-Transformationen u.Ä.) zu definieren, die auf den im Asset enthaltenen Daten operieren.
10
AMS Anwendungsszenarien in der Korpuserstellung In einem Korpus-Asset werden sowohl Office-Dokumente als auch XML- Repräsentanten aller drei Sprachvarianten eines Korpustextes verwaltet Während HTML- und PDF-Getter-Methoden des Korpustextes über das Web frei zugänglich sind, stehen Office- und TEI-Datenstrom, sowie LaTeX-Getter-Methode nur autorisierten BenutzerInnen zur Verfügung Über die HTML- und PDF-Getter-Methoden aller Korpustexte generiert sich ein Webauftritt des Korpus Alle Korpustexte werden bei der Bearbeitung einem Container zugewiesen, der als Objektmethode in seinem Inhaltsmodell die Generierung der vertikalisierten Korpusdateien für die IMS Corpus Workbench ermöglicht und, und, und... Danke für Ihre Aufmerksamkeit!
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.