Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen.

Ähnliche Präsentationen


Präsentation zum Thema: "Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen."—  Präsentation transkript:

1 Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen Institut für Slawistik, Universität Graz April 2007 Korpuserstellung im Kontext eines AM-basierten Frameworks Institut für Informationsverarbeitung in den Geisteswissenschaften Hubert Stigler

2 Gralis Text-Korpus: "je.*"

3 Agenda  Workflow zur Erstellung des Gralis Text-Korpus  Ein Korpustext aus der BearbeiterInnenperspektive  XML-basierte Validierung der Korpustexte  Asset Management Systeme (AMS)  Anwendungsbeispiel aus der Literaturwissenschaft  Ein Korpus-Asset Inhaltsmodell  AMS Anwendungsszenarien in der Korpuserstellung

4 Workflow zur Generierung des Gralis Text-Korpus

5 Ein Korpustext aus der BearbeiterInnenperspektive Die roten Absatzmarken markieren Segmentgrenzen, die zunächst über ein Makro unter Verwendung von Regular Expressions eingefügt und bei Bedarf im Bearbeitungsvorgang interaktiv – durch Verschieben oder Löschen – in der Office Anwendung korrigiert werden können.

6 XML-basierte Validierung der Korpustexte Gralis buildCorpus 1.1 © Hubert Stigler Searching for file triples in directory: /data/xo/gralis/data/ -- file triple: Albanija_dospjela_na_listu ok -- file triple: Albanski_politicari ok -- file triple: Albert_Einstein couldn't found hr -- file triple: Americka_vlada_izjavila couldn't validate bs -- file triple: Americki_predsjednik segment error hr: 6; sr: 6; bs: 5 -- file triple: Anatole_France ok... 124 file triples were processed 121 file triples were written to the corpus files 3 non valid triples were found Execution terminated normally Im Bulk-Modus werden die in einem Verzeichnis abgelegten Korpustexte validiert und die für die Weiterverarbeitung mit der IMS Corpus Workbench 1 benötigten vertikalisierten Korpusdateien erstellt. 1 Developed by Institute for Natural Language Processing, University of Stuttgart

7 Asset Management Systeme  Dienen der metadatenbasierten Verwaltung von digitalen Ressourcen  Bieten die Möglichkeit, über persistente Zitierbarkeit Assets einfach in webbasierte Kontexte zu integrieren (Lernplattformen, Frameworks u.a.)  Stellen (intelligente) Suchstrategien zur Verfügung  Ermöglichen Kollaboration in der Assetbearbeitung und -verwaltung  Ermöglichen die Bildung von Sammlungen für unterschiedliche Zwecke  Bieten Möglichkeiten zur fein granulierbaren Vergabe von Zugriffsrechten

8 Beispiel: Ulrich Schulz-Buschhaus Aufsatzwerk http://http://gams.uni-graz.at/container:usb http://gams.uni-graz.at/rss?pid=container:usb http://

9 Ein Korpus-Asset Inhaltsmodell Ein Asset dient als Speichercontainer für beschreibende Metadaten und Datenströme beliebiger Art: Texte, Audio-/Videodateien u.v.m. Zusätzlich bietet ein AMS die Möglichkeit, im sogenannten Inhaltsmodell Objektmethoden (z.B. XSLT-Transformationen u.Ä.) zu definieren, die auf den im Asset enthaltenen Daten operieren.

10 AMS Anwendungsszenarien in der Korpuserstellung  In einem Korpus-Asset werden sowohl Office-Dokumente als auch XML- Repräsentanten aller drei Sprachvarianten eines Korpustextes verwaltet  Während HTML- und PDF-Getter-Methoden des Korpustextes über das Web frei zugänglich sind, stehen Office- und TEI-Datenstrom, sowie LaTeX-Getter-Methode nur autorisierten BenutzerInnen zur Verfügung  Über die HTML- und PDF-Getter-Methoden aller Korpustexte generiert sich ein Webauftritt des Korpus  Alle Korpustexte werden bei der Bearbeitung einem Container zugewiesen, der als Objektmethode in seinem Inhaltsmodell die Generierung der vertikalisierten Korpusdateien für die IMS Corpus Workbench ermöglicht  und, und, und... Danke für Ihre Aufmerksamkeit!


Herunterladen ppt "Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen."

Ähnliche Präsentationen


Google-Anzeigen