Vorlesungsverzeichnisse der Universität Bern: Von der Digitalisierung zur Faktenbasis Niklaus Bütikofer Universität Bern Universitätsarchiv Weiterbildungsprogramm in Archiv-, Bibliotheks- und Informationswissenschaft 28. November 2013
Anlass: Bedarf an besser nutzbaren Digitalisaten 28. November scanning Analoge Vorlage Digitales Bild Text als Zeichensequenz strukturierte Daten OCR Trans- formation Orts- und zeit- unabhängiges Lesen; Bild- manipulationen Volltextsuche; Textexzerpte kopieren; eigene Transformationen Maschinelle Auswertung; vielfältige Umwandlungs möglichkeiten Nutzen:
OCR Testbeispiel: Vorlesungsverzeichnisse Vorgehen Digitalisierung: Scan und OCR 28. November >Ausgangsmaterial: gedruckt, vergilbtes Papier >Scanning, im Hinblick auf die Zeichenerkennung (OCR) für vorhandene Geräte und Software optimiert (farbig, 600 dpi; 400 Seiten pro Stunde) >keine Nachbearbeitung scan PDF mit TIFF-Bild Textdatei ohne Formatierungen
Vorgehen Digitalisierung: Umwandlung in Faktenbasis 28. November vv(1946,winter,10,8,2,kapitel,titel,[B,.,Vorlesungen,der,Fakultäten,*)]) vv(1946,winter,10,8,3,kapitel,titel,[Evangelisch,-,theologische,Fakultät]) veranst(1946,winter,[Evangelisch,-,theologische,Fakultät],standard,2,[Allgemeine, Religionsgeschichte,III,:,Antike,und,Islam,.,Dienstag,,,Freitag,11,-,12,.],Prof,[Haller]) veranst(1946,winter,[Evangelisch,-,theologische,Fakultät],standard,3,[Geschichte, Israels,.,Montag,,,Dienstag,,,Freitag,10,-,11,,,Mittwoch,9,-,10,.],Prof,[Haller]) Umwandlung > automatische Umwandlung in vorgegebene Datenstrukturen > mittels in Prolog geschriebener Algorithmen Textdatei ohne Formatierungen Terme in Prolog-Notation
Faktenbasis als Ausgangspunkt für verschiedene Nutzungsformen 28. November vv(1946,winter,10,8,2,kapitel,titel,[B,.,Vorlesungen,der,Fakultäten,*)]) vv(1946,winter,10,8,3,kapitel,titel,[Evangelisch,-,theologische,Fakultät]) veranst(1946,winter,[Evangelisch,-,theologische,Fakultät],standard,2, [Allgemeine, Religionsgeschichte,III,:,Antike,und,Islam,.,Dienstag,,,Freitag,11,-,12,.],Prof,[Haller]) veranst(1946,winter,[Evangelisch,-,theologische,Fakultät],standard,3, [Geschichte, Israels,.,Montag,,,Dienstag,,,Freitag,10,-,11,,,Mittwoch,9,-,10,.],Prof,[Haller]) Datenbank- Tabellen zum Import in eine relationale Datenbank XML-Dateien (zB. nach TEI- Schema) zur Erstellung verschiedener Präsentationsformen direkte Abfragen Faktenbasis Kombination mit anderen Datenbeständen (zB. prosopographische Datenbank der Dozierenden)
Fazit >Gedruckte Unterlagen lassen sich heute mit vertretbarem Mehraufwand soweit digitalisieren, dass sie maschinell auswertbar sind Nutzen für die Forschung: >Zeitersparnis: Arbeiten, die man auch konventionell machen kann und früher auch so gemacht hat, gehen viel schneller und mit grösseren Mengen an Quellen >Heuristischer Gewinn: Mit Daten kann man spielen, Ideen ausprobieren und neue Zusammenhänge entdecken, die es aber dann mit doch ziemlich konventioneller Methodik zu untersuchen, zu bestätigen und zu erklären gilt. 28. November