Vom Image zum Volltext – Texterkennung im Projekt „OstDok“ Monika Patrnciakova, Dr. Norbert Kunz, Doris Skaric Bayerische Staatsbibliothek, Osteuropaabteilung, 22.06.2010
Gliederung Die OCR-Software Texterkennung im Projekt „OstDok“ Probleme und Grenzen der Texterkennung
Die „Optical Character Recognition“-Software (OCR) Verfahren: Retrodigitalisat (Image) wird analysiert Einflussfaktoren: u.a. Druckbild, Schattierungen, Schriftsystem Erstellung einer durchsuchbaren Textes unabhängig vom Image Mit Hilfe von „Wörterbüchern“ (Spracheinstellung!) Überprüfung sprachlicher Plausibilität Vorschlag „Fehler“ Korrekturbedarf?: „intellektuelle“ Leistung Allgemeine Praxis der Texterkennung Geringe Fehlerquoten v.a. bei einsprachigen Texten in „modernem“ Schriftsystem In der Regel keine OCR-Kontrolle erforderlich (oder finanzierbar)
Voraussetzungen im Projekt „OstDok“ Material: Kombination von Schriftsystemen (lat., kyrill., griech. Alphabet) Kombination verschiedener OE-Sprachen Sonderzeichen, teils von Hand => Fehlerquote deutlich höher, Korrekturbedarf unbedingt gegeben => Pilotprojekt Nutzung: Anzeige: Image-Datei Volltextsuche: im Index „hinter“ dem Image „Highlighting“ der Fundstelle im Image
OCR-Korrektur in der BSB-Praxis Workflow (vereinfacht): upload Digitalisate in Korrekturstation, Korrektur Bestätigung, automatische Weiterleitung an anderen Server nachträgliche Korrekturen erfordern Wiederholung des Gesamtworkflows! => zeitintensiv, Nachbesserungen kaum möglich Ressourcen: Aktuell eine Korrekturstation im Betrieb (Lizenzen), Ausweitung in Planung Mehrere OCR-Korrektoren in zwei Schichten a 3-4h Auslastung der Station!!!
Index Index Index Korrekturvorschlag Imagevorlage
Probleme und Grenzen der Texterkennung Menschliche Faktoren: Hoher Schulungs- und Eingewöhnungsbedarf Vorkenntnisse und Sorgfalt des Korrektors Konzentration begrenzt (max. 4 Stunden) Technische Faktoren: „Kinderkrankheiten“ der technischen Einrichtung (Serverausfall) Vollständigkeit und Reihenfolge der Images (Anzahl, Fehlen, Reihenfolge, Navigation) Fehlen „wünschenswerter“ Funktionen (Sonderzeichen, z.B. Altrussisch) Probleme bei der Erkennung von Nichttext (z.B. Tabellen) Groß-/Kleinschreibung Diakritische Zeichen Materialspezifische Faktoren: „Experimentier“-Bedarf bei Spracheinstellungen wg. Mehrsprachigkeit (Slowenisch!) Keine „perfekten“ Fehlervorschläge: teils Anzeige korrekter Zeichen, teils Nichtanzeige falscher Zeichen teils manuelles Umstellen bei Fehlererkennung nötig (erheblicher Zeitaufwand) => selbst 100% korrekte Korrektur führt nicht zu 100% korrektem Text => Es gibt keine 100% Texterkennung bei Retrodigitalisaten!
Probleme und Grenzen der Texterkennung Zeitbedarf / Budget: Variiert stark in Abhängigkeit vom Material lateinischer Text mit Transliterationen: 1-2 Minuten je Seite, erhöhter Zeitbedarf bei Korrektur griechischen oder altkirchenslawischer Zeichen => Grenzen des Machbaren mit verfügbaren Hilfskraftmitteln Was wird korrigiert: Korrektur nur von sinntragenden Begriffen, die recherchewürdig sind, z.B. Eigennamen, Hauptwörter, polit. / ideologische / historische Adjektive Nicht aber: z.B. Artikel, wenig aussagekräftige Adjektive usw. Erfahrungen in drei Monaten „guter Auslastung“: ca. 35 Bücher der „Dezemberaktion“
Kontakt: norbert.kunz@bsb-muenchen.de Vielen Dank für Ihre Aufmerksamkeit! Kontakt: norbert.kunz@bsb-muenchen.de