Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Rosamund Neubaum Geändert vor über 10 Jahren
1
Vom Image zum Volltext – Texterkennung im Projekt „OstDok“
Monika Patrnciakova, Dr. Norbert Kunz, Doris Skaric Bayerische Staatsbibliothek, Osteuropaabteilung,
2
Gliederung Die OCR-Software Texterkennung im Projekt „OstDok“ Probleme und Grenzen der Texterkennung
3
Die „Optical Character Recognition“-Software (OCR)
Verfahren: Retrodigitalisat (Image) wird analysiert Einflussfaktoren: u.a. Druckbild, Schattierungen, Schriftsystem Erstellung einer durchsuchbaren Textes unabhängig vom Image Mit Hilfe von „Wörterbüchern“ (Spracheinstellung!) Überprüfung sprachlicher Plausibilität Vorschlag „Fehler“ Korrekturbedarf?: „intellektuelle“ Leistung Allgemeine Praxis der Texterkennung Geringe Fehlerquoten v.a. bei einsprachigen Texten in „modernem“ Schriftsystem In der Regel keine OCR-Kontrolle erforderlich (oder finanzierbar)
4
Voraussetzungen im Projekt „OstDok“
Material: Kombination von Schriftsystemen (lat., kyrill., griech. Alphabet) Kombination verschiedener OE-Sprachen Sonderzeichen, teils von Hand => Fehlerquote deutlich höher, Korrekturbedarf unbedingt gegeben => Pilotprojekt Nutzung: Anzeige: Image-Datei Volltextsuche: im Index „hinter“ dem Image „Highlighting“ der Fundstelle im Image
5
OCR-Korrektur in der BSB-Praxis
Workflow (vereinfacht): upload Digitalisate in Korrekturstation, Korrektur Bestätigung, automatische Weiterleitung an anderen Server nachträgliche Korrekturen erfordern Wiederholung des Gesamtworkflows! => zeitintensiv, Nachbesserungen kaum möglich Ressourcen: Aktuell eine Korrekturstation im Betrieb (Lizenzen), Ausweitung in Planung Mehrere OCR-Korrektoren in zwei Schichten a 3-4h Auslastung der Station!!!
6
Index Index Index Korrekturvorschlag Imagevorlage
7
Probleme und Grenzen der Texterkennung
Menschliche Faktoren: Hoher Schulungs- und Eingewöhnungsbedarf Vorkenntnisse und Sorgfalt des Korrektors Konzentration begrenzt (max. 4 Stunden) Technische Faktoren: „Kinderkrankheiten“ der technischen Einrichtung (Serverausfall) Vollständigkeit und Reihenfolge der Images (Anzahl, Fehlen, Reihenfolge, Navigation) Fehlen „wünschenswerter“ Funktionen (Sonderzeichen, z.B. Altrussisch) Probleme bei der Erkennung von Nichttext (z.B. Tabellen) Groß-/Kleinschreibung Diakritische Zeichen Materialspezifische Faktoren: „Experimentier“-Bedarf bei Spracheinstellungen wg. Mehrsprachigkeit (Slowenisch!) Keine „perfekten“ Fehlervorschläge: teils Anzeige korrekter Zeichen, teils Nichtanzeige falscher Zeichen teils manuelles Umstellen bei Fehlererkennung nötig (erheblicher Zeitaufwand) => selbst 100% korrekte Korrektur führt nicht zu 100% korrektem Text => Es gibt keine 100% Texterkennung bei Retrodigitalisaten!
8
Probleme und Grenzen der Texterkennung
Zeitbedarf / Budget: Variiert stark in Abhängigkeit vom Material lateinischer Text mit Transliterationen: 1-2 Minuten je Seite, erhöhter Zeitbedarf bei Korrektur griechischen oder altkirchenslawischer Zeichen => Grenzen des Machbaren mit verfügbaren Hilfskraftmitteln Was wird korrigiert: Korrektur nur von sinntragenden Begriffen, die recherchewürdig sind, z.B. Eigennamen, Hauptwörter, polit. / ideologische / historische Adjektive Nicht aber: z.B. Artikel, wenig aussagekräftige Adjektive usw. Erfahrungen in drei Monaten „guter Auslastung“: ca. 35 Bücher der „Dezemberaktion“
9
Kontakt: norbert.kunz@bsb-muenchen.de
Vielen Dank für Ihre Aufmerksamkeit! Kontakt:
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.