Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Vom Image zum Volltext – Texterkennung im Projekt OstDok Monika Patrnciakova, Dr. Norbert Kunz, Doris Skaric Bayerische Staatsbibliothek, Osteuropaabteilung,

Ähnliche Präsentationen


Präsentation zum Thema: "Vom Image zum Volltext – Texterkennung im Projekt OstDok Monika Patrnciakova, Dr. Norbert Kunz, Doris Skaric Bayerische Staatsbibliothek, Osteuropaabteilung,"—  Präsentation transkript:

1 Vom Image zum Volltext – Texterkennung im Projekt OstDok Monika Patrnciakova, Dr. Norbert Kunz, Doris Skaric Bayerische Staatsbibliothek, Osteuropaabteilung,

2 Gliederung Die OCR-Software Texterkennung im Projekt OstDok Probleme und Grenzen der Texterkennung

3 Die Optical Character Recognition-Software (OCR) Verfahren: –Retrodigitalisat (Image) wird analysiert –Einflussfaktoren: u.a. Druckbild, Schattierungen, Schriftsystem –Erstellung einer durchsuchbaren Textes unabhängig vom Image –Mit Hilfe von Wörterbüchern (Spracheinstellung!) Überprüfung sprachlicher Plausibilität –Vorschlag Fehler –Korrekturbedarf?: intellektuelle Leistung Allgemeine Praxis der Texterkennung –Geringe Fehlerquoten v.a. bei einsprachigen Texten in modernem Schriftsystem –In der Regel keine OCR-Kontrolle erforderlich (oder finanzierbar)

4 Voraussetzungen im Projekt OstDok Material: –Kombination von Schriftsystemen (lat., kyrill., griech. Alphabet) –Kombination verschiedener OE-Sprachen –Sonderzeichen, teils von Hand => Fehlerquote deutlich höher, Korrekturbedarf unbedingt gegeben => Pilotprojekt Nutzung: –Anzeige: Image-Datei –Volltextsuche: im Index hinter dem Image –Highlighting der Fundstelle im Image

5 OCR-Korrektur in der BSB-Praxis Workflow (vereinfacht): 1.upload Digitalisate in Korrekturstation, 2.Korrektur 3.Bestätigung, automatische Weiterleitung an anderen Server 4.nachträgliche Korrekturen erfordern Wiederholung des Gesamtworkflows! => zeitintensiv, Nachbesserungen kaum möglich Ressourcen: –Aktuell eine Korrekturstation im Betrieb (Lizenzen), Ausweitung in Planung –Mehrere OCR-Korrektoren in zwei Schichten a 3-4h –Auslastung der Station!!!

6 Index Imagevorlage Index Korrekturvorschlag

7 Probleme und Grenzen der Texterkennung Menschliche Faktoren: –Hoher Schulungs- und Eingewöhnungsbedarf –Vorkenntnisse und Sorgfalt des Korrektors –Konzentration begrenzt (max. 4 Stunden) Technische Faktoren: –Kinderkrankheiten der technischen Einrichtung (Serverausfall) –Vollständigkeit und Reihenfolge der Images (Anzahl, Fehlen, Reihenfolge, Navigation) –Fehlen wünschenswerter Funktionen (Sonderzeichen, z.B. Altrussisch) –Probleme bei der Erkennung von Nichttext (z.B. Tabellen) –Groß-/Kleinschreibung –Diakritische Zeichen Materialspezifische Faktoren: –Experimentier-Bedarf bei Spracheinstellungen wg. Mehrsprachigkeit (Slowenisch!) –Keine perfekten Fehlervorschläge: teils Anzeige korrekter Zeichen, teils Nichtanzeige falscher Zeichen –teils manuelles Umstellen bei Fehlererkennung nötig (erheblicher Zeitaufwand) => selbst 100% korrekte Korrektur führt nicht zu 100% korrektem Text => Es gibt keine 100% Texterkennung bei Retrodigitalisaten!

8 Zeitbedarf / Budget: –Variiert stark in Abhängigkeit vom Material –lateinischer Text mit Transliterationen: 1-2 Minuten je Seite, erhöhter Zeitbedarf bei Korrektur griechischen oder altkirchenslawischer Zeichen => Grenzen des Machbaren mit verfügbaren Hilfskraftmitteln Was wird korrigiert: –Korrektur nur von sinntragenden Begriffen, die recherchewürdig sind, z.B. Eigennamen, Hauptwörter, polit. / ideologische / historische Adjektive –Nicht aber: z.B. Artikel, wenig aussagekräftige Adjektive usw. Erfahrungen –in drei Monaten guter Auslastung: ca. 35 Bücher der Dezemberaktion Probleme und Grenzen der Texterkennung

9 Vielen Dank für Ihre Aufmerksamkeit! Kontakt:


Herunterladen ppt "Vom Image zum Volltext – Texterkennung im Projekt OstDok Monika Patrnciakova, Dr. Norbert Kunz, Doris Skaric Bayerische Staatsbibliothek, Osteuropaabteilung,"

Ähnliche Präsentationen


Google-Anzeigen