Vom Image zum Volltext – Texterkennung im Projekt „OstDok“

Slides:

Advertisements

Ähnliche Präsentationen

Workshop „Mehr Personen – Mehr Daten – Mehr Repositorien“

Advertisements

Die ViFaOst in der Verstetigung 2009/2010

eLC Frühjahrstagung 2009 Melk

Lions Clubs International

Menüstruktur automatisch angepasste Menüstruktur auf der Internetseite = Neue Seite im Content – Management- System ergibt neuen.

Hochschule Fulda – FB ET Sommersemester 2010

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der.

Dokumentenserver an Fachhochschulen in NRW Michael Uwe Möbius Fachhochschule Düsseldorf

Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems

Der Prototyp des Verbundfindmittels – Aufbau und Funktionen Kerstin ArnoldErfurt, 16. September 2008 DFG-Projekt "Ausbau des Netzwerks SED-Archivgut zu.

Haus Potsdamer Straße | 4. Mai 2011 | 10–17 Uhr

Erfahrungen beim Finanz- und Projektmanagement im 6. EU-Forschungsrahmenprogramm Dr. Bernd Reichert Referatsleiter Administration RTD-G6 Industrielle Technologien.

Der bilinguale Unterricht Der bilinguale Unterricht.

Workfloworchestrierung Grundlage für effiziente und qualitativ hochwertige (Massen)Digitalisierung Dipl. Sozw. Ralf Stockmann (SUB Göttingen)

Digitale Zukunft – Von der Digitalisierung zur Dokumentverfügbarkeit

Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.

Professionelles Projektmanagement in der Praxis, © 2006 Dr. Harald Wehnes Universität Würzburg, FB Informatik, Prof. Dr. P.Tran-Gia 1 Professionelles Projektmanagement.

Vorschlag für ein innovatives und erfolgreiches Internetunternehmen

Praxis der Metadatenerfassung Markus Enders Goettingen State and University Library

Erzeugung von Fahrgemeinschaftsplänen für Lehrer

Statusbericht DFNVideoConference (DFNVC) DFN-Betriebstagung 12./ Renate Schroeder Gisela Maiss.

schriftlichen Prüfungsaufgaben

Smartphones im Kanzleinetz Vergleich der technischen Umsetzung COLLEGA - TAG Freitag, 27. November 2009.

Barrierefreiheit ( Accessibility ).

MedPilot Virtuelle Fachbibliothek Medizin

Hygienemanagement Erstellen eines Hygienemanagements erforderlich

Unattended Installation ITA-Services Projektziele Installation von Win2k Pro/Server über ein lokales Netzwerk Installation von Win2k Pro/Server.

PHProjekt – eine open source Projektmanagementsoftware

Maschinelles Lernen und automatische Textklassifikation

Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.

Ideen zur Gestaltung von Vorlesungen

Standard-Software Prof. Dr. Erik Jacobson Lehrveranstaltung im SS 2006

Synergieeffekte durch softwaregestützte Prozessmodelle

Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

W AS IST D RUPAL ? Von Sammy Baghdadi 17. November erstellt von Sammy Baghdadi.

_TMSARCHIV – IHR DOKUMENTENTRESOR IM INTERNET. _E TWA 67 M INUTEN PRO T AG verschwenden Mitarbeiter europäischer Unternehmen durchschnittlich mit der.

Praxisbericht über den zielgerichteten Einsatz von Marketingsystemen

Ihre unabhängigen Berater aus dem Sauerland

Diplomverteidigung Florian Engerer loading.... Mittweida, 25. September 2003.

10. Rechtschreibprüfung Die Rechtschreibkorrektur 10. Rechtschreibprüfung, Silbentrennung Die Rechtschreibkorrektur 10.2 Silbentrennung.

Wo finde ich Meta-Tags…? Was sind Metatags…? Welche Meta-Tags sind am beliebtesten…? Sprachen von Meta-Tags…? Was ist eine Profildatei…? VTAB-09 Fenster.

Fehleranzeige im Text ausschalten

Technische und organisatorische Aspekte bei der Einführung und dem Betrieb einer universitätsweiten Lernplattform: Herbert STAPPLER Zentraler Informatikdienst.

Hacker-Angriff 1. Lückentext

Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.

DW /JR–Integration Bf BK

Präsentation von Lukas Sulzer

Automatische Texterkennung

Jahrestagung der ASpB - München

Content Management System

Unternehmungsziele und Unternehmerverantwortung

Kontextsensitive und bildgestützte Assistenz für die Orientierung im urbanen Raum Gerald FRITZ DIGITAL – Institut für Informations- und Kommmunikationstechnologien.

Bildgestützte Texterkennung als Komponente für Mobile Assistenzservices im Öffentlichen Verkehr Lucas Paletta (JR) Gerald Fritz (JR) Patrick Luley (JR)

Wikis in der Projektarbeit

Cloud-Computing.

Digitising Patterns of Power (DPP)

Datenschutz im betrieblichen Kontext – Ein praxisorientierter Ansatz in einem multinationalem Unternehmen Bachelorarbeit MIS.

Anwenden von Funktionen im EXCEL Anwenden von Funktionen im EXCEL © Walter Riedle, Computeria-Urdorf, 2008 Funktionen sind Prozesse (= Programme), die.

Datenbanken im Web 1.

Entwicklung einer Suchmaschine für Verbraucher im Bundesamt für Verbraucherschutz und Lebensmittelsicherheit Dr. Thomas Firley Dr. Soumaya Lhafi Bundesamt.

Evaluationsprojekt PerSEH Evaluationsprojekt PerSEH Prof. Dr. Albrecht Rohrmann und Dipl. Gerontol. Cordula Barth Zentrum für Planung und Evaluation Sozialer.

Projekt zur externen Qualitätssicherung bei der Probenahme von Böden

MS Word 2010 Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen Text bearbeiten Word Texte eingeben und bearbeiten automatische und.

Thomas Rau, Peter Brichzin Repositories zur Unterstützung von kollaborativen Arbeiten in Softwareprojekten.

Florian Hutter & Nicole Waibel

MS Word 2010 Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen.

Technische Universität München Was ist Arbeit? Eine historische Perspektive Dr. Michael Whittall Fachgebiet Soziologie

1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.

Vorlesungsverzeichnisse der Universität Bern: Von der Digitalisierung zur Faktenbasis Niklaus Bütikofer Universität Bern Universitätsarchiv Weiterbildungsprogramm.

Emanuel Mistretta Lukas Schönbächler

Präsentation transkript:

Vom Image zum Volltext – Texterkennung im Projekt „OstDok“ Monika Patrnciakova, Dr. Norbert Kunz, Doris Skaric Bayerische Staatsbibliothek, Osteuropaabteilung, 22.06.2010

Gliederung Die OCR-Software Texterkennung im Projekt „OstDok“ Probleme und Grenzen der Texterkennung

Die „Optical Character Recognition“-Software (OCR) Verfahren: Retrodigitalisat (Image) wird analysiert Einflussfaktoren: u.a. Druckbild, Schattierungen, Schriftsystem Erstellung einer durchsuchbaren Textes unabhängig vom Image Mit Hilfe von „Wörterbüchern“ (Spracheinstellung!) Überprüfung sprachlicher Plausibilität Vorschlag „Fehler“ Korrekturbedarf?: „intellektuelle“ Leistung Allgemeine Praxis der Texterkennung Geringe Fehlerquoten v.a. bei einsprachigen Texten in „modernem“ Schriftsystem In der Regel keine OCR-Kontrolle erforderlich (oder finanzierbar)

Voraussetzungen im Projekt „OstDok“ Material: Kombination von Schriftsystemen (lat., kyrill., griech. Alphabet) Kombination verschiedener OE-Sprachen Sonderzeichen, teils von Hand => Fehlerquote deutlich höher, Korrekturbedarf unbedingt gegeben => Pilotprojekt Nutzung: Anzeige: Image-Datei Volltextsuche: im Index „hinter“ dem Image „Highlighting“ der Fundstelle im Image

OCR-Korrektur in der BSB-Praxis Workflow (vereinfacht): upload Digitalisate in Korrekturstation, Korrektur Bestätigung, automatische Weiterleitung an anderen Server nachträgliche Korrekturen erfordern Wiederholung des Gesamtworkflows! => zeitintensiv, Nachbesserungen kaum möglich Ressourcen: Aktuell eine Korrekturstation im Betrieb (Lizenzen), Ausweitung in Planung Mehrere OCR-Korrektoren in zwei Schichten a 3-4h Auslastung der Station!!!

Index Index Index Korrekturvorschlag Imagevorlage

Probleme und Grenzen der Texterkennung Menschliche Faktoren: Hoher Schulungs- und Eingewöhnungsbedarf Vorkenntnisse und Sorgfalt des Korrektors Konzentration begrenzt (max. 4 Stunden) Technische Faktoren: „Kinderkrankheiten“ der technischen Einrichtung (Serverausfall) Vollständigkeit und Reihenfolge der Images (Anzahl, Fehlen, Reihenfolge, Navigation) Fehlen „wünschenswerter“ Funktionen (Sonderzeichen, z.B. Altrussisch) Probleme bei der Erkennung von Nichttext (z.B. Tabellen) Groß-/Kleinschreibung Diakritische Zeichen Materialspezifische Faktoren: „Experimentier“-Bedarf bei Spracheinstellungen wg. Mehrsprachigkeit (Slowenisch!) Keine „perfekten“ Fehlervorschläge: teils Anzeige korrekter Zeichen, teils Nichtanzeige falscher Zeichen teils manuelles Umstellen bei Fehlererkennung nötig (erheblicher Zeitaufwand) => selbst 100% korrekte Korrektur führt nicht zu 100% korrektem Text => Es gibt keine 100% Texterkennung bei Retrodigitalisaten!

Probleme und Grenzen der Texterkennung Zeitbedarf / Budget: Variiert stark in Abhängigkeit vom Material lateinischer Text mit Transliterationen: 1-2 Minuten je Seite, erhöhter Zeitbedarf bei Korrektur griechischen oder altkirchenslawischer Zeichen => Grenzen des Machbaren mit verfügbaren Hilfskraftmitteln Was wird korrigiert: Korrektur nur von sinntragenden Begriffen, die recherchewürdig sind, z.B. Eigennamen, Hauptwörter, polit. / ideologische / historische Adjektive Nicht aber: z.B. Artikel, wenig aussagekräftige Adjektive usw. Erfahrungen in drei Monaten „guter Auslastung“: ca. 35 Bücher der „Dezemberaktion“

Kontakt: norbert.kunz@bsb-muenchen.de Vielen Dank für Ihre Aufmerksamkeit! Kontakt: norbert.kunz@bsb-muenchen.de