Vom Image zum Volltext – Texterkennung im Projekt „OstDok“

Slides:



Advertisements
Ähnliche Präsentationen
Workshop „Mehr Personen – Mehr Daten – Mehr Repositorien“
Advertisements

Die ViFaOst in der Verstetigung 2009/2010
eLC Frühjahrstagung 2009 Melk
Lions Clubs International
Menüstruktur automatisch angepasste Menüstruktur auf der Internetseite = Neue Seite im Content – Management- System ergibt neuen.
Hochschule Fulda – FB ET Sommersemester 2010
Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der.
Dokumentenserver an Fachhochschulen in NRW Michael Uwe Möbius Fachhochschule Düsseldorf
Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems
Der Prototyp des Verbundfindmittels – Aufbau und Funktionen Kerstin ArnoldErfurt, 16. September 2008 DFG-Projekt "Ausbau des Netzwerks SED-Archivgut zu.
Haus Potsdamer Straße | 4. Mai 2011 | 10–17 Uhr
Erfahrungen beim Finanz- und Projektmanagement im 6. EU-Forschungsrahmenprogramm Dr. Bernd Reichert Referatsleiter Administration RTD-G6 Industrielle Technologien.
Der bilinguale Unterricht Der bilinguale Unterricht.
Workfloworchestrierung Grundlage für effiziente und qualitativ hochwertige (Massen)Digitalisierung Dipl. Sozw. Ralf Stockmann (SUB Göttingen)
Digitale Zukunft – Von der Digitalisierung zur Dokumentverfügbarkeit
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
Professionelles Projektmanagement in der Praxis, © 2006 Dr. Harald Wehnes Universität Würzburg, FB Informatik, Prof. Dr. P.Tran-Gia 1 Professionelles Projektmanagement.
Vorschlag für ein innovatives und erfolgreiches Internetunternehmen
Praxis der Metadatenerfassung Markus Enders Goettingen State and University Library
Erzeugung von Fahrgemeinschaftsplänen für Lehrer
Statusbericht DFNVideoConference (DFNVC) DFN-Betriebstagung 12./ Renate Schroeder Gisela Maiss.
schriftlichen Prüfungsaufgaben
Smartphones im Kanzleinetz Vergleich der technischen Umsetzung COLLEGA - TAG Freitag, 27. November 2009.
Barrierefreiheit ( Accessibility ).
MedPilot Virtuelle Fachbibliothek Medizin
Hygienemanagement Erstellen eines Hygienemanagements erforderlich
Unattended Installation ITA-Services Projektziele Installation von Win2k Pro/Server über ein lokales Netzwerk Installation von Win2k Pro/Server.
PHProjekt – eine open source Projektmanagementsoftware
Maschinelles Lernen und automatische Textklassifikation
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Ideen zur Gestaltung von Vorlesungen
Standard-Software Prof. Dr. Erik Jacobson Lehrveranstaltung im SS 2006
Synergieeffekte durch softwaregestützte Prozessmodelle
Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
W AS IST D RUPAL ? Von Sammy Baghdadi 17. November erstellt von Sammy Baghdadi.
_TMSARCHIV – IHR DOKUMENTENTRESOR IM INTERNET. _E TWA 67 M INUTEN PRO T AG verschwenden Mitarbeiter europäischer Unternehmen durchschnittlich mit der.
Praxisbericht über den zielgerichteten Einsatz von Marketingsystemen
Ihre unabhängigen Berater aus dem Sauerland
Diplomverteidigung Florian Engerer loading.... Mittweida, 25. September 2003.
10. Rechtschreibprüfung Die Rechtschreibkorrektur 10. Rechtschreibprüfung, Silbentrennung Die Rechtschreibkorrektur 10.2 Silbentrennung.
Wo finde ich Meta-Tags…? Was sind Metatags…? Welche Meta-Tags sind am beliebtesten…? Sprachen von Meta-Tags…? Was ist eine Profildatei…? VTAB-09 Fenster.
Fehleranzeige im Text ausschalten
Technische und organisatorische Aspekte bei der Einführung und dem Betrieb einer universitätsweiten Lernplattform: Herbert STAPPLER Zentraler Informatikdienst.
Hacker-Angriff 1. Lückentext
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
DW /JR–Integration Bf BK
Präsentation von Lukas Sulzer
Automatische Texterkennung
Jahrestagung der ASpB - München
Content Management System
Unternehmungsziele und Unternehmerverantwortung
Kontextsensitive und bildgestützte Assistenz für die Orientierung im urbanen Raum Gerald FRITZ DIGITAL – Institut für Informations- und Kommmunikationstechnologien.
Bildgestützte Texterkennung als Komponente für Mobile Assistenzservices im Öffentlichen Verkehr Lucas Paletta (JR) Gerald Fritz (JR) Patrick Luley (JR)
Wikis in der Projektarbeit
Cloud-Computing.
Digitising Patterns of Power (DPP)
Datenschutz im betrieblichen Kontext – Ein praxisorientierter Ansatz in einem multinationalem Unternehmen Bachelorarbeit MIS.
Anwenden von Funktionen im EXCEL Anwenden von Funktionen im EXCEL © Walter Riedle, Computeria-Urdorf, 2008 Funktionen sind Prozesse (= Programme), die.
Datenbanken im Web 1.
Entwicklung einer Suchmaschine für Verbraucher im Bundesamt für Verbraucherschutz und Lebensmittelsicherheit Dr. Thomas Firley Dr. Soumaya Lhafi Bundesamt.
Evaluationsprojekt PerSEH Evaluationsprojekt PerSEH Prof. Dr. Albrecht Rohrmann und Dipl. Gerontol. Cordula Barth Zentrum für Planung und Evaluation Sozialer.
Projekt zur externen Qualitätssicherung bei der Probenahme von Böden
MS Word 2010 Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen Text bearbeiten Word Texte eingeben und bearbeiten automatische und.
Thomas Rau, Peter Brichzin Repositories zur Unterstützung von kollaborativen Arbeiten in Softwareprojekten.
Florian Hutter & Nicole Waibel
MS Word 2010 Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen.
Technische Universität München Was ist Arbeit? Eine historische Perspektive Dr. Michael Whittall Fachgebiet Soziologie
1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.
Vorlesungsverzeichnisse der Universität Bern: Von der Digitalisierung zur Faktenbasis Niklaus Bütikofer Universität Bern Universitätsarchiv Weiterbildungsprogramm.
Emanuel Mistretta Lukas Schönbächler
 Präsentation transkript:

Vom Image zum Volltext – Texterkennung im Projekt „OstDok“ Monika Patrnciakova, Dr. Norbert Kunz, Doris Skaric Bayerische Staatsbibliothek, Osteuropaabteilung, 22.06.2010

Gliederung Die OCR-Software Texterkennung im Projekt „OstDok“ Probleme und Grenzen der Texterkennung

Die „Optical Character Recognition“-Software (OCR) Verfahren: Retrodigitalisat (Image) wird analysiert Einflussfaktoren: u.a. Druckbild, Schattierungen, Schriftsystem Erstellung einer durchsuchbaren Textes unabhängig vom Image Mit Hilfe von „Wörterbüchern“ (Spracheinstellung!) Überprüfung sprachlicher Plausibilität Vorschlag „Fehler“ Korrekturbedarf?: „intellektuelle“ Leistung Allgemeine Praxis der Texterkennung Geringe Fehlerquoten v.a. bei einsprachigen Texten in „modernem“ Schriftsystem In der Regel keine OCR-Kontrolle erforderlich (oder finanzierbar)

Voraussetzungen im Projekt „OstDok“ Material: Kombination von Schriftsystemen (lat., kyrill., griech. Alphabet) Kombination verschiedener OE-Sprachen Sonderzeichen, teils von Hand => Fehlerquote deutlich höher, Korrekturbedarf unbedingt gegeben => Pilotprojekt Nutzung: Anzeige: Image-Datei Volltextsuche: im Index „hinter“ dem Image „Highlighting“ der Fundstelle im Image

OCR-Korrektur in der BSB-Praxis Workflow (vereinfacht): upload Digitalisate in Korrekturstation, Korrektur Bestätigung, automatische Weiterleitung an anderen Server nachträgliche Korrekturen erfordern Wiederholung des Gesamtworkflows! => zeitintensiv, Nachbesserungen kaum möglich Ressourcen: Aktuell eine Korrekturstation im Betrieb (Lizenzen), Ausweitung in Planung Mehrere OCR-Korrektoren in zwei Schichten a 3-4h Auslastung der Station!!!

Index Index Index Korrekturvorschlag Imagevorlage

Probleme und Grenzen der Texterkennung Menschliche Faktoren: Hoher Schulungs- und Eingewöhnungsbedarf Vorkenntnisse und Sorgfalt des Korrektors Konzentration begrenzt (max. 4 Stunden) Technische Faktoren: „Kinderkrankheiten“ der technischen Einrichtung (Serverausfall) Vollständigkeit und Reihenfolge der Images (Anzahl, Fehlen, Reihenfolge, Navigation) Fehlen „wünschenswerter“ Funktionen (Sonderzeichen, z.B. Altrussisch) Probleme bei der Erkennung von Nichttext (z.B. Tabellen) Groß-/Kleinschreibung Diakritische Zeichen Materialspezifische Faktoren: „Experimentier“-Bedarf bei Spracheinstellungen wg. Mehrsprachigkeit (Slowenisch!) Keine „perfekten“ Fehlervorschläge: teils Anzeige korrekter Zeichen, teils Nichtanzeige falscher Zeichen teils manuelles Umstellen bei Fehlererkennung nötig (erheblicher Zeitaufwand) => selbst 100% korrekte Korrektur führt nicht zu 100% korrektem Text => Es gibt keine 100% Texterkennung bei Retrodigitalisaten!

Probleme und Grenzen der Texterkennung Zeitbedarf / Budget: Variiert stark in Abhängigkeit vom Material lateinischer Text mit Transliterationen: 1-2 Minuten je Seite, erhöhter Zeitbedarf bei Korrektur griechischen oder altkirchenslawischer Zeichen => Grenzen des Machbaren mit verfügbaren Hilfskraftmitteln Was wird korrigiert: Korrektur nur von sinntragenden Begriffen, die recherchewürdig sind, z.B. Eigennamen, Hauptwörter, polit. / ideologische / historische Adjektive Nicht aber: z.B. Artikel, wenig aussagekräftige Adjektive usw. Erfahrungen in drei Monaten „guter Auslastung“: ca. 35 Bücher der „Dezemberaktion“

Kontakt: norbert.kunz@bsb-muenchen.de Vielen Dank für Ihre Aufmerksamkeit! Kontakt: norbert.kunz@bsb-muenchen.de