Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische Nationalbibliothek. Das SCAPE Projekt: Langzeitarchivierung.

Slides:

Advertisements

Ähnliche Präsentationen

Persistente Domänenmodelle mit JPA 2.0 und Bean Validation

Advertisements

Projekt Netzwerk Kostenvoranschlag Netzwerkstruktur

OpenMeetings Moodle Integration

Sebastian Peters TIB-Workshop zur DOI-Registrierung 3. November 2011 DataCite Technik Vertiefung.

Angebote zur digitalen Langzeitarchivierung

Gegen die Vergänglichkeit digitaler Informationen Susanne Kurz AWV Sitzung Daten- und Speichermanagement, Köln,

Zentraleinheit CPU, Motherbord, RAM

Zentraleinheit CPU, Motherbord, RAM

XINDICE The Apache XML Project Name: Jacqueline Langhorst

Workfloworchestrierung Grundlage für effiziente und qualitativ hochwertige (Massen)Digitalisierung Dipl. Sozw. Ralf Stockmann (SUB Göttingen)

Das Build-Tool ANT ETIS SS05. ETIS SS05 - Nadine FröhlichANT 2 Gliederung Motivation Build - Datei –Allgemeiner Aufbau –Project –Target –Task –Properties.

Christian Kästner Modellgetriebene Softwareentwicklung Eclipse Modelling Framework.

GvSig – Überblick Betriebssystem Linux, Windows, Mac OS X Lizenz GPL (Freie Software) Deutschsprachig Folgendes ist die Charakteristik der Software: In.

Einführung und Überblick

Fedora Repository.

... und alles was dazugehört

R und MS Excel Datenaustausch zwischen R und Excel auf Basis des XLConnect-Pakets Günter Faes.

Semantic Web-Anwendungen auf Basis des BAM-Portals Ein Prototyp Volker Conradt.

iPack: IT Dienstleistung & Wartung

Duo- und Quad Prozessor-Architektur

SKALIERBARE HARDWARE UNABHÄNGIGE LÖSUNGEN FÜR HSM, ARCHIVIERUNG UND SICHEREN DATENAUSTAUSCH YOUR DATA. YOUR CONTROL.

Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,

Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.

Aufbau und Funktionsweise

Clustered Neuronal Network A C#.NET project for Compute Cluster Server 2003.

Clustered Neuronal Network A C#.NET project for Compute Cluster Server 2003.

Vortrag D. Braun, Praktikum. Übersicht Pleopatra API Pleopatra Tools Twitter Demonstration Ausblick.

Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Synergiepotentiale zwischen GRID- und eScience-Technologien.

Präsentation von Alexander Schönfeld

Continuous Integration mit Jenkins

Erziehungsdepartement

Cloud-Computing Tomic Josip.

Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers

Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers

Tools und Verfahren Steffen Krause Technologieberater Microsoft Deutschland GmbH

Cooperation unlimited © Zühlke Juni 2009 Hansjörg Scherer Folie 1 Cooperation unlimited TFS als BackEnd für Visual Studio und Eclipse.

Sesame Florian Mayrhuber

Übersicht Was ist cocoon? Separation of Concerns Pipeline Modell

Allgemeines zu Datenbanken

FME Server als multidimensionale Rasterdatendrehscheibe

Dr. Sven Schlarb Österreichische Nationalbibliothek

Hs-soft.com H&S EUROPE Wien – Schwabach hs-soft.com | Datenmanagement hs-soft.com H&S EUROPE Wien – Schwabach hs-soft.com |

Archivierung von Digitalisaten

SCAPE Informationstag und Demo-Event Österreichische Nationalbibliothek Max Kaiser Leiter Abteilung Forschung und Entwicklung Österreichische Nationalbibliothek.

Torque in Turbine Team 4 Josef Bohninger Thomas Lindenhofer

SQLite und XML in PHP 5.

UHZ / 2Roberto Mazzoni - Informatikdienste Geschichte MySql-Service im Portfolio der Informatikdienste seit 2000 Ablösung der Filemaker.

KOOP-LITERA Tagung 2003, 8. / 9. Mai 2003 Archivierung digitaler Dokumente Problemstellung - kooperative Lösungsansätze - Aktivitäten der Österreichischen.

Verarbeitung und Computerinneres

Real World Windows Azure Die Cloud richtig nutzen.

Theorie Praktische Beispiele

Mit IT IS enbex Hand in Hand Zeitgemäße Unternehmen sind auf schnellen und sicheren Datenaustausch angewiesen IT IS AG.

An Approach to the Preservation of Digital Records National Archives of Australia Universität zu Köln Institut für Historisch-Kulturwissenschaftliche Informationsverarbeitung.

Directors Prof. Dr.-Ing. K.D. Müller-Glaser Prof. Dr.-Ing. J. Becker Prof. Dr. rer. nat. W. Stork Institute for Information Processing Technology.

->Prinzip ->Systeme ->Peer – to – Peer

HADOOP – a Brief overview

Oracle Portal think fast. think simple. think smart. Dieter Lorenz, Christian Witt.

Digitale Annotationen. Grundlage: John Bradley “Towards a Richer Sense of Digital Annotation: Moving Beyond a Media Orientation of the Annotation of Digital.

Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.

Zürcher Fachhochschule Einführung in Big Data I Kurt Stockinger 1.

Hadoop-as-a-Service (HDaaS)

Wissensnetzwerk „Digitale Langzeitarchivierung“: 3. Arbeitssitzung , Österreichische Nationalbibliothek 1 Österreich Von der rechtlichen.

© 2015 TravelTainment NoSQL – Eine Alternative zu relationalen Datenbanken Dominik Schmitz.

Dr. Klaus Ruhlig Technology & Product Consulting Sun Microsystems, München Skalierbare Rechnerarchitekturen für ein DWH: Eine vergleichende Analyse.

© CSP GmbH & Co. KG 2005 Einleitung HerausforderungenLösung Architektur Demonstration Langzeitarchivierung für Oracle Datenbanken Stefan Brandl, Dipl.-Inf.,

Digitale Langzeitarchivierung Internet Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM 2: Digitale Langzeitarchivierung Referentin:

Google App Engine - Technische Stärken und Schwächen

eSciDoc als Plattform für die Wissenschaft Anwendungen und Szenarien

Präsentation transkript:

Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische Nationalbibliothek. Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 2: Anwendungsfälle an der Nationalbibliothek

Vorteil: Gute Lese-Performanz Nachteil: Schlechte Performanz im Schreiben zufälliger Werte Schlechte Performanz bei große Tabellen mit vielen Spalten Effiziente Lastverteilung bei voller Verfügbarkeit bedeutet hohen Verwaltungsaufwand Sharding: Aufwändig und wartungsintensiv Vertikale Skalierung Teuere Hardware ÖNB: 2011 Versuch der Web-Archiv-Indexerstellung mit MySQL an unzureichender Performanz gescheitert! Relationale Datenbanksysteme (RDBMS, z.B. MySQL) 2 This work was partially supported by the SCAPE Project. The SCAPE project is cofunded by the European Union under FP7 ICT (Grant Agreement number ).

Elastizität Einfache Erweiterbarkeit Hoher Schreibdurchsatz Konsistenz Prüfsummen in HBase Effiziente zufällige Lesevorgänge Hohe Verfügbarkeit und Fehlertoleranz Atomare Lese- und Schreibmethoden Parallele Datenmodifikation ohne Sperrungen Effiziente Bereichsanfragen Gutes Leseverhalten bei sequentiellen Daten Hadoop/HBase 3 This work was partially supported by the SCAPE Project. The SCAPE project is cofunded by the European Union under FP7 ICT (Grant Agreement number ).

Kostenvorteil von Hadoop, da meist auf preiswerter Hardware Ohne Bindung an einen bestimmten Hersteller Basierend auf Open- Source-Software Kosten für Speicher 4 This work was partially supported by the SCAPE Project. The SCAPE project is cofunded by the European Union under FP7 ICT (Grant Agreement number ). Quelle: BITKOM Leitfaden Big-Data-Technologien-Wissen für Entscheider 2014, S. 39

Daten auf NAS-Speicher Müssen zur Verarbeitung in andere Server- Umgebung geladen werden Multi-Terabyte- Szenarien? Speichern und Verarbeiten getrennt

Prozessoren bei den Daten Datenverarbeitung kann unmittelbar erfolgen Speichern und Verarbeiten zugleich

Bei großen Datenmengen ist es meist einfacher die verarbeitende Komponente zu den Daten zu bringen als umgekehrt, die Daten zur verarbeitenden Komponente Feingranulare Parallelisierung: Die Ausführung der Datenverarbeitung findet auf den zur Verfügung stehenden Prozessorkernen statt Hardware-bedingte Ausfälle sind keine Besonderheit, sondern es gibt spezielle Vorkehrungen dafür Redundanz: Datenblöcke werden redundant gespeichert (Default: 3x) Ausfallsicherheit, Flexibler Zugriff auf Daten Daten-Lokalität: Freier Knoten mit möglichst direktem Zugang zu Datenblock übernimmt die Verarbeitung Einige Hadoop Grundprinzipien

Sort Shuffle Merge Input dataInput split 1Record 1Record 2Record 3Input split 2Record 4Record 5Record 6Input split 3Record 7Record 8Record 9 MapReduce/Hadoop auf einen Blick This work was partially supported by the SCAPE Project. The SCAPE project is cofunded by the European Union under FP7 ICT (Grant Agreement number ). Task1 MapReduce Task 2 Task 3 Output data Aggregated Result

Experimenteller Computer-Cluster Job Tracker Task Trackers Data Nodes Name Node CPU: 1 x 2.53GHz Quadcore CPU (8 HyperThreading) RAM: 16GB DISK: 2 x 1TB DISKs konfiguriert als RAID0 (Performance) – 2 TB effektiv Of 16 HT cores: 5 for Map; 2 for Reduce; 1 für Betriebssystem. 25 Prozessorkerne für Map tasks 10 Prozessorkerne für Reduce tasks CPU: 2 x 2.40GHz Quadcore CPU (16 HyperThreading cores) RAM: 24GB DISK: 3 x 1TB DISKs configured as RAID5 (Redundanz) – 2 TB effektiv This work was partially supported by the SCAPE Project. The SCAPE project is cofunded by the European Union under FP7 ICT (Grant Agreement number ).

Die physische Sicht: Prozessor (CPU) Beispielkonfiguration einer Quad-Core-CPU Pro Cluster-Knoten 4 physische Kerne 8 Hyperthreading-Kerne (System sieht 8 Kerne) OSMap Reduce This work was partially supported by the SCAPE Project. The SCAPE project is cofunded by the European Union under FP7 ICT (Grant Agreement number ).

Die physische Sicht: Cluster-Knoten Verteilte Datenverarbeitung (MapReduce) Verteilter Datenspeicher (HDFS) Hadoop = MapReduce + HDFS 2 x Quad-Core-CPUs: 10 Map(Parallelisierung) 4 Reduce (Aggregation) 4 x 1 TB Festplatten bei Redundanz 3: 1,33 TB effektiv (rein rechnerisch) This work was partially supported by the SCAPE Project. The SCAPE project is cofunded by the European Union under FP7 ICT (Grant Agreement number ).

Steuerung via REST API Workflow Engine für komplexe Jobausführung Hive als Abfrageschnittstelle – an (My)SQL-Sytax angelehnt MapReduce/Pig zum Laden und Transformieren v. Daten Sqoop für die DBMS- Integration Kleine Objekte in HDFS Große Objekte auf NAS Architektur This work was partially supported by the SCAPE Project. The SCAPE project is cofunded by the European Union under FP7 ICT (Grant Agreement number ). Digital Objects StoragehOCR/Text/METS/(W)ARC in HDFSMapReduceHive (SQL)Pig (ETL)Sqoop Taverna Workflow engine REST API

Web-Archivierung Dateiformat-Identifikation im Web-Archiv Austrian Books Online Bild-Datei-Format-Migration Vergleich verschiedener Buch-Derivate MapReduce in der Qualitätssicherung digitaler Bücher Anwendungsfälle

Speicher: ca. 45TB ca. 1,7 Milliarden Objekte Domain Harvesting Gesamte top-level-domain.at alle 2 Jahre Selektives Harvesting Wichtige Websites die sich häufig ändern Event-basiertes Harvesting Besondere Veranstaltungen und Events (z.B. Wahlen oder Sport-Events) Web-Archivierung

Dateiformat-Identifikation im Web-Archiv

(W)ARC Container JPG GIF HTM MID (W)ARC InputFormat (W)ARC RecordReader Basiert auf HERITRIX Web Crawler MapReduce JPG Apache Tika detect MIME Map Reduce image/jpg image/jpg1 image/gif1 text/html2 audio/midi1 Dateiformat-Identifikation im Web-Archiv

Extraktion von Datei-Eigenschaften im Web-Archiv

Screencast

Partnerschaft mit Google Ausschließlich gemeinfreie Werke Zielsetzung ~ Bände ~ 200 Mio. Seiten ~ 70 Projekt-Teilnehmer 20+ im Kernteam Aktuell ~ Bände verfügbar ~ 50 Mio pages ~ 18 Milliarden Token im Volltext, der mit Hilfe automatisierter Texterkennung (OCR) generiert wurde Austrian Books Online

Digitalisierung Download & Speicherung Qualitäts- Kontrolle Zugang ADOCO (Austrian Books Online Download & Control) This work was partially supported by the SCAPE Project. The SCAPE project is cofunded by the European Union under FP7 ICT (Grant Agreement number ). Google Public Private Partnership ADOCO

Bildformat-Migration TIFF nach JPEG2000 Speicherbedarf reduzieren JPEG2000 nach TIFF Risiko: Dateiformat nicht mehr ausreichend verbreitet, unterstützt und verwendet Herausforderungen: Integration verschiedener Werkzeuge der Datei-Format-Validierung, Migration und Qualitätssicherung Qualitätssicherung rechenintensiv (abhängig von Methode) Dateiformat-Migration

Vergleich verschiedener Digitaler Buchversionen Bilder wurden verändert Bilder kommen von verschiedenen Scan-Quellen Herausforderungen: Rechenintensiv Bände à ca. 400 Seiten SCAPE Software: Matchbox Vergleich verschiedener Digitaler Buchversionen

Verarbeitung von Bänden, ~ 24 Millionen Seiten Taverna Tool service (Job-Ausführung per SSH) Verschiedene Hadoop-Jobs Hadoop-Streaming-API Hadoop Map/Reduce Hive Workflow auf myExperiment verfügbar: Blogpost: data-processing-chaining-hadoop-jobs-using-taverna MapReduce in der Qualitätssicherung

Indikator für möglichen Textverlust This work was partially supported by the SCAPE Project. The SCAPE project is cofunded by the European Union under FP7 ICT (Grant Agreement number ). Bildbreite Blockbreite Annahme: Signifikante Unterschiede zwischen durchschnittlicher Blockbreite und Bildbreite sind Hinweise auf möglichen Textverlust wegen Bild- Beschneidungsfehler. Fehlerhafte Bildbeschneidung Korrekte Bildbeschneidung

25 Textdateien mit Pfaden zu Dateien erzeugen (JP2 & HTML) Bildmetadaten mit Exiftool lesen (Hadoop Streaming API) SequenceFile mit allen HTML Dateien erzeugen Durchschnittliche Blockbreite mit MapReduce berechnen Daten in Hive-Tabelle laden Test-Abfrage MapReduce in der Qualitätssicherung

find /NAS/Z / jp2 /NAS/Z / jp2 /NAS/Z / jp2 … /NAS/Z / jp2 /NAS/Z / jp2 /NAS/Z / jp2 … /NAS/Z / jp2 /NAS/Z / jp2 /NAS/Z / jp2 … /NAS/Z / jp2 /NAS/Z / jp2 /NAS/Z / jp2 … /NAS/Z / jp2l /NAS/Z / jp2 /NAS/Z / jp2... NAS reading files from NAS 1,4 GB 1,2 GB Bücher(24 Million Seiten): ~ 5 h + ~ 38 h = ~ 43 h Jp2PathCreatorHadoopStreamingExiftoolRead Z / Z / Z / … Z / Z / Z / … Z / Z / Z / … Z / Z / Z / … Z / Z / Z / Lesen der Bild-Metadaten

find /NAS/Z / html /NAS/Z / html /NAS/Z / html … /NAS/Z / html /NAS/Z / html /NAS/Z / html … /NAS/Z / html /NAS/Z / html /NAS/Z / html … /NAS/Z / html /NAS/Z / html /NAS/Z / html … /NAS/Z / html /NAS/Z / html /NAS/Z / html... Z / Z / Z / Z / Z / Z / NAS reading files from NAS 1,4 GB 997 GB (uncompressed) books (24 Million pages): ~ 5 h + ~ 24 h = ~ 29 h HtmlPathCreatorSequenceFileCreator Erzeugung eines SequenceFile

Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / Map Reduce HadoopAvBlockWidthMapReduce SequenceFileTextfile Berechnung der durchschnittlichen Blockbreite books (24 Million pages): ~ 6 h

HiveLoadExifData & HiveLoadHocrData jidjwidth Z / Z / Z / Z / Z / hidhwidth Z / Z / Z / Z / Z / htmlwidth jp2width Z / Z / Z / Z / Z / Z / Z / Z / Z / Z / CREATE TABLE jp2width (hid STRING, jwidth INT) CREATE TABLE jp2width (hid STRING, jwidth INT) CREATE TABLE htmlwidth (hid STRING, hwidth INT) CREATE TABLE htmlwidth (hid STRING, hwidth INT) Laden der Daten (Hive)

HiveSelect jidjwidth Z / Z / Z / Z / Z / hidhwidth Z / Z / Z / Z / Z / htmlwidthjp2width jidjwidthhwidth Z / Z / Z / Z / Z / select jid, jwidth, hwidth from jp2width inner join htmlwidth on jid = hid Abfragen (Hive)

Für die digitalen Bibliothek bietet Apache Hadoop eine verlässliche Basis zum Aufbau einer kostengünstigen und skalierbaren IT-Infrastruktur Sorgfältige Auswahl der Werkzeuge aus dem Apache Ökosystem (weniger ist mehr)! HBase, Hive, Pig, Oozie, etc. Mit neue Möglichkeiten kommen auch neue Fragestellungen HDFS als Master- oder Bereitstellungsbereich? Eigenen Cluster oder Infrastruktur mieten? (Urheber-)Rechtliche Bedenken Einige Erfahrungen auf den Punkt gebracht This work was partially supported by the SCAPE Project. The SCAPE project is cofunded by the European Union under FP7 ICT (Grant Agreement number ).

Weiterführende Informationen Projekt-Website: Github-Repository: Projekt-Wiki: Erwähnte SCAPE Werkzeuge SCAPE Plattform of-the-scape-preservation-platform Jpylyzer – Jpeg2000 Validierung Matchbox – Bildvergleich Danke für ihre Aufmerksamkeit!