Zürcher Fachhochschule Einführung in Big Data I Kurt Stockinger 1.

Slides:



Advertisements
Ähnliche Präsentationen
PC-Cluster.
Advertisements

MS Office-Paket: Access
Archivierung und Erschließung von Audio/Video-Material mit miless und MyCoRe F. Lützenkirchen Universitätsbibliothek.
SAP R/3 - Speichermanagement
Ruby on Rails im Überblick
DOM (Document Object Model)
XINDICE The Apache XML Project Name: Jacqueline Langhorst
MyCoRe My Content Repository. Entstehung Seinen Ursprung hat MyCoRe in der MILESS- Software der Universität Essen (Dokumentenserversoftware). Benutzer.
Client-Server-Architekturen
Rigi und Web2Rsf vorgestellt von Tobias Weigand. Inhalt Ziel von Web2Rsf und Rigi Vorstellung des Parsers Web2Rsf Vorstellung des Werkzeugs Rigi Analyse.
Geometrische Objekte in Datenbanken Martin Pfeifle Institut für Informatik, Universität München Lehr- und Forschungseinheit für Datenbanksysteme Prof.
Seminar: Verteilte Datenbanken
Projekt Web Engineering
Erweiterung von Eclipse als Entwicklungs-Plattform aus Sicht des Eclipse-Boardmitgliedes TogetherSoft Together auf Basis von Eclipse.
Seite Common Gateway Interface. Konzepte. Übersicht 1Einleitung 2Was ist CGI? 3Wozu wird CGI verwendet? 4Geschichtlicher Überblick 5Grundvoraussetzungen.
Die Skriptsprache Python im Kontext des Softwareentwicklungsprozesses
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Coccon das Web-XML-Publishing System Thomas Haller.
So arbeitet ein PC.
SKALIERBARE HARDWARE UNABHÄNGIGE LÖSUNGEN FÜR HSM, ARCHIVIERUNG UND SICHEREN DATENAUSTAUSCH YOUR DATA. YOUR CONTROL.
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Vereinfachte Datenverarbeitung in großen Rechnerverbünden Igor Marijanovic Beuth Hochschule für Technik Berlin Fachvortrag WAR MapReduce.
Clustered Neuronal Network A C#.NET project for Compute Cluster Server 2003.
TWS/Graph HORIZONT Produkt-Präsentation Software für Rechenzentren
Vortrag D. Braun, Praktikum. Übersicht Pleopatra API Pleopatra Tools Twitter Demonstration Ausblick.
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
Grid applications, environments and programming models Präsentiert von: Beikircher Wolfgang Schgaguler Evelyn.
Tobias Kluge: FAME Middleware / Karlsruhe / The FAME project – Middleware.
Projektarbeit PHP 5.3 / MySQL & Content Management Systems
Basiswissen für Partner und interessierte Kunden Technologie.
Nicolas Frings Maximilian Bernd Stefan Piernikarcyk
Daniel Gosch & Hannes Stornig
App-Entwicklung mit HTML5, CSS und JavaScript
A PPLICATION P ROGRAM I NTERFACES. Erklärung Verwendung Typklassen G LIEDERUNG.
Sesame Florian Mayrhuber
Überblick über die Datenbankproblematik
Präsentiert Management Lösungen Value Added Software GmbH, Carl-Schurz-Str. 7, Neuss
Arbeitskreis Produktmodelle März 2003 TU Dresden, Inst. für Computeranwendung im Bauwesen Weise, Katranuschkov 20. März 2003 Ein Kooperationsmodell für.
Fachberater für Computer an Förderschulen © Wolfgang Bossert 2007 Was ist web 2.0?
Informationsdienste Torsten Rathmann (Deutsches Klimarechenzentrum, Hamburg) Workshop: Virtuelle Forschungsumgebungen aufbauen – mit D-Grid Abstract: Thema.
Eine kurze Einführung.  Software zur Erstellung eines Dokumenten- servers  Dient zur Aufbewahrung von allen Typen von digitalen Inhalten (Texte, Bilder,
WIR LÖSEN DAS PROBLEM FÜR SIE
Real World Windows Azure Die Cloud richtig nutzen.
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
HADOOP – a Brief overview
Datenbanken im Web 1.
ROS – Robot Operating System
Distributed Database Systems Parallele Datenbanksysteme von Stefan Schneider.
Hadoop-as-a-Service (HDaaS)
DSpace IT Zertifikat Blockseminar Dedizierte Systeme Dozentin: Susanne Kurz, M.A. Referentin: Camilla Ottnad, B.A.
1 Geschäftsmodelle im Internet Berlin, 28. September 2011 SuMa-eV Kongresses 2011: Geld verdienen im Internet? Dr. Ferdinand Pavel, DIW-econ GmbH.
, Claudia Böhm robotron*SAB Anwendungsentwicklung mit dem Java und XML basierten Framework robotron*eXForms Simple Application Builder.
© 2015 TravelTainment NoSQL – Eine Alternative zu relationalen Datenbanken Dominik Schmitz.
RAID-Systeme - Standards - Leistungsmerkmal - Redundanz - Datensicherheit eine Präsentation von Jochen Throm an der Berufsakademie Mosbach.
Dr. Klaus Ruhlig Technology & Product Consulting Sun Microsystems, München Skalierbare Rechnerarchitekturen für ein DWH: Eine vergleichende Analyse.
Comprehensive Information Base (CIB) – ein Prototyp zur semantischen Datenintegration Stefan Arts
Oracle Text bei sehr großen Datenmengen Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr.
Information Retrieval mit Oracle Text Erfahrungsbericht.
Warum Data Science Ausbildung an einer Wirtschaftsuniversität? Axel Polleres, Institut für Informationswirtschaft, WU
DTrace Mathias Velten Sun Campus Ambassador
MapReduce programming model Astrid Rheinländer & Stefan Bethge
DOAG SID Data Warehouse
Google App Engine - Technische Stärken und Schwächen
Architektur von Web-Anwendungen
Hexadezimale Darstellung von Zahlen
Daten als Basis für Entscheidungen
XINFO HORIZONT Überblick zu XINFO Software for Datacenters
Von Wietlisbach, Lenzin und Winter
Enterprise Search Solution
Der Umgang mit Daten als Ressource
 Präsentation transkript:

Zürcher Fachhochschule Einführung in Big Data I Kurt Stockinger 1

Zürcher Fachhochschule Lernziele Verstehen des Begriffs Big Data inkl. historischen Hintergrund Kennen von MapReduce und Hadoop Architekturprinzipien Bearbeitung von grossen Datenmengen Verstehen des Unterschieds von Big Data Technologie zu relationalen Datenbanksystemen 2

Zürcher Fachhochschule Big Data – Überblick 3 Was ist für Sie Big Data?

Zürcher Fachhochschule Big Data - Definition Die 3Vs: Volume: Grosses Datenvolumen Terabyte bis Petabyte Velocity: Hohe Verarbeitungsgeschwindigkeit Viele Datensätze pro Tag/Stunde/Minute Variety: Unterschiedliche Datenquelle Text, Bild, Video, Datenbanken, DWH, Blogs, Soziale Netzwerke etc. Herausforderungen: Datenerfassung, Speicherung, Auswertung und Visualisierung 4

Zürcher Fachhochschule Big Data und verwandte Termini Seit 2011 ist ein grosser Anstieg bei „Big Data“ zu erkennen: 5

Zürcher Fachhochschule Wichtigste Wellen des Daten-Tsunami Welle 1 - Large-Scale Science: CERN – Hochenergiephysik Astrophysik Bioinformatik Welle 2 – Web-Firmen: Search engines: Google, Yahoo eCommerce: Amazon, eBay Welle 3 - Soziale Netzwerke: Facebook, Twitter, LinkedIn 6

Zürcher Fachhochschule Big Data ist Realität – Daten generiert pro Minute im Internet Volumina pro Minute (Juni 2012): 7

Zürcher Fachhochschule MapReduce 8 Wer davon schon gehört? Was verbirgt sich dahinter?

Zürcher Fachhochschule MapReduce 2003: Google publiziert Paper über Google File System (GFS) 2004: Google publiziert MapReduce (MR) Programmiermodell basierend auf GFS: GFS und MR sind in C++ geschrieben (closed-source) Python und Java-API nur für Googlers 2006: Apache und Yahoo arbeiten an Hadoop und HDFS Open source Java-Implementierung von MR und GFS 2008: Hadoop wird unabhängiges Apache-Projekt Yahoo verwendet Hadoop in Produktion Heute: Hadoop ist “general-purpose Storage & Analysis Plattform für Big Data“ Hadoop-Distributionen von Cloudera, Hortonworks, etc. 9

Zürcher Fachhochschule MapReduce Software Framework von Google: Ermöglicht parallele und fehler-tolerante Berechnungen auf Computer Cluster Basiert auf map und reduce Funktionen, die häufig in der funktionalen Programmierung verwendet werden Hauptmerkmale des MapReduce Frameworks: MapReduce Programmiermodell Fehler-toleranz 10

Zürcher Fachhochschule Lesen der Daten Map-Phase: Extrahierung von Daten aus jedem Record Map: [key,value] -> list([key,value]) Mischen und sortieren: Gruppierung nach Schlüssel (keys) Reduce-Phase: Aggregation, Summierung, Filterung oder Transformation jeder Gruppe Reduce: [key,list(value)] -> [key, list(value)] (typischer Weise, -> [key, value]) Schreiben des Ergebnisses MapReduce in Kürze 11

Zürcher Fachhochschule Beispiel: Berechnung der Termfrequenz in Dokumenten Nehmen wir an, die drei Dokumente D1, D2 und D3 beinhalten folgende Informationen: D1: Heute ist Montag. D2: Heute ist Sechseläuten in Zürich. D3: Kann der Böögg das Wetter vorhersagen? Das Problem soll mit drei „Worker-Nodes“ gelöst werden. 12

Zürcher Fachhochschule Map Output von jedem Worker-Node: (Key, Value)-Pair Worker 1: (Heute 1), (ist 1), (Montag 1) Worker 2: (Heute 1), (ist 1), (Sechseläuten 1), (in 1), (Zürich 1) Worker 3: (Kann 1), (der 1), (Böögg 1), (das 1), (Wetter 1), (vorhersagen 1)? 13

Zürcher Fachhochschule Reduce Input (Sortiert) Worker 1: (Böögg 1) (das 1) (der 1) (in 1) (ist 1), (ist 1) Worker 2: (Heute 1), (Heute 1) (Kann 1) (Montag 1) (Sechseläuten 1) Worker 3 (vorhersagen 1) (Wetter 1) (Zürich 1) Reduce Output (Sortiert) 14 Worker 1: (Böögg 1) (das 1) (der 1) (in 1) (ist 2) Worker 2: (Heute 2) (Kann 1) (Montag 1) (Sechseläuten 1) Worker 3 (vorhersagen 1) (Wetter 1) (Zürich 1)

Zürcher Fachhochschule MapReduce: Zusammenfassung 15

Zürcher Fachhochschule MapReduce: Paralleles Programmieren Der MapReduce-Programmieransatz eignet sich für Probleme mit grossen Datenmengen und Bearbeitungen, die relativ unabhängig voneinander sind z.B. Frequenzbestimmung von Dokumenten: Jedes Dokument kann unabhängig von anderem bearbeitet werden Geben Sie Beispiele für Probleme an, die gut oder schlecht für MR geeignet sind. 16

Zürcher Fachhochschule MapReduce vs. Traditionelles RDBMS 17

Zürcher Fachhochschule Hadoop 18

Zürcher Fachhochschule What is ? Open-source Apache Projekt für skalierbare, fehler-tolerante und verteilt- arbeitende Software: Hadoop Common: Bibliotheken für Hadoop Module Hadoop Distributed File System (HDFS): Verteiltest Filesystem Hadoop YARN: Job Scheduling und Cluster Management Hadoop MapReduce: YARN-basiertes System zur Verarbeitung von grossen Datenmengen 19

Zürcher Fachhochschule Wer verwendet Hadoop? Amazon: Erstellung der Suchindices eBay: Suchoptimierung Facebook: Speicherung von internen Logs und als Quelle für Analytics LinkedIn: Graphanalyse zur Erkennung von Bekannten Twitter: Processierung von Tweets und Log Files Yahoo: Websuche und Marketing (Ad System) 20

Zürcher Fachhochschule HDFS Architekturziele #1 Hardware-Ausfälle: Verteilung der Daten über mehrere Knoten (Replikation) Automatische Fehlererkennung und –behebung Grosse Datenmengen: Dateigrössen von Gigabytes bis Terabytes Unterstützung von Millionen von Dateien pro Instanz Einfaches Kohärenzmodell Write-Once-Read-Many Zugriffsmodell Geschriebene Datei kann nicht mehr verändert werden Portabilität: Portabilität zwischen unterschiedlicher Hardware und Software NameNode und DataNodes (Master/Worker Architektur): NameNode: Verwaltet das Dateisystem und reguliert Client-Zugriff DataNode: Verwaltet Speicher (Datei ist in mehrere Blöcke aufgeteilt) 21

Zürcher Fachhochschule HDFS Architekturziele #2 Lineare Skalierbarkeit: Mehr Knoten können mehr Arbeit in derselben Zeit bewältigen Linear in Datenmenge und Rechenresourcen Berechnung nah an Daten: Minimierung von teurem Datentransfer Grossen Datenmengen, kleine Programme Datenzugriff: Streaming Vermeidung von Random Read Lesen von grossen Datenblöcken 22

Zürcher Fachhochschule HDFS Architektur 23

Zürcher Fachhochschule HDFS Verwendung Gut für: grosse Daten: Datei kann grösser als einzelne Disk sein Streaming (write-once-read-many): 64 MB Datenblöcke Commodity Hardware (Fehlertoleranz) Schlecht für: Viele kleine Daten Low-latency Zugriff (schnelle Antwortzeiten) Viele Schreibzugriffe an unterschiedlichen Dateipositionen 24

Zürcher Fachhochschule YARN Architektur #1 2 separate Daemons für Resource Management Job Scheduling/Monitoring Resource Manager hat zwei Komponenten: Scheduler: Alloziert Resourcen für Applikationen ApplikationsManager: Verwaltet Jobsubmission NodeManager: Verwaltet Datenkontainer, monitort Resourcenverwendung (CPU, Memory, Disk, Netzwerk) 25

Zürcher Fachhochschule YARN Architektur #2 26

Zürcher Fachhochschule Unterstützte Programmiersprachen Java API (native) Hadoop Streaming API: MapReduce Funktionen können in jeder Programmiersprache geschrieben werden, die vom Standard Input & Out lesen bzw. schreiben können: z.B. Python, Ruby Hadoop Pipes API: MapReduce Funktionen können via C++ angesprochen werden (Socket- Kommunikation mit TaskTracker) 27

Zürcher Fachhochschule Hadoop Familie 28