HADOOP – a Brief overview

Slides:



Advertisements
Ähnliche Präsentationen
Zwischen Kontrolle & Freiheit Felix Stalder HGKZ.
Advertisements

PHP Extension und Application Repository
Intelligente Anwendungen im Internet
Datenbanken Einführung.
Daten- und Informationsdienste
PC-Cluster.
Bastian Cramer, Universität Paderborn Entwurfsmuster für Webanwendungen Projektgruppe: Generierung von Webanwendungen aus visuellen Spezifikationen.
Seminar: XML für Fortgeschrittene Referent: Katrin Apel
Stefanie Selzer - Pascal Busch - Michael Kropiwoda
ATHOS Benutzertreffen 16.Juni Report of the Lab. Glashütten, 16.Juni 2005 HighQSoft GmbH, Karst Schaap
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Andreas Peters Seminar: „Location Based Services“ SS 2006
Projekt Web Engineering
1 WS 2012 Software-Engineering II Aspektorientierung.
Seite Common Gateway Interface. Konzepte. Übersicht 1Einleitung 2Was ist CGI? 3Wozu wird CGI verwendet? 4Geschichtlicher Überblick 5Grundvoraussetzungen.
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
... und alles was dazugehört
Requiline Seminar Bassem Ben Helal. Inhalt Motivation Kernfunktionalitäten Architektur Hierarchie Typen Abhängigkeiten Variabilitätspunkte Produktkonfiguration.
D IE G OOGLE -F ALLE ODER T RANSPARENZ IM I NTERNET ? Mag. Gerald Reischl 24. Juni plannING Day.
SKALIERBARE HARDWARE UNABHÄNGIGE LÖSUNGEN FÜR HSM, ARCHIVIERUNG UND SICHEREN DATENAUSTAUSCH YOUR DATA. YOUR CONTROL.
Die Geschichte von Rudi
Erste Schritte mit PHP 5 von Max Brandt, 22. September 2006.
„Küsse deine Freunde“ – FlexKom-App teilen
Copyright 2010 LB-systems Meßgeräte GmbH Highlights Nov 2010 Frankfurt Nov 2010 Kopenhagen.
Vereinfachte Datenverarbeitung in großen Rechnerverbünden Igor Marijanovic Beuth Hochschule für Technik Berlin Fachvortrag WAR MapReduce.
Clustered Neuronal Network A C#.NET project for Compute Cluster Server 2003.
Clustered Neuronal Network A C#.NET project for Compute Cluster Server 2003.
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
Patrick Schmerlaib. Scriptsprachen: sind Programmiersprachen Verzichten auf Sprachelemente Vorteile: schnelle Erstellung kleiner Programme Flexible Sprache.
Best Practices in der Datenbank-programmierung
7th German CDISC User Group Basel, 11. März 2010 Willkommen zum Define.xml Workshop.
© All rights reserved. Zend Technologies, Inc. Jan Burkl System Engineer, Zend Technologies Zend Server im Cluster.
Architekturen und Techniken für computergestützte Engineering Workbenches.
Signal-Prozessoren DSV1, 2009, Hhrt, 1 Mikro-Prozessor Von Neumann-Architektur Daten und Programmcode im gleichen Speicher => Sequenzieller Zugriff auf.
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
Univ.-Lektor Dipl.-Ing. Dr. Markus Schranz staatlich befugter und beeideter Ingenieurkonsulent für Informatik Web Application Engineering & Content Management.
Microsoft Student Partners
Dr. Sven Schlarb Österreichische Nationalbibliothek
Vorlesung: 1 Workgroup Computing 2003 Prof. Dr. G. Hellberg Studiengang WI FHDW Vorlesung: Workgroup Computing 2. Quartal 2003.
Torque in Turbine Team 4 Josef Bohninger Thomas Lindenhofer
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Systemsoftware und Betriebssysteme
Dedizierte Systeme Typo3 Installation Dedizierte Systeme – Typo3 Installation – Christoph Stollwerk IT Zertifikat der Philosophischen Fakultät WS 2008/2009.
Brox EIF ContentBooster Wirtschaftliche Gegenüberstellung Metaschnittstelle statt klassischer Vernetzung bei der Suchmaschinen- konsolidierung (z.B. -->
Real World Windows Azure Die Cloud richtig nutzen.
Numbers Greetings and Good-byes All about Me Verbs and Pronouns
Home Fall 1 Fall 2 Fall 3 Fall 4 Fall 5 Nächstes >>
Infopoint, , Jörg Wüthrich Infopoint "Social Coding", Jörg Wüthrich
Musterlösung IT-Struktur an Schulen © Zentrale Planungsgruppe Netze am Kultusministerium Baden-Württemberg Software-Verteilung mit ZENworks 4 Regionale.
Das IT - Informationssystem
Nik Lutz, Stefan Feissli, Christof Seiler Diplomarbeit Verteidigung.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
ROS – Robot Operating System
WINLearn Technische Umsetzung. Basistechnologie Oberfläche in HTML JSP (JavaServerPages) zur Datenauswertung Datenhaltung: Datenbank oder Filesystem JDBC.
Distributed Database Systems Parallele Datenbanksysteme von Stefan Schneider.
Zürcher Fachhochschule Einführung in Big Data I Kurt Stockinger 1.
Hadoop-as-a-Service (HDaaS)
© 2015 TravelTainment NoSQL – Eine Alternative zu relationalen Datenbanken Dominik Schmitz.
Master in Web Science Shape the Web of Tomorrow!.
© 2012 TravelTainment Einführung in NoSQL-Datenbanken und deren Klassifizierung Von Patrick Becker.
Regular Expressions HBU-LINUX-2003 Adduser.sh? My_user_Verw.sh? AufgUser.sh? Wo ist das Script ??????? /home/donald ? /home ? /tmp ?
MOBILE HOT New Hardware, new Players 2.Omnichannel 3.Data Driven Business 4.Connected Touchpoints 5.Connected Screens 6.App Ecosystem 7.App.
MapReduce programming model Astrid Rheinländer & Stefan Bethge
1 Grundstruktur von Linux Manuel Blechschmidt & Volker Grabsch CdE Sommerakademie 2006 Kirchheim.
Apache Camel Christian Schneider
The IT–Information System
SLA Reporting leicht gemacht
XINFO HORIZONT Überblick zu XINFO Software for Datacenters
Integrating Knowledge Discovery into Knowledge Management
Der Umgang mit Daten als Ressource
 Präsentation transkript:

HADOOP – a Brief overview © Gottfried Hufnagel

Definition Big Data Any amount of data that's too big to be handled by one computer Jon Rauser, Data Scientist Pinterest

3 Vs Volume Velociy Value Varity Welchen Vorteil zieht man aus Big Data Analysen strukturiert unstrukturiert teilstrukturiert alles andere Batch Echtzeit Near Time Streams Terrabyte Zettabyte Soziale Netze Sensoren Volume Velociy Value Varity

Charakter Hadoop Skaliert horizontal günstige Hardware Master 1 2 3 4 … x

Zwei grundlegende Komponenten MapReduce Aufgabenteilung Parallelisierung HDFS Verteiltes Dateisystem N=3 ausfallssicher skaliert Dateien in Blocks gesplittet

HDFS Secondary Namenode Client NameNode (Katalog) DataNode #1 #2 #1 #2 Datanode #1 #3 #4 #1 #2 #4 … #3 #4 #n

HDFS - Console Befehle ähnlich der üblichen UNIX- Commands [root@fue-hdc01 ~]# hdfs dfs -ls / Found 8 items drwxrwxrwx - yarn hadoop 0 2014-10-16 09:27 /app-logs drwxr-xr-x - hdfs hdfs 0 2014-10-15 15:35 /apps drwxr-xr-x - hdfs hdfs 0 2014-10-15 15:42 /home drwxr-xr-x - mapred hdfs 0 2014-10-15 15:32 /mapred drwxr-xr-x - hdfs hdfs 0 2014-10-15 15:32 /mr-history drwxr-xr-x - hdfs hdfs 0 2014-10-16 17:51 /system drwxrwxrwx - hdfs hdfs 0 2014-10-16 17:42 /tmp drwxr-xr-x - hdfs hdfs 0 2014-10-16 09:23 /user

MapReduce Java-Framework parallele Verarbeitung Code kommt zu den Daten

Entwicklung 2002 – OpenSource Suchmaschine (Nutch) 2003 – Google Paper zu GFS 2004 – Google Paper zu MapReducde 2006 – Cutting + Nutch + Yahoo + Apache => Hadoop “[..] we were all solving the same problems“ – Raymie Sata, CEO VertiCloud

Ökosystem Management HBase Yarn Frameworks Pig Hive HCatalog MapReduce Ambari / Cloudera / MapR Nicht-Rationale DB HBase Yarn Frameworks Pig Script Hive Query HCatalog Metadatenservices MapReduce Verarbeiten von Daten YARN Ressourcenverteilung HDFS Speichern von Daten Scoop Import und Export von relationalen Daten Flume Import und Export von Streams