Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

HADOOP – A BRIEF OVERVIEW © Gottfried Hufnagel. Definition Big Data Any amount of data that's too big to be handled by one computer Jon Rauser, Data Scientist.

Ähnliche Präsentationen


Präsentation zum Thema: "HADOOP – A BRIEF OVERVIEW © Gottfried Hufnagel. Definition Big Data Any amount of data that's too big to be handled by one computer Jon Rauser, Data Scientist."—  Präsentation transkript:

1 HADOOP – A BRIEF OVERVIEW © Gottfried Hufnagel

2 Definition Big Data Any amount of data that's too big to be handled by one computer Jon Rauser, Data Scientist Pinterest 2

3 3 Vs Welchen Vorteil zieht man aus Big Data Analysen strukturiert unstrukturiert teilstrukturiert alles andere Batch Echtzeit Near Time Streams Terrabyte Zettabyte Soziale Netze Sensoren VolumeVelociy ValueVarity 3

4  Skaliert horizontal  günstige Hardware Charakter Hadoop Master … x 4

5 HDFS  Verteiltes Dateisystem  N=3  ausfallssicher  skaliert  Dateien in Blocks gesplittet MapReduce  Aufgabenteilung  Parallelisierung Zwei grundlegende Komponenten 5

6 HDFS Secondary Namenode Client NameNode (Katalog) DataNode #1 #2 Datanode #1 #3 #4 Datanode #1 #2 #4 … Datanode #3 #4 #n 6

7 HDFS - Console Befehle ähnlich der üblichen UNIX- Commands ~]# hdfs dfs -ls / Found 8 items drwxrwxrwx - yarn hadoop :27 /app-logs drwxr-xr-x - hdfs hdfs :35 /apps drwxr-xr-x - hdfs hdfs :42 /home drwxr-xr-x - mapred hdfs :32 /mapred drwxr-xr-x - hdfs hdfs :32 /mr-history drwxr-xr-x - hdfs hdfs :51 /system drwxrwxrwx - hdfs hdfs :42 /tmp drwxr-xr-x - hdfs hdfs :23 /user 7

8 MapReduce  Java-Framework  parallele Verarbeitung  Code kommt zu den Daten 8

9 Entwicklung  2002 – OpenSource Suchmaschine (Nutch)  2003 – Google Paper zu GFS  2004 – Google Paper zu MapReducde  2006 – Cutting + Nutch + Yahoo + Apache => Hadoop “[..] we were all solving the same problems“ – Raymie Sata, CEO VertiCloud 9

10 Ökosystem Scoop Import und Export von relationalen Daten Flume Import und Export von Streams HDFS Speichern von Daten YARN Ressourcenverteilung Pig Script Hive Query HBase Nicht-Rationale DB MapReduce Verarbeiten von Daten Yarn Frameworks HCatalog Metadatenservices Management Ambari / Cloudera / MapR 10


Herunterladen ppt "HADOOP – A BRIEF OVERVIEW © Gottfried Hufnagel. Definition Big Data Any amount of data that's too big to be handled by one computer Jon Rauser, Data Scientist."

Ähnliche Präsentationen


Google-Anzeigen