MapReduce programming model Astrid Rheinländer & Stefan Bethge 09.02.2009.

Slides:



Advertisements
Ähnliche Präsentationen
Konstruktion sehr großer Suffixbäume
Advertisements

PlanetenWachHundNetz Instrumenting Infrastructure for PlanetLab.
PC-Cluster.
Ruby on Rails im Überblick
Objektrelationales Mapping mit JPA
Stefanie Selzer - Pascal Busch - Michael Kropiwoda
Grundlagen Datenbanken
Grundlagen der Analyse von Sprachdatenbanken
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Einführung und Überblick
Duo- und Quad Prozessor-Architektur
Clustered Neuronal Network A C#.NET project for Compute Cluster Server 2003.
Die Finalisten für den Advanced Encryption Standard Advanced Encryption Standard Herbert Frohner Sebastian Hegenbart Joachim Kerschbaumer.
Nicolas Frings Maximilian Bernd Stefan Piernikarcyk
Parallel Matrix Multiplication
Parallel Programming Parallel Matrix Multiplication
Postgres Tsearch2 und Indexe. Basics Dokumente = alle Textattribute, Kombinationen von Textattributen über mehrere Tabellen Native Textsearch Operatoren:
WS 2011/12 Datenbanksysteme Fr 15:15 – 16:45 R Vorlesung #8 Anfragebearbeitung.
WS 2012/13 Datenbanksysteme Fr 15:15 – 16:45 R Vorlesung #9 Anfragebearbeitung.
WS 2007/08 Datenbanksysteme Mi 17:00 – 18:30 R Vorlesung #9 Anfragebearbeitung (Teil 1)
Steve Wagner Landau Media AG. Warum MongoDB in.Net nutzen MongoDB-CSharp Demos Fallstricke und Hinweise Weiterentwicklung Fragen und Antworten.
XML und Datenbanken © 2006 Markus Röder
Sinussatz? Cosinussatz?
WS 2013/14 Datenbanksysteme Do 17:00 – 18:30 R Vorlesung #9 Anfragebearbeitung.
Hardware / Software Codesign Hardware vs. Software: Maßnahmen zur Erreichung der Design-Ziele.
Information Retrieval, Vektorraummodell
WS 2004/2005 Datenbanken II - 5W Mi 17:00 – 18:30 G 3.18 Vorlesung #3 Anfragebearbeitung (Teil 1)
A) Erklären Sie den Datentyp char. b) Erklären Sie den Datentyp Struct c) Erklären Sie die Wirkungsweise des Operators & bei Anwendung im Zusammenhang.
HADOOP – a Brief overview
The PicSOM Retrieval System 1 Christian Steinberg.
Dreamteam: Web 2.0 und der Katalog Anne Christensen und Thomas Hapke GBV-Verbundkonferenz
Distributed Database Systems Parallele Datenbanksysteme von Stefan Schneider.
Zürcher Fachhochschule Einführung in Big Data I Kurt Stockinger 1.
Präsentation der Zwischenergebnisse am
Hadoop-as-a-Service (HDaaS)
2.6 Erinnerung: Programmverwaltung Quellencode (getrennt übersetzbare Programmteile) (source code) Übersetzer (compiler, assembler) Objektcode
Setzt das passende Adjektiv ein. Вставьте нужное прилагательное.
Large Scale Data Analysis Ulf Leser, Marc Bux, Astrid Rheinländer, Johannes Starlinger Seminar Summer 2012.
© 2015 TravelTainment NoSQL – Eine Alternative zu relationalen Datenbanken Dominik Schmitz.
Master in Web Science Shape the Web of Tomorrow!.
Hardware / Software Codesign Hardware versus Software.
Theorie. Was ist Drupal? Content-Management-System, Open Source Software Hauptanwendung in der Organisation von Websites In PHP geschrieben und wird als.
Parallele Lösung von Differential-Algebraischen Gleichungssystemen und Sensitivitätssystemen Seminarvortrag Daniel Abele
Import java.util.*; Hilfsklassen, die man eigentlich immer braucht.
Niels Schmahljohann Systemberater STCC ORACLE Deutschland GmbH.
Die Welt der Neogeographie GPS, GoogleEarth, OpenStreetMap & Co Jochen Topf.
Domänenmodellierung Georg Marth. Definition Domänenmodell ● Eine Zusammenfassung von Funktionen, Objekten, Daten und Relationen in einer Domäne. -Kang.
Die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH) Introduction to MapReduce and Hadoop Jie Tao Karlsruhe Institute of.
Algorithmen zur Gamma-Hadron-Separation mit den H.E.S.S.-Teleskopen Astroteilchenschule 2007 Stefan Ohm(MPIK Heidelberg)
DOAG SID Data Warehouse
Vorlesung #1 Datenmanagement
Projektarbeit in der Informatik
datengetriebene Marketing-Entscheidungen zu treffen
Vorlesung #5 Relationale Entwurfstheorie
Die Bibliothek und Ihre Vorwissenschaftliche Arbeit
Jakarta Struts Quasi-Standard für JSP-basierte Entwicklung: Jakarta Struts Key Features von Struts: Implementierung des Action-Command-Pattern („Model.
Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen
Lean Business Model Canvas
Alles wird gut! Suche im MyCoRe Jens Kupferschmidt
K-NN Klassifikation auf dem STI Cell BE Prozessor Michael Mair, Adrian Marte, Martin Schöpf, Daniel Winkler.
Installation und Beispiele
Vorlesung #5 Überführung (Fortsetzung) / Normalformen
Gewachsene Architektur Das kann nicht funktionieren!
Daten als Basis für Entscheidungen
Big Data Anwendungen ... selbst gedacht.
Von Wietlisbach, Lenzin und Winter
Stereotypes as Energy-Saving Devices
Ein Referat von Sabrina vissel und Yannick Fuchs
Lego Mindstorms Java mal anders
Monopol vs. Google and the otherss Do Google and the others the right things? Und was sind die Alternativen zu den Giganten? Open-Source & Freie Software.
 Präsentation transkript:

MapReduce programming model Astrid Rheinländer & Stefan Bethge

Astrid Rheinländer & Stefan Bethge - MapReduce Bottlenecks „Stragglers“ Tasks, die länger als die meisten anderen benötigen Backup-Tasks Unnötig lange Netzwerkpfade (Locality) Performance

Astrid Rheinländer & Stefan Bethge - MapReduce Locality (1)

Astrid Rheinländer & Stefan Bethge - MapReduce Locality (2)

Astrid Rheinländer & Stefan Bethge - MapReduce Implementierungen (1) Hadoop Open source, größter Teil von Yahoo entwickelt allgemein etwas schlechtere Performance als Googles Implementation Greenplum Kommerziell Modifiziertes PostgreSQL für parallele verarbeitung, MapReduce integriert für Analyse CouchDB Dokument-orientiertes verteiltes DBMS in Erlang Berechnungen intern mit MapReduce

Astrid Rheinländer & Stefan Bethge - MapReduce Implementierungen (2) Aster Data nCluster Kommerziell paralleles DBMS mit zusätzlichem MapReduce Hive Erweiterung von Hadoop um SQL-Artige Sprache, von Facebook benutzt Cloudbase Erweiterung von Hadoop um ANSI-SQL Kann daher wie relationales DBMS z.B. über JDBC benutzt werden

Astrid Rheinländer & Stefan Bethge - MapReduce weitere Anwendungsbeispiele Analyse textueller Daten Suche, Crawling, Tokenerstellung Indexing Data Mining und maschinelles Lernen Maschinelles Übersetzen Analyse wissenschaftlicher Daten Kmeans Clustering Berechnungen in der Teilchenphysik Astronomie (Teleskope)

Astrid Rheinländer & Stefan Bethge - MapReduce MapReduceMerge (1) Ziel: Erweiterung von MapReduce um relationale algebra „normales“ MapReduce: map: (k1, v1) → [(k2, v2)] reduce: (k2, [v2]) → [v3] MapReduceMerge: 2 Sets von map/reduce map 1 : (k1, v1)α → [(k2, v2)]α reduce 1 : (k2, [v2])α → (k2, [v3])α merge der Ausgaben der reduce-Jobs ((k2, [v3])α, (k3, [v4])β) → [(k4, v5)]γ

Astrid Rheinländer & Stefan Bethge - MapReduce MapReduceMerge (2) Quelle: MapReduceMerge – Yang, Dasdan, Hsiao, et al. (SIGMOD 2007) α β γ

Astrid Rheinländer & Stefan Bethge - MapReduce Kritik David DeWitt & Michael Stonebreaker Interface auf zu tiefer Ebene („asm“ vs. „high-level“) Speichern von Zwischenergebnissen auf HD (Alternative: streams/pipelining) Keine Schema-Unterstützung, verhindert Performanceoptimierungen wie B-Trees oder Hash- Partitionierung Neuartigkeit der Verarbeitung wird angezweifelt (Teradata, UDFs in Postgres) Funktionalität ließe sich auch mit user-defined functions und parallelen DBMS erreichen

Astrid Rheinländer & Stefan Bethge - MapReduce MapReduce vs. parallele DBMS MapReduce ist kein paralleles DBMS, aber für Datenverarbeitung ähnlich geeignet, dabei: bessere Skalierbarkeit durch sehr viel größere Fehlertoleranz große Kosteneinsparung bei Hardware möglich Standard-PCs haben bessere performance/$ einfacher zu Warten keine für Analyse-/Verarbeitungszwecke unnötigen Features enthalten (Indexes, Integrität, Schemata,...) MapReduce ist schnell, da geringer Overhead