MapReduce programming model Astrid Rheinländer & Stefan Bethge 09.02.2009.

Slides:

Advertisements

Ähnliche Präsentationen

Konstruktion sehr großer Suffixbäume

Advertisements

PlanetenWachHundNetz Instrumenting Infrastructure for PlanetLab.

Ruby on Rails im Überblick

Objektrelationales Mapping mit JPA

Stefanie Selzer - Pascal Busch - Michael Kropiwoda

Grundlagen Datenbanken

Grundlagen der Analyse von Sprachdatenbanken

XINDICE The Apache XML Project Name: Jacqueline Langhorst

Einführung und Überblick

Duo- und Quad Prozessor-Architektur

Clustered Neuronal Network A C#.NET project for Compute Cluster Server 2003.

Die Finalisten für den Advanced Encryption Standard Advanced Encryption Standard Herbert Frohner Sebastian Hegenbart Joachim Kerschbaumer.

Nicolas Frings Maximilian Bernd Stefan Piernikarcyk

Parallel Matrix Multiplication

Parallel Programming Parallel Matrix Multiplication

Postgres Tsearch2 und Indexe. Basics Dokumente = alle Textattribute, Kombinationen von Textattributen über mehrere Tabellen Native Textsearch Operatoren:

WS 2011/12 Datenbanksysteme Fr 15:15 – 16:45 R Vorlesung #8 Anfragebearbeitung.

WS 2012/13 Datenbanksysteme Fr 15:15 – 16:45 R Vorlesung #9 Anfragebearbeitung.

WS 2007/08 Datenbanksysteme Mi 17:00 – 18:30 R Vorlesung #9 Anfragebearbeitung (Teil 1)

Steve Wagner Landau Media AG. Warum MongoDB in.Net nutzen MongoDB-CSharp Demos Fallstricke und Hinweise Weiterentwicklung Fragen und Antworten.

XML und Datenbanken © 2006 Markus Röder

Sinussatz? Cosinussatz?

WS 2013/14 Datenbanksysteme Do 17:00 – 18:30 R Vorlesung #9 Anfragebearbeitung.

Hardware / Software Codesign Hardware vs. Software: Maßnahmen zur Erreichung der Design-Ziele.

Information Retrieval, Vektorraummodell

WS 2004/2005 Datenbanken II - 5W Mi 17:00 – 18:30 G 3.18 Vorlesung #3 Anfragebearbeitung (Teil 1)

A) Erklären Sie den Datentyp char. b) Erklären Sie den Datentyp Struct c) Erklären Sie die Wirkungsweise des Operators & bei Anwendung im Zusammenhang.

HADOOP – a Brief overview

The PicSOM Retrieval System 1 Christian Steinberg.

Dreamteam: Web 2.0 und der Katalog Anne Christensen und Thomas Hapke GBV-Verbundkonferenz

Distributed Database Systems Parallele Datenbanksysteme von Stefan Schneider.

Zürcher Fachhochschule Einführung in Big Data I Kurt Stockinger 1.

Präsentation der Zwischenergebnisse am

Hadoop-as-a-Service (HDaaS)

2.6 Erinnerung: Programmverwaltung Quellencode (getrennt übersetzbare Programmteile) (source code) Übersetzer (compiler, assembler) Objektcode

Setzt das passende Adjektiv ein. Вставьте нужное прилагательное.

Large Scale Data Analysis Ulf Leser, Marc Bux, Astrid Rheinländer, Johannes Starlinger Seminar Summer 2012.

© 2015 TravelTainment NoSQL – Eine Alternative zu relationalen Datenbanken Dominik Schmitz.

Master in Web Science Shape the Web of Tomorrow!.

Hardware / Software Codesign Hardware versus Software.

Theorie. Was ist Drupal? Content-Management-System, Open Source Software Hauptanwendung in der Organisation von Websites In PHP geschrieben und wird als.

Parallele Lösung von Differential-Algebraischen Gleichungssystemen und Sensitivitätssystemen Seminarvortrag Daniel Abele

Import java.util.*; Hilfsklassen, die man eigentlich immer braucht.

Niels Schmahljohann Systemberater STCC ORACLE Deutschland GmbH.

Die Welt der Neogeographie GPS, GoogleEarth, OpenStreetMap & Co Jochen Topf.

Domänenmodellierung Georg Marth. Definition Domänenmodell ● Eine Zusammenfassung von Funktionen, Objekten, Daten und Relationen in einer Domäne. -Kang.

Die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH) Introduction to MapReduce and Hadoop Jie Tao Karlsruhe Institute of.

Algorithmen zur Gamma-Hadron-Separation mit den H.E.S.S.-Teleskopen Astroteilchenschule 2007 Stefan Ohm(MPIK Heidelberg)

DOAG SID Data Warehouse

Vorlesung #1 Datenmanagement

Projektarbeit in der Informatik

datengetriebene Marketing-Entscheidungen zu treffen

Vorlesung #5 Relationale Entwurfstheorie

Die Bibliothek und Ihre Vorwissenschaftliche Arbeit

Jakarta Struts Quasi-Standard für JSP-basierte Entwicklung: Jakarta Struts Key Features von Struts: Implementierung des Action-Command-Pattern („Model.

Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen

Lean Business Model Canvas

Alles wird gut! Suche im MyCoRe Jens Kupferschmidt

K-NN Klassifikation auf dem STI Cell BE Prozessor Michael Mair, Adrian Marte, Martin Schöpf, Daniel Winkler.

Installation und Beispiele

Vorlesung #5 Überführung (Fortsetzung) / Normalformen

Gewachsene Architektur Das kann nicht funktionieren!

Daten als Basis für Entscheidungen

Big Data Anwendungen ... selbst gedacht.

Von Wietlisbach, Lenzin und Winter

Stereotypes as Energy-Saving Devices

Ein Referat von Sabrina vissel und Yannick Fuchs

Lego Mindstorms Java mal anders

Monopol vs. Google and the otherss Do Google and the others the right things? Und was sind die Alternativen zu den Giganten? Open-Source & Freie Software.

Präsentation transkript:

MapReduce programming model Astrid Rheinländer & Stefan Bethge

Astrid Rheinländer & Stefan Bethge - MapReduce Bottlenecks „Stragglers“ Tasks, die länger als die meisten anderen benötigen Backup-Tasks Unnötig lange Netzwerkpfade (Locality) Performance

Astrid Rheinländer & Stefan Bethge - MapReduce Locality (1)

Astrid Rheinländer & Stefan Bethge - MapReduce Locality (2)

Astrid Rheinländer & Stefan Bethge - MapReduce Implementierungen (1) Hadoop Open source, größter Teil von Yahoo entwickelt allgemein etwas schlechtere Performance als Googles Implementation Greenplum Kommerziell Modifiziertes PostgreSQL für parallele verarbeitung, MapReduce integriert für Analyse CouchDB Dokument-orientiertes verteiltes DBMS in Erlang Berechnungen intern mit MapReduce

Astrid Rheinländer & Stefan Bethge - MapReduce Implementierungen (2) Aster Data nCluster Kommerziell paralleles DBMS mit zusätzlichem MapReduce Hive Erweiterung von Hadoop um SQL-Artige Sprache, von Facebook benutzt Cloudbase Erweiterung von Hadoop um ANSI-SQL Kann daher wie relationales DBMS z.B. über JDBC benutzt werden

Astrid Rheinländer & Stefan Bethge - MapReduce weitere Anwendungsbeispiele Analyse textueller Daten Suche, Crawling, Tokenerstellung Indexing Data Mining und maschinelles Lernen Maschinelles Übersetzen Analyse wissenschaftlicher Daten Kmeans Clustering Berechnungen in der Teilchenphysik Astronomie (Teleskope)

Astrid Rheinländer & Stefan Bethge - MapReduce MapReduceMerge (1) Ziel: Erweiterung von MapReduce um relationale algebra „normales“ MapReduce: map: (k1, v1) → [(k2, v2)] reduce: (k2, [v2]) → [v3] MapReduceMerge: 2 Sets von map/reduce map 1 : (k1, v1)α → [(k2, v2)]α reduce 1 : (k2, [v2])α → (k2, [v3])α merge der Ausgaben der reduce-Jobs ((k2, [v3])α, (k3, [v4])β) → [(k4, v5)]γ

Astrid Rheinländer & Stefan Bethge - MapReduce MapReduceMerge (2) Quelle: MapReduceMerge – Yang, Dasdan, Hsiao, et al. (SIGMOD 2007) α β γ

Astrid Rheinländer & Stefan Bethge - MapReduce Kritik David DeWitt & Michael Stonebreaker Interface auf zu tiefer Ebene („asm“ vs. „high-level“) Speichern von Zwischenergebnissen auf HD (Alternative: streams/pipelining) Keine Schema-Unterstützung, verhindert Performanceoptimierungen wie B-Trees oder Hash- Partitionierung Neuartigkeit der Verarbeitung wird angezweifelt (Teradata, UDFs in Postgres) Funktionalität ließe sich auch mit user-defined functions und parallelen DBMS erreichen

Astrid Rheinländer & Stefan Bethge - MapReduce MapReduce vs. parallele DBMS MapReduce ist kein paralleles DBMS, aber für Datenverarbeitung ähnlich geeignet, dabei: bessere Skalierbarkeit durch sehr viel größere Fehlertoleranz große Kosteneinsparung bei Hardware möglich Standard-PCs haben bessere performance/$ einfacher zu Warten keine für Analyse-/Verarbeitungszwecke unnötigen Features enthalten (Indexes, Integrität, Schemata,...) MapReduce ist schnell, da geringer Overhead