Dr. Klaus Ruhlig Technology & Product Consulting Sun Microsystems, München Skalierbare Rechnerarchitekturen für ein DWH: Eine vergleichende Analyse.

Slides:



Advertisements
Ähnliche Präsentationen
KA – Rechnerarchitektur I ____________________________________________________________________________________________ ____________________________________________________________________________________________.
Advertisements

Nov. 2001Reinhard Ries AFS-Workshop 2001 Statusbericht Rechenzentrum TU Braunschweig Reinhard Ries
Karo IT Viehmarkt Neumarkt Karo IT Neumarkt GmbH | Tel.:
:33 Internet Applikationen – Hard und Softwareplattform Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner.
PC-Cluster.
Datenbankzugriff im WWW (Kommerzielle Systeme)
Erweiterung des Opterox- Clusters Fachbereich Physik & ZIM Universität Duisburg-Essen.
Effizienz: Indexstrukturen
Basisinformationstechnologie 1 Tanja Lange WS 2003/04 am
OpenMP Präsentation im Rahmen des Seminars
Studiengang Informatik FHDW
Haupt- und Arbeitsspeicher
Geometrische Objekte in Datenbanken Martin Pfeifle Institut für Informatik, Universität München Lehr- und Forschungseinheit für Datenbanksysteme Prof.
AFS-Workshop 2005 Statusbericht Rechenzentrum TU Braunschweig
HPC Architekturen und Anwendungen: Anforderungen und Notwendigkeiten
Datenmanagement in Sensornetzen PRESTO - Feedback gesteuertes Datenmanagement - SS 2007 Sören Wenzlaff.
Vortrag: Ingo Gensch, Mathias Reich am:
Hamburg November Computing in der CMS Gruppe der Uni Hamburg Zwei Bereiche: grid Computing Workgroup Server für Analyse.
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Was sind Cluster und wie sind sie aufgebaut
Neuere Hardwarekonzepte
Oracle Real Application Cluster (RAC)
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Concurrent Garbage Collector
Schnittstellen des Computers
Duo- und Quad Prozessor-Architektur
F.Ladstätter und R.Elsässer VP Wissenschaftliches Arbeiten und Präsentation 13. Dezember 2001.
Agenda Motivation Grundlagen der Matrix-Vektor-Multiplikation
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
Präsentation von Alexander Schönfeld
Best Practices in der Datenbank-programmierung
INTEL Pentium 4 Prozessor
SSDs im SAN – Praxisbericht Teil3
1 The National Institute of Standards and Technology of the United States of America Stand: 2009 DIGITTRADE GmbH – Produktvorstellung: High Security Festplatte.
Einrichtung eines Data-Warehouse Servers
ADAT©2010 Dipl. - Ing. Andrea SabinSeite: 1 Version 1.0c Adat Semester 1.
Multiprozessoren: Herausforderung für die Software
Kassensysteme.
SSDs im SAN – Praxisbericht Teil2 Erich Eckel Österreichische Lotterien Storage Management.
SSDs im SAN - Praxisbericht Erich Eckel Österreichische Lotterien Storage Management.
DDR vs. RDRAM Ein Vergleich von Speichertechnologien Bernhard Fiser Stefan Schönauer.
Oracle Database Appliance Übersicht
JOMP
Directors Prof. Dr.-Ing. K.D. Müller-Glaser Prof. Dr.-Ing. J. Becker Prof. Dr. rer. nat. W. Stork Institute for Information Processing Technology.
Clustering Clustering mit openMosix von Christian Wiese Stefan Krause.
Software Engineering SS04 Paralleles Programmieren FH Aachen, Prof. Dr.-Ing. Michael Trautwein Andrej Kühnal, Perez-Otuno Rodrigo.
WINDOWS 2003 Server. Standart Varianten für 32 Bit: Web Edition: Unterstützt Single(1)- oder Dual(2)-Prozessor-Systeme und bis zu 2 GB RAM 32-Bit Standard.
AGP – Accelerated Graphics Port A. Even, M. Colloseus, K. Müller, T. Kadziela, I. Schiffler 1 Warum braucht man AGP? Höhere Geschwindigkeiten Größere Bandbreite.
SS 2014 – IBB4B Datenmanagement Do 17:00 – 18:30 R Vorlesung #4 Überführung des ER-Modells in das relationale Modell.
Beispiel Präsentation Firewire / 1394
? What is Open PS? SAP Open PS based on EPS 4.0
Clusterbeschaffung von Sven Gamradt Gliederung  Was ist ein Cluster?  Warum und für wen wurde das Cluster gekauft?  Hardwarespezifikationen.
Architektur- und Realisierungsaspekte von Oracle Real Application Cluster (RAC)
Windows 2003 Server. Systemvorassetzungen KomponenteMindestvorausstattungEmpfohlene Ausstattung Prozessor Intel Pentium oder kompatibel ab 133 MHz Intel.
Hadoop-as-a-Service (HDaaS)
1 Hochverfügbarkeit von Rechnersystemen Michael Gammelin DECON Informations Technologie Lösungen GmbH.
Prof. Dr. T. Kudraß1 Speicherverwaltung: Flash-Laufwerke.
Fragen.  Hardwarekomponenten sind die Bestandteile eines Computers, die Sie sehen und anfassen können.
Oracle Real Time Replikation, Integration im heterogenen Umfeld DOAG Regionaltreffen Rhein Main Darmstadt, 14. Juni 2005.
Oracle Exadata und HP Oracle Database Machine © 2008 Oracle Corporation – Proprietary and Confidential Alfred Schlaucher (Oracle Data Warehouse) EXTREME.
Oracle Text bei sehr großen Datenmengen Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr.
Wechsel von Oracle Cloud Control 12c zu 13c
DOAG SID Data Warehouse
Klaus Heßen, Direktor Strategisch Technische Unterstützung (STU)
Vorgestern, gestern und heute
Die Stadt Aarau setzt für das Backup im RZ auf
Lizenzierung von ORACLE-Datenbanken
Basiskomponente Bibliothek Informationsveranstaltung
Abschlussvortrag Diplomarbeit Daniel Weber
Shared Memory Programmierung: Grundlagen
 Präsentation transkript:

Dr. Klaus Ruhlig Technology & Product Consulting Sun Microsystems, München Skalierbare Rechnerarchitekturen für ein DWH: Eine vergleichende Analyse

Agenda ● Warum Skalierbarkeit? ● Was bedeutet Skalierbarkeit? ● Skalierbarkeit bei Data Warehouses ● Rechnerarchitekturen: Cluster/SMP ● Beispiele für Rechnerarchitekturen ● TPC-H Ergebnisse

Warum Skalierbarkeit? ● Die Skalierbarkeit eines Data Warehouses ist notwendig, um einen Wachstumspfad für größere Datenmengen und komplexere Anfragen zu besitzen. ● Ein System, das gut skaliert, hält keine Überaschungen bereit, wenn das System oder die Arbeitslast wächst. Es besitzt ein vorhersehbares Verhalten.

Was bedeutet Skalierbarkeit? Drei Arbeiter bearbeiten neun Bleche in vier Zeiteinheiten Drei Arbeiter bearbeiten neun Bleche in drei Zeiteinheiten: Optimale Skalierung! Skalierbarkeit hängt davon an, wie optimal die Aufgaben zur parallelen Bearbeitung aufgeteilt werden können!

Skalierbarkeit ➔ Die Skalierbarkeit eines Systems ist bestimmt dadurch, wie schnell und gleichmäßig es Ungleichverteilungen der Aufgaben beheben kann. ➔ Die Skalierbarkeit einer Rechnerarchitektur ist abhängig von der Geschwindigkeit und der Symmetrie des System-Interconnects.

Beispiel: SQL-Abfrage 1. Paralleler Full Table Scan, Daten sind noch unsortiert 2. Paralleles Sortieren bzgl. der Einträge in Spalte2 3. Zusammenführen der sortierten Daten SELECT * FROM TabelleA ORDER BY Spalte2

Scannen und Sortieren Die unsortierten Zeilen müssen bzgl. der Häufigkeit der einzelnen Schlüsseldaten auf die Sortierprozesse verteilt werden! Kommunikation über den System- Interconnect!

Data Warehouse ➔ Neuverteilungen von Daten sind die Regel bei Ad-Hoc SQL-Abfragen im Data Warehouse Umfeld, da es dann nicht möglich ist, das Datenlayout der Datenbank hierfür zu optimieren. ➔ Die Güte des System-Interconnects ist sehr wichtig für die Skalierbarkeit einer Rechner-architektur für Data Warehouse Anwen-dungen!

Rechnerarchitekturen: Cluster ● relativ langsamer Interconnect < 1 GB/sec ● jeder Knoten besitzt sein eigenes Betriebssystem lokale Festplatten unabhängige Prozessor/ Speicher-Knoten

Symmetrischer Multiprozessor (SMP) ● Schneller Interconnect >> 1 GB/s ● Ein Betriebssystem für alle Prozessoren Shared Disks mehrere Prozessoren teilen sich symmetrisch Speicher bzw. I/O

Teradata WorldMark 5250 ● BYNET-Bandbreite: 120 MB/s pro Port ● 1.92 GB/s Bisection-Bandbreite bei 512 Proz.

IBM RS/6000 SP ● 300 MB/s pro Port (1 GB/s bei Switch2) ● 4.7 GB/s Bandbreite (16 GB/s bei Switch2) System mit zwei Switches für 32 Knoten (bis zu 16 Prozessoren pro Knoten, bis zu 128 Knoten):

IBM p690 (32 Prozessorkerne) ● viermal 5.08 GB/s=20.32 GB/s Bandbreite ● asymmetrisch: 1-3 Interconnect-Stufen

HP Superdome (64 CPUs) ● 8 GB/s pro Port ● asymmetrisch: zwei Switch-Stufen

Sun Fire 15K (72 CPUs) ● 43.2 GB/s Bisection-Bandbreite ● 4.8 GB/s pro System-Board Bis zu 18 System- und I/O-Boards

Sun Fire 15K ● Höchste Symmetrie durch einstufigen Inter-connect: gleiche Anbindung bei 1-18 Boards!

Effizienzvergleich der verschiedenen Architekturen mit Hilfe des TPC-H Benchmarks ● TPC-H: Decision Support Benchmark für Datenbankgrößen von GB: Dabei werden die Zeiten für Ad-Hoc- Queries gemessen, so daß es kein Vorwissen bzgl. der Anfragen gibt, welches zur Optimierung der Datenbank genutzt werden könnte.

Verglichene Systeme ● Sun Fire 15K: 72 UltraSparc III Cu 900 (1050) MHz Prozessoren, 288 GB, Oracle 9i (R2), Solaris 8 (9) ● Teradata Worldmark 5250: 128 Intel Pentium III Xeon 700 MHz Prozessoren, 64 GB, Terradata V2R4.1, MP-RAS ● IBM RS/6000 SP 550: 128 IBM Power III 375 MHz Prozessoren, 128 GB, DB2 UDB 7.1, AIX ● HP 9000 Superdome: 64 HP PA-RISC MHz Prozessoren, 128 GB, Oracle 9i, HP-UX

Verglichene Systeme ● IBM p690: noch keine Resultate ● Compaq ProLiant DL760 X P: 32 Knoten zu je vier 900 MHz Pentium III Xeon Prozessoren und 4 GB Speicher, verbunden mit einem 32-Port Gigabit Ethernet Switch, IBM DB2 UDB 7.2, Windows 2000 Server

TPC-H Ergebnisse für 1 TB

Gesamtprozessorleistung der Systeme

Normierte TPC-H Ergebnisse für 1 TB 85 % 73 % 91 % Die Sun Fire 15K besitzt die höchste Effizienz! 79 %

TPC-H Ergebnisse für 3 TB

Normierte TPC-H Ergebnisse für 3 TB 78 % 67 %

Weitere Informationen ● Transaction Processing Performance Council: ● Standard Performance Evaluation Corporation ● “Scalable Computer Architectures for Data Warehousing” von Mark Sweiger ● “Data Warehousing Performance with SMP, Cluster, and MPP Architectures”, Sun Whitepaper

Dr. Klaus Ruhlig