Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Mina Baum Geändert vor über 8 Jahren
1
Dr. Klaus Ruhlig Technology & Product Consulting Sun Microsystems, München Skalierbare Rechnerarchitekturen für ein DWH: Eine vergleichende Analyse
2
Agenda ● Warum Skalierbarkeit? ● Was bedeutet Skalierbarkeit? ● Skalierbarkeit bei Data Warehouses ● Rechnerarchitekturen: Cluster/SMP ● Beispiele für Rechnerarchitekturen ● TPC-H Ergebnisse
3
Warum Skalierbarkeit? ● Die Skalierbarkeit eines Data Warehouses ist notwendig, um einen Wachstumspfad für größere Datenmengen und komplexere Anfragen zu besitzen. ● Ein System, das gut skaliert, hält keine Überaschungen bereit, wenn das System oder die Arbeitslast wächst. Es besitzt ein vorhersehbares Verhalten.
4
Was bedeutet Skalierbarkeit? Drei Arbeiter bearbeiten neun Bleche in vier Zeiteinheiten Drei Arbeiter bearbeiten neun Bleche in drei Zeiteinheiten: Optimale Skalierung! Skalierbarkeit hängt davon an, wie optimal die Aufgaben zur parallelen Bearbeitung aufgeteilt werden können!
5
Skalierbarkeit ➔ Die Skalierbarkeit eines Systems ist bestimmt dadurch, wie schnell und gleichmäßig es Ungleichverteilungen der Aufgaben beheben kann. ➔ Die Skalierbarkeit einer Rechnerarchitektur ist abhängig von der Geschwindigkeit und der Symmetrie des System-Interconnects.
6
Beispiel: SQL-Abfrage 1. Paralleler Full Table Scan, Daten sind noch unsortiert 2. Paralleles Sortieren bzgl. der Einträge in Spalte2 3. Zusammenführen der sortierten Daten SELECT * FROM TabelleA ORDER BY Spalte2
7
Scannen und Sortieren Die unsortierten Zeilen müssen bzgl. der Häufigkeit der einzelnen Schlüsseldaten auf die Sortierprozesse verteilt werden! Kommunikation über den System- Interconnect!
8
Data Warehouse ➔ Neuverteilungen von Daten sind die Regel bei Ad-Hoc SQL-Abfragen im Data Warehouse Umfeld, da es dann nicht möglich ist, das Datenlayout der Datenbank hierfür zu optimieren. ➔ Die Güte des System-Interconnects ist sehr wichtig für die Skalierbarkeit einer Rechner-architektur für Data Warehouse Anwen-dungen!
9
Rechnerarchitekturen: Cluster ● relativ langsamer Interconnect < 1 GB/sec ● jeder Knoten besitzt sein eigenes Betriebssystem lokale Festplatten unabhängige Prozessor/ Speicher-Knoten
10
Symmetrischer Multiprozessor (SMP) ● Schneller Interconnect >> 1 GB/s ● Ein Betriebssystem für alle Prozessoren Shared Disks mehrere Prozessoren teilen sich symmetrisch Speicher bzw. I/O
11
Teradata WorldMark 5250 ● BYNET-Bandbreite: 120 MB/s pro Port ● 1.92 GB/s Bisection-Bandbreite bei 512 Proz.
12
IBM RS/6000 SP ● 300 MB/s pro Port (1 GB/s bei Switch2) ● 4.7 GB/s Bandbreite (16 GB/s bei Switch2) System mit zwei Switches für 32 Knoten (bis zu 16 Prozessoren pro Knoten, bis zu 128 Knoten):
13
IBM p690 (32 Prozessorkerne) ● viermal 5.08 GB/s=20.32 GB/s Bandbreite ● asymmetrisch: 1-3 Interconnect-Stufen
14
HP Superdome (64 CPUs) ● 8 GB/s pro Port ● asymmetrisch: zwei Switch-Stufen
15
Sun Fire 15K (72 CPUs) ● 43.2 GB/s Bisection-Bandbreite ● 4.8 GB/s pro System-Board Bis zu 18 System- und I/O-Boards
16
Sun Fire 15K ● Höchste Symmetrie durch einstufigen Inter-connect: gleiche Anbindung bei 1-18 Boards!
17
Effizienzvergleich der verschiedenen Architekturen mit Hilfe des TPC-H Benchmarks ● TPC-H: Decision Support Benchmark für Datenbankgrößen von 100-3000 GB: Dabei werden die Zeiten für Ad-Hoc- Queries gemessen, so daß es kein Vorwissen bzgl. der Anfragen gibt, welches zur Optimierung der Datenbank genutzt werden könnte.
18
Verglichene Systeme ● Sun Fire 15K: 72 UltraSparc III Cu 900 (1050) MHz Prozessoren, 288 GB, Oracle 9i (R2), Solaris 8 (9) ● Teradata Worldmark 5250: 128 Intel Pentium III Xeon 700 MHz Prozessoren, 64 GB, Terradata V2R4.1, MP-RAS ● IBM RS/6000 SP 550: 128 IBM Power III 375 MHz Prozessoren, 128 GB, DB2 UDB 7.1, AIX ● HP 9000 Superdome: 64 HP PA-RISC 8600 552 MHz Prozessoren, 128 GB, Oracle 9i, HP-UX
19
Verglichene Systeme ● IBM p690: noch keine Resultate ● Compaq ProLiant DL760 X900-128P: 32 Knoten zu je vier 900 MHz Pentium III Xeon Prozessoren und 4 GB Speicher, verbunden mit einem 32-Port Gigabit Ethernet Switch, IBM DB2 UDB 7.2, Windows 2000 Server
20
TPC-H Ergebnisse für 1 TB
21
Gesamtprozessorleistung der Systeme
22
Normierte TPC-H Ergebnisse für 1 TB 85 % 73 % 91 % Die Sun Fire 15K besitzt die höchste Effizienz! 79 %
23
TPC-H Ergebnisse für 3 TB
24
Normierte TPC-H Ergebnisse für 3 TB 78 % 67 %
25
Weitere Informationen ● Transaction Processing Performance Council: www.tpc.org ● Standard Performance Evaluation Corporation www.spec.org ● “Scalable Computer Architectures for Data Warehousing” von Mark Sweiger ● “Data Warehousing Performance with SMP, Cluster, and MPP Architectures”, Sun Whitepaper
26
Dr. Klaus Ruhlig klaus.ruhlig@sun.com
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.