Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

SQL Projekt AG FSU 290610, 1 Datenbankauswertungen in großen Datenmengen - Spaltenorientierte Datenbank Einführung: Probleme und Herangehensweise Sybase.

Ähnliche Präsentationen


Präsentation zum Thema: "SQL Projekt AG FSU 290610, 1 Datenbankauswertungen in großen Datenmengen - Spaltenorientierte Datenbank Einführung: Probleme und Herangehensweise Sybase."—  Präsentation transkript:

1 SQL Projekt AG FSU , 1 Datenbankauswertungen in großen Datenmengen - Spaltenorientierte Datenbank Einführung: Probleme und Herangehensweise Sybase Adaptive Server IQ und IQM Prinzip-Überblick Speicherungsstruktur und Indextypen IQ Multiplex Beispiele, Ergebnisse Jürgen Bittner

2 SQL Projekt AG FSU , 2 Das „gewöhnliche“ Performance-Problem Ein Select braucht zu viel Zeit,... was tun ? Schnellere Hardware ? Überprüfen des Kommandos Prüfen des Datenbank-Servers Prüfen der Datenbank

3 SQL Projekt AG FSU , 3 Ein Select braucht zu viel Zeit,... was tun ? Überprüfen des Kommandos  Liegt eine ungünstige (evt. vermeidbare) Formulierung vor ?  Besonderheiten der Hersteller sind zu beachten

4 SQL Projekt AG FSU , 4 Anfragebeispiel Wieviele Gastronomie-Einrichtungen in Sachsen haben kein „Radeberger“ ? SELECT COUNT (DISTINCT Einr) FROM Absatz WHERE Land = ‘SA‘ AND Typ = ‘G‘ AND Einr = IS NOT IN (SELECT DISTINCT Einr FROM Absatz WHERE Land = ‘SA‘ AND Typ = ‘G‘ AND Prod = ‘Radeb‘) SELECT COUNT (DISTINCT Einr) FROM Absatz WHERE Land = ‘SA‘ AND Typ = ‘G‘ AND Einr = IS NOT IN (SELECT DISTINCT Einr FROM Absatz WHERE Land = ‘SA‘ AND Typ = ‘G‘ AND Prod = ‘Radeb‘) SELECT COUNT (DISTINCT Einr) - AnzRadeb FROM Absatz, (SELECT COUNT(DISTINCT Einr) AS AnzRadeb FROM Absatz WHERE Land = ‘SA‘ AND Typ = ‘G‘ AND Prod = ‘Radeb‘) WHERE Land = ‘SA‘ AND Typ = ‘G‘

5 SQL Projekt AG FSU , 5 Ein Select braucht zu viel Zeit,... was tun ? Überprüfen des Kommandos  Liegt eine ungünstige (evt. vermeidbare) Formulierung vor ?  Besonderheiten der Hersteller sind zu beachten  Prüfen des Zugriffsplans: Wurde ein nicht erwarteter Ablauf generiert ?  Index-Benutzung:  Wurde ein wirkungsvoller Index nicht ausgewählt ?  Fehlt ein Index ?  Reihenfolge der Joins Maßnahmen: Diverse Eingriffe wie  Hints (Force Index, Parallelization, number of pages per read,...)  Zerlegung der Query in mehrere Schritte mit Hilfe temporärer Tabellen  Update statistics, u.ä. Prüfen des Datenbank-Servers  Einschalten eines Performance-Monitors

6 SQL Projekt AG FSU , 6 Ein Select braucht zu viel Zeit,... was tun ? Prüfen des Datenbank-Servers  Einschalten eines Performance-Monitors  Index-Benutzung  Prozessaktivität  Sperren  Cache-Benutzung  Task switches Prüfen der Datenbank  Modifikation des Datenbank-Schemas  Anlegen weiterer Indizes  Einbauen von Aggregaten und anderen Redundanzen  Partitionierung Häufig ergibt sich neues Konfliktpotential !

7 SQL Projekt AG FSU , 7 Tuning stößt häufig an Grenzen Beispiele: „Spezial-Queries“ legen das komplette System lahm. Die Kapazität des Systems ist bereits bei irgendeiner Benutzer-Anzahl ausgeschöpft, es sollen aber zusätzliche, z.B. auch Intranet-Anwender unterstützt werden. Die Datenmengen sind sehr groß. Das Select wird von einem Endbenutzer-Werkzeug generiert.

8 SQL Projekt AG FSU , 8 Die grundlegende Entscheidung: Isolieren der Anfragen von den Transaktionen DatenLog Query Server Enterprise Connect Replication Server Stable Device REP Agent DatenLog OLTP Server

9 SQL Projekt AG FSU , 9 Data Warehouse Architektur Relationale DB SW-Pakete Altdaten Externe Quellen Quell- daten Data Staging (ETL) Data Staging (ETL) Warehouse Admin. Tools Enterprise Data Warehouse Daten-Extraktion, Transformation und Laden Datamart unternehmen- weites/ zentrales Data Warehouse ROLAP RDBMS Datamart MOLAP neu strukturierte (‘Architected’) Data Marts Benutzer- Tool Benutzer- Tool Benutzer- Tool Benutzer- Tool Daten- Bereinigungs- Tool

10 SQL Projekt AG FSU , 10 Die Warnung

11 SQL Projekt AG FSU , 11

12 SQL Projekt AG FSU , 12 Bei sehr großen Datenmengen – prinzipielle Performanceprobleme Beispielsituationen: „Das Analysesystem steht erst ab 11:00 Uhr morgens zur Verfügung.“ „Die Informationen sind immer auf dem Stand vom Vortag, benötigt werden aber Informationen, die max. 60 Minuten alt sind.“ „Das Data Warehouse speichert die Geschäftsvorgänge der letzten 6 Monate, benötigt werden aber die Trends über die letzten 2 Jahre oder mehr.“

13 SQL Projekt AG FSU , 13 (Häufige) Probleme in Business Intelligence Anwendungen Antwortzeiten - sind zu lang Flexibilität und komplexe Abfragen - mit ständiger Erweiterung der Anforderungen (Ad-Hoc SQL) sind sehr problematisch Wachsende Nutzerzahl/ Datenmenge – Performance sinkt und genügt nicht mehr den Anforderungen Analyse auf Detaildatenebene - nicht alle Daten werden abgespeichert aufgrund der Größe des Datenbestandes  Arbeit mit verdichteten Daten Speicherung und Analyse von (sehr) großen Datenbeständen – zu teuer in Speicher, Administration und Antwortzeit Online-Loads - parallel zum Auswerten nicht (immer) möglich

14 SQL Projekt AG FSU , 14 Hohe Performance bei Datenbankauswertungen Einführung: Probleme und Herangehensweise Sybase Adaptive Server IQ und IQM Prinzip-Überblick Speicherungsstruktur und Indextypen IQ Multiplex Beispiele, Ergebnisse

15 SQL Projekt AG FSU , 15 Der traditionelle RDBMS-Ansatz Berechne den durchschnittlichen Absatz von „Radeberger“ in Gastronomie- Einrichtungen in Sachsen je Monat der letzten 3 Jahre Benutze einen Index wenn verfügbar - benötigt normalerweise Table Scan Gehe zu den ausgewählten Datenseiten und addiere die Zahlen - Zufällige Verteilung der Daten führt dazu, daß fast alle Seiten gelesen werden müssen. - Auf jeder Seite müssen alle - auch die irrelevanten - Daten gelesen werden. Traditioneller Ansatz: SELECT AVG (Abs), SUM(Abs)/AnzGSA/36 FROM Absatz, (SELECT COUNT(DISTINCT Einr) AS AnzGSA FROM Absatz WHERE Land = ‘SA‘ AND Typ = ‘G‘) WHERE Land = ‘SA‘ AND Typ = ‘G‘ AND Prod = ‘Radeb‘

16 SQL Projekt AG FSU , 16  360 Millionen Zeilen  200 Bytes pro Zeile  16K Seitengröße  I/O’s pro Table Scan werden benötigt, mit schneller Platte, d.h. 40MB/sec 30 Minuten !!! Sehr teuer und unflexibel bei Ad-hoc-Anfragen Berechne den durchschnittlichen Absatz von „Radeberger“ in Gastronomie- Einrichtungen in Sachsen je Monat der letzten 3 Jahre Das Problem: Große Datenmengen

17 SQL Projekt AG FSU , 17 Vorteile: Es werden nur die relevanten Daten gelesen Einheitliche Datentypen deshalb Komprimierung möglich Datenbank ist einfach zu ändern und zu verwalten Sybase IQ: Daten sind in Spalten statt in Zeilen gespeichert. Vertikale Partitionierung

18 SQL Projekt AG FSU , 18 Sybase IQ: Es werden nur die relevanten Spalten gelesen Vorteile: Ohne weitere Techniken kann IQ den Disk-I/O sehr stark reduzieren Berechne den durchschnittlichen Absatz von Radeberger in Gastronomie- Einrichtungen in Sachsen je Monat der letzten 3 Jahre Ergebnis im Beispiel: Reduzierung des Disk-I/O auf maximal 5% (ohne einen Index zu benutzen) Vertikale Partitionierung

19 SQL Projekt AG FSU , 19 Komprimieren der Daten Komprimieren in Zeilen bringt wenig wegen wechselnder Datentypen, sehr wirkungsvoll innerhalb einer Spalte Dekomprimieren von Zeilen ist ineffizient (CPU overhead) weil meist nur ein Teil benötigt wird Relative kleine Seitengröße bei OLTP bewirkt ungenutzten Platz Bit-wise and bit-mapped sehr platzgünstig Null values benötigen viel Platz in zeilen-orientierten DBMS Zeilen-orientierte DBMS benötigen mal mehr Speicherplatz als IQM DB Page bis 2048 KB Db page 2-32KB … OLTP Engine …. 100 IQ SQL: Create table ABC yellow, blue, red..magenta SQL:Select sum (red) from ABC

20 SQL Projekt AG FSU , 20 Platten-Laufwerke Problem kleine I/O Größe der zeilen-orientierten DBMS  +90% braucht die Platte zum Suchen random I/O der zeilen-orientierten DBMS  +90% braucht die Platte zum Suchen Suchzeiten verbessern sich nur langsam, CPUs schneller => mehr Laufwerke pro CPU Zeilen-orientiertes DBMS: 10 Laufwerke pro CPU (bevorzugt kleine Platten: 18-36GB) IQ : Laufwerke pro CPU (bevorzugt große Platten: GB) Zeilen-orientierte DBMS benötigen 10 – 20 mal mehr Laufwerke als IQM pro CPU Db page bis 2048 KB Db page 2-32KB … OLTP Engine …. 100 IQ SQL: Create table ABC yellow, blue, red..magenta SQL:Select sum (red) from ABC

21 SQL Projekt AG FSU , 21 Herkömmliche DBMS Summaries Aggregates 1 – 2 TB Indexes 0,5 – 3 TB Base table “RAW data” no indexes 0,9 – 1,1 TB TB Gleiche INPUT-Daten: “Konventionelles DW” ist 6x-10x größer als Sybase IQ DW LOAD Base table: 0,2 – 0,5 TB Indexes: 0,05 – 0,3 TB Aggr/Summ: 0 – 0,1 TB TB INPUT DATA: 1 TB Source: Flat Files, ETL, Replikation, ODS Datenkompression - Radikale Senkung von Speicherbedarf und Wartung

22 SQL Projekt AG FSU , 22 Oracle Sybase IQ Durchschnittl. 3.1 Std. Antwortzeit Ladezeit 8.4 Std. Plattenplatz 47 GB Plattform 2-CPU Ausführen von sechs komplexen Anfragen - Bankenanwendung (select customer ID, group by product and account) 6.9 Min. 3.1 Std. 8 GB 1-CPU Sybase IQ – Praxisergebnisse Performance vs. Oracle - (Kundenbeispiel Citibank )

23 SQL Projekt AG FSU , 23 Hohe Performance bei Datenbankauswertungen Einführung: Probleme und Herangehensweise Sybase Adaptive Server IQ und IQM Prinzip-Überblick Speicherungsstruktur und Indextypen IQ Multiplex Beispiele, Ergebnisse

24 SQL Projekt AG FSU , 24 Index in RDBMS am meisten angewendet: balanced-tree (B*)

25 SQL Projekt AG FSU , 25 4 Basis-Index-Typen und weitere Spezial-Typen Bezeichnung Abkürzung Fast Projection High Group Low Fast High Non Group FP HG LF HNG CMPComparison Index Word Index Join Index Date-, Time-, Datetime WD JI Date, TIME,DTTM Wird für jede Spalte grundsätzlich Verwendet, Default Index Für UNIQUE und PRIMARY KEY notwendig

26 SQL Projekt AG FSU , 26 Die Daten einer Spalte werden komprimiert gespeichert, abhängig von Datentyp und Kardinalität. Default Speicherung, die automatisch durch IQ realisiert wird und nicht entfernt werden kann für alle Spalten: notwendig für select list Spalten, string Suche, ad-hoc joins Fast Projection (FP) SELECT Land FROM Landtabelle WHERE Land LIKE ‘Sa%‘

27 SQL Projekt AG FSU , 27 Fast Projection (FP) Häufig wird dieser Default Index mit einem oder mehreren Indizes anderer IQ Index Typen verbunden. benutzt bei wildcard string Suche—z.B., LIKE ’%sys%’ Günstig für Berechnungen — z.B. SUM (A + B) Einzige Möglichkeit für Datentyp BIT Spaltenbeispiele: Addresse Name Texte

28 SQL Projekt AG FSU , 28 Fast Projection (FP) Subtype: FP(1)

29 SQL Projekt AG FSU , 29 Falls die Werteanzahl der Spalte < 256 ist, werden die Daten der Spalte als Fast Projection FP(1) anstelle von FP gespeichert 1-Byte look-up table Der Server versucht beim Laden FP(1) Setzt auf FP(2) nachdem 256 Werte erkannt wurden Der Datenbank-Administrator kann die Kardinalität der Spalte in der create table syntax durch Benutzung des UNIQUE Parameters angeben Fast Projection (FP)

30 SQL Projekt AG FSU , 30 Fast Projection (FP) Subtype: FP(2)

31 SQL Projekt AG FSU , 31 Falls die Werteanzahl der Spalte > 256 und < ist, werden die Daten der Spalte als FP(2) anstelle von FP gespeichert 2-Byte look-up table Setzt auf FP(3) nachdem Werte erkannt wurden Der Datenbank-Administrator kann die Kardinalität der Spalte in der create table syntax durch Benutzung des UNIQUE Parameters angeben Fast Projection (FP)

32 SQL Projekt AG FSU , 32 Low Fast (LF) Bitmap Index einschl. B-tree, der für Spalten mit kleiner Kardinalität benutzt wird Für jeden Spaltenwert ein Bitmap Menge solcher Bitmaps für Bearbeitung fast aller Anfragen angewendet Ideal für Spalten mit einer Kardinalität <1500 SELECT * FROM Absatz WHERE Prod = ‘Radeberger‘

33 SQL Projekt AG FSU , 33 Low Fast (LF) wird angewendet bei folgenden Anfrageoperationen: Suchargumente in where-Klauseln Joins GROUP BY ORDER BY Spaltenbeispiele: Geschlecht Ja/nein Produktname Land Datum (falls < 1500 verschiedene Werte)

34 SQL Projekt AG FSU , 34 “Wieviele Männer sind in Kalifornien nicht versichert?“ Geschlecht M W M W 800 Bytes/Satz 20M Sätze Staat CA CA NY CA MA CTRDBMS Versichert J N J N J N 800 Bytes x 20M 16K Seite = 1.000,000 I/Os Verarbeitet grosse Mengen nicht benötigter Daten Erfordert oft “Full Table Scan” MCAJ MCAN WNYJ MCAN GeschlechtStaat Versichert = M Bits 20M Bits x 3 Spalten / 8 16K Seite = 470 I/Os Dramatische I/O-Reduzierung

35 SQL Projekt AG FSU , 35 High Non Group (HNG) Bit-weiser Index, optimiert für Bereichs-Suche und Aggregations-Funktionen Beispiel: SELECT SUM(Abs) FROM Absatz (1 * 64) + (0 * 32) + (1 * 16) + (6 * 8) + (4 * 4) + (3 * 2) + (4 * 1) = 154

36 SQL Projekt AG FSU , 36 Nicht-werte-basierter Bitmap-Index Ideal für Spalten, die benutzt werden in: Ranges BETWEEN SUM( ) und AVG( ) Funktionen Spaltenbeispiele: Datum (falls > 1500 verschiedene Werte) Beträge Mengen High Non Group (HNG)

37 SQL Projekt AG FSU , 37 High Group (HG) Index für Daten mit hoher Kardinalität

38 SQL Projekt AG FSU , 38 Verbesserter B-tree Index zur Ausführung von = und GROUP BY Operationen auf Spalten mit hoher Kardinalität Für Spalten mit großer Anzahl eindeutiger Werte (>1500) Wird benutzt, wenn die Spalte an einem Join beteiligt ist Spaltenbeispiele: Produkt Id Mitarbeiter ID High Group (HG)

39 SQL Projekt AG FSU , 39 Prinzipielle Herangehensweise bei der Indexierung von Tabellen

40 SQL Projekt AG FSU , 40 Prinzipielle Herangehensweise bei der Indexierung von Tabellen (Forts.)

41 SQL Projekt AG FSU , 41 4 Basis-Index-Typen und weitere Spezial-Typen Bezeichnung Abkürzung Fast Projection High Group Low Fast High Non Group FP HG LF HNG CMPComparison Index Word Index Join Index Date-, Time-, Datetime WD JI Date, TIME,DTTM Wird für jede Spalte grundsätzlich Verwendet, Default Index Für UNIQUE und PRIMARY KEY notwendig

42 SQL Projekt AG FSU , 42 Beispiel – Abfrage: Berechne die Summe des Umsatzes, den durchschnittlichen Wert eines Verkaufs und die Anzahl der Verkäufe je Monat und Kunde für eine spezielle Produktart SELECT Kunde.Name, Verkauf.Monat, SUM(Verkauf.Wert), AVG(Verkauf.Wert), Count(Verkauf.Verkauf_id) FROM Kunde, Verkauf Where Kunde.Kunde_id = Verkauf. Kunde_id AND Verkauf.Produkt_Name LIKE “%anzug%” AND Verkauf.Jahr = 2000 GROUP BY Verkauf.Monat, Kunde.Name Optimierte Speicher - / Indexstrukturen

43 SQL Projekt AG FSU , 43 SELECT Kunde.Name, Verkauf.Monat, SUM(Verkauf.Wert), AVG(Verkauf.Wert), Count(Verkauf.Verkauf_id) FROM Kunde, Verkauf Where Kunde.Kunde_id = Verkauf. Kunde_id AND Verkauf.Produkt_Name LIKE “%anzug%” AND Verkauf.Jahr = 2000 GROUP BY Verkauf.Monat, Kunde.Name Optimierte Speicher - / Indexstrukturen 2 “Fast Projection” Indizes für die Projektion 1 “High Non Group” Index für die Aggregatbildung 4 “High Group” Indizes für die Aggregatbildung, die Join- Verarbeitung und das Gruppieren pro Kunde 2 “Low Fast” Indizes für die Suchbedingung und das Gruppieren auf Monatsebene 1 Word Index für Zeichenkettensuche

44 SQL Projekt AG FSU , 44 Beispiel SELECT AVG (Abs), SUM(Abs)/AnzGSA/36 FROM Absatz, (SELECT COUNT(DISTINCT Einr) AS AnzGSA FROM Absatz WHERE Land = ‘SA‘ AND Typ = ‘G‘) WHERE Land = ‘SA‘ AND Typ = ‘G‘ AND Prod = ‘Radeb‘ 1 “High Non Group” Index für die Aggregatbildung 1 “High Group” Index für die Aggregatbildung 3 “Low Fast” Indizes für die Suchbedingung

45 SQL Projekt AG FSU , 45 Sybase IQ: Es werden nur die relevanten Spalten gelesen Vorteile: Ohne weitere Techniken kann IQ den Disk-I/O sehr stark reduzieren Berechne den durchschnittlichen Absatz von Radeberger in Gastronomie- Einrichtungen in Sachsen je Monat der letzten 3 Jahre Ergebnis im Beispiel: Reduzierung des Disk-I/O auf maximal 5% (ohne einen Index zu benutzen) Vertikale Partitionierung

46 SQL Projekt AG FSU , 46 Sybase IQ: Es werden nur die relevanten Spalten gelesen Berechne den durchschnittlichen Absatz von Radeberger in Gastronomie- Einrichtungen in Sachsen je Monat der letzten 3 Jahre Ergebnis im Beispiel: Reduzierung des Disk-I/O auf max. 2% Vertikale Partitionierung SELECT AVG (Abs), SUM(Abs)/AnzGSA/36 FROM Absatz, (SELECT COUNT(DISTINCT Einr) AS AnzGSA FROM Absatz WHERE Land = ‘SA‘ AND Typ = ‘G‘) WHERE Land = ‘SA‘ AND Typ = ‘G‘ AND Prod = ‘Radeb‘

47 SQL Projekt AG FSU , 47 Eurostat : wide table – 10 Mio rows

48 SQL Projekt AG FSU , 48 Eurostat : Horizontale Partitionierung

49 SQL Projekt AG FSU , 49 Eurostat : Vertikale Partitionierung

50 SQL Projekt AG FSU , 50 Eurostat : In IQ-M In IQ : 757 FP, 45 HG, 512 LF, 103 HNG = 1417 index

51 SQL Projekt AG FSU , 51 Sybase IQ und überprüfte Einsparungen bei Plattenspeicher Sybase IQ DATA COMPRESSION Beispiele Geladene Rohdaten Sybase IQ komprimiert Erwartete Datenexplosion bei anderen Anbietern Sun DWH Reference Architecture (InfoSizing – August 2007)InfoSizing 1 PB 260 TB3 PB bis 7 PB Sun DWH Reference Architektur (InfoSizing – June 2004) 155 TB55 TB500 TB bis 1,000 TB Telefonica70TB15 TB210 TB bis 490 TB comScore Networks40 TB16 TB120 TB bis 280 TB Health Insurance Review Agency27 TB12 TB81 TB bis 189 TB Samsung Card15 TB7 TB45 TB bis 105 TB Nielsen Media Research12 TB 36 TB bis 84 TB Large Credit Card Company10 TB4 TB30 TB bis 70 TB

52 SQL Projekt AG FSU , 52 Hohe Performance bei Datenbankauswertungen Einführung: Probleme und Herangehensweise Sybase Adaptive Server IQ und IQM Prinzip-Überblick Speicherungsstruktur und Indextypen IQ Multiplex Beispiele, Ergebnisse

53 SQL Projekt AG FSU , 53 Skalierbarkeit IQ-M CPU  Starten mit einem Server  Hinzufügen von CPUs u. Speicher nach Bedarf IQ-M CPU IQ-M CPU IQ-M CPU IQ-M CPU  Multiplexing ermöglicht es, weitere Server und CPUs hinzuzufügen  dabei kein bis minimaler Verlust an Skalierbarkeit;  die 1000ste CPU wird so gut wie die erste CPU performen  Terabytes an Festplatten können ins SAN eingefügt werden  IQ-M wird diese effektiv nutzen Skaliert wie ein Grid CPU Fiber Channel Storage Area Network “Starte klein und wachse” mit Sybase IQ Multiplex Konfiguration

54 SQL Projekt AG FSU , 54 Workload: Each user executing random sequence of (TPC/H-like) queries (Source : HP Lab in San Bruno, CA) Knoten 31 sec 31.6 sec 400 User Antw-Zeit = 31.6 sec Erhöhung : 1.9% (0.6 sec) Anwender 40 User Antw-Zeit: 31 sec Users 98% Sybase IQ Multiplex Test der Skalierfähigkeit Nachgewiesen im Labor und bei Kunden Skalierbarkeit

55 SQL Projekt AG FSU , 55 Read Knoten IQ-M CPU SKALIERBARKEIT Nach hinzufügen eines Knotens KEIN globaler Lock Manager nötig KEINE Datenumverteilung erforderlich KEINE Änderungen im Schema SEHR geringe I/O Contention IQ-M CPU IQ-M CPU IQ-M CPU IQ-M CPU Skaliert wie ein Grid CPU Fiber Channel Storage Area Network Read/ Write Knoten HOCHVERFÜGBARKEIT - Keine Unterbrechung des Datenbankzugriffs für andere Knoten - Andere Knoten werden durch Ausfall nicht beeinflußt --Anwender können Queries nach Start des Knotens einfach wiederholen oder automatisch auf anderen Knoten ausweichen (Sybase Open Switch, HW, …) -Bei gespiegelten Platten “no single point of failure” Architektur Einfache Administration und implizite Hochverfügbarkeit Skalierbarkeit Read/ Write Knoten Read Knoten Read/ Write Knoten

56 SQL Projekt AG FSU , 56 Technische Limits Datenbankgröße: Betriebssystemabhängig Maximal 192 PByte Anzahl Tabellen pro Datenbank: Zeilen pro Tabelle: 2 48 Tabellen/ Views in einer Query: 512 Feldgröße für “Long Varchar” oder “Long Binary” IQ Page Größe 128K: bis zu 512 TB IQ Page Größe 512K:bis zu 1 PB Größe einer Page:64 KB bis 512 KB Anzahl Spalten pro Tabelle: Geeignet für sehr große Datenbanken

57 SQL Projekt AG FSU , 57 Speicherung ALLER relevanten Daten in EINEM System  Partner-  lösung  Sybase  IQ  Internet  ( und  Dokumente)  Vor-  handener  Server  Anwender können weiter ihren bisherigen Client nutzen – können aber auch auf das System zugreifen  Partnerlösung  Dokumente und Clients Dokumente Bilder Video Audio Fax Datei und DB Backup Andere Daten  ( Optional ) DW Transaktionen  Weitere Daten können in der Lösung nach Bedarf hinzugefügt werden

58 SQL Projekt AG FSU , 58 Sun Reference Warehouse Architecture Juli weltgrößtes DWH Die Sun Data Warehouse Referenz Architektur, bestehend aus SolarisTM 10 OS, Sybase® IQ und BMMsoft DataFusionTM mit einem Sun SPARC® Enterprise M9000 Server erbrachte folgende wichtige Ergebnisse: Es wurden ein 1 PByte transaktionale Rohdaten (6 Trillionen Sätze mit Kursdaten von Börsen) in ein voll indexiertes Starschema geladen Es wurde eine Ladegeschwindigkeit von 285 Milliarden Sätze pro Tag (3 Millionen Sätze pro Sekunde) erzielt Es wurde eine 85%-ige Datenkompression bei der Speicherung von einem PByte transaktionaler Rohdaten erreicht – diese Daten belegten weniger als 260 TByte Plattenplatz im System Es zeigte eine durchschnittliche „Ready-Time“ von kleiner zwei Sekunden nach dem Hinzufügen von neuen Daten in das Data Warehouse Es wurde die Hälfte der „T“ (Transaktional) Daten mit über 72 Terabyte an “EDM” ( s, Dokumente und Multimedia) Daten ersetzt – Aufbau eines 572 TByte großen Data Warehouse mit „EDMT“ Daten Es wurde eine Ladegeschwindigkeit von 26 TByte pro Tag beim Aufbau eines Data Warehouse mit 185 Millionen Dokumenten ( s, Attachements und andere unstrukturierte Dokumente) erreicht Es wurde eine Ladegeschwindigkeit von zwei Millionen s pro Stunde und 6 Millionen Dokumente pro Stunde erreicht – dabei wurden weniger als 7% der verfügbaren CPU Leistung benötigt Audit showshow show

59 SQL Projekt AG FSU , 59 Sun DWH Reference Architecture Reference Architecture Ein Sun SPARC® Enterprise M9000 Server mit Solaris™ 10 Drei Sun StorageTek™ 6540 Storage Arrays verbunden mit dem Server über Fiber Channel Sybase® IQ 12.7 Enterprise Edition BMMsoft DataFusion für die Verwaltung unstrukturierter Daten und s  Sybase IQ Writer nutzte 64 Cores (mit zusammen 128 Threads) und 100 GB Hauptspeicher  45 GB Hauptspeicher für den Sybase IQ Ladeprozess und als Cache für Teile der geladenen Dateien  Der BMMsoft DataFusion Ladeserver nutzte 64 Cores (mit zusammen 128 Threads) und 40 GB Hauptspeicher  20 GB Hauptspeicher für Solaris 10 zur Optimierung von Swapping und Paging Hauptspeichernutzung  Quelle: Sun Data Warehouse Reference Architecture for Structured and Unstructured Data,  InfoSizing, August 20, 2007

60 SQL Projekt AG FSU , 60 Hohe Performance bei Datenbankauswertungen Einführung: Probleme und Herangehensweise Sybase Adaptive Server IQ und IQM Prinzip-Überblick Speicherungsstruktur und Indextypen IQ Multiplex Beispiele, Ergebnisse

61 SQL Projekt AG FSU , 61 ODBC AS/400 Informix Microsoft OracleDB2/UDB ASE CIS IBM MVS (z/OS) DB2(CICS) IBM MVS (z/OS) DB2(CICS) DB2(IMS)DB2(DRDA) IDMSIMS VSAM Direct Connect Direct Connect Applikation Technologische Grundlagen: Component Integration Services von Sybase ASE Proxy Tabellen Union in Views Instead-of-Trigger (ASE ) Transparent für SQL Archiv: Sybase IQ KUNDE ORDER VERTRAG ORDER_ HISTORY PLACE_ ORDER TABLE CICS Trx Physik. Speicherung/ Logik Proxy Tabelle VERTRAG PLACE_.. ORDER_ HISTORY Sybase ASE und heterogene Umgebungen Online-Archiv auf Basis Sybase IQ

62 SQL Projekt AG FSU , 62 Partnerlösungen (Auswahl) PBS (Deutschland) SAP BI Archivlösung Rent-a-Brain (Deutschland) iMarc- archivierung Dokumentenarchivierung BMMSoft (USA) /-/ Dokumentenarchivierung

63 SQL Projekt AG FSU , 63 PBS CBW NLS IQ Introduction PBS CBW NLS IQ for Sybase IQ is a powerful and complete Nearline Storage Solution for SAP Business Intelligence SAP BI SAP NLS Data Archiving Process (DAP) Administration/ Monitoring Load Data Read Data Access: Queries, Reload,... PBS CBW NLS IQ Interface PBS CBW NLS IQ Interface Sybase IQ server CBW NLS IQ Infrastrutcure (without adk components)

64 SQL Projekt AG FSU , 64 CBW-Architektur mit NLS und Sybase IQ  SAP  Nearline  Provider  SAP  Nearline  Provider InfoCube DataStore Objekt InfoCube DataStore Objekt DB und Nearline lesen  (in Query-Attributen aktivieren) DB und Nearline lesen  (in Query-Attributen aktivieren)  SAP BW  Datenbank SAP BW Query PBS Nearline Services für Sybase IQ PBS Nearline Services für Sybase IQ Spalten-basierte Data Warehouse DB, Kompression bis 1:10 Spalten-basierte Data Warehouse DB, Kompression bis 1:10  Sybase IQ

65 SQL Projekt AG FSU , 65 Kompressionen InfoCubes - Kundenbeispiel InfoCube Größe arch. Daten Größe Daten in Sybase IQ Kompression auf INDIA Bytes Bytes8 % INDIA Bytes Bytes4 % FAKT Bytes Bytes11 % FAKT Bytes Bytes5 % FAKTP Bytes Bytes8 % ERG Bytes Bytes5 % 0FIAR_C Bytes Bytes9 % 0FIAR_C Bytes Bytes12 %

66 SQL Projekt AG FSU , 66 Query „Markthierarchie“ – Speed (I)Query M_INDIA01/WEB1_M_INDIA01_MARHIE_ZJVJB Kundenhierarchie über Attribut KDUNIQUE 2003 – 2007 Anzahl Datensätze: 17 Mio. Zugriffsart Sybase IQ Oracle DB mit Aggregaten Oracle DB ohne Aggregate Primärliste 16 s 71 s 416 s  Zeit [s]  Sybase IQ (16s)  Oracle mit Aggregaten (71s -> Faktor 4)  Oracle ohne Aggregate (416s -> Faktor 26)

67 SQL Projekt AG FSU , 67 Query „Fakturen“ – Speed (I)Query Query M_FAKT01/STD_M_FAKT01_ASS_PC Fakturaauswertung Anzahl Datensätze: 57 Mio. Zugriffsart Sybase IQ Oracle DB mit Aggregaten Oracle DB ohne Aggregate Primärliste 12 s 164 s nach 2000 s abgebrochen  Zeit [s]  Sybase IQ (12s)  Oracle mit Aggregaten (164s -> Faktor 14)  Oracle ohne Aggregate (abgebrochen)

68 SQL Projekt AG FSU , 68 Erfahrungsbericht – Fazit Kundeninstallation  Speed  Bis zu 14 x schnellere Antwortzeiten  Kompression  Kompression der Archivdaten bis zu 95 %  Administration  Keine Index- keine Aggregat- Modellierung

69 SQL Projekt AG FSU , 69 Mehr als 1500 Kunden Erfolgreich etablierte und schnell wachsende Kundenbasis Mehr als 3000 Kundenprojekte bei mehr als 1500 Kunden weltweit

70 SQL Projekt AG FSU , 70 Analysten Gartner Gartner Data Warehouse Magic Quadrant Position: Challenger IDC “Wir haben beobachtet und darauf gewartet, dass Firmen, die Datenbanken implementieren, sich vermehrt für Sybase IQ und seine einzigartige Tabellen- und Indexstruktur entscheiden. Denn diese sichert eine beeindruckende Performance bei komplexen Abfragen auf großen Data Warehouses. Gemessen an den Markterfolgen der letzten Jahre scheint es so, dass der Markt endlich ‘begriffen‘ hat.” Carl Olofson, Research Vice President Information Management and Data Integration Software Research IDC 2007

71 SQL Projekt AG FSU , 71 Telekommunikations-DB Zeilen

72 SQL Projekt AG FSU , 72 Voraussetzungen und Laden

73 SQL Projekt AG FSU , 73 Anfragebeispiele

74 SQL Projekt AG FSU , 74 Anfragebeispiele

75 SQL Projekt AG FSU , 75 Anfragebeispiele

76 SQL Projekt AG FSU , 76 Anfragebeispiele

77 SQL Projekt AG FSU , 77 Anfragebeispiele

78 SQL Projekt AG FSU , 78 Anfragebeispiele

79 SQL Projekt AG FSU , 79 EDS Report: IQM vs “konventionelles” RDBMS

80 SQL Projekt AG FSU , 80 Sun‘s iForce Enterprise Data Warehouse Reference Architecture Basiert auf Sybase Adaptive Server IQ Multiplex mit 156 CPUs und 160 GB RAM Ergebnisse: 48,2 Terabyte Rohdaten korrespondieren mit 22 Terabyte Speicherverbrauch Millionen Records werden täglich geladen in < 1h Konkurrenz zwischen Laden und Anfragen der gleichen Tabelle bringt nur 6,9 % Verlangsamung Bis zu 1000 x schnellere Analyse-Laufzeiten 80% weniger Installationsaufwand Unterstützt Tausende Anwender gleichzeitig

81 SQL Projekt AG FSU , 81 1&1 Internet AG Bertelsmann Music Group EMI Electrola RTL Television Allianz-Dresdner Bausparkasse Dresdner Bank Vodafone D2 GmbH DekaBank Deutsche Bank Citibank DEVK Allgemeine Versicherungen AG Risk Consulting Raiffeisen Hauptgenossenschaft Nord Müller (Drogeriemärkte) European Southern Observatory … Kunden in Deutschland (Auszug)


Herunterladen ppt "SQL Projekt AG FSU 290610, 1 Datenbankauswertungen in großen Datenmengen - Spaltenorientierte Datenbank Einführung: Probleme und Herangehensweise Sybase."

Ähnliche Präsentationen


Google-Anzeigen