Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

2014 © Trivadis BASEL BERN BRUGG LAUSANNE ZÜRICH DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. HAMBURG MÜNCHEN STUTTGART WIEN 2014 © Trivadis Big Data  konventielle.

Ähnliche Präsentationen


Präsentation zum Thema: "2014 © Trivadis BASEL BERN BRUGG LAUSANNE ZÜRICH DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. HAMBURG MÜNCHEN STUTTGART WIEN 2014 © Trivadis Big Data  konventielle."—  Präsentation transkript:

1 2014 © Trivadis BASEL BERN BRUGG LAUSANNE ZÜRICH DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. HAMBURG MÜNCHEN STUTTGART WIEN 2014 © Trivadis Big Data  konventielle Technologie Kriterien zur Auswahl Peter Welker Big Data - Kriterien zur Technologieauswahl 1

2 2014 © Trivadis  Verantwortlich bei der Trivadis für  Big Data – Lösungen  Business Intelligence Beratung und Implementierung Peter Welker Berater Partner  Was bisher geschah  20 Jahre IT – 16 Jahre DWH, meist Oracle  Architektur, Performance  Reviews, Evaluationen, PoCs  DWH Appliances, MPP- & „neue“ Plattformen  Training, Artikel, Talks, Bücher  DOAG Themenverantwortlicher „Big Data“ Big Data - Kriterien zur Technologieauswahl 2 Wer bin ich?

3 2014 © Trivadis AGENDA Big Data - Kriterien zur Technologieauswahl 3 Latenz Maturität Analytik Kosten Know-How Performance Big Data

4 BIG DATA & Technologien 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 4

5 2014 © Trivadis Data Source: Internet Live Stats, Million s Sent 0.5 Websites Hacked Tweets 10 New Websites 41 Blog Posts New Users 40 7 Devices Sold 33 MW 31 tons Used/Produced Photos Uploaded Posts Calls Searches Videos Watched 00:00: 00 Second by 22.2 TB Internet Traffic 00:00: 01

6 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 6 Was ist Big Data? Big Data & Technologien Velocity Data in motion Streaming Data (Milli)sekunden bis Minuten zur Erkennung, Beantwortung oder Analyse Variety Data in many forms Strukturierte und unstrukturierte Daten Text, Zahlen, Multimedia Unterschiedlichste Datenquellen Veracity Data in doubt Ungewissheit durch Dateninkonsistenz, Unvoll- ständigkeit, Mehrdeutig- keit, Verzögerung, Täuschung und Schätzung Volume Data at rest Tera-, peta- to exa-bytes zur Verarbeitung Sensor- und Social Data Neue Storages adaptiert nach IBM (2014) Big DataLatenzPerformanceMaturität Analytik Kosten Know-How

7 2014 © Trivadis  McKinsey Big Data refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze.  Gartner Big Data are high-volume, high-velocity, and/or high-variety information assets that require new forms of processing to enable enhanced decision making, insight discovery, and process optimization.  BARC Big Data designates methods and technologies for the highly scalable acquisition, storage, and analysis of polystructured data Big | Data | Warehouse 7 Noch‘n Versuch Unkonventionelle Methoden und Technologien für „unlimitiertere“ Datenverarbeitung

8 2014 © Trivadis + 35 Jahre relationale Datenbankmanagementsysteme (RDBMS) & ACID Jahre relationale Reporting- und Business Intelligence Tools + Partitionierung, Parallelisierung, Clustering (incl. Scale-Out) sind lange erprobt + Gleiches gilt für Backup, Standby, Monitoring, Maintenance, Patching usw.  Eingeschränktes Modell (relational)  Algorithmen (bspw. auf Disk  Memory ausgelegt)  Altlasten (unflexible Codebasis usw.)  Nicht ganz billig Big Data - Kriterien zur Technologieauswahl 8 Herkömmlich, alt & konventionell Big DataLatenzPerformanceMaturität Analytik Kosten Know-How

9 2014 © Trivadis + Freie “Modellierung“ (schemalos) oder frei wählbare Modelle + Algorithmen auf neue HW und Erkenntnisse ausgelegt + Hohe Skalierbarkeit + Keine/Wenig Altlasten  Oft < 10 oder < 5 Jahre Erfahrung  Massen unterschiedlicher, spezialisierter Tools  Meist kein ACID  Admin (Backup, Standby, Monitoring, Maintenance, Patching …) oft unvollständig / unausgereift Big Data - Kriterien zur Technologieauswahl 9 Progressiv, neu & unkonventionell Big DataLatenzPerformanceMaturität Analytik Kosten Know-How

10 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 10 CAP Theorem (Brewer) Availability Consistency Network Partition Tolerance Network Partition Tolerance n/a CA CP AP Big DataLatenzPerformanceMaturität Analytik Kosten Know-How

11 2014 © Trivadis  Fokus neuer Datenbanken  Nicht relational, verteilt  Open-Source  Horizontal skalierbar (Scale-Out)  Weitere häufige Charakteristiken  “Schemalos”  Einfache Replikation, Einfache API  Abschließend Konsistent (BASE statt ACID)  Riesige Datenmengen, geringe Latenz usw.  NoSQL ("not only sql") ist irreführend. Besser passen die o.g. Kriterien Big Data - Kriterien zur Technologieauswahl 11 NoSQL – BASE Definition Big DataLatenzPerformanceMaturität Analytik Kosten Know-How BASE (statt ACID)  Basically Available: Verfügbarkeit ist wichtiger als Konsistenz  Soft State: Höhere Verfügbarkeit resultiert in eher “abschließender Konsistenz”  Eventually Consistent: Ein Datensatz wird irgendwann konsistent sein, sofern eine hinreichend lange Zeit ohne Schreibvorgänge und Fehler vorausgesetzt werden kann

12 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 12 Ist das Big Data? Quiz – Aufgabe 1 Big DataLatenzPerformanceMaturität Analytik Kosten Know-How Velocity < 1 min Latenz 7 – Ev/s Einfache Query (s) Analytische Q. (h) Variety Social Media Daten Strukturiert + unstrukturiert Veracity Keine Qualifikation Basisstruktur weitgehend stabil Volume 50 Mrd. Rec. 25 TB Rohdaten

13 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 13 Und das? Quiz – Aufgabe 2 Big DataLatenzPerformanceMaturität Analytik Kosten Know-How Velocity 20 min Latenz 56 Mio Events / Tag Query in Sek. Variety Technische Sensordaten Strukturiert und typisiert Veracity Alle Daten vorqualifiziert Datenexistenz nicht gesichert Struktur stabil Volume 200 Mrd. Rec. 12 TB Rohdaten

14 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 14 Und was ist damit? Quiz – Aufgabe 3 Big DataLatenzPerformanceMaturität Analytik Kosten Know-How Velocity > 10 Mio Events / Tag Einfache Query < 1s Variety Buchungsdaten Strukturiert + typisiert Veracity Alle Daten vorqualifiziert und konsistent Struktur stabil Volume 0.4 PB Events

15 Latenz 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 15

16 2014 © Trivadis Zeit von der Entstehung der Information bis zur gewünschten Reaktion  Fraud Detection – Reaktion innerhalb Millisekunden oder Sekunden  Aktienhandel  Sperrung von Kreditkarten oder Mobiltelefonen  Entdecken und Unterbinden unbefugter Zugriffe auf IT Systeme  „Real Time“ (Business) Intelligence – Verfügbarkeit < Minuten bis Stunden  Fehleranalyse ungewöhnlicher Sensordaten in Stromversorgungsnetzen  Erkennen sicherheitsrelevanter Ereignisse im Social Media Umfeld  Sentimentanalyse von produktrelevanten Aussagen im Internet  Klassische Business Intelligence (täglich, wöchentlich, monatlich) Big Data - Kriterien zur Technologieauswahl 16 Latenz – Beispiele Big DataLatenzPerformanceMaturität Analytik Kosten Know-How

17 2014 © Trivadis  Je kleiner die Transaktionen, desto geringer der Durchsatz  Je kürzer die Latenzen, desto kleiner die Transaktionen  Je kürzer die Latenzen, desto geringer der Durchsatz  Gilt aufgrund Overhead (bspw. durch durch ACID Anforderungen) besonders für gängige RDBMS  Geringe Latenzen erzeugen hohe Kosten oder erfordern andere Technologien  Spezielle Architekturen verschieben diese Grenzen (bspw. Real-Time Partitions) Big Data - Kriterien zur Technologieauswahl 17 Grenzen der Technologien? Big DataLatenzPerformanceMaturität Analytik Kosten Know-How Durchsatz (GB/sek) ∞ 0 ∞ RDBMS Komfort- zone RDBMS based Lambda NoSQL based Lambda

18 2014 © Trivadis  Bis zu Tweets pro Sekunde  Mittelkomplexe Anforderungen an „Natural Language Processing“ (NLP)  Suche nach Begriffen, Bewertung, Alerting in Sekunden  Speichern und einfache Analysen auf gespeicherten Daten in < 5 Sekunden  Komplexere Analysen zusammen mit aufbereiteten historische Daten jederzeit möglich  Wird teuer mit kommerziellem RDBMS… Big Data - Kriterien zur Technologieauswahl 18 Beispiel 1 – Twitteranalyse

19 Performance Durchsatz, Antwortzeit, Skalierbarkeit 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 19

20 2014 © Trivadis Durchsatz, Antwortzeiten und Skalierbarkeit  56 Mio Records/Tag in Dateien, 20 Minuten Latenz f. ETL-Strecke, typische Abfrageergebnisse < 5 Sekunden Big Data - Kriterien zur Technologieauswahl 20 Performance – Beispiel Big DataLatenzPerformanceMaturität Analytik Kosten Know-How Wertedaten transformieren Stammdaten transformieren Dateien prüfen, laden und archivieren Data Marts aktualisieren Minuten Wartezeit bis zum Check

21 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 21 Grenzen der Technologien? Skalierbarkeit Modellstandardisierung, Werkzeuge, Komplexität Key-value Wide Column (Column Families / Extensible Records) Document Graph Relational SQL Komfortzone Multi Dimensional Big DataLatenzPerformanceMaturität Analytik Kosten Know-How Für unser Beispiel 2  RDBMS Kostentreiber  Latenz < 5 Minuten  > 250 Mio Recs/Tag  Komplexere Data Marts  Komplexere Transform.  RDBMS Technologietreiber  Latenz < 1 Minute  > X Mrd Recs/Tag  Komplexere Data Marts  Komplexere Transform.

22 Maturität 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 22

23 2014 © Trivadis  Gilt gleichermaßen für  Produktentwicklung  Support  Sales, Accounting usf.  Und das ist nur eine Seite der Medaille, denn neue Produkte  Bedienen meist eine Nische  Fokussieren auf bestimmte Eigenschaften oder Funktionen  Eignen sich für Best-of-Breed Ansätze Big Data - Kriterien zur Technologieauswahl 23 Grundlegendes nach CMMI Big DataLatenzPerformanceMaturität Analytik Kosten Know-How Quelle: Wikipedia

24 2014 © Trivadis  Trotz möglicher Bugs und Ärger mit dem Support  Die über Jahrzehnte etablierten RDBMS sind stabil, robust und lange erprobt  Neue Produkte bieten oft  Geringere Komplexität bei geringerem Funktionsumfang  Spezialisierte Funktionen und eingeschränkte Einsatzgebiete  Bessere Leistung bei bestimmten Aufgaben  Mehr Fehler in Relation zur Komplexität  Mehr Einblick und Einfluss auf die Entwicklung  Engagierteren/Minimalen/Keinen Support  Unsicherheit bei der Lebensdauer  Einschränkte Administrier- und Monitoringfunktionen Big Data - Kriterien zur Technologieauswahl 24 Vor- und Nachteile neuer Technik Big DataLatenzPerformanceMaturität Analytik Kosten Know-How One Platform fits all Best of Breed

25 2014 © Trivadis  Wie macht man ein Hadoop Backup?  Wird nicht benötigt weil keine wichtigen Daten  OK bei „Explorativer Analyse“ aber wenn die Daten wichtig sind?  Garnicht wg. dreifache Redundanz aller Daten  OK aber wenn der Standort abbrennt?  Macht nix: Rack-Aware und zwei Standorte  OK, aber wenn Daten versehentlich gelöscht werden?  2ten Hadoop Cluster aufziehen und gleichzeitig beladen / distcp o.Ä. einsetzen  OK und was ist mit Backup-Konsistenz oder PITR?  Welche Konsistenz? Was ist PITR? Big Data - Kriterien zur Technologieauswahl 25 Beispiel – Backup Hadoop Big DataLatenzPerformanceMaturität Analytik Kosten Know-How

26 Modelle, Analytik & Visualisierung 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 26

27 2014 © Trivadis „Plattformunproblematisch“, weil …  Zahlreiche etablierte Werkzeuge können inzwischen sowohl Hadoop, NoSQL als auch klassische SQL Datenbanken als Quelle nutzen  SAS, OBIEE, SAP BO, Microstrategy, IBM Cognos und sogar MS Excel usw.  Die meisten neuen / spezialisierten Werkzeuge nutzen ebenfalls beide Welten  Tableau, QlikView, diverse Data Mining Tools usw.  Der Rest ist Programmierung – egal ob via MapReduce, Spark oder Hive, egal ob Java, R, Python oder PL/SQL Schwierig wird es, wenn Daten aus beiden Welten gleichzeitig kommen  Performance- und Schemaprobleme sind vorprogrammiert Big Data - Kriterien zur Technologieauswahl 27 Berichte- und Analyse Big DataLatenzPerformanceMaturität Analytik Kosten Know-How

28 2014 © Trivadis Hier gibt es zahlreiche neue Ansätze, die über die klassischen „Charts“ weit hinausgehen  https://github.com/mbostock/d3/wiki/Gallery oder  Mehr als zwei oder drei Achsen  Hierarchische Relationen  Relationen zwischen Objekte und in andere Medien usf. „Plattformunproblematisch“, weil Daten speziell aufbereitet werden müssen  In viele Fällen ist auch hier Programmierarbeit gefragt Big Data - Kriterien zur Technologieauswahl 28 Visualisierung Big DataLatenzPerformanceMaturität Analytik Kosten Know-How Das meiste davon wird in klassischem BI nicht benötigt bzw. trägt dort nicht zur Verständlichkeit bei ;-) Siehe auch

29 2014 © Trivadis  Schemalos  Schema  Eigentlich falsch. Die Frage ist „Schema on read“  „Schema on write“  On-Read ist flexibler beim Sammeln der Daten, aber aufwendiger beim Lesen und Zusammenführen  Irgendwann muss man sich die Arbeit machen  Was geht mit „reinem“ RDBMS nicht so gut  Unstrukturiert (Freitext, Multimedia etc.)  Sehr speziell strukturiert (bspw. Semantic Web)  Stark volatile Strukturen (unklare Spaltenmengen, permanente Schemaänderungen) Big Data - Kriterien zur Technologieauswahl 29 Modelle Big DataLatenzPerformanceMaturität Analytik Kosten Know-How

30 Kosten 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 30

31 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 31 Ein einfacher Vergleich (ohne Garantie) Big DataLatenzPerformanceMaturität Analytik Kosten Know-How Netto Speicherkapazität und Computing Power für ~300 TB Oracle Exadata X4-2 Full RackOracle Big Data Appliance X4-2 Full Rack Tatsächliche TCO hängt vom Einsatzgebiet und den konkreten Anforderungn ab (Analytics, Kompression, B&R, Encryption, HA, Migration, Upgrading, Capacity-on-demand etc.)  Der 3 Jahres-TCO kann mal kleiner – aber auch 2+ mal höher sein als bei konventionellen Plattformen bspw. mit RDBMS und SAN Hardware:1.1 Mio $ Software:7.9 Mio $ (CPU-Lic, EE+RAC+PART) Total:9.0 Mio $ (- Rabatt ;-) Total:0.55 Mio $ (- Rabatt)

32 2014 © Trivadis  Zusätzlicher Know-How Aufbau?  Einkauf zusätzlicher HW/SW?  Einkauf externer Dienstleistungen?  Ausgleich für Ineffizienz durch ungeeignete Architektur?  Risiko der Unkalkulierbarkeit durch unbekannte LifeCycles? Big Data - Kriterien zur Technologieauswahl 32 Aber Big DataLatenzPerformanceMaturität Analytik Kosten Know-How

33 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 33

34 2014 © Trivadis  Viel Know-How kostet viel  Verteiltes / heterogenes Know-How ist noch teurer  Best-Of-Breed Ansätze benötigen besonders breites und heterogenes Know-How  Ausbildung, Übung, Ineffizienz am Anfang  … Big Data - Kriterien zur Technologieauswahl 34 Trivial Big DataLatenzPerformanceMaturität Analytik Kosten Know-How

35 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 35 Was ist Ihr Hammer? Big DataLatenzPerformanceMaturität Analytik Kosten Know-How Skalierbarkeit Modellstandardisierung, Werkzeuge, Komplexität Key-value Wide Column (Column Families / Extensible Records) Document Graph Relational Was heisst “Komfortzone”? Multi Dimensional

36 2014 © Trivadis  Wie denkst Du?  Was interessiert Dich?  Was ist Dein Ziel?  Was kannst Du?  Was musst Du können?  Was willst Du können?  Was will Dein Chef dass Du kannst (können willst)?  Was können Deine Kollegen? Big Data - Kriterien zur Technologieauswahl 36 Starker Einfluss auf Auswahl! Big DataLatenzPerformanceMaturität Analytik Kosten Know-How

37 Zusammenfassung 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 37

38 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 38 Big Data Technologien? Quiz – Aufgabe 1 Big DataLatenzPerformanceMaturität Analytik Kosten Know-How Velocity 1 min Latenz 7 – Ev/s Einfache Query (s) Analytische Q. (h) Variety Social Media Daten Strukturiert + unstrukturiert Veracity Keine Qualifikation Basisstruktur weitgehend stabil Volume 50 Mrd. Rec. 25 TB Rohdaten JA

39 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 39 Und hier? Quiz – Aufgabe 2 Big DataLatenzPerformanceMaturität Analytik Kosten Know-How Velocity 20 min Latenz 56 Mio Events / Tag Query in Sek. Variety Technische Sensordaten Strukturiert und typisiert Veracity Alle Daten vorqualifiziert Datenexistenz nicht gesichert Struktur stabil Volume 200 Mrd. Rec. 12 TB Rohdaten Noch nicht

40 2014 © Trivadis Big Data - Kriterien zur Technologieauswahl 40 Und was ist damit? Quiz – Aufgabe 3 Big DataLatenzPerformanceMaturität Analytik Kosten Know-How Velocity > 10 Mio Events / Tag Einfache Query < 1s Variety Buchungsdaten Strukturiert + typisiert Veracity Alle Daten vorqualifiziert und konsistent Struktur stabil Volume 0.4 PB Events Nein

41 2014 © Trivadis  Extrem geringe Latenz und Antwortzeit (NoSQL  Key/Value, Documents)  Extrem große Datenmenge (PB++)  Extrem hoher Datendurchsatz (x TB/d)  Unstrukturierte Daten (Freitext, Multimedia etc.)  Sehr speziell strukturierte Daten (bspw. Semantic Web)  Stark volatile Strukturen (unklare Spaltenmengen, permanente Schemaänderungen)  „Freie Sicht“ auf die Daten Big Data - Kriterien zur Technologieauswahl 41 Grenzen RDBMS (Technik) Big DataLatenzPerformanceMaturität Analytik Kosten Know-How

42 2014 © Trivadis  Kosten (insbesondere TCO)  Maturität  Know-How  Neigung – Überzeugung – Spass: Was ist mein Hammer? Big Data - Kriterien zur Technologieauswahl 42 Weitere Kriterien Big DataLatenzPerformanceMaturität Analytik Kosten Know-How

43 2014 © Trivadis Fragen und Antworten © Trivadis BASEL BERN BRUGG LAUSANNE ZÜRICH DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. HAMBURG MÜNCHEN STUTTGART WIEN Peter Welker Big Data - Kriterien zur Technologieauswahl 43


Herunterladen ppt "2014 © Trivadis BASEL BERN BRUGG LAUSANNE ZÜRICH DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. HAMBURG MÜNCHEN STUTTGART WIEN 2014 © Trivadis Big Data  konventielle."

Ähnliche Präsentationen


Google-Anzeigen