DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.

Slides:



Advertisements
Ähnliche Präsentationen
Cadastre for the 21st Century – The German Way
Advertisements

E-Solutions mySchoeller.com for Felix Schoeller Imaging
DNS-Resolver-Mechanismus
R. Zankl – Ch. Oelschlegel – M. Schüler – M. Karg – H. Obermayer R. Gottanka – F. Rösch – P. Keidler – A. Spangler th Expert Meeting Business.
Die ZBW ist Mitglied der Leibniz-Gemeinschaft Copyright © ZBW 2010 Seite 1 Potenziale semantischer Technologien für die Bibliothek der Zukunft Klaus Tochtermann.
Prof. Dr. HildebrandtFunktionale Darstellungen 1 Darstellung der Zusammenhänge Verbal Grafisch Algebraisch Minimiere die Kosten im Rahmen deiner Möglichkeiten.
Dr. M. Schlottke Common Description of Web Services Source: P. Gerbert, 2002 Web Services allow to establish B2B e-commerce on the fly Web Services allow.
Multi electron atoms Atoms with Z>1 contain >1 electron. This changes the atomic structure considerably because in addition to the electron-nucleus interaction,
fakultät für informatik informatik 12 technische universität dortmund Optimizations Peter Marwedel TU Dortmund Informatik 12 Germany 2009/01/10 Graphics:
Fakultät für informatik informatik 12 technische universität dortmund Universität Dortmund Middleware Peter Marwedel TU Dortmund, Informatik 12 Germany.
Fakultät für informatik informatik 12 technische universität dortmund Specifications Peter Marwedel TU Dortmund, Informatik 12 Graphics: © Alexandra Nolte,
Peter Marwedel TU Dortmund, Informatik 12
Fakultät für informatik informatik 12 technische universität dortmund Hardware/Software Partitioning Peter Marwedel Informatik 12 TU Dortmund Germany Chapter.
Aufgabenbesprechung Programming Contest. Order 7 Bo Pat Jean Kevin Claude William Marybeth 6 Jim Ben Zoe Joey Frederick Annabelle 0 SET 1 Bo Jean Claude.
Projektübung Klimamodellierung
Projektübung Klimamodellierung André Paul. Vorbesprechung Projektübung Klimamodellierung ( ) – A. Paul.
Wozu die Autokorrelationsfunktion?
Thomas Herrmann Software - Ergonomie bei interaktiven Medien Step 6: Ein/ Ausgabe Instrumente (Device-based controls) Trackball. Joystick.
Die Hausaufgaben: Machen Sie Ü. 7 auf S. 29
Adjektive Endungen von Frau Templeton.
Zu + Infinitiv : eine Erklärung
Laurie Clarcq The purpose of language, used in communication, is to create a picture in the mind and/or the heart of another.
die Zeiten (The Tenses) das Aktiv (Active Voice)
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
Institut AIFB, Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Towards Automatic Composition of Processes based on Semantic.
Sanjay Patil Standards Architect – SAP AG April 2008
| DC-IAP/SVC3 | © Bosch Rexroth Pneumatics GmbH This document, as well as the data, specifications and other information set forth in.
Plural Forms of Nouns & Wie viel? or Wie viele?
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
BAS5SE | Fachhochschule Hagenberg | Daniel Khan | S SPR5 MVC Plugin Development SPR6P.
der Imperativ Nicht Vergessen! (Don’t forget)
Christoph Durt: Wittgenstein on the possibility of philosophy: The importance of an intercultural approach
Your name Bedeutung von Internet- Technologien Gruppe 1 Andreas Feuerstein Philipp Hochratner Christian Weinzinger.
Meine Schulfächer.
Frank Fischer + Bernhard Frank Microsoft Deutschland GmbH.
Quelle: Standish Group, 2006 Fourth Quarter Research Report, CHAOS Research Results.
The future tense with werden The verb werden werdensie / Sie werdetihr werdenwir wirder / sie / es wirstdu werdeich.
You need to use your mouse to see this presentation © Heidi Behrens.
You need to use your mouse to see this presentation © Heidi Behrens.
Department of Computer Science Homepage HTML Preprocessor Perl Database Revision Control System © 1998, Leonhard Jaschke, Institut für Wissenschaftliches.
INTAKT- Interkulturelle Berufsfelderkundungen als ausbildungsbezogene Lerneinheiten in berufsqualifizierenden Auslandspraktika DE/10/LLP-LdV/TOI/
Algorithm Engineering Parallele Algorithmen Stefan Edelkamp.
Verben Wiederholung Deutsch III Notizen.
Kölner Karneval By Logan Mack
Ein Projekt des Technischen Jugendfreizeit- und Bildungsvereins (tjfbv) e.V. kommunizieren.de Blended Learning for people with disabilities.
“Weil” und “Denn”.
Design Patterns Ein Muster (pattern) ist eine Idee, die sich in einem praktischen Kontext als nützlich erwiesen hat und dies auch in anderen sein wird.
External Labels – The rules For all external labels the following rules apply (external labels are all labels which are not inside of a shape) - all labels.
© Boardworks Ltd of 8 Time Manner Place © Boardworks Ltd of 8 This icon indicates that the slide contains activities created in Flash. These.
By: Jade Bowerman. German numbers are quite a bit like our own. You start with one through ten and then you add 20, 30, 40 or 50 to them. For time you.
3rd Review, Vienna, 16th of April 1999 SIT-MOON ESPRIT Project Nr Siemens AG Österreich Robotiker Technische Universität Wien Politecnico di Milano.
Adjectiv Endungen Lite: Adjective following articles and pre-ceeding nouns. Colors and Clothes.
HRM A – G. Grote ETHZ, WS 06/07 HRM A: Work process design Overview.
AVL-Trees (according to Adelson-Velskii & Landis, 1962) In normal search trees, the complexity of find, insert and delete operations in search.
Sentence Structure Subject and verb are always together. Subject and verb are always together. Subject and verb must agree Subject and verb must agree.
To school => zu der Schule With friends => mit den Freunden On top of the desk => auf dem Schreibtisch Through the wall => durch die Wand.
German Word Order explained!
Separable Verbs Turn to page R22 in your German One Book R22 is in the back of the book There are examples at the top of the page.
1 Intern | ST-IN/PRM-EU | | © Robert Bosch GmbH Alle Rechte vorbehalten, auch bzgl. jeder Verfügung, Verwertung, Reproduktion, Bearbeitung,
Plusquamperfekt The past of the past.
Launch ON Global.vi System ID object name classname Services to suscribe Observer Control Ref vi-path Service name Step 1 : Objects register to the Global.vi´s,
1 Stevens Direct Scaling Methods and the Uniqueness Problem: Empirical Evaluation of an Axiom fundamental to Interval Scale Level.
Adjective Endings Nominative & Accusative Cases describing auf deutsch The information contained in this document may not be duplicated or distributed.
How to use and facilitate an OptionFinder Audience Response System.
Technische Universität München 1 CADUI' June FUNDP Namur G B I The FUSE-System: an Integrated User Interface Design Environment Frank Lonczewski.
TUM in CrossGrid Role and Contribution Fakultät für Informatik der Technischen Universität München Informatik X: Rechnertechnik und Rechnerorganisation.
HADOOP – a Brief overview
Literary Machines, zusammengestellt für ::COLLABOR:: von H. Mittendorfer Literary MACHINES 1980 bis 1987, by Theodor Holm NELSON ISBN
Creating Web Documents
Work in Progress Ignacio Yaselli, Brunel University
 Präsentation transkript:

DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE

Themen Big Data Buzz Word oder eine neue Dimension und Möglichkeiten Oracles Technologie zu Speichern von unstrukturierten und teilstrukturierten Massendaten Cloudera Framwork „Connectors“ in die neue Welt Oracle Loader for Hadoop und HDFS Big Data Appliance Mit Oracle R Enterprise neue Analyse-Horizonte entdecken Big Data Analysen mit Endeca

Oracle’s integrierte Software Lösung Data Variety Acquire Analyze Organize Unstructured Cloudera Hadoop HDFS Oracle NoSQL DB Oracle Analytics Mining R Spatial Graph OBI EE Oracle MapReduce Oracle (DW) Schema-less Oracle Hadoop Loader Oracle (OLTP) Schema Information Density

The Hadoop Project Hadoop is an open-source project overseen by the Apache Software Foundation Originally based on papers published by Google in 2003 and 2004 Hadoop committers work at several different organizations Including Cloudera, Yahoo!, Facebook

Hadoop Components Hadoop consists of two core components The Hadoop Distributed File System (HDFS) MapReduce There are many other projects based around core Hadoop Often referred to as the ‘Hadoop Ecosystem’ Pig, Hive, HBase, Flume, Oozie, Sqoop, etc A set of machines running HDFS and MapReduce is known as a Hadoop Cluster Individual machines are known as nodes A cluster can have as few as one node, as many as several thousands More nodes = better performance!

Hadoop Components: HDFS HDFS, the Hadoop Distributed File System, is responsible for storing data on the cluster Data is split into blocks and distributed across multiple nodes in the cluster Each block is typically 64MB or 128MB in size Each block is replicated multiple times Default is to replicate each block three times Replicas are stored on different nodes This ensures both reliability and availability

Hadoop Components: MapReduce MapReduce is the system used to process data in the Hadoop cluster Consists of two phases: Map, and then Reduce Between the two is a stage known as the shuffle and sort Each Map task operates on a discrete portion of the overall dataset Typically one HDFS block of data After all Maps are complete, the MapReduce system distributes the intermediate data to nodes which perform the Reduce phase

HDFS Basic Concepts HDFS is a filesystem written in Java Based on Google’s GFS Sits on top of a native filesystem Such as ext3, ext4 or xfs Provides redundant storage for massive amounts of data Using cheap, unreliable computers

HDFS Basic Concepts (cont’d) HDFS performs best with a ‘modest’ number of large files Millions, rather than billions, of files Each file typically 100MB or more Files in HDFS are ‘write once’ No random writes to files are allowed Append support is included in Cloudera’s Distribution including Apache Hadoop (CDH) for HBase reliability Not recommended for general use HDFS is optimized for large, streaming reads of files Rather than random reads

How Files Are Stored Files are split into blocks Each block is usually 64MB or 128MB Data is distributed across many machines at load time Different blocks from the same file will be stored on different machines This provides for efficient MapReduce processing (see later) Blocks are replicated across multiple machines, known as DataNodes Default replication is three-fold Meaning that each block exists on three different machines A master node called the NameNode keeps track of which blocks make up a file, and where those blocks are located Known as the metadata

How Files Are Stored: Example NameNode holds metadata for the two files (Foo.txt and Bar.txt) DataNodes hold the actual blocks Each block will be 64MB or 128MB in size Each block is replicated three times on the cluster

More On The HDFS NameNode The NameNode daemon must be running at all times If the NameNode stops, the cluster becomes inaccessible Your system administrator will take care to ensure that the NameNode hardware is reliable! The NameNode holds all of its metadata in RAM for fast access It keeps a record of changes on disk for crash recovery A separate daemon known as the Secondary NameNode takes care of some housekeeping tasks for the NameNode Be careful: The Secondary NameNode is not a backup NameNode!

HDFS: Points To Note Although files are split into 64MB or 128MB blocks, if a file is smaller than this the full 64MB/128MB will not be used Blocks are stored as standard files on the DataNodes, in a set of directories specified in Hadoop’s configuration files This will be set by the system administrator Without the metadata on the NameNode, there is no way to access the files in the HDFS cluster When a client application wants to read a file: It communicates with the NameNode to determine which blocks make up the file, and which DataNodes those blocks reside on It then communicates directly with the DataNodes to read the data The NameNode will not be a bottleneck

Accessing HDFS Applications can read and write HDFS files directly via the Java API Typically, files are created on a local filesystem and must be moved into HDFS Likewise, files stored in HDFS may need to be moved to a machine’s local filesystem Access to HDFS from the command line is achieved with the hadoop fs command

hadoop fs Examples Copy file foo.txt from local disk to the user’s directory in HDFS This will copy the file to /user/username/foo.txt Get a directory listing of the user’s home directory in HDFS Get a directory listing of the HDFS root directory hadoop fs -copyFromLocal foo.txt foo.txt hadoop fs -ls hadoop fs –ls /

hadoop fs Examples (cont’d) Display the contents of the HDFS file /user/fred/bar.txt Move that file to the local disk, named as baz.txt Create a directory called input under the user’s home directory hadoop fs –cat /user/fred/bar.txt hadoop fs –copyToLocal /user/fred/bar.txt baz.txt hadoop fs –mkdir input

NoSQL: Was ist das? Not-only-SQL (2009) Sammelbegriff für nichtrelationale Datenbanken, die … massiv parallelisierbar sind weitgehend ohne Datenmodell arbeiten die Datenkonsistenz nicht zwingend durchsetzen sehr entwicklerspezifisch sind Derzeit noch keine Standardisierung vorhanden Keine Abfragesprache (eben "NoSQL") Massive Produktvielfalt (über 122 auf nosql-database.org) Produkte nur schwer vergleichbar

NoSQL Technologie im Einsatz Sozialen Netzwerke selbst LinkedIn, Facebook, Xing, Google+, Twitter Soziale Netzwerke als Datenlieferant Facebook-Export laden und verarbeiten … Personalisierung Amazon, Ebay, Yahoo, … Internetzentrische Dienste Beispiele: TinyURL, bit.ly Sensordaten

SQL oder NoSQL: Das ist die Frage! ACID oder BASE? SQL: RDBMS (ACID) NoSQL (BASE) Atomicity Consistency Isolation Durability Basically Available Soft State Eventual consistency Zwingend höchste Priorität für Datenkonsistenz und -Integrität Konsistenz und Integrität können teilweise aufgegeben werden ("C" oder "A" in "CAP") Verteilte Datenhaltung per Replikation möglich, aber untergeordnet Verteilte Datenhaltung (Partition Awareness) hat höchste Priorität Datenmodell als Schema Kein Datenmodell Abfragesprache: SQL Keine Abfragesprache; direkte API-Zugriffe Abfrageausführung durch Optimizer Know-How in der Anwendung Generische Datenbank für viele Anwendungen Datenhaltung wird speziell auf eine Anwendung zugeschnitten

NoSQL-Datenhaltungsstrategien Storage Model Pro, Kontra, Anwendungsgebiete Key-value Einfach, sehr flexibel, sehr effizient und bekannt Nicht selbstbeschreibend, keinerlei Schema Anwendungen: Authentifizierung, Personalisierung, Linkverkürzung Columnar Effizient für "sparse data", gut geeignet für Aggregatsbildungen Ineffizent für "satzbasierte Zugriffe" Anwendungen: Activity tracking Document XML Repositorys, selbstbeschreibende Objekte Gegebenenfalls hoher Platzverbrauch Anwendungen: Massiv parallele Dokumentsuche Graph Speicherung von Beziehungen / Netzwerken Allgemeine Suche über ein Attribut sehr schwierig Anwendungen: Soziale Netzwerke

Oracle NoSQL Database Key-Value Datenhaltung Basiert auf BerkeleyDB JE HA Konsistenz und Persistenz konfigurierbar ACID-Transaktionen Extrem skalier- und parallelisierbar Hochverfügbarkeit per Replikation Transparentes Loadbalancing Einfache Installation und Einrichtung

Was ist ein "Key-Value-Store"? Key = Index Key-Value Store CUSTOMERS Key Value 010101010 … 010101011 Zeilen Datenstrukturen sind nicht selbstbeschreibend Im wesentlichen eine zweispaltige Tabelle – "KEY" und "VALUE" VALUE kann auch ein komplexes Objekt sein Die Anwendung kennt die Datenstrukturen – nicht selbstbeschreibend Joins zu anderen Key-Value Stores allein durch die Anwendung Einfache Zugriffe: GET, PUT, DELETE Einfach parallelisierbar

Oracle NoSQL Database Zugriffe per API (Java)

Oracle NoSQL Database Ein Codebeispiel: Java config = new KVStoreConfig("carstenstore", "sccloud032:5000"); store = KVStoreFactory.getStore(config); store.put( Key.createKey("EMP_7839_ENAME"), Value.createValue("KING".getBytes()) ); Key.fromByteArray(new String("EMP_7839_SAL").getBytes()), Value.createValue("5000".getBytes()) store.close(); :

Oracle NoSQL Database Ein Codebeispiel: Java config = new KVStoreConfig("carstenstore", "sccloud032:5000"); store = KVStoreFactory.getStore(config); new String( store.get(Key.createKey("EMP_7839_ENAME")).getValue().getValue() ) new String( store.get( Key.fromByteArray(new String("EMP_7839_SAL").getBytes()) ).getValue().getValue()) ) store.close();

Kontakt und mehr Informationen Oracle Data Warehouse Community Mitglied werden Viele kostenlose Seminare und Events Download – Server: www.ORACLEdwh.de Nächste deutschsprachige Oracle DWH Konferenz: 19. + 20. März 2013 Kassel