Moderne Betriebliche Anwendungen von Datenbanksystemen

Slides:



Advertisements
Ähnliche Präsentationen
Einführung "Datenbanksysteme"
Advertisements

Partitionierungstechniken in Datenbanksystemen
ER-Datenmodell und Abfragen in SQL
Data Cubes PG Wissensmangement Seminarphase Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund.
Data Warehouses und Data Mining
Prof. Dr. Hans-Jürgen Scheruhn
MySQL.
Kapitel 8 Anfragebearbeitung
© A. Kemper / A. Eickler1 Fehlerbehandlung (Recovery) 1.Lokaler Fehler in einer noch nicht festgeschriebenen (committed) Transaktion Wirkung muss zurückgesetzt.
© A. Kemper / A. Eickler1 Kapitel 5: Datenintegrität Integitätsbedingungen Schlüssel Beziehungskardinalitäten Attributdomänen Inklusion bei Generalisierung.
Systemüberblick Beispiele: Microsoft Access Oracle Ingres Informix
Datenbanken I (0,*) Produkt 3 Karczewski Datenbanken I.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/9 Data Mining Ist die Wissensgewinnung aus Datensammlungen (Knowledge Discovery in Database).
SQL als Abfragesprache
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Data Warehousing Oberseminarvortrag zum Thema: von Daniel Schulte
OLAP. © T. Kudraß, HTWK Leipzig Warum? Daten einer Firma verfügbar machen für Entscheidungsprozesse – Umsetzung schwierig neue Konzepte notwendig zur.
Prof. Dr. T. Kudraß1 Datenbanken zur Entscheidungsunterstützung - Data Warehousing.
Der letzte Schliff für Abfragen Übersicht über die Aggregatfunktionen.
Access 2000 Datenbanken.
SQL 2 Order by null Aggregatfunktionen group by Join subselect.
Einführung Dateisystem <-> Datenbanksystem
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Manpower Associates is a $14
... und alles was dazugehört
Moderne Betriebliche Anwendungen von Datenbanksystemen
© DVS System Software GmbH & Co. KG
Data Warehouse mit Visual FoxPro
Eine Einführung in OLAP (Online Analytical Processing)
Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers
Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.
WS 2013/14 Datenbanksysteme Do 17:00 – 18:30 R Vorlesung #6 SQL (Teil 3)
WS 2011/12 Datenbanksysteme Mi 15:15 – 16:45 R Vorlesung #9 Physische Datenorganisation.
WS 2011/12 Datenbanksysteme Fr 15:15 – 16:45 R Vorlesung #8 Anfragebearbeitung.
WS 2012/13 Datenbanksysteme Fr 15:15 – 16:45 R Vorlesung #9 Anfragebearbeitung.
WS 2007/08 Datenbanksysteme Mi 17:00 – 18:30 R Vorlesung #9 Anfragebearbeitung (Teil 1)
Allgemeines zu Datenbanken
Data Warehouse: ETL-Praktikum
Datenbanksysteme für hörer anderer Fachrichtungen
Speichern und Lesen von Daten im Data Warehouse
Einführung in Datenbankmodellierung und SQL
Vorlesung #10 Physische Datenorganisation
Factsheets und Argumentarium Generelle Facts Offene Architektur Möglichkeit eines Application Service Providings wodurch hohe Initialkosten entfallen.
00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.
Betriebliche Anwendung von Datenbanksystemen: Data Warehouse
WS 2013/14 Datenbanksysteme Do 17:00 – 18:30 R Vorlesung #9 Anfragebearbeitung.
Das Information Warehouse Die Stärken eines zentralen dispositiven Information-Warehouse als informative Kernkomponente in einer heterogenen operativen.
Structured Query Language
WS 2004/2005 Datenbanken II - 5W Mi 17:00 – 18:30 G 3.18 Vorlesung #3 Anfragebearbeitung (Teil 1)
Vorlesung #5 SQL (Teil 2).
Einführung Dateisystem <-> Datenbanksystem
WS 2004/2005 Datenbanken II - 5W Mi 17:00 – 18:30 G 3.18 Vorlesung #10 RDBMS Erweiterungen.
Nachtrag Abgrenzung OLAP / OLTP
Anfragen an multidimensonale Daten
Vorlesung Datenbanksysteme vom Anfragebearbeitung  Logische Optimierung.
Datenbank für Skriptenverkauf
Moderne Betriebliche Anwendungen von Datenbanksystemen Online Transaction Processing Betriebswirtschaftliche Standard- Software (SAP R/3) Data Warehouse-Anwendungen.
Dr. Klaus Ruhlig Technology & Product Consulting Sun Microsystems, München Skalierbare Rechnerarchitekturen für ein DWH: Eine vergleichende Analyse.
/Folie 1Holger Frietsch Historisierung von Zuordnungsänderungen für Dimensionen in relationalen ORACLE8-Data Warehouse- Datenbanken Holger Frietsch.
Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen Online Transaction Processing Betriebswirtschaftliche Standard- Software (SAP.
DOAG SID Data Warehouse
Multidimensionale Datenbanken
Nachtrag Abgrenzung OLAP / OLTP
Beispiele zur Datenänderung
Indexierung Oracle: indexes Indexierung.
Von Wietlisbach, Lenzin und Winter
Moderne Betriebliche Anwendungen von Datenbanksystemen
Von Wietlisbach, Lenzin und Winter
(Structured Query Language)
 Präsentation transkript:

Moderne Betriebliche Anwendungen von Datenbanksystemen Online Transaction Processing (bisheriger Fokus) Data Warehouse-Anwendungen Data Mining

OLTP: Online Transaction Processing Beispiele Flugbuchungssystem Bestellungen in einem Handelsunternehmen Charakterisierung Hoher Parallelitätsgrad Viele (Tausende pro Sekunde) kurze Transaktionen TAs bearbeiten nur ein kleines Datenvolumen „mission-critical“ für das Unternehmen Hohe Verfügbarkeit muss gewährleistet sein Normalisierte Relationen (möglichst wenig Update-Kosten) Nur wenige Indexe (wegen Fortschreibungskosten) © A. Kemper / A. Eickler

Enterprise Resource Modelling (ERP-System, z.B. SAP) WAN (Internet) LAN Relationales DBMS als Backend-Server (Oracle, Informix, DB2, MS SQL-Server, Adabas) © A. Kemper / A. Eickler

Dreistufige Client/Server-Architektur (3 Tier) sehr viele (Tausende) Clients ein Datenbank- Server mehrere Applikations- Server zur Skalierung Sehr schnelles LAN (z.B. FDDI) „langsame“ Netzverbindung (WAN, Internet, Telefon, ...) © A. Kemper / A. Eickler

Data Warehouse-Anwendungen: OLAP~Online Analytical Processing Wie hat sich die Auslastung der Transatlantikflüge über die letzten zwei Jahre entwickelt? oder Wie haben sich besondere offensive Marketingstrategien für bestimmte Produktlinien auf die Verkaufszahlen ausgewirkt? © A. Kemper / A. Eickler

Sammlung und periodische Auffrischung der Data Warehouse-Daten OLAP-Anfragen Decision Support Data Mining OLTP-Datenbanken und andere Datenquellen Data Warehouse © A. Kemper / A. Eickler

Das Stern-Schema © A. Kemper / A. Eickler

Stern-Schema bei Data Warehouse-Anwendungen Eine sehr große Faktentabelle Alle Verkäufe der letzten drei Jahre Alle Telefonate des letzten Jahres Alle Flugreservierungen der letzten fünf Jahre normalisiert Mehrere Dimensionstabellen Zeit Filialen Kunden Produkt Oft nicht normalisiert © A. Kemper / A. Eickler

Das Stern-Schema: Handelsunternehmen Produkte Kunden Filialen Verkäufe Zeit Verkäufer © A. Kemper / A. Eickler

Das Stern-Schema: Krankenversicherung Patienten Ärzte Krankenhäuser Behandlungen Zeit Krankheiten © A. Kemper / A. Eickler

Stern-Schema Faktentabelle (SEHR groß) Verkäufe VerkDatum Filiale Produkt Anzahl Kunde Verkäufer 25-Jul-00 Passau 1347 1 4711 825 ... Faktentabelle (SEHR groß) Filialen FilialenKennung Land Bezirk ... Passau D Bayern Kunden KundenNr Name wieAlt ... 4711 Kemper 43 Dimensionstabellen (relativ klein) Verkäufer VerkäuferNr Name Fachgebiet Manager wieAlt ... 825 Handyman Elektronik 119 23 © A. Kemper / A. Eickler

Stern-Schema (cont‘d) Zeit Datum Tag Monat Jahr Quartal KW Wochentag Saison 25-Jul-00 25 7 2000 3 30 Dienstag Hochsommer ... 18-Dec-01 18 12 2001 4 52 Weihnachten Produkte ProduktNr Produkttyp Produktgruppe Produkthauptgruppe Hersteller .. 1347 Handy Mobiltelekom Telekom Siemens ... © A. Kemper / A. Eickler

Nicht-normalisierte Dimensionstabellen: effizientere Anfrageauswertung Zeit Datum Tag Monat Jahr Quartal KW Wochentag Saison 25-Jul-00 25 7 2000 3 30 Dienstag Hochsommer ... 18-Dec-01 18 12 2001 4 52 Weihnachten Datum  Monat  Quartal Produkte ProduktNr Produkttyp Produktgruppe Produkthauptgruppe Hersteller .. 1347 Handy Mobiltelekom Telekom Siemens ... ProduktNr  Produkttyp  Produktgruppe  Produkthauptgruppe © A. Kemper / A. Eickler

Normalisierung führt zum Schneeflocken-Schema Produkthaupt- gruppen Produktgruppen Filialen Kunden Produkttypen Verkäufe Produkte Zeit Verkäufer KWs Quartale © A. Kemper / A. Eickler

Anfragen im Sternschema select sum(v.Anzahl), p.Hersteller from Verkäufe v, Filialen f, Produkte p, Zeit z, Kunden k where z.Saison = 'Weihnachten' and z.Jahr = 2001 and k.wieAlt < 30 and p.Produkttyp = 'Handy' and f.Bezirk = 'Bayern' and v.VerkDatum = z.Datum and v.Produkt = p.ProduktNr and v.Filiale = f.FilialenKennung and v.Kunde = k.KundenNr group by p.Hersteller; Einschränkung der Dimensionen Join-Prädikate © A. Kemper / A. Eickler

A A A A Algebra-Ausdruck ...(Produkte) ...(Filialen) ...(Zeit) Verkäufe A A ...(Zeit) ...(Kunden) © A. Kemper / A. Eickler

Roll-up/Drill-down-Anfragen select Jahr, Hersteller, sum(Anzahl) from Verkäufe v, Produkte p, Zeit z where v.Produkt = p.ProduktNr and v.VerkDatum = z.Datum and p.Produkttyp = 'Handy' group by p.Hersteller, z.Jahr; select Jahr, sum(Anzahl) group by z.Jahr; Roll-up Drill-down © A. Kemper / A. Eickler

Ultimative Verdichtung select sum(Anzahl) from Verkäufe v, Produkte p where v.Produkt = p.ProduktNr and p.Produkttyp = 'Handy'; © A. Kemper / A. Eickler

© A. Kemper / A. Eickler

Roll-up Down Drill- © A. Kemper / A. Eickler

Flexible Auswertungsmethoden: slice and dice © A. Kemper / A. Eickler

Materialisierung von Aggregaten insert into Handy2DCube ( select p.Hersteller, z.Jahr, sum(v.Anzahl) from Verkäufe v, Produkte p, Zeit z where v.Produkt = p.ProduktNr and p.Produkttyp = 'Handy' and v.VerkDatum = z.Datum group by z.Jahr, p.Hersteller ) union ( select p.Hersteller, to_number(null), sum(v.Anzahl) from Verkäufe v, Produkte p group by p.Hersteller ) union ( select null, z.Jahr, sum(v.Anzahl) group by z.Jahr ) union ( select null, to_number(null), sum(v.Anzahl) where v.Produkt = p.ProduktNr and p.Produkttyp = 'Handy' ); © A. Kemper / A. Eickler

Relationale Struktur der Datenwürfel © A. Kemper / A. Eickler

Würfeldarstellung © A. Kemper / A. Eickler

Der cube-Operator select p.Hersteller, z.Jahr, f.Land, sum(v.Anzahl) from Verkäufe v, Produkte p, Zeit z, Filialen f where v.Produkt = p.ProduktNr and p.Produkttyp = 'Handy' and v.VerkDatum = z.Datum and v.Filiale = f.Filialenkennung group by cube (z.Jahr, p.Hersteller, f.Land); © A. Kemper / A. Eickler

Wiederverwendung von Teil-Aggregaten insert into VerkäufeProduktFilialeJahr ( select v.Produkt, v.Filiale, z.Jahr, sum(v.Anzahl) from Verkäufe v, Zeit z where v.VerkDatum = z.Datum group by v.Produkt, v.Filiale, z.Jahr ); select v.Produkt, v.Filiale, sum(v.Anzahl) from Verkäufe v group by v.Produkt, v.Filiale © A. Kemper / A. Eickler

Wiederverwendung von Teil-Aggregaten select v.Produkt, v.Filiale, sum(v.Anzahl) from VerkäufeProduktFilialeJahr v group by v.Produkt, v.Filiale select v.Produkt, z.Jahr, sum(v.Anzahl) from Verkäufe v, Zeit z where v.VerkDatum = z.Datum group by v.Produkt, z.Jahr © A. Kemper / A. Eickler

Die Materialisierungs-Hierarchie Teilaggregate T sind für eine Aggregation A wiederverwendbar wenn es einen gerichteten Pfad von T nach A gibt Also T  ......  A Man nennt diese Materialisierungshierarchie auch einen Verband (Engl. Lattice) © A. Kemper / A. Eickler

Die Zeit-Hierarchie © A. Kemper / A. Eickler

Bitmap-Indexe (zusätzliche Zugriffsstruktur) Optimierung durch Komprimierung der Bitmaps Ausnutzung der dünnen Besetzung Runlength-compression Grundidee: speichere jeweils die Länge der Nullfolgen zwischen zwei Einsen Mehrmodus-Komprimierung: bei langen Null/Einsfolgen speichere deren Länge Sonst speichere das Bitmuster © A. Kemper / A. Eickler

Beispiel-Anfrage und Auswertung © A. Kemper / A. Eickler

Bitmap-Operationen © A. Kemper / A. Eickler

Klassifikation Assoziationsregeln Clustering Data Mining Klassifikation Assoziationsregeln Clustering

Klassifikationsregeln Vorhersageattribute V1, V2, ..., Vn Vorhergesagtes Attribut A Klassifikationsregel P1(V1)  P2(V2)  ...  Pn(Vn)  A = c Prädikate P1, P2, .., Pn Konstante c Beispielregel (wieAlt>35)  (Geschlecht =`m´)  (Autotyp=`Coupé´)  (Risiko=´hoch´) © A. Kemper / A. Eickler

Klassifikations/Entscheidungsbaum © A. Kemper / A. Eickler

Klassifikations/Entscheidungsbaum © A. Kemper / A. Eickler

Klassifikations/Entscheidungsbaum (wieAlt>35)  (Geschlecht =`m´)  (Autotyp=`Coupé´)  (Risiko=´hoch´) © A. Kemper / A. Eickler

Wie werden Entscheidungs/ Klassifikationsbäume erstellt Trainingsmenge Große Zahl von Datensätzen, die in der Vergangenheit gesammelt wurden Sie dient als Grundlage für die Vorhersage von „neu ankommenden“ Objekten Beispiel: neuer Versicherungskunde wird gemäß dem Verhalten seiner „Artgenossen“ eingestuft © A. Kemper / A. Eickler

Assoziationsregeln Beispielregel Wenn jemand einen PC kauft, dann kauft er/sie auch einen Drucker Confidence Dieser Wert legt fest, bei welchem Prozentsatz der Datenmenge, bei der die Voraussetzung (linke Seite) erfüllt ist, die Regel (rechte Seite) auch erfüllt ist. Eine Confidence von 80% für unsere Beispielregel sagt aus, dass vier Fünftel der Leute, die einen PC gekauft haben, auch einen Drucker dazu gekauft haben. Support Dieser Wert legt fest, wieviele Datensätze überhaupt gefunden wurden, um die Gültigkeit der Regel zu verifizieren. Bei einem Support von 1% wäre also jeder Hundertste Verkauf ein PC zusammen mit einem Drucker. © A. Kemper / A. Eickler

Clustering © A. Kemper / A. Eickler