Principles of Distributed Database Systems

Slides:



Advertisements
Ähnliche Präsentationen
Datenbankdesign mit ACCESS.
Advertisements

Datenbanken Beispiel: Musikverwaltungsdatenbank Daten: Musikstück
Datenbanken Einführung.
Folien 2-5, 7-8 © Prof. Dr. Manfred Rössle (FH Aalen)
Relationaler Datenbankentwurf (II)
spezielle Nutzersichten formale Ebene (deskriptive Regeln)
Datenmodellierung Externe Phase Informationsstruktur
PC-Cluster.
Bauinformatik II Softwareanwendungen 1
Vs61 6 Verteilte Datenverwaltung. vs62 Ziel:Zusammengehöriger Datenbestand soll über mehrere Stationen verteilt werden, z.B. Fragmentierung: in mehrere.
Einführung in Informationssysteme
Das Entity-Relationship-Modell
Anwendungsverteilung und räumliche Ausdehnung
Universität Paderborn
Präsentation zum Thema Netzwerk Von Jan Metz.
Konzeption und prototypische Implementierung eines zentralen Informationssystems für Systemmanagement Motivation Oft wird es schwierig, die benötigten.
Speicherung globaler Relationen: Fragementierung und Allokation
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Datenbankdesign und Normalisierung
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Client-Server-Architekturen
XML in Client-Server und GRID Architektur
Access 2000 Datenbanken.
Datenbanken Einführung Merkmale dateiorientierte Datenverwaltung
Normalformen Normalisieren Schlüssel
Seminar: Verteilte Datenbanken
6 Normalformen Normalisieren Schlüssel
Einführung Dateisystem <-> Datenbanksystem
Datenmodellierung - Aufbau einer Datenbank -
Fachbereich Mathematik/Informatik Universität Osnabrück
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Relationale Datenbankmodelle
... und alles was dazugehört
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Die Grundterminologie
Vorteile eines lokalen Netzwerks?
Datenbank-entwicklungsprozess
SS 2013 – IBB4B Datenmanagement Fr 17:00 – 18:30 R Vorlesung #5 Relationale Entwurfstheorie.
Lehrstuhl für Bauinformatik, IPVR – Abteilung Simulation großer Systeme Volumenorientierte Modellierung als Grundlage einer vernetzt-kooperativen Planung.
Überblick über die Datenbankproblematik
Datenbanken und Datenmodellierung
SS 2011 – IBB4C Datenmanagement Fr 15:15 – 16:45 R Vorlesung #5 Relationale Entwurfstheorie.
Vorlesung #2 Datenbankentwurf
SS 2010 – IBB4C Datenmanagement Fr 15:15 – 16:45 R Vorlesung #2 Datenbankentwurf.
WS 2011/12 Datenbanksysteme Mi 15:15 – 16:45 R Vorlesung #9 Physische Datenorganisation.
Vorlesung #4 Überführung des ER-Modells in das relationale Modell
Vorlesung #4 Überführung des ER-Modells in das relationale Modell
Allgemeines zu Datenbanken
Replikation und Synchronisation
DI (FH) DI Roland J. Graf MSc (GIS) U N I V E R S I T Ä T S L E H R G A N G Geographical Information Science & Systems UNIGIS.
Vorlesung #10 Physische Datenorganisation
verstehen planen bearbeiten
Normalisierungsprozess
SS 2014 – IBB4C Datenmanagement Do 17:00 – 18:30 R Vorlesung #2 Datenbankentwurf.
Vortrag - Diplomarbeiten (HS I)
Einführung Dateisystem <-> Datenbanksystem
Datenbanken im Web 1.
SS 2014 – IBB4B Datenmanagement Do 17:00 – 18:30 R Vorlesung #4 Überführung des ER-Modells in das relationale Modell.
Vs51 5 Verteilte Datenverwaltung. vs52 Situation:Zusammengehöriger Datenbestand ist über mehrere Stationen verteilt, z.B. Fragmentierung: in mehrere Fragmente.
Verteilte und föderierte Datenbanken und das Grid
Middleware in Java vieweg 2005 © Steffen Heinzl, Markus Mathes Kapitel 1: Architektur verteilter Systeme.
Distributed Database Systems Parallele Datenbanksysteme von Stefan Schneider.
SS 2015 – IBB4C Datenmanagement Fr 17:00 – 18:30 R Vorlesung #2 Datenbankentwurf.
SS 2015 – IBB4C Datenmanagement Fr 17:00 – 18:30 R Vorlesung #5 Relationale Entwurfstheorie.
SS 2015 – IBB4C Datenmanagement Fr 17:00 – 18:30 R Vorlesung #4 Überführung des ER-Modells in das relationale Modell.
Technische Universität München Übung zur Einführung in die Informatik für Hörer anderer Fachrichtungen im Sommersemester 2010 Sitzung 6: Datenbanksysteme.
Von Diana Braun und Daria Bures
Datenbanken Von Amed und Alicia.
 Präsentation transkript:

Principles of Distributed Database Systems ausgearbeitet von Rainer Steinlesberger 0026446

+ = Einleitung DDBS = Netzwerk von Computern (Sites) + Datenbank DDBS = Verteilung + Integration + Netzwerk Datenbank = DDBS

Übersicht Einleitung Was ist ein DDBS? Überblick über relationale DBMS Computer Netzwerke Architektur von DBMS Design einer verteilten Datenbank

Geschichtlicher Rückblick Ende der 60er Anfang der 70er ging man zunehmend dazu über Datenbanksysteme zu benutzen, um die Datenunabhängigkeit der Anwendungsprogramme zu erhöhen, transaktionsorientierte Verarbeitung zu ermöglichen, Mehrbenutzerbetrieb zu realisieren, sowie die Recovery-Funktionen zu verbessern. Entstehen von Rechenzentren, wodurch die Betriebsorganisation zentralisiert wurde! Die Datenmenge wuchsen immer weiter an  zusammengehörende Datenbestände wurden auf verschiedene Datenbanken verteilt. Dadurch entstanden Probleme mit der Konsistenthaltung der Daten. In den 80iger und 90iger Jahren konnten durch Onlineanwendungen bislang getrennte Anwendungen und Datenbestände zusammengeführt werden.

Desshalb wurden integrierte verteilte Informationssysteme realisiert.

Definition „A distributed database is a collection of multiple, logically interrelated databases distributed over a computer network. A distributed database management system is the software that permits the management of the DDBS and makes the distribution transparent to the users.“

Zentrale Datenbank in einem Netzwerk Boston Edmonton Communication Network Paris San Francisco

Verteilte Datenbankstruktur Edmonton Boston Edmonton Angestellte Paris Projekte Edmont Projekte Boston Angestellte Paris Angestellte Boston Projekte Communication Network San Francisco Paris Paris Angestellte Paris Projekte Boston Angestellte Boston Projekte San Francisco Angestellte San Francisco Projekte

Transparentes Management Datenunabhängigkeit Netzwerk Transparenz Replizierungs- bzw. Kopiertransparenz Fragmentierungstransparenz

Verbesserte Leistung Ein DBMS teilt die Datenbank und erlaubt es den Daten somit sehr sehr nahe ihrem Ort, wo sie gebraucht werden, gespeichert zu werden. dies hat 2 Vorteile: Seit jeder Knoten einen Teil der Daten bewältigt, ist der Kampf um Ressourcen wie CPU nicht mehr so wichtig wie in zentralisierten Datenbanken Lokalisierung vermindert die Verzögerung bei entfernten Aufrufen

Probleme Verteiltes Datenbank-Design Verteilte Suchprozesse Verteiltes Verzeichnis-Management Verteilte Konkurrenzkontrolle Verteiltes Deadlock Management Betriebssystem-Unterstützung Heterogene Datenbanken

3. Relationale DBMS

Relationen Def.: in Beziehung stehend.... Relationen sind 2dimensonale Tabellen von Werten

1. Normalform O------------------------------------------------------------------------------------------------O| Vorlesungen | Verantwortliche | Hörer | Bewert. | O------------------------------------------------------------------------------------------------O| Vorl.Nr. | Vorl.Name | Hörs. | Vorn. | Nachn. | Nr. | Vorn. | Nachn. | Matr.Nr. |Note |O------------------------------------------------------------------------------------------------O| || 3721 | Informatik | HS1 | 130 | Alan | Kurow | 102 | Fritz | Maier | 8610826 | 2 || 3721 | Informatik | HS1 | 130 | Alan | Kurow | 102 | Fritz | Müller | 8510721 | 5 || 3721 | Informatik | HS1 | 130 | Franz | Girke | 108 | Fritz | Maier | 8610826 | 3 || 3721 | Informatik | HS1 | 130 | Franz | Girke | 108 | Fritz | Müller | 8510721 | 4 || 3721 | Informatik | HS1 | 130 | Franz | Girke | 108 | Hans | Schuh | 8610933 | 1 O----------------------------------------------------------------------------------------------------O| Vorlesungen | Verantwortliche | Hörer | Bewert. |O----------------------------------------------------------------------------------------------------O| Vorl.Nr. | Vorl.Name | HS | HS-Gr. | Vorn. | Nachn. | Nr. | Vorn. | Nachn. | Matr.-Nr. | Note 3721 | Informatik | HS1 | 130 | Alan | Kurow | 102 | Fritz | Maier | 8610826 | 2 3721 | Informatik | HS1 | 130 | Alan | Kurow | 102 | Fritz | Müller | 8510721 | 5 3721 | Informatik | HS1 | 130 | Franz | Girke | 108 | Fritz | Maier | 8610826 | 3 3721 | Informatik | HS1 | 130 | Franz | Girke | 108 | Fritz | Müller | 8510721 | 4 3721 | Informatik | HS1 | 130 | Franz | Girke | 108 | Hans | Schuh | 8610933 | 1

2. Normalform Die 2. Normalform vermeidet partielle funktionale Abhängigkeiten (diese bewirken Redundanzen). Eine partielle funktionale Abhängigkeit besteht, wenn Attribute (die nicht Schlüsselkandidaten sind) funktional schon von einem Teil des Schlüssels abhängen. Die zweite Normalform kann durch Elimination der abhängigen Attribute und Auslagerung in eine eigene Relation erreicht werden. Der Primärschlüssel besteht aus dem Attributetupel (Vorlesungsnummer, Verantwortlichennummer, Matrikelnummer) Wir zerlegen nun die Relation in vier Relationen, die dann in 2. Normalform sind.

2. Normalform O-------------------------------------------O | V.-Nr. | Ver.-Nr. | Matr.-Nr. | Bewertung | O-------------------------------------------O| || 3721 | 102 | 8610826 | 2 || 3721 | 102 | 8610721 | 5 || 3721 | 108 | 8610826 | 3 || 3721 | 108 | 8610721 | 4 || 3721 | 108 | 8610933 | 1 O------------------------------------O| Hörsaal V.-Nr. | V.-Name | Bez. | Größe | | Informatik | HS1 | 130 | 3722 | Informatik | HS4 | 140 | O-------------------------------O | Ver.-Nr. | Vorname | Nachname |O------------------------------O 102 | Alan | Kurow | 108 | Franz | Girke | O----------------------------------O| Matr.-Nr. | H.-Vorn. | H.-Nachn. | 8610826 | Fritz | Maier | 8610721 | Fritz | Müller | 8610933 | Hans | Schuh |

3. Normalform Eine Relation ist in dritter Normalform, wenn sie in 2. Normalform ist und es kein Attribut, welches nicht Teil des Schlüssels ist, gibt, welches transitiv vom Schlüssel abhängt. O-------------------------------------------O| V.-Nr. | V.-Name | Hörsaal-Bezeichnung | | Informatik | HS1 | Informatik | HS4 || : | : | : | O-------------------------------------O| Hörsaal-Bezeichnung | Hörsaal-Größe | HS1 | 130 HS4 | 140 || : | : | O------------------------------------O| Hörsaal V.-Nr. | V.-Name | Bez. | Größe | | Informatik | HS1 | 130 | 3722 | Informatik | HS4 | 140 |

Relationale Daten Sprache Relationale Algebra Verknüpft konstruktiv die vorhandenen Relationen durch Operatoren wie ∩,∪,... Relationaler Kalkulus Beschreibt Eigenschaften des gewünschten Ergebnisses mit Hilfe einer Formel der Prädikatenlogik 1. Stufe unter Verwendung von ∀,∃,∨,∧,¬,...

Relationale Algebra Selection Projection Union Set Difference Cartesian Product Intersection ..........

Einige Beispiele... Selection Semester>10(Studenten) ∏Name(Studenten) ...... Projektion ∏Name (Studenten) ∪ ∏Name(Professoren) (2 Relationen mit gleichem Schema) ∏Name (Studenten) - ∏Name(Geprüft) (2 Relationen mit gleichem Schema)

Relationaler Kalkulus Tupelkalkül {t | F(t)} {p|p ∈ Professoren ٨ p.Alter = ‚35’} Bereichskalkül {[v1, v2,..., vn] | P(v1, v2,..., vn)}

4. Netzwerk

4. Netzwerk

Topologien im Überblick...

OSI-Referenzmodell

5. Architektur von DBMS

5. Architektur von DBMS Die Idee hinter dem ANSI/SPARC Modell ist die Datenunabhängigkeit der Daten gegenüber Veränderungen der Speicherstrukturen. Das DBMS ist eine Schnittstelle zu den Daten.

Architekturmodell

Architektur von DBMS Client - Server Architektur Verteilte Datenbank Architektur Multi Datenbank Architektur

Client/Server Architektur Hier gibt es typischerweise einen zentralen Datenbank-Server und eine größere Anzahl vernetzter Arbeitsplatzrechner, die keine relevanten Daten speichern. Der Benutzer am Arbeitsplatzrechner sieht die volle Funktionalität des DBMS. Das System verhält sich wie ein zentrales Datenbanksystem, die Kommunikation ist für den Benutzer transparent

Verteiltes Datenbanksystem Hier gibt es mehrere Datenbankserver, wobei bestimmte Daten auf nur einem Rechner oder auch auf mehreren (replizit) gespeichert sein können. Eine virtuelle Datenbank, deren Komponenten physisch in einer Anzahl unterschiedlicher, real existierender DBMS abgebildet werden. Transaktionen können in diesem Fall über mehrere DBMS laufen. Sammlung von Daten, die Aufgrund gemeinsamer, verknüpfender Eigenschaften dem gleichen System angehören Auf versch. Rechnern im Netzwerk verteilt sind Wobei jeder Rechner seine eigene Datenbank besitzt Autonom lokal Aufgaben abwickeln kann

Verteiltes Datenbanksystem - gleichzeitige Benutzung der Rechenleistung mehrerer Rechner - Engpaß in zentralen Datenbanksystemen bei Zugriff auf die Daten wird vermieden, da die Daten verteilt sind (ggf. repliziert) - Daten werden von einem Datenbanksystem verwaltet - Verteilungstransparenz - Grundlage: 4-Ebenen-Schema-Architektur

Verteiltes Datenbanksystem externes Schema 1 . . . externes Schema N konzeptionelles Schema lokales konzept. Schema lokales konzept. Schema lokales konzept. Schema . . . lokales internes Schema lokales internes Schema lokales internes Schema . . . 4 - Ebenen - Schema - Architektur

Multidatenbanksystem - Ein MDBS ist ein Verbund von mehreren Datenbanksystemen. - Das Konzeptionelle Schema repräsentiert nur den Teil von Daten, den die lokalen DBMS teilen wollen. - Auf jedes DBS können lokale Anwendungen zugreifen. - Jedes DBS kann Daten enthalten, welche keine Beziehung zu Daten anderer DBS haben.

Multidatenbanksystem GES GES GES LES LES LES LES LES LES GKS LKS 1 ... LKS n LIS 1 ... LIS n Modell mit globalem konzeptionellem Schema

Multidatenbanksystem ES 1 ES 2 ES 3 MDB-Schicht Lokale System -Schicht LKS 1 LKS 2 LKS 3 LIS 1 LIS 2 LIS 3 Modell ohne globales konzeptionelles Schema

6. Design

6. Design Entwurfsmethodik top-down: von den Anforderungen zum Systementwurf; geeignet für Neuentwicklungen. bottom-up: Integration bestehender Datenbanken zu einer verteilten; typisch bei heterogenen Datenbanken. Datenverteilung Fragmentierung der Daten zur Bildung logischer Einheiten, Verteilung der Fragmente auf den Sites: Allokation aller Fragmente an jeder Site (volle Replikation) oder jedes Fragment an mehr als einer Site (partielle Replikation) oder jedes Fragment an genau einer Site (Partitionierung).

Die Trennung von Fragmentierung und Allokation dient der Vereinfachung des Entwurf. Globales Schema: Definition der Relationen eines vDBS ohne Berücksichtigung der Verteilung, Fragmentierungsschema: Definition der Abbildung zwischen globalen Relationen und Fragmenten, Allokationsschema: Definition der Abbildung zwischen Fragmenten und Sites. Der Zugriff zu den Daten soll hinsichtlich Fragmentierung, Lokation, und Replikation transparent sein.

R1 R1,1 S1 R2 R R2,1 R1,2 R3 R4 Globale Relation S2 R2,2 Fragmente Fragmente und ihre Allokation Allokation an den Sites R3,3 S3 R4,3

Beispiel: horizontale Fragmentierung

Beispiel: abgeleitete horizontale Fragmentierung

Beispiel: vertikale Fragmentierung

Was ist die „optimale“ Zuordnung von F zu S bzgl. Q? Allokation Sei F = {F1, ..., Fn} eine Menge von Fragmenten, S = {S1, ..., Sm} ein Netzwerk gegeben durch die Menge seiner Sites, und Q = {Q1, ..., Qp} die Menge der relevanten Anwendungen. Allokationsproblem: Was ist die „optimale“ Zuordnung von F zu S bzgl. Q? Optimaltätskriterium: Minimalität der Kosten gegeben durch die Speicherkosten der Fi an den Sites Sj, der Anfragekosten für Fi an Site Sj, der Änderungskosten der Fi an allen Sites an den sie gespeichert sind, und die Kosten der Datenkommunikation. Performanz im Sinne von Antwortzeiten oder Systemdurchsatz.

Ende