Kapitel 7 Physische Datenorganisation  Speicherhierarchie  Hintergrundspeicher / RAID  Speicherstrukturen  B-Bäume  Hashing  R-Bäume.

Slides:



Advertisements
Ähnliche Präsentationen
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Advertisements

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Die Projektgruppe heißt Sie herzlichst willkommen
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Übersicht RAID-Verfahren Labor für Betriebsdatenverarbeitung
Telefonnummer.
Kapitel 7 Physische Datenorganisation
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Statistiken und Tabellen
Physische Datenorganisation
Kapitel 7 Physische Datenorganisation
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Mh9S170Nr6 a. x1= –9; x2 = 1 b. x1= –4; x2 = 1 c. x1= 1; x2 = 2 d. leer e. x1= –15; x2 = 4,2 f. x1= –3,53; x2 = 1,28 g. leer h. x1= 0,2; x2 = 2 i. x1=
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Mittelwert, Median, Quantil
Differentielles Paar UIN rds gm UIN
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
1 Kapitel 5: Mehrdimensionale Suchstrukturen. 2 Mehrdimensionale Suchstrukturen Alterzwischen 20 und 30 Einkommenzwischen 2000 und 3000 PLZzwischen
Elektrische Leitfähigkeit Nein Formel des Oxids X2OX2O Wässr. Lsg. des Oxids reagiert neutral Siedetemperatur -253°C Atommasse 1 u Atomradius 37 pm Protonenzahl.
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Logischen Grundverknüpfungen
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Martin Kornmeier/Willy Schneider (Hrsg.): Reihe BA-kompakt
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
20:00.
Zusatzfolien zu B-Bäumen
Eine Einführung in die CD-ROM
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Peter Kloeppel Juni 2007 Vision der Television RTL Television.
Dokumentation der Umfrage
Wir üben die Malsätzchen
Syntaxanalyse Bottom-Up und LR(0)
DW-Architektur: Row Store vs Column Store
nein X2O neutral -253°C 1 u 37 pm Elektrische Leitfähigkeit
Überlagerungsgesetz - Uq – Uq –– uq ~m Uq –+ uq ~m V-105.
Addieren und Subtrahieren von Dezimalzahlen
Messung der Ionisierungsenergie von Wasserstoff
Aufgabensammlung Thermodynamik Frank-Michael Barth ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures.
Der Ablauf eines Clear Rex Klärzyklus
PROCAM Score Alter (Jahre)
Vorlesung Datenbanksysteme vom Physische Datenorganisation
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Eine lllustration der Herausforderungen des Stromsystems der Zukunft
Symmetrische Blockchiffren DES – der Data Encryption Standard
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Vorlesung Datenbanksysteme WS 2.0 Christoph Koch (Subject: DBVO:...
Parkplatz-Orga Diese Version ist vom finale Version!
Sachbezugswerte 2007 (SV-Entgeltverordnung) Sachbezugswerte für freie Verpflegung FrühstückMittagessenAbendessen 1,50 2,67 Monatlicher Wert Verpflegung.
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Zusammengestellt von OE3DSB
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Abschlussball 2009 Übersicht Ballimpressionen Originalbilder in hoher Qualität findet man im Ordner Ballimpressionen-einzelne-Fotos. Auf jeder Folie stehen.
Richten Mit klicken weiter.
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Projekt Messendorferstraße Graz TOP 1-33 /EG Wohnhaus 1 Grundstück 2 Schlafen10,28 m² Wohnen /Kochen 15,35 m² Diele 2,50 m² Bad mit WC 4,40m² Terrasse.
AGOF facts & figures: Branchenpotenziale im Internet Q2 2014: Parfum & Kosmetik Basis: internet facts / mobile facts 2014-I.
Bürgermeister Absolute Stimmen Gesamt. Bürgermeister Prozentuale Aufteilung Gesamt.
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Vorlesung Datenbanksysteme vom Physische Datenorganisation
 Präsentation transkript:

Kapitel 7 Physische Datenorganisation  Speicherhierarchie  Hintergrundspeicher / RAID  Speicherstrukturen  B-Bäume  Hashing  R-Bäume

2 Überblick: Speicherhierarchie Register (L1/L2/L3) Cache Hauptspeicher Plattenspeicher Archivspeicher

3 Überblick: Speicherhierarchie Register Cache Hauptspeicher Plattenspeicher Archivspeicher 1 – 8 Byte Compiler 8 – 128 Byte Cache-Controller 4 – 64 KB Betriebssystem Benutzer

4 Überblick: Speicherhierarchie 1-10ns Register ns Cache ns Hauptspeicher 10 ms Plattenspeicher sec Archivspeicher Zugriffslücke 10 5

5 Überblick: Speicherhierarchie 1-10ns Register ns Cache ns Hauptspeicher 10 ms Plattenspeicher sec Archivspeicher Zugriffslücke 10 5 Kopf (1min) Raum (10 min) München (1.5h) Pluto (2 Jahre) Andromeda (2000 Jahre)

6

7 Magnetplattenspeicher

rpm ~ 4 ms pro Umdreh. 1 TB Kapazität 100 MB/s Transferrate < 1$ / GB

9 Lesen von Daten von der Platte  Seek Time: Arm positionieren  5ms  Latenzzeit: ½ Plattenumdrehung (im Durchschnitt)  Umdrehungen / Minute   Ca 2ms  Transfer von der Platte zum Hauptspeicher  100 MB/s

10 Random versus Chained IO  1000 Blöcke à 4KB sind zu lesen  Random I/O  Jedesmal Arm positionieren  Jedesmal Latenzzeit   1000 * (5 ms + 2 ms) + Transferzeit von 4 MB   > 7000 ms + 40ms  7s  Chained IO  Einmal positionieren, dann „von der Platte kratzen“   5 ms + 2ms + Transferzeit von 4 MB   7ms + 40 ms  1/20 s  Also ist chained IO mindestens zwei Größenordnungen schneller als random IO  in Datenbank-Algorithmen unbedingt beachten !

11 Disk Arrays  RAID-Systeme

12

13 RAID 0: Striping  Lastbalancierung wenn alle Blöcke mit gleicher Häufigkeit gelesen/geschrieben werden  Doppelte Bandbreite beim sequentiellen Lesen der Datei bestehend aus den Blöcken ABCD...  Aber: Datenverlust wird immer wahrscheinlicher, je mehr Platten man verwendet (Stripingbreite = Anzahl der Platten, hier 2) A C B D ABCD Datei

14 RAID 1: Spiegelung (mirroring)  Datensicherheit: durch Redundanz aller Daten (Engl. mirror)  Doppelter Speicherbedarf  Lastbalancierung beim Lesen: z.B. kann Block A von der linken oder der rechten Platte gelesen werden  Aber beim Schreiben müssen beide Kopien geschrieben werden  Kann aber parallel geschehen  Dauert also nicht doppelt so lange wie das Schreiben nur eines Blocks A C B D A C B D

15  Kombiniert RAID 0 und RAID 1  Immer noch doppelter Speicherbedarf  Zusätzlich zu RAID 1 erzielt man hierbei auch eine höhere Bandbreite beim Lesen der gesamten Datei ABCD....  Wird manchmal auch als RAID 10 bezeichnet RAID 0+1: Striping und Spiegelung A C A C B D B D

16 RAID 2: Striping auf Bit-Ebene  Anstatt ganzer Blöcke, wie bei RAID 0 und RAID 0+1, wird das Striping auf Bit- (oder Byte-) Ebene durchgeführt  Es werden zusätzlich auf einer Platte noch Fehlererkennungs- und Korrekturcodes gespeichert  In der Praxis nicht eingesetzt, da Platten sowieso schon Fehlererkennungscodes verwalten Datei

17 RAID 3: Striping auf Bit-Ebene, zusätzliche Platte für Paritätsinfo  Das Striping wird auf Bit- (oder Byte-) Ebene durchgeführt  Es wird auf einer Platte noch die Parität der anderen Platten gespeichert. Parität = bit-weise xor   Dadurch ist der Ausfall einer Platte zu kompensieren  Das Lesen eines Blocks erfordert den Zugriff auf alle Platten  Verschwendung von Schreib/Leseköpfen  Alle marschieren synchron Datei  Parität

18 RAID 3: Plattenausfall Datei  Parität Reparatur

19 RAID 4: Striping von Blöcken  Bessere Lastbalancierung als bei RAID 3  Flaschenhals bildet die Paritätsplatte  Bei jedem Schreiben muss darauf zugegriffen werden  Bei Modifikation von Block A zu A‘ wird die Parität P A-D wie folgt neu berechnet:  P‘ A-D := P A-D  A  A‘  D.h. bei einer Änderung von Block A muss der alte Zustand von A und der alte Paritätsblock gelesen werden und der neue Paritätsblock und der neue Block A‘ geschrieben werden AEBF CG DH P A-D P E-H

20 RAID 4: Striping von Blöcken  Flaschenhals bildet die Paritätsplatte  Bei jedem Schreiben muss darauf zugegriffen werden  Bei Modifikation von Block A zu A‘ wird die Parität P A-D wie folgt neu berechnet:  P‘ A-D := P A-D  A  A‘  D.h. bei einer Änderung von Block A muss der alte Zustand von A und der alte Paritätsblock gelesen werden und der neue Paritätsblock und der neue Block A‘ geschrieben werden Datei  Paritäts block

21 RAID 5: Striping von Blöcken, Verteilung der Paritätsblöcke  Bessere Lastbalancierung als bei RAID 4  die Paritätsplatte bildet jetzt keinen Flaschenhals mehr  Wird in der Praxis häufig eingesetzt  Guter Ausgleich zwischen Platzbedarf und Leistungsfähigkeit AEBF CG D HP A-D P E-H IMJ O LN K PP I-L P M-P

22 RAID 6: Wie RAID5, aber zwei Paritätsblöcke  Recovery bei RAID 5 kann mehrere Stunden dauern  Ausfall während Recovery führt zu Totalverlust der Daten  RAID6 kann auch einen Ausfall während der Recovery-Phase verkraften AEF CG D HP A-D P E-H I MJ O LN K PP I-L P M-P P E-H B P A-D P I-L P M-P

23 Lastbalancierung bei der Blockabbildung auf die Platten

24 Parallelität bei Lese/Schreib- Aufträgen

25 Bewertung der Parallelität bei RAID  RAID 0  ?  RAID 1  ?  RAID 0+1  ?  RAID 3  ?  RAID 4  ?  RAID 5  ?

26 verdrängen Hauptspeicher einlagern Platte ~ persistente DB Systempuffer-Verwaltung

27 Ein- und Auslagern von Seiten  Systempuffer ist in Seitenrahmen gleicher Größe aufgeteilt  Ein Rahmen kann eine Seite aufnehmen  „Überzählige“ Seiten werden auf die Platte ausgelagert Platte (swap device) Hauptspeicher 04K8K12K 28K 44K 60K 40K 48K 24K20K 16K 32K 36K 56K52K P480 P123 Seitenrahmen Seite

28 Adressierung von Tupeln auf dem Hintergrundspeicher

29 Verschiebung innerhalb einer Seite

30 Verschiebung von einer Seite auf eine andere Forward

31 Verschiebung von einer Seite auf eine andere Bei der nächsten Verschiebung wird der „Forward“ auf Seite 4711 geändert (kein Forward auf Seite 4812)

Neue Entwicklungen  Hauptspeicher-Datenbanksysteme  Times Ten  Transact in Memory  Monet DB  TREX von SAP  Columns Store versus Row Store  C-Store / Vertica  Monet  TREX 32

33

34 Überblick: Speicherhierarchie 1-10ns Register ns Cache ns Hauptspeicher 10 ms Plattenspeicher sec Archivspeicher Zugriffslücke 10 5

35

Row Store versus Column Store 36

Row Store versus Column Store 37

Anfragebearbeitung 38

Komprimierung 39

B-Bäume Balancierte Mehrwege-Suchbäume Für den Hintergrundspeicher

41

42

43

44 S.. Suchschlüssel D.. Weitere Daten V.. Verweise (SeitenNr)

45

46

47 Einfügen eines neuen Objekts (Datensatz) in einen B-Baum

48 Sukzessiver Aufbau eines B-Baums vom Grad k=

49 Sukzessiver Aufbau eines B-Baums vom Grad k=

50 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

51 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

52 Sukzessiver Aufbau eines B-Baums vom Grad k= ? 10

53 Sukzessiver Aufbau eines B-Baums vom Grad k= ? 10

54 Sukzessiver Aufbau eines B-Baums vom Grad k= ? 10 1

55 Sukzessiver Aufbau eines B-Baums vom Grad k= ? 10 1

56 Sukzessiver Aufbau eines B-Baums vom Grad k= ? 10 1

57 Sukzessiver Aufbau eines B-Baums vom Grad k= ? 10 1

58 Sukzessiver Aufbau eines B-Baums vom Grad k= ? 10 2

59 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

60 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

61 Sukzessiver Aufbau eines B-Baums vom Grad k= ? 10 4

62 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

63 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

64 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

65 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

66 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

67 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

68 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

69 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

70 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

71 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

72 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

73 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

74 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

75 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

76 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

77 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

78 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

79 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

80 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

81 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

82 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

83 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

84 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

85 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

86 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

87 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

88 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

89 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

90 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

91

92 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

93 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

94 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

95 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

96 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

97 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

98 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

99 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

100 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

101 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

102 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

103 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

104 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

105 Sukzessiver Aufbau eines B-Baums vom Grad k= ? B-Baum mit Minimaler Speicherplatz- ausnutzung

106 Sukzessiver Aufbau eines B-Baums vom Grad k= ? B-Baum mit Minimaler Speicherplatz- ausnutzung

107

108 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

109 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

110 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

111 Sukzessiver Aufbau eines B-Baums vom Grad k= ? Unterlauf

112 Sukzessiver Aufbau eines B-Baums vom Grad k= ? Unterlauf

113 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

114 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

115 Sukzessiver Aufbau eines B-Baums vom Grad k= ? Unterlauf

116 Sukzessiver Aufbau eines B-Baums vom Grad k= ? merge

117 Sukzessiver Aufbau eines B-Baums vom Grad k= ? merge

118 Sukzessiver Aufbau eines B-Baums vom Grad k= ? Unterlauf

119 Sukzessiver Aufbau eines B-Baums vom Grad k= ? merge

120 Sukzessiver Aufbau eines B-Baums vom Grad k= ? merge

121 Sukzessiver Aufbau eines B-Baums vom Grad k= ?

122 Sukzessiver Aufbau eines B-Baums vom Grad k= ? Schrumpfung, Freie Knoten

123 Speicherstruktur eines B-Baums auf dem Hintergrundspeicher 4 Speicherblock Nr 4

124 Speicherstruktur eines B-Baums auf dem Hintergrundspeicher 3 0 Datei 8 KB-Blöcke 0*8KB 1*8KB 2*8KB 3*8KB 4*8KB Block- Nummer

125 Speicherstruktur eines B-Baums auf dem Hintergrundspeicher 3 0 Datei 8 KB-Blöcke 0*8KB 1*8KB 2*8KB 3*8KB 4*8KB Block- Nummer

126 Speicherstruktur eines B-Baums auf dem Hintergrundspeicher 3 0 Datei 8 KB-Blöcke 0*8KB 1*8KB 2*8KB 3*8KB Freispeicher- Verwaltung 4*8KB Block- Nummer

127 Zusammenspiel: Hintergrundspeicher -- Hauptspeicher Hintergrundspeicher 4 4 Hauptspeicher- Puffer Zugriffslücke 10 5

128 B + -Baum Referenz- schlüssel Such- schlüssel

129

130

131 Mehrere Indexe auf denselben Objekten B-Baum Mit (PersNr, Daten) Einträgen Name, Alter, Gehalt... B-Baum Mit (Alter, ???) Einträgen Alter, PersNr

132 Mehrere Indexe auf denselben Objekten B-Baum Mit (PersNr, Daten) Einträgen Name, Alter, Gehalt... B-Baum Mit (Alter, ???) Einträgen Alter, PersNr Wer ist 20 ? 20, 007

133 Mehrere Indexe auf denselben Objekten B-Baum Mit (PersNr, Daten) Einträgen Name, Alter, Gehalt... B-Baum Mit (Alter, ???) Einträgen Alter, PersNr Wer ist 20 ? 20, ,Bond,20,...

134 Eine andere Möglichkeit: Referenzierung über Speicheradressen PersNr Alter 007,... 20, , Bond, 20,...

135 Realisierungstechnik für Hintergrundspeicher-Adressen Seiten / Blöcke (ca 8 KB)

136 Adressierung von Tupeln auf dem Hintergrundspeicher

137 Verschiebung innerhalb einer Seite

138 Verschiebung von einer Seite auf eine andere Forward

139 Verschiebung von einer Seite auf eine andere Bei der nächsten Verschiebung wird der „Forward“ auf Seite 4711 geändert (kein Forward auf Seite 4812)

140 „Statische“ Hashtabellen  À priori Allokation des Speichers  Nachträgliche Vergrößerung der Hashtabelle ist „teuer“  Hashfunktion h(...) =... mod N  Rehashing der Einträge  h(...) =... mod M  In Datenbankanwendungen viele GB  Erweiterbares Hashing  Zusätzliche Indirektion über ein Directory  Ein zusätzlicher Zugriff auf ein Directory, das den Zeiger (Verweis, BlockNr) des Hash-Bucket enthält  Dynamisches Wachsen (und Schrumpfen) ist möglich  Der Zugriff auf das Directory erfolgt über einen binären Hashcode

141

142 Statisches Hashing

143

144 Hashfunktion für erweiterbares Hashing  h: Schlüsselmenge   {0,1}*  Der Bitstring muss lang genug sein, um alle Objekte auf ihre Buckets abbilden zu können  Anfangs wird nur ein (kurzer) Präfix des Hashwertes (Bitstrings) benötigt  Wenn die Hashtabelle wächst wird aber sukzessive ein längerer Präfix benötigt  Beispiel-Hashfunktion: gespiegelte binäre PersNr  h(004) = (4= )  h(006) = (6= )  h(007) = (7 = )  h(013) = (13 = )  h(018) = (18 = )  h(032) = (32 = )  H(048) = (48 = )

147

Einfügen: 12 12=1100 h(12)=

Einfügen: 20 20=10100 h(20)= Overflow

151 h(12)= h(4) = h(20)=

152 h(12)= h(4) = h(20)=

153

154

155

156

157  Wertbasierter Zugriff auf der Grundlage mehrerer Attribute, dies einzeln oder in beliebigen Kombinationen.  Typische Anforderungen aus CAD, VLSI-Entwurf, Kartographie,...  Anfragen decken den Bereich ab zwischen  mehrdimensionalem Punktzugriff (EMQ) und  mehrdimensionalen Bereichsanfragen (RQ)  Lösung mit eindimensionalen Indexen  erfordert konjunktive Zerlegung der Anfrage in Einattributanfragen und Schnittmengenbildung  bedingt hohe Speicherredundanz  Problemstellung:  Mehrdimensionale Nachbarschaftsverhältnisse Mehrdimensionale Datenstrukturen

158  Wertebereiche D 0,..., D k-1 : alle D i sind endlich, linear geordnet und besitzen kleinstes (-  i ) und größtes (  i ) Element  Datenraum D = D 0 ...  D k-1  k-dimensionaler Schlüssel entspricht Punkt im Datenraum p  D Grundlagen mehrdimensionaler Datenstrukturen

Exact Match Query spezifiziert Suchwert für jede Dimension D i 2. Partial Match Query spezifiziert Suchwert für einen Teil der Dimensionen 3. Range Query spezifiziert ein Suchintervall [ug i, og i ] für alle Dimensionen 4. Partial Range Query spezifiziert ein Suchintervall für einen Teil der Dimensionen Grundlagen mehrdimensionaler Datenstrukturen

160 Mehrdimensionale Zugriffsstrukturen können gemäß der Art der Aufteilung des Datenraums in Gebiete charakterisiert werden: 1. nur atomare Gebiete (beschreibbar durch ein Rechteck) 2. vollständig (die Vereinigung aller Gebiete ergibt den gesamten Datenraum) 3. disjunkt (die Gebiete überlappen nicht) Charakterisierung mehrdimensionaler Datenstrukturen Grid-File (Gitter-Datei): atomar, vollständig, disjunkt

161 Mehrdimensionale Zugriffsstrukturen können gemäß der Art der Aufteilung des Datenraums in Gebiete charakterisiert werden: 1. nur atomare Gebiete (beschreibbar durch ein Rechteck) 2. vollständig (die Vereinigung aller Gebiete ergibt den gesamten Datenraum) 3. disjunkt (die Gebiete überlappen nicht) Charakterisierung mehrdimensionaler Datenstrukturen K-D-B-Baum: atomar, vollständig, disjunkt

162 Mehrdimensionale Zugriffsstrukturen können gemäß der Art der Aufteilung des Datenraums in Gebiete charakterisiert werden: 1. nur atomare Gebiete (beschreibbar durch ein Rechteck) 2. vollständig (die Vereinigung aller Gebiete ergibt den gesamten Datenraum) 3. disjunkt (die Gebiete überlappen nicht) Charakterisierung mehrdimensionaler Datenstrukturen R + -Baum: atomar, disjunkt

163 Mehrdimensionale Zugriffsstrukturen können gemäß der Art der Aufteilung des Datenraums in Gebiete charakterisiert werden: 1. nur atomare Gebiete (beschreibbar durch ein Rechteck) 2. vollständig (die Vereinigung aller Gebiete ergibt den gesamten Datenraum) 3. disjunkt (die Gebiete überlappen nicht) Charakterisierung mehrdimensionaler Datenstrukturen R-Baum: atomar

164 Mehrdimensionale Zugriffsstrukturen können gemäß der Art der Aufteilung des Datenraums in Gebiete charakterisiert werden: 1. nur atomare Gebiete (beschreibbar durch ein Rechteck) 2. vollständig (die Vereinigung aller Gebiete ergibt den gesamten Datenraum) 3. disjunkt (die Gebiete überlappen nicht) Charakterisierung mehrdimensionaler Datenstrukturen Buddy-Hash-Baum: atomar, disjunkt

165 Mehrdimensionale Zugriffsstrukturen können gemäß der Art der Aufteilung des Datenraums in Gebiete charakterisiert werden: 1. nur atomare Gebiete (beschreibbar durch ein Rechteck) 2. vollständig (die Vereinigung aller Gebiete ergibt den gesamten Datenraum) 3. disjunkt (die Gebiete überlappen nicht) Charakterisierung mehrdimensionaler Datenstrukturen Z-B-Baum: vollständig,disjunkt

166 R-Baum: Urvater der baum-strukturierten mehrdimensionalen Zugriffsstrukturen

167 Gute versus schlechte Partitionierung

168 Nächste Phase in der Entstehungsgeschichte des R-Baums

169 Nächste Phase

170 Datenraum

171 Wachsen des Baums: nach oben – wie im B-Baum

172 Datenraum

173 Datenraum und Speicherstruktur – Überblick

174

175 Bereichsanfragen auf dem R-Baum

176

177 Indexierung räumlicher Objekte (anstatt Punkten) mit dem R-Baum

178 Indexierung räumlicher Objekte (anstatt Punkten) mit dem R-Baum

179 Indexierung räumlicher Objekte (anstatt Punkten) mit dem R-Baum

Bitmap-Indexe  Optimierung durch Komprimierung der Bitmaps  Ausnutzung der dünnen Besetzung  Runlength-compression  Grundidee: speichere jeweils die Länge der Nullfolgen zwischen zwei Einsen  Mehrmodus-Komprimierung:  bei langen Null/Einsfolgen speichere deren Länge  Sonst speichere das Bitmuster

Beispiel-Anfrage und Auswertung

Bitmap-Operationen

Bitmap-Join-Index

B-Baum TID-V (i,II)(ii,I)(iii,II)(iv,II)(v,I)(vi,II)... B-Baum TID-K (I,i)(I,v)(II,i)(II,iii)(II,iv)(II,vi)...

B-Baum TID-V (i,II)(ii,I)(iii,II)(iv,II)(v,I)(vi,II)... B-Baum TID-K (I,i)(I,v)(II,i)(II,iii)(II,iv)(II,vi)...

B-Baum TID-V (i,II)(ii,I)(iii,II)(iv,II)(v,I)(vi,II)... Select k.* From Verkäufe v, Kunden k Where v.ProduktID = 5 And v.KundenNr = k.KundenNr 5 5

Select v.* From Verkäufe v, Kunden k Where k.KundenNr = 4711 and v.KundenNr = k.KundenNr B-Baum TID-K (I,i)(I,v)(II,i)(II,iii)(II,iv)(II,vi)...

189 Objektballung / Clustering logisch verwandter Daten

190

191

192

193 Unterstützung eines Anwendungsverhaltens Select Name From Professoren Where PersNr = 2136 Select Name From Professoren Where Gehalt >= and Gehalt <=

194 Indexe in SQL Create index SemsterInd on Studenten (Semester) drop index SemsterInd