Externspeicher- Algorithmen:Teil 2

Externspeicher- Algorithmen:Teil 2
Algorithmen und Datenstrukturen 2 Petra Mutzel Technische Universität Wien Institut für Computergraphik und Algorithmen

Solving Linear and Integer Programs Montag, 7. April 2003, 17 Uhr s.t.
Robert E. Bixby: Solving Linear and Integer Programs Montag, 7. April 2003, 17 Uhr s.t. Informatik-Kolloquium Zemanek-Hörsaal, Favoritenstraße

Externe Array-Heaps Lemma 1: li+1=li (μ+1) li=(cM)i/Bi-1 l2 c=1/7
Slots: enthalten sortierte Folge oder sind leer L Schichten Li L3 li=(cM)i/Bi-1 L2 L1 l2 c=1/7 L<=4 μ=(cM/B)-1 μ μ

I/O Schranken Theorem:
Annahme: cM>3B und 0<c<1/3 und N<=B(cM/B)1/c-3 In einer Folge von N Operationen der Art Insert und Del_Min benötigt Insert amortisiert 18/B(log cM/B(N/B)) I/O´s und Del_Min 7/B amortisierte I/O´s.

Beweis: Amortisierte Analyse (1)
Insert: 18/B(log cM/B(N/B)) >= 18L/B I/O´s Del_Min 7/B amortisierte I/O´s. Bankkonto-Methode: Jedes Element erhält beim Einfügen ein Guthaben von 18L/B Wir zeigen: es werden höchstens 18/B benötigt um von einer zur anderen Schicht zu wandern Beim Entfernen werden 7/B Einheiten im Heap belassen

Insert mit Overflow kostet 6li+1/B, denn: Merge_level(i,S;S´): kostet 3li+1/B und Store(i+1,S´): kostet 3li+1/B Wie können diese Kosten bezahlt werden? Fall1: 1. Overflow zur Schicht L1: Jedes Element, das mittels nun bewegt wird, gibt von ihrem Bakkonto jeweils 12/B Einheiten dafür ab; da Schicht L2 mindestens zur Hälfte gefüllt ist, kommen so (12/B) (l2/2)=6l2 / B Einheiten zusammen. (Interpretation: stellen Sie sich vor, jedes Element erhält beim Einfügen (anfangs) 18L/B Einheiten; nun möchten die Elemente in die Schicht L2 wechseln, das kostet aber insgesamt 6l2/B. Diese können dadurch aufgebracht werden, indem alle bewegten Elemente jeweils 12/B Einheiten von ihrem momentanen Bankkonto abgeben.)

Insert mit Overflow kostet 6li+1/B, denn: Merge_level(i,S;S´): kostet 3li+1/B und Store(i+1,S´): kostet 3li+1/B Fall2: Overflow von Schicht Li nach Li+1: Jedes Element hatte ja anfangs 18L/B Einheiten zur Verfügung; das sind für jede Schicht (also auch für Schicht i) genau 18/B Einheiten, die das Element verbrauchen kann. Da Schicht Li mindestens zur Hälfte gefüllt ist, können diese Kosten (genauso wie im 1. Fall) durch 12/B Einheiten von den Bankkonten der bewegten Elemente genommen werden. Beobachtung: Damit hat jedes Element nach der Merge_level() und Store()-Operation noch 6/B Einheiten pro Schicht übrig.

Invariante: Zu jedem nicht-leeren Slot j der Schicht Li gehört ein Deposit Di,j von 6x/B, wobei x die Anzahl der freien Felder in j entspricht. Das heisst: Um die Invariante zu erfüllen, muss jedes durch den Store() Aufruf nach Schicht Li+1 bewegte Element 6/B Einheiten an Di,j abgeben Insgesamt: kostet also eine Merge_Level() und eine Store() Operation pro Overflow (Schicht) 18/B Einheiten per Element.

Beim Entfernen werden 7/B=(1+6)/B Einheiten im Heap belassen Eine Load()-Operation wird durch das Nehmen von B(1/B)=1 Einheiten aus dem Heap bezahlt. Diese Einheiten kamen jeweils durch die letzten (aus Slot j) B entfernten Elemente zustande. Die restlichen B(6/B)=6 Einheiten dieser entfernten Elemente werden dem Di,j zugeordnet, auf dem Load() operiert hat (denn danach sind es dort B Einheiten weniger, es werden also 6*B/B=6 Einheiten mehr in Di,j benötigt). Insgesamt: sind das 7/B Einheiten für die Load() Operation

Es bleibt: die Bezahlung für Compact(i): 3li/B Dies wird durch die Deposits Di,j an den slots j1 und j2, die kompaktiert werden, bezahlt: Die Gesamtanzahl der leeren Plätze in den slots j1 und j2 ist mindestens li. Dafür gibt es in den Deposits Di,j1 und Di,j2 zusammen mindestens 6li/B Einheiten. Nach dem Mischen gibt es in Di,j1 höchstens li/2 freie Slots, d.h. für das neue Di,j1 werden nur 3li/2 Einheiten benötigt Die anderen 3li/2 Einheiten werden für Compact(i) ausgegeben.

Die Vorlesung hält sich eng an:
Literatur Die Vorlesung hält sich eng an: Andreas Crauser: LEDA-SM: External Memory Algorithms and Data Structures in Theory and Praxis. Dissertation, Max-Planck-Institut für Informatik, Saarbrücken, Kapitel 4: Priority Queues; Klaus Brengel, Andreas Crauser, Paolo Ferragina, Ulrich Meyer: An Experimental Study of Priority Queues in External Memory, Proc. of the Workshop on Algorithmic Engineering (WAE ´99), Lecture Notes in Computer Science 1668, , Springer-Verlag, 1999

Donald E. Knuth: The Art of Computer Programming 1967 (Neuauflage 1998):
When this book was first written, magnetic tapes were abundant and disk drives were expensive. But disks became enormously better during the 1980s,... . Therefore the once-crucial topic of patterns for tape merging has become of limited relevance to current needs. Yet many of the patterns are quite beautiful, and the associated algorithms reflect some of the best research done in computer science during ist early years; The techniques are just too nice to be discarded abruptly onto the rubbish heap of history. ... Therefore merging patterns are discussed carefully and completely below, in what may be their last grand appearance before they accept a final curtain call.

Pavel Curtis in Knuth:``The Art of Computer Programming´´ 1967 (Neuauflage 1998):
For all we know now, these techniques may well become crucial once again.

Cache-Optimale Algorithmen
Teil 2: Cache-Optimale Algorithmen

Hierarchisches Speichermodell moderner Computer
Problem: Speicherhierarchie, alle mit anderer Block-größe und Kapazität Hierarchisches Speichermodell moderner Computer Extern- speicher Arbeits- Speicher Kapazität M L = Anzahl der Elemente, die in eine Zeile passen Cache Kapazität Z CPU B = Anzahl der Elemente, die in einen Block passen Faktor 100 schneller als Hits vs. Cache misses Auch zur Cache-Optimierung könnte EM-Seichermodell verwendet werden

Lösung: ``Cache-oblivious´´ Speichermodell
Blockgröße B und Kapazität M sind unbekannt Eine Algorithmen-Analyse muss für alle Blockgrößen und Kapazitäten gelten ---also auch für alle Speicherhierarchie-Ebenen Dies erhöht die Portabilität von Programmen: eben nicht für festes B und M entwickelt Dies garantiert optimale Speicherzugriffe auf jeder Speicherhierarchie-Ebene.

Das ``ideal-cache´´-Modell von Frigo et al. 1999
Z/L Cache-Zeilen der Länge L Arbeits- speicher beliebig groß Cache-misses CPU L = Anzahl der Wörter, die in eine Cache- Zeile passen Kapazität: Z Bytes 2-Ebenen Speicherhierarchie Annahme: Z=Ω(L2): ``Cache ist hoch´´

Das ``ideal-cache´´-Modell von Frigo et al. 1999
CPU kann nur Wörter bearbeiten, die sich im Cache befinden Wenn sich ein referenziertes Wort im Cache befindet: Cache-Hit Sonst: Cache miss: Zeile muss erst in den Cache gebracht werden. Praxis: least recently used Falls der Cache voll ist, muß eine Cache-Zeile vorher entfernt werden. Der ideale Cache entfernt diejenige off-line optimale Zeile, die zuletzt (zeitlich) wieder benötigt wird.

``Cache-oblivious´´ Analyse
Cache-Komplexität Q(n,Z.L): die Anzahl der Cache-Misses, abhängig von Z und L (n Eingabegröße der Instanz). Die Anzahl der ausgeführten CPU-Operationen im RAM Modell T(n) Ein Algorithmus heisst ``Cache-Aware´´ (Cache-bewußt), wenn er Parameter enthält, mit denen die Cache-Komplexität für gegebenes Z und L optimiert werden kann. Andernfalls heißt der Algorithmus ``Cache-oblivious´´ (Cache-ignorierend). Ein optimaler ``Cache-oblivious´´ Algorithmus für 2 Ebenen, ist auch für mehrere Ebenen optimal.

Beispiel: Matrix-Multiplikation
Cache-Aware Algorithmus Algorithmus BLOCK_MULT(A,B,C,n) Für i=1 bis n/s Für j=1 bis n/s Für k=1 bis n/s MULT(Aik,Bkj,Cij,s); MULT(A,B,C,s) ist die Standard-Prozedur, die C=C+AB auf sxs Untermatrizen in Zeit O(s3) berechnet. Insgesamt: Θ(1+n2/L+(n/√Z)3(Z/L))=Θ(1+n2/L+n3√Z/L) Annahme: s ist Teiler von n s sei der größte Wert, so dass die drei Untermatrizen zusammen in den Cache passen. Eine sxs Untermatrix benötigt ((s+s2)/L) Cache Zeilen. Der Cache besitzt Z/L Cache Zeilen. Cahe hat Größe Z: 3s2<=Z: s=Θ(√Z). Jeder Aufruf von MULT() benötigt höchstens Z/L=Θ(s2/L)=Θ(Z/L) Cache-Misses, um die drei Untermatrizen in den Cache zu bringen.

Cache-Oblivious Algorithmus
Idee: Divide & Conquer Prinzip A: mxn Matrix, B: nxp Matrix Fall 1: m>= max{n,p}: splitte A horizontal in A1 und A2 mit jeweils m/2 Zeilen; es folgen 2 Aufrufe der Form A1B und A2B. Denn es gilt: Fall 2: n>= max{m,p}: splitte A vertikal in A1 und A2 mit jeweils n/2 Spalten und B horizontal in B1 und B2 mit jeweils n/2 Zeilen. Denn es gilt

Cache-Oblivious Algorithmus
Idee: Divide & Conquer Prinzip A: mxn Matrix, B: nxp Matrix Fall 3: p>= max{m,n}: splitte B vertikal in B1 und B2 mit jeweils p/2 Spalten. Denn es gilt: Fall 4: Falls m=n=p=1 gilt, dann werden die beiden Elemente multipliziert und zur resultierenden Matrix C hinzuaddiert.

Analyse des Cache-Oblivious Algorithmus
Theorem: Der Algorithmus benötigt Θ(mnp) Zeit im RAM Modell. Die Cache Komplexität beträgt Θ(m+n+p+(mn+np+mp)/L+mnp√Z/L) Cache-Misses. Theorem: Zur Multiplikation zweier nxn Matrizen benötigt der Algorithmus REC_MULT Θ(n3) Zeit im RAM Modell und Θ(n+n2/L+n3√Z/L) Cache-Komplexität. Gegenüberstellung BLOCK_MULT: Θ(1+n2/L+(n/√Z)3(Z/L))=Θ(1+n2/L+n3√Z/L)

Analyse des Cache-Oblivious Algorithmus
Intuitiv benutzt der Algorithmus den Cache effektiv, denn: sobald ein Unterproblem ganz in den Cache passt, können dessen Unterprobleme ohne einen einzigen Cache-Miss gelöst werden. Deswegen sind Divide&Conquer Verfahren grundsätzlich sehr gut für große Datenmengen geeignet. Divide&Conquer Verfahren sind grundsätzlich gute Kandidaten für Cache-optimale Algorithmen.

Algorithmus mit besserer Laufzeit
Verfahren von Strassen (1986) zur Matrixmultiplikation Auch ein Divide&Conquer Verfahren: jede Untermatrix wird in 4 Viertel der Höhe und Länge jeweils ungefähr n/2 zerlegt RAM-Komplexität: Θ(N log 7)=Θ(N2,81) Cache-Komplexität: Θ(n+n2/L+n log 7 √Z/L) In Praxis: sehr aufwändig zu implementieren Für n<= noch ungefähr genauso langsam wie REC_MULT Eher theoretischer, aber überraschender Beitrag Offenes Problem!

Ende von External Memory 2
Weiterführende Literatur Frigo, Leiserson, Prokop, Ramachandran: Cache-Oblivious Algorithms, MIT, Cambridge IEEE Transactions, 1999 Ende von External Memory 2

Vielen Dank

Externspeicher- Algorithmen:Teil 2

Ähnliche Präsentationen

Präsentation zum Thema: "Externspeicher- Algorithmen:Teil 2"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Externspeicher- Algorithmen:Teil 2

Ähnliche Präsentationen

Präsentation zum Thema: "Externspeicher- Algorithmen:Teil 2"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback