ISWeb - Information Systems & Semantic Web Marcin Grzegorzek R-Baum und Varianten R-Baum X-Baum M-Baum.

Slides:



Advertisements
Ähnliche Präsentationen
8. Termin Teil B: Wiederholung Begriffe Baum
Advertisements

Der R-Baum Richard Göbel.
Randomisierte Algorithmen Präfix Suche und Konsistentes Hashing
Punkt-in-Polygon-Verfahren III (R/R+-Baum)
Grundlagen des A*-Algorithmus und Anwendung in der Routenplanung
Der k-d-Baum Richard Göbel.
Information Systems & Semantic Web University of Koblenz Landau, Germany 5. Feature - Transformationsverfahren 5.1 Diskrete Fourier-Transformation (DFT)
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Komplexe Distanzfunktionen 7. Effiziente Algorithmen und Datenstrukturen.
SST - Sequence Search Tree
GIN2 – 2. Vorlesung, SS04 Prof. Dr. Wolfram Conen
FH-Hof Der B-Baum Richard Göbel. FH-Hof Wahl des Verzweigungsgrad Verzweigungsgrad kann größer als 2 sein v Nachfolger für einen Knoten v-1 Werte in einem.
7. Natürliche Binärbäume
Gewichtsbalancierte Suchbäume
Durchlaufen eines Binärbaumes
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
Bäume • Kernidee: Speicherung von Daten in einer Baumstruktur
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.3 Karhunen-Loeve-Transformation Minimalität und Orthogonalität innerhalb.
Andreas Kalender Institut für Informatik FU Berlin Seminar über Algorithmen Durchschnittsverzögerung.
Lehrstuhl Informatik III: Datenbanksysteme Achim Landschoof 28. April 2009 Strukturierte P2P Systeme 1 Achim Landschoof Betreuerin: Dipl.-Inf. Jessica.
Der R-Baum Richard Göbel.
Effizienz: Indexstrukturen
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (15 Hashverfahren: Verkettung der Überläufer) Prof. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.
Algorithmen und Datenstrukturen
R-tree, R*-tree und R+-tree
Kap. 6.2 Binäre B-Bäume Ullmann: (2, 3) - Bäume
Algorithmen und Komplexität
3 Prinzipien des Information Retrieval
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6 Distanzfunktionen 6.1 Eigenschaften und Klassifikation 6.2 Distanzfunktionen.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 7 Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Anwendung DFT zur Feature-Aufbereitung Ziel: Minimalität der Feature-Werte.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.
Einführung eines Remote Desktop Systems am RRZE
Linux-HA-Cluster – Heartbeat mit DRBD
Risiken des Freiberuflers und deren Reduzierung in den Bereichen Umsatzsteuer und Wettbewerbsverbote Rechtsanwalt und Mediator (DAA) Dr. Benno Grunewald.
Sonderpädagogische Förderung in Tübingen
Künstlergemeinschaft Ober-Ramstadt
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung 1 SS 2001 Algorithmus von Dijkstra.
Effiziente Algorithmen
18. November 2006 Einführung in die Welt der fast 1000 Digital Möglichkeiten / Stefan Schmid / Herzlich willkommen Einführung.
Computergraphische Visualisierungs- verfahren für 3D-Stadtmodelle
Diskrete Mathematik II
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
… oder wie finde ich den Weg
Graphen und Bäume.
Das Traveling Salesman Problem (TSP)
Regeltest Online auf Regeltest Online auf
Fischer‘s Software Service Uwe Fisher Ihr Partner für professionelle Lösungen Consulting – Softwareentwicklung – Personal Training.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung Datenstrukturen für den Algorithmus von.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung Suche des kürzesten Weges in einem Netz.
Raumbezogene Zugriffsverfahren
Binärbäume.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 2 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 1 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Vorlesung AVL-Bäume/Algorithmen-
Vorlesung AVL-Bäume/Algorithmen-
Laufzeitverhalten beim Sortieren
2. Die rekursive Datenstruktur Baum 2.1 Von der Liste zum Baum
 Präsentation transkript:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek R-Baum und Varianten R-Baum X-Baum M-Baum

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek R-Baum R-Baum: Guttman 1984 Erweiterung B-Baum um mehrere Dimensionen Standardbaum zur Indexierung im niedrigdimensionalen Raum Einsatz etwa in GIS Feature-Objekte können beliebige Ausdehnung haben Cluster-Bildung: lokale Gruppierung durch MBRs (Überlappungen erlaubt) balanciert und Feature-Objekte in den Blättern

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Struktur: Mehrwegbaum Anzahl Kindknoten pro Knoten durch vordefinierten Minimal- bzw. Maximalwert eingeschränkt (Anpassung an Seitengröße) MBR eines Knoten umfasst minimal alle MBR der Kindknoten Blätter enthalten pro Feature-Objekt entspechende Pointer und MBR Suchaufwand wächst mit Grad der Überlappung Ziel: minimale Überlappung bei Baumkonstruktion R-Baum (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek R-Baum graphisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einfügen eines neuen Feature-Objekts 1.Finden eines geeigneten Blatts 1.Suche beginnt an der Wurzel 1.Navigation zum Kindknoten, dessen erforderliches Erweiterungsvolumen minimal ist 1.wenn Auswahlkriterium nicht eindeutig, dann Kindknoten mit minimalen Volumen bevorzugen Blatt gefunden und Objekt eingefügt Anpassung der MBRs der Vaterknoten

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Überlaufproblem wenn Knoten zu viele Einträge besitzt Zerlegung MBR in zwei MBRs Variante 1: Ziel: Minimierung der Volumensumme der neuen MBR Minimierung der Überlappungswahrscheinlichkeit Variante 2: Zerlegung nach Idee aus R * -Baum-Ansatz: Zerlegung in genau einer Dimension Aufwand zum Finden bester Zerlegung: erschöpfende Suche Punktanzahl * Dimensionsanzahl

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Suche im R-Baum HS- und RKV-Algorithmus einsetzbar bei Bereichsanfragen: Navigation in jeden Unterbaum, dessen MBR den Suchbaum schneidet NN-Suche ist effizient wenn Anzahl Dimensionen klein (etwa < 10) bei vielen Dimensionen viele MBR-Überlappungen Ausschließen von Teilbäumen von Suche wird extrem unwahrscheinlich Suchaufwand höher als bei sequentieller Suche viele Varianten des R-Baums versuchen Problem zu lösen, können es aber nur verringern (curse of dimensionality)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek R + -Baum Sellig/Roussopolous/Faloutsos 1987 Grundidee: Verbieten von Überlappungen neuer Einfügealgorithmus Forderung ist allerdings nur schwer erfüllbar Einfügung kann Anpassung mehrerer Blätter erfordern Anpassung kann Zerlegung in kleinere MBR ohne vorherigem Überlauf bedeuten Knoten mit geringer Auslastung viele Knoten (Entartung) Feature-Objekte mit räumlicher Ausdehnung: u.U. kann kein umfassender MBR gefunden werden Mehrfacheinträge nötig

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Oranisatorisches Evaluation, offen bis zum Letztes Übungsblatt: 60/30 Punkten möglich Klausuranmeldung über KLIPS: offen vom Klausur, , 16:00 Uhr, 1 Zeitstunde, Raum ?

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek X-Baum Brechthold, Keim, Kriegel 1996 Idee basiert auf zwei Beobachtungen: 1.Effizienzprobleme im hochdimensionalen Raum aufgrund steigender Überlappungen sequentieller Durchlauf ist effizienter als Baumdurchlauf 2.Zerlegung sollte an einer bestimmten Dimension erfolgen (auf Kosten der Balance!)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Superknoten Einführung von Superknoten Superknoten umfasst beliebig viele Datenbankseiten (keine Einschränkung bzgl. Anzahl) Suche im Superknoten erfolgt sequentiell Superknoten werden dynamisch angelegt, wenn Grad an Überlappung zu hoch Fazit: X-Baum als dynamische Hybridstruktur zwischen eindimensionalem Array und R-Baum

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek X-Baum graphisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Knotenüberlauf Split-Historie wird für jeden MBR verwaltet enthält alle bereits verwendeten Zerlegungsdimensionen bei Überlauf Anwendung der herkömmlichen, topologischen Zerlegung wenn vordefinierter Überlappungsgrad überschritten Auswahl der Zerlegungsdimension anhand Split-Historie wenn Verletzung der Balance Erzeuge Superknoten

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek M-Baum Ciaccia, Patella, Zezula 1997 Annahme bei Bäumen bis jetzt: Feature-Objekte sind Elemente des euklidschen Vektorraums Problem: Annahme gilt nicht immer M-Baum setzt nur Metrik voraus: Menge von Feature-Objekten (müssen keine Vektoren sein!) Distanzfunktionen (muss nicht eukl. Distanz sein, z.B. Editdistanz zwischen Wörtern) M-Baum nutzt Dreiecksungleichung zum Ausschluss von Teilbäumen von der Suche

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek M-Baum (3) Charakteristik: Cluster-Bildung: lokale Gruppierung Cluster können sich überlappen Balance: M-Baum ist balanciert Objektspeicherung: Verweise auf Feature-Objekte in den Blättern Geometrie: festgelegt durch Feature-Objekt (Zentrum) und Distanz (Radius) (entspricht Kugel im euklidischen Raum)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Datenstuktur eines inneren Knotens innerer Knoten: durch vordefinierte Maximalanzahl an Seitengröße angepasst jeder Eintrag hat folgende Datenstruktur: Zeiger zum Kindknoten routing objekt : Feature-Objekt als Kugelzentrum des entspr. Kind-Clusters Radius : maximal erlaubte Distanz vom routing object zu Feature-Objekten des Kind-Clusters Distanz zum Vaterknoten: Distanz zwischen und routing object des Vaters

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Datenstruktur eines Blattknotens Blattknoten: Verweis auf Feature-Objekt Distanz des Feature-Objekts zum routing object des Vaterknotens

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Suche im M-Baum Bereichssuche und Nächste-Nachbarsuche entsprechen den eingeführten Algorithmen Ausschlussbedingung anhand zweier Distanzen, welche minimale Distanz eines Clusters mit routing object, routing object des Vaters und Radius zu Feature- Objekt berechnen

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 1. angenäherte minmale Distanz (kann sehr schnell ermittelt werden): 2. minimale Distanz: 1.maximale Distanz: Suche im M-Baum (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Distanzberechnung graphisch es gilt aufgrund Dreiecksungleichung:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Suche im M-Baum (3) Verwendung der angenäherten minimalen Distanz als schneller Filter Ausschlussbedingung für Cluster: Ausnutzung der minimalen Distanz und der Dreiecksungleichung (siehe Zeilen 18 und 19 des Branch-and-Bound-Algorithmus)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einfügen eines neuen Feature-Objekts Beginn bei der Wurzel Navigation zum geeigneten Blatt anhand folgender Regeln: Vermeidung der Vergrößerung der Radien wenn mehrere Kinder ohne erforderliche Vergrößerung: Auswahl des nächsten routing objects falls alle Kinder Vergrößerung benötigen: Auswahl Kind mit minimaler Vergrößerung nach Einfügung im Blatt: Anpassung der Radien anhand Pfad zur Wurzel

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Überlaufbehandlung Zerlegung des Clusters in zwei neue Cluster zwei neue routing objects müssen gefunden werden grundsätzlich sind routing objects immer Feature-Objekte verschiedene Strategien zum Finden neuer routing objects Ziel: Minimierung Clustervolumen und Überlappungsvolumen nachdem neue routing objects gefunden, abwechselnde Zuordnung der jeweils nächsten Feature-Objekte

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Überlaufbehandlung (2) Fünf Strategien zum Finden neuer routing objects: erschöpfende Suche und Radiensumme: Suche Objektpaar mit minimaler Radiensumme erschöpfende Suche und Radienmaxima: Suche Objektpaar mit minimalen Maximalradien 1.am weitesten entfernte Objekte 1.nichtdeterministische Strategie (Zufall) 1.sampling: Auswahl Objektpaar mit minimalen Maximalradien aus Stichprobe