Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 7 Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen.

Ähnliche Präsentationen


Präsentation zum Thema: "ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 7 Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen."—  Präsentation transkript:

1 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 7 Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen (a) Anfragearten (b) Baumverfahren (c) Komplexe Distanzfunktionen (d) Fluch der hohen Dimensionen (e) Signaturverfahren (f) Weitere Indexverfahren

2 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de2 7.2 Algorithmen zur Aggregation von Ähnlichkeitswerten (a) Container-Algorithmen (b) Kondensator-Algorithmus (c) Indexaggregation 7 Effiziente Algorithmen und Datenstrukturen (2)

3 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de3 Einführung Algorithmen und Datenstrukturen für effiziente Ergbnisberechnung bzgl. der Anfrage

4 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de4 Einführung Erweiterung von Verfahren klassischer DBMSe um Behandlung von Ähnlichkeits- bzw. Unähnlichkeitswerten Übergang von Mengensemantik zu Listensemantik hochdimensionale Indexstrukturen zur effizienten Suche im hochdimensionalen Raum Aggregation von Ähnlichkeitswerten: für komplexe Anfragen Algorithmen und Datenstrukturen für effiziente Ergbnisberechnung bzgl. der Anfrage

5 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de5 7.1 Hochdimensionale Indexstrukturen Strukturierung der Daten zur Unterstützung einer effizienten Suche klassische Datenstrukturen in DBMS: B-Baum und dessen Varianten exakte Suche mit logarithmischem Aufwand aber Einschränkung auf eine Dimension ungeeignet zur Ähnlichkeitssuche im hochdimensionalen Raum

6 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de6 Anforderungen an hochdimensionale Datenstruktur und Algorithmen Korrektheit und Vollständigkeit skalierbar bzgl. Dimensionsanzahl räumliche Ausdehnung der Objekte: 0 Dimensionen: Punkt 1 Dimension: Linie 2 Dimensionen: Fläche n Dimensionen: etwa Hyperwürfel

7 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de7 Sucheffizienz, also Anzahl Seitenzugriffe muss besser als bei sequentiellem Durchlauf sein viele Anfragearten (siehe nächste Folie) effiziente Update-Operationen verschiedene Distanzfunktionen speicherplatzsparend Anforderungen an hochdimensionale Datenstruktur und Algorithmen (2)

8 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de8 Anfragearten Nächste-Nachbarsuche Approximative Nächste-Nachbarsuche Reverse-Nächste-Nachbarsuche Bereichssuche Punktsuche Partial-Match-Suche Ähnlichkeitsverbund

9 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de9 Nächste-Nachbarsuche Feature-Daten eines Anfrageobjekts: Menge von Feature-Daten: binäre Distanzfunktion Finden des ähnlichsten Medienobjekts (das nächste Feature- Objekt) mehrere nächste Nachbarn möglich:

10 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de10 Nächste-Nachbarsuche graphisch

11 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de11 Zweidimensionale Voronoi-Zellen NN-Suche auf punktförmigen Feature-Daten ist äquivalent zum Enthaltenseinstest in Voronoi-Zelle jedem Feature-Objekt ist eigene Voronoi-Zelle zugewiesen Voronoi-Zelle enthält alle Raumpunkte, die nächste Nachbarn des entsprechenden Feature- Objekts sind Idee: Vorausberechnung aller Voronoi-Zellen und anschließend Enthaltenseinstest Problem: Berechnungskomplexität für Enthaltenseinstest

12 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de12 Voronoi-Zellen graphisch

13 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de13 KNN-Suche die nächsten Nachbarn werden gesucht bei gleichen Distanzen: nichtdeterministische Auswahl Ergebnisobjekte werden aufsteigend ausgegeben

14 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de14 ist üblicherweise so klein, dass das Ergebnis in den Hauptspeicher passt Hauptspeichersortierung ansonsten: Ergebnisobjekt sukzessive abholen (getNext-Semantik / ranking-Anfrage) KNN-Suche (2)

15 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de15 Approximative Nächste-Nachbarsuche Effizienzgewinn bzgl. NN-Anfragen, wenn kleine Ungenauigkeiten tolerierbar als Maß der Ungenauigkeit mehrere Feature-Objekte können Bedingung erfüllen nichtdeterministische Auswahl Vorsicht: -Ergebnis muss nicht in Nähe des -Ergebnisses liegen

16 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de16 PAC-NN-Suche (probably approximately correct) weitere Abschwächung einer ANN-Suche Forderung: Wahrscheinlichkeit der Abweichung von -Bedingung muss vorgebbaren Mindestwert überschreiten ermögliche effizientere Suche

17 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de17 Reverse-Nächste-Nachbarsuche Suche nach Feature-Objekten, deren nächster Nachbar der Anfragepunkt ist (etwa Suche nach bestem Ort für neuen Einkaufsmarkt) Achtung: Ergebnis oft anders als bei NN-Suche, da Nächste- Nachbarrelation nicht symmetrisch ist

18 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de18 Bereichssuche Anfrage definiert einen Bereich (Region) im hochdimensionalen Raum Ergebnis sind alle Feature-Objekte, die Anfragebereich schneiden Varianten begrenzte versus unbegrenzte Bereiche Spezialfall Hyperkugen und Hyperrechteck

19 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de19 Bereichssuche graphisch Straßenplanung im Katasteramt:

20 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de20 Punktsuche Suche anhand eines gegebenen Feature-Objekts Test auf Enthaltensein (exakte Überdeckung) Punktsuche in MMDB ist relativ selten

21 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de21 Partial-Match-Suche Punktsuche kann als Complete-Match-Suche aufgefasst werden bei Partial-Match-Suche Übereinstimmung nur in einigen Dimensionen (restliche Dimensionen werden ignoriert) ist Spezialfall der Bereichsanfrage mit teilweise unbegrentzem Bereich

22 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de22 Partial-Match-Suche graphisch Suchbereich ist senkrechte Linie (Übereinstimmung in nur einer Dimension)

23 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de23 Ähnlichkeitsverbund Operation auf zwei Mengen von Feature-Objekten Verbund findet Paare, deren Distanz kleiner als vorgegebener Schwellenwert ist Selbstverbund: dieselbe Menge zweimal

24 ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de24 Ähnlichkeitsverbund graphisch


Herunterladen ppt "ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 7 Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen."

Ähnliche Präsentationen


Google-Anzeigen