Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Bartholomaus Westerhold Geändert vor über 10 Jahren
1
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 7 Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen (a) Anfragearten (b) Baumverfahren (c) Komplexe Distanzfunktionen (d) Fluch der hohen Dimensionen (e) Signaturverfahren (f) Weitere Indexverfahren
2
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de2 7.2 Algorithmen zur Aggregation von Ähnlichkeitswerten (a) Container-Algorithmen (b) Kondensator-Algorithmus (c) Indexaggregation 7 Effiziente Algorithmen und Datenstrukturen (2)
3
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de3 Einführung Algorithmen und Datenstrukturen für effiziente Ergbnisberechnung bzgl. der Anfrage
4
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de4 Einführung Erweiterung von Verfahren klassischer DBMSe um Behandlung von Ähnlichkeits- bzw. Unähnlichkeitswerten Übergang von Mengensemantik zu Listensemantik hochdimensionale Indexstrukturen zur effizienten Suche im hochdimensionalen Raum Aggregation von Ähnlichkeitswerten: für komplexe Anfragen Algorithmen und Datenstrukturen für effiziente Ergbnisberechnung bzgl. der Anfrage
5
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de5 7.1 Hochdimensionale Indexstrukturen Strukturierung der Daten zur Unterstützung einer effizienten Suche klassische Datenstrukturen in DBMS: B-Baum und dessen Varianten exakte Suche mit logarithmischem Aufwand aber Einschränkung auf eine Dimension ungeeignet zur Ähnlichkeitssuche im hochdimensionalen Raum
6
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de6 Anforderungen an hochdimensionale Datenstruktur und Algorithmen Korrektheit und Vollständigkeit skalierbar bzgl. Dimensionsanzahl räumliche Ausdehnung der Objekte: 0 Dimensionen: Punkt 1 Dimension: Linie 2 Dimensionen: Fläche n Dimensionen: etwa Hyperwürfel
7
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de7 Sucheffizienz, also Anzahl Seitenzugriffe muss besser als bei sequentiellem Durchlauf sein viele Anfragearten (siehe nächste Folie) effiziente Update-Operationen verschiedene Distanzfunktionen speicherplatzsparend Anforderungen an hochdimensionale Datenstruktur und Algorithmen (2)
8
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de8 Anfragearten Nächste-Nachbarsuche Approximative Nächste-Nachbarsuche Reverse-Nächste-Nachbarsuche Bereichssuche Punktsuche Partial-Match-Suche Ähnlichkeitsverbund
9
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de9 Nächste-Nachbarsuche Feature-Daten eines Anfrageobjekts: Menge von Feature-Daten: binäre Distanzfunktion Finden des ähnlichsten Medienobjekts (das nächste Feature- Objekt) mehrere nächste Nachbarn möglich:
10
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de10 Nächste-Nachbarsuche graphisch
11
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de11 Zweidimensionale Voronoi-Zellen NN-Suche auf punktförmigen Feature-Daten ist äquivalent zum Enthaltenseinstest in Voronoi-Zelle jedem Feature-Objekt ist eigene Voronoi-Zelle zugewiesen Voronoi-Zelle enthält alle Raumpunkte, die nächste Nachbarn des entsprechenden Feature- Objekts sind Idee: Vorausberechnung aller Voronoi-Zellen und anschließend Enthaltenseinstest Problem: Berechnungskomplexität für Enthaltenseinstest
12
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de12 Voronoi-Zellen graphisch
13
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de13 KNN-Suche die nächsten Nachbarn werden gesucht bei gleichen Distanzen: nichtdeterministische Auswahl Ergebnisobjekte werden aufsteigend ausgegeben
14
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de14 ist üblicherweise so klein, dass das Ergebnis in den Hauptspeicher passt Hauptspeichersortierung ansonsten: Ergebnisobjekt sukzessive abholen (getNext-Semantik / ranking-Anfrage) KNN-Suche (2)
15
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de15 Approximative Nächste-Nachbarsuche Effizienzgewinn bzgl. NN-Anfragen, wenn kleine Ungenauigkeiten tolerierbar als Maß der Ungenauigkeit mehrere Feature-Objekte können Bedingung erfüllen nichtdeterministische Auswahl Vorsicht: -Ergebnis muss nicht in Nähe des -Ergebnisses liegen
16
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de16 PAC-NN-Suche (probably approximately correct) weitere Abschwächung einer ANN-Suche Forderung: Wahrscheinlichkeit der Abweichung von -Bedingung muss vorgebbaren Mindestwert überschreiten ermögliche effizientere Suche
17
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de17 Reverse-Nächste-Nachbarsuche Suche nach Feature-Objekten, deren nächster Nachbar der Anfragepunkt ist (etwa Suche nach bestem Ort für neuen Einkaufsmarkt) Achtung: Ergebnis oft anders als bei NN-Suche, da Nächste- Nachbarrelation nicht symmetrisch ist
18
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de18 Bereichssuche Anfrage definiert einen Bereich (Region) im hochdimensionalen Raum Ergebnis sind alle Feature-Objekte, die Anfragebereich schneiden Varianten begrenzte versus unbegrenzte Bereiche Spezialfall Hyperkugen und Hyperrechteck
19
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de19 Bereichssuche graphisch Straßenplanung im Katasteramt:
20
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de20 Punktsuche Suche anhand eines gegebenen Feature-Objekts Test auf Enthaltensein (exakte Überdeckung) Punktsuche in MMDB ist relativ selten
21
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de21 Partial-Match-Suche Punktsuche kann als Complete-Match-Suche aufgefasst werden bei Partial-Match-Suche Übereinstimmung nur in einigen Dimensionen (restliche Dimensionen werden ignoriert) ist Spezialfall der Bereichsanfrage mit teilweise unbegrentzem Bereich
22
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de22 Partial-Match-Suche graphisch Suchbereich ist senkrechte Linie (Übereinstimmung in nur einer Dimension)
23
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de23 Ähnlichkeitsverbund Operation auf zwei Mengen von Feature-Objekten Verbund findet Paare, deren Distanz kleiner als vorgegebener Schwellenwert ist Selbstverbund: dieselbe Menge zweimal
24
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de24 Ähnlichkeitsverbund graphisch
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.