ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 7 Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen.

Slides:



Advertisements
Ähnliche Präsentationen
Der R-Baum Richard Göbel.
Advertisements

Kap. 13 Sweep-Line Algorithmen Kap Schnittprobleme

Information Systems & Semantic Web University of Koblenz Landau, Germany 5. Feature - Transformationsverfahren 5.1 Diskrete Fourier-Transformation (DFT)
Schwerpunkt Mindestlohn
Schuljahr 2007/2008 Hannes Pfeiffer
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Komplexe Distanzfunktionen 7. Effiziente Algorithmen und Datenstrukturen.
SST - Sequence Search Tree
OZ - Virtueller Übungsraum
Der B-Baum Richard Göbel.
Suche in Texten (Stringsuche )
Kapitel 6. Suchverfahren
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.3 Karhunen-Loeve-Transformation Minimalität und Orthogonalität innerhalb.
Andreas Kalender Institut für Informatik FU Berlin Seminar über Algorithmen Durchschnittsverzögerung.
Der R-Baum Richard Göbel.
Effizienz: Indexstrukturen
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Globaler Ansatz Hough-Transformation
Scannen & Bildoptimieren Grundlagen und Übung.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 4 Multimedia Information Retrieval 1.Einführung 2.Ablauf des Multimedia.
3 Prinzipien des Information Retrieval
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 6 Distanzfunktionen 6.1 Eigenschaften und Klassifikation 6.2 Distanzfunktionen.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Anwendung DFT zur Feature-Aufbereitung Ziel: Minimalität der Feature-Werte.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von.
Einführung eines Remote Desktop Systems am RRZE
Ebay - Tipps und Tricks Sven Wölfel 19. Dezember 2003.
Linux-HA-Cluster – Heartbeat mit DRBD
Erstellen eines Internetzugangs für Kongressteilnehmer
Redundanter Fileserver mit Heartbeat2 und DRBD - Linux-HA-Cluster
(c)
Methoden des Ausdauertrainings
Kurzvorstellung der AG Algorithmen und Komplexität MPI Informatik
© data2type 2005, 1 Publishing mit XML Einsatz von XSL für das multimediale, automatisierte Publishing.
Risiken des Freiberuflers und deren Reduzierung in den Bereichen Umsatzsteuer und Wettbewerbsverbote Rechtsanwalt und Mediator (DAA) Dr. Benno Grunewald.
Projekt Vorlagenkatalog Projektbesprechung 4. August 2006.
Der Web-Baukasten der Friedrich-Alexander-Universität ( Projekt Vorlagenkatalog) 21. Januar 2008.
Sonderpädagogische Förderung in Tübingen
Rekommunalisierung der Stromversorgung am Beispiel der Stadt Landsberg
Künstlergemeinschaft Ober-Ramstadt
Effiziente Algorithmen
18. November 2006 Einführung in die Welt der fast 1000 Digital Möglichkeiten / Stefan Schmid / Herzlich willkommen Einführung.
Service Orientierte Architektur
Leinen und Anschlagmittel Stiche und Bunde in der FGr W
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
AG Bfp - Deutschlands Schulen werden selbstständiger – auch besser? Selbstständigkeitsbestrebungen im Schulwesen unter besonderer.
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek R-Baum und Varianten R-Baum X-Baum M-Baum.
Jugendordnung | KONKRET| Dezember Adventjugend in Nordrhein- Westfalen © 2013 | | Jugendordnung | Der Jugendverband Adventjugend.
Lernziele für PowerPoint
SEO-Textenwww.journalistenakademie.de1/20 Traffic für den Blog! Was die Suchmaschinen- Optimierung leisten kann. Was Sie unbedingt tun müssen, um Leser.
Wie das Internet genutzt wird
EPROG Tutorium #5 Philipp Effenberger
Diplomverteidigung Ulrich Dinger Thema: Untersuchung und Entwicklung von Ansätzen und Techniken zur Realisierung einer (Web) Service Language.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation III Vorlesung 1 WS 2001/02 Punkt-in-Landkarte I (Streifenkarte)
Regeltest Online auf Regeltest Online auf
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II 6. Sem. Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms.
SEO-Textenwww.journalistenakademie.de1/20 Traffic auf die Tageszeitungs-Website! Was die Suchmaschinen- Optimierung leisten kann. Was Sie unbedingt tun.
Fischer‘s Software Service Uwe Fisher Ihr Partner für professionelle Lösungen Consulting – Softwareentwicklung – Personal Training.
Sebastian Loose DPF – A Perceptual Distance Function for Image Retrieval Proseminar SS 2005 Distanzen und Ähnlichkeitsmaße im Hochdimensionalem.
- Studienarbeit - Entwurf und Umsetzung von kombinierten Anfragen für die Ähnlichkeitssuche auf digitalen Bilder auf der Basis von Regionen und Features.
Gliederung der Vorlesung
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Algorithmen für Geographische Informationssysteme
 Präsentation transkript:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 7 Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen (a) Anfragearten (b) Baumverfahren (c) Komplexe Distanzfunktionen (d) Fluch der hohen Dimensionen (e) Signaturverfahren (f) Weitere Indexverfahren

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 7.2 Algorithmen zur Aggregation von Ähnlichkeitswerten (a) Container-Algorithmen (b) Kondensator-Algorithmus (c) Indexaggregation 7 Effiziente Algorithmen und Datenstrukturen (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einführung Algorithmen und Datenstrukturen für effiziente Ergbnisberechnung bzgl. der Anfrage

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Einführung Erweiterung von Verfahren klassischer DBMSe um Behandlung von Ähnlichkeits- bzw. Unähnlichkeitswerten Übergang von Mengensemantik zu Listensemantik hochdimensionale Indexstrukturen zur effizienten Suche im hochdimensionalen Raum Aggregation von Ähnlichkeitswerten: für komplexe Anfragen Algorithmen und Datenstrukturen für effiziente Ergbnisberechnung bzgl. der Anfrage

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 7.1 Hochdimensionale Indexstrukturen Strukturierung der Daten zur Unterstützung einer effizienten Suche klassische Datenstrukturen in DBMS: B-Baum und dessen Varianten exakte Suche mit logarithmischem Aufwand aber Einschränkung auf eine Dimension ungeeignet zur Ähnlichkeitssuche im hochdimensionalen Raum

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Anforderungen an hochdimensionale Datenstruktur und Algorithmen Korrektheit und Vollständigkeit skalierbar bzgl. Dimensionsanzahl räumliche Ausdehnung der Objekte: 0 Dimensionen: Punkt 1 Dimension: Linie 2 Dimensionen: Fläche n Dimensionen: etwa Hyperwürfel

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Sucheffizienz, also Anzahl Seitenzugriffe muss besser als bei sequentiellem Durchlauf sein viele Anfragearten (siehe nächste Folie) effiziente Update-Operationen verschiedene Distanzfunktionen speicherplatzsparend Anforderungen an hochdimensionale Datenstruktur und Algorithmen (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Anfragearten Nächste-Nachbarsuche Approximative Nächste-Nachbarsuche Reverse-Nächste-Nachbarsuche Bereichssuche Punktsuche Partial-Match-Suche Ähnlichkeitsverbund

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Nächste-Nachbarsuche Feature-Daten eines Anfrageobjekts: Menge von Feature-Daten: binäre Distanzfunktion Finden des ähnlichsten Medienobjekts (das nächste Feature- Objekt) mehrere nächste Nachbarn möglich:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Nächste-Nachbarsuche graphisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Zweidimensionale Voronoi-Zellen NN-Suche auf punktförmigen Feature-Daten ist äquivalent zum Enthaltenseinstest in Voronoi-Zelle jedem Feature-Objekt ist eigene Voronoi-Zelle zugewiesen Voronoi-Zelle enthält alle Raumpunkte, die nächste Nachbarn des entsprechenden Feature- Objekts sind Idee: Vorausberechnung aller Voronoi-Zellen und anschließend Enthaltenseinstest Problem: Berechnungskomplexität für Enthaltenseinstest

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Voronoi-Zellen graphisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek KNN-Suche die nächsten Nachbarn werden gesucht bei gleichen Distanzen: nichtdeterministische Auswahl Ergebnisobjekte werden aufsteigend ausgegeben

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek ist üblicherweise so klein, dass das Ergebnis in den Hauptspeicher passt Hauptspeichersortierung ansonsten: Ergebnisobjekt sukzessive abholen (getNext-Semantik / ranking-Anfrage) KNN-Suche (2)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Approximative Nächste-Nachbarsuche Effizienzgewinn bzgl. NN-Anfragen, wenn kleine Ungenauigkeiten tolerierbar als Maß der Ungenauigkeit mehrere Feature-Objekte können Bedingung erfüllen nichtdeterministische Auswahl Vorsicht: -Ergebnis muss nicht in Nähe des -Ergebnisses liegen

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek PAC-NN-Suche (probably approximately correct) weitere Abschwächung einer ANN-Suche Forderung: Wahrscheinlichkeit der Abweichung von -Bedingung muss vorgebbaren Mindestwert überschreiten ermögliche effizientere Suche

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Reverse-Nächste-Nachbarsuche Suche nach Feature-Objekten, deren nächster Nachbar der Anfragepunkt ist (etwa Suche nach bestem Ort für neuen Einkaufsmarkt) Achtung: Ergebnis oft anders als bei NN-Suche, da Nächste- Nachbarrelation nicht symmetrisch ist

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Bereichssuche Anfrage definiert einen Bereich (Region) im hochdimensionalen Raum Ergebnis sind alle Feature-Objekte, die Anfragebereich schneiden Varianten begrenzte versus unbegrenzte Bereiche Spezialfall Hyperkugen und Hyperrechteck

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Bereichssuche graphisch Straßenplanung im Katasteramt:

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Punktsuche Suche anhand eines gegebenen Feature-Objekts Test auf Enthaltensein (exakte Überdeckung) Punktsuche in MMDB ist relativ selten

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Partial-Match-Suche Punktsuche kann als Complete-Match-Suche aufgefasst werden bei Partial-Match-Suche Übereinstimmung nur in einigen Dimensionen (restliche Dimensionen werden ignoriert) ist Spezialfall der Bereichsanfrage mit teilweise unbegrentzem Bereich

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Partial-Match-Suche graphisch Suchbereich ist senkrechte Linie (Übereinstimmung in nur einer Dimension)

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Ähnlichkeitsverbund Operation auf zwei Mengen von Feature-Objekten Verbund findet Paare, deren Distanz kleiner als vorgegebener Schwellenwert ist Selbstverbund: dieselbe Menge zweimal

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek Ähnlichkeitsverbund graphisch