Algorithmen und Indexstrukturen für Top-k-Anfragen

Slides:



Advertisements
Ähnliche Präsentationen
Punkt-in-Polygon-Verfahren III (R/R+-Baum)
Advertisements

Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
Kapitel 3 Arithmetische Schaltkreise
Abituraufgabe 2008 Geometrie.
Polynomial Root Isolation
Gruppenwettbewerb. Gruppenwettbewerb Aufgabe G1 (8 Punkte)
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Schnelle Matrizenoperationen von Christian Büttner
DIE HÜLLKURVE Beispiel aus dem Alltag:
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
Digitalgeometrie mit Anwendungen zur Bildanalyse und Computergrafik
Ein Modellansatz zur Beschreibung von Vagheiten
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 4 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.
Kapitel 5 Stetigkeit.
Kapitel 6 Differenzierbarkeit. Kapitel 6: Differenzierbarkeit © Beutelspacher Juni 2005 Seite 2 Inhalt 6.1 Die Definition 6.2 Die Eigenschaften 6.3 Extremwerte.
Kapitel 4 Geometrische Abbildungen
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II Vorlesung In welcher Masche liegt der Punkt p?
Minimum Spanning Tree: MST
§14 Basis und Dimension (14.1) Definition: V sei wieder ein K-Vektorraum. Eine Menge B von Vektoren aus V heißt Basis von V, wenn B ist Erzeugendensystem.
§14 Basis und Dimension  (14.1) Definition: V sei wieder ein K-Vektorraum. Eine Menge B von Vektoren aus V heißt Basis von V, wenn B ist Erzeugendensystem.
Punktbeschriftung mit vier Rechtecken gleicher Höhe (Anzahlmaximierung) Julia Löcherbach.
Maschinelles Lernen und automatische Textklassifikation
Diskrete Mathe 9 Vorlesung 9 SS 2001
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
3.3. Eigenschaften von Funktionen
Effiziente Algorithmen
Vier/Fünf-Farben-Satz
Effiziente Algorithmen
Konstruktion der Voronoi-Diagramme II
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II Vorlesung 7 SS 2000 Punkt-in-Polygon-Verfahren I (Trapezkarte)
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Christian Scheideler Institut für Informatik Universität Paderborn
Praktische Optimierung
Fuzzymengen – Was ist das?
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Lineare Funktionen und ihre Schaubilder, die Geraden
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Christian Schindelhauer Wintersemester 2006/07 2. Vorlesung
Das Traveling Salesman Problem (TSP)
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation III Vorlesung 1 WS 2001/02 Punkt-in-Landkarte I (Streifenkarte)
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II 6. Sem. Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms.
Nichtlineare Optimierung
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II 6. Sem. Vorlesung April 2000 AVL-Bäume.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Foliendesign: Jörg Steinrücken & Tobias Kahn Vorlesung
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung Voronoi-Diagramme.
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Dr. Wolfram Amme, Semantik funktionaler Programme, Informatik II, FSU Jena, SS Semantik funktionaler Programme.
Plenum Johannes-Kepler-Gymnasium Hinweis für den Lehrer:
Vorlesung AVL-Bäume/Algorithmen-
Vorlesung AVL-Bäume/Algorithmen-
Algorithmen für Geographische Informationssysteme
Abiturprüfung Mathematik 2017 Baden-Württemberg Allgemeinbildende Gymnasien Wahlteil Analysis A 1 Lösungen der Aufgaben A 1.1 und A 1.2
Punkt-in-Landkarte II
Computing orthogonal drawings with the minimum number of bends
Abstandsbestimmungen
 Präsentation transkript:

Algorithmen und Indexstrukturen für Top-k-Anfragen mit quasi-konvexen oder quadratischen Bewertungsfunktionen Promotionsvortrag Peter Poensgen Vorsitzender: Prof. Dr. Leucker Gutachter: Prof. Dr. Möller, Prof. Dr. Thalheim

Wie hoch ist die Miete in unmittelbarer Nähe der Fachhochschule? Lg Wie hoch ist die Miete in unmittelbarer Nähe der Fachhochschule? Anfrage 2 (Minimumproblem) SELECT TOP k OID, Mietpreis FROM Immobilien ORDER BY (Bg – 8)2 + (Lg – 6)2 ASC Anfrage 1 (Maximumproblem) SELECT TOP k OID, Mietpreis FROM Immobilien WHERE Plz BETWEEN 80331 AND 81929 ORDER BY (Bg – 8)2 + 5(Lg – 6)2 DESC Wie hoch ist die Miete am nördlichen oder südlichen Stadtrand? Bg

Überblick Branch-and-Bound Ranked Search (BRS) Maximumprinzip monotoner Funktionen Topologie von Hyperrechtecken BRS-Verfahren mit nicht-monotonen Funktionen

Branch-and-Bound Ranked Search Verfahren zur Lösung von Maximum- und Minimumproblemen Ein effizientes Verfahren zur Beantwortung von Top-k-Anfragen ist der von Tao et al. vorgestellte Branch-and-Bound Ranked Search Algorithmus1, im folgenden BRS genannt. Der BRS verwendet: eine Zuordnung der Datenpunkte einer Relation zu minimal begrenzenden Hyperrechtecken (MBRs), einen R-Baum, obere bzw. untere Schranken (bounds) für jedes MBR, eine Prioritätswarteschlange. 1 Y. Tao, V. Hristidis, D. Papadias and Y. Papakonstantinou, “Branch-and-Bound Processing of Ranked Queries,” Information Systems, 32(3), pp. 424-445, 2007

Branch-and-Bound Ranked Search Welche Schranken sind besonders geeignet? Als obere (untere) Schranke verwendet der BRS den größtmöglichen (kleinstmöglichen) Wert, den eine Funktion auf einem MBR annehmen kann. Liegt das Maximum bzw. Minimum einer Funktion auf dem Rand ihres Definitionsbereiches (hier MBRs), so erfüllt sie ein Maximum- bzw. Minimumprinzip.

Lg E5 17 5 E3 1 E2 FH (8,6) E1 1 4 1 37 E6 E4 1 10 45 89 32 Bg

BRS-Verfahren mit monotonen Funktionen Eine Ecke ist „ausgezeichnet“ Ist die Bewertungsfunktion monoton steigend (fallend), so verwendet der BRS als obere Schranke des MBRs eines R-Baumes den Funktionswert der rechten oberen (linken unteren) Ecke. Gibt es ähnliche ausgezeichnete Extremstellen auch für nicht-monotone Bewertungsfunktionen?

Topologie von Hyperrechtecken 3 Typen Ein achsenparalleles Hyperrechteck ist eine Teilmenge die sich als endliches kartesisches Produkt von geschlossenen Intervallen darstellen lässt.2 Ein MBR ist ein achsenparalleles Hyperechteck, welches eine Punktemenge des Euklidischen Raumes minimal umschließt. Ein allgemeines Hyperrechteck ist eine Geometrie, die kongruent mit einem achsenparallelen Hyperrechteck ist. 2 Das BRS-Verfahren verwendet ein rechtswinkliges (kartesisches) Koordinatensystem.

Topologie von Hyperrechtecken Iteratives Konstruktionsverfahren von Hyperrechtecken Quelle: H. S. M. Coxeter, Regular Polytopes, New York: Dover Publications, Inc., 1973. Beim Übergang in die nächsthöhere Dimension wird das -dimensionale Hyperrechteck dupliziert und die entsprechenden Punkte der beiden -dimensionalen Hyperrechtecke durch Strecken miteinander verbunden. Jedes -dimensionale Hyperrechteck hat Ecken und Seitenflächen, die Hyperrechtecke der Dimension sind.

BRS mit nicht-monotonen Funktionen Quasi-konvexe Funktionen zur Lösung des Maximumproblems Bewertungsfunktion von Anfrage 1: Eine multivariate Funktion auf einer konvexen Menge heißt konvex, wenn für alle und jedes gilt, dass Sie heißt quasi-konvex, wenn gilt

BRS mit nicht-monotonen Funktionen Maximumprinzip quasi-konvexer Funktionen auf (allgemeinen) Hyperrechtecken Theorem 1: Es sei eine Funktion, eine konvexe Menge, dann gilt: ist quasi-konvex ist auf mindestens einer der Ecken eines jeden allgemeinen Hyperrechteckes maximal.

BRS mit nicht-monotonen Funktionen Maximumprinzip quasi-konvexer Funktionen auf (allgemeinen) Hyperrechtecken Beweis „“ (Induktion über die Dimension) Induktionsanfang Der Induktionsschritt folgt aus der Konstruktion eines -dim. Hyperrechtecks. Denn dieses ist aus -dim. Hyper- rechtecken zusammengesetzt, so dass die Verbindungslinie einer Ecke und einem angenommenen Punkt im Inneren eine -dim. Seitenfläche schneidet, für die die Induktionsannahme gilt. A C M B D

BRS mit nicht-monotonen Funktionen Maximumprinzip quasi-konvexer Funktionen auf (allgemeinen) Hyperrechtecken Beweis: „“ Man betrachte zwei beliebige Punkte aus dem Definitionsbereich von f. Da f nach Voraussetzung auf den Ecken eines jeden Hyperrechteckes maximal ist, so auch auf den Ecken der Strecke (1- dim. Hyperrechteck), die durch die beiden Punkte aufgespannt wird. Also gilt:

BRS mit quasi-konvexen Funktionen Ist die Bewertungsfunktion quasi-konvex, dann genügt es, die Funktionswerte der Ecken eines -dimensionalen MBRs zu berechnen, um den maximalen dieser Werte als obere Schranke für dieses MBR zu verwenden.

BRS mit nicht-monotonen Funktionen Quadratische Funktionen zur Lösung des Minimumproblems Bewertungsfunktion von Anfrage 2: Eine Funktion der Form mit für jedes i heißt (multivariate) quadratische Funktion. Für ein festes i ist die i-te (eindimensionale) Komponentenfunktion von heißt Anfragepunkt oder Zentrum, Gewichtungsvektor der Funktion.

BRS mit nicht-monotonen Funktionen Minimumprinzip quadratischer Funktionen auf achsenparallelen Hyperrechtecken Theorem 2: Es sei quadratisch, ein achsenparalleles Hyper-rechteck und der Datenpunkt, auf dem die Funktion minimal ist. Dann liegt auf dem Rand des Hyperrechtecks oder

BRS mit nicht-monotonen Funktionen Minimumprinzip quadratischer Funktionen auf achsenparallelen Hyperrechtecken Beweis: Aufgrund der Gleichung lässt sich die Berechnung des Minimums einer quadratischen Funktion auf einem Hyperrechteck auf den eindimensionalen Fall, also die Betrachtung ihrer Komponentenfunktionen reduzieren.

BRS mit nicht-monotonen Funktionen Minimumprinzip quadratischer Funktionen auf achsenparallelen Hyperrechtecken Gewichtung positiv: Minimum ist Null, wenn das Intervall das globale Minimum der Funktion enthält. Ansonsten liegt das Minimum entweder auf der linken, oder der rechten Intervallgrenze. Gewichtung negativ: Minimum liegt entweder auf der linken, oder der rechten Intervallgrenze. xi-Achse qi qi xi-Achse

durch Summation der Minima all ihrer Komponentenfunktionen , BRS-Verfahren mit quadratischen Funktionen Ist die Bewertungsfunktion quadratisch, dann berechnet sich die untere Schranke eines d-dimensionalen MBRs durch Summation der Minima all ihrer Komponentenfunktionen , auf den Intervallen .

Maximal auf nicht ausgezeichneter Ecke Fazit: Quasi-konvexe Bewertungsfunktionen Maximal auf nicht ausgezeichneter Ecke Quasi-konvexe Funktionen verallgemeinern das Maximumprinzip monotoner Funktionen auf MBRs in dem Sinne, dass sie auf (mindestens) einer beliebigen, nicht ausgezeichneten Ecke eines MBRs maximal sind. Es genügt, die Funktionswerte auf den Ecken zu berechnen, um die obere Grenze für einen MBR zu bestimmen. Quasi-konvexe Funktionen eignen sich u.a. zur Suche nach Objekten, die von einem gegebenen Anfragepunkt möglichst weit entfernt sein sollen.

Minimal auf dem Rand, oder Null Fazit: Quadratische Bewertungsfunktionen Minimal auf dem Rand, oder Null Quadratische Funktionen erfüllen ein Minimumprinzip auf MBRs. Einzige Ausnahme: Das Minimum liegt im Inneren und ist Null. Wenn und dann ist: Quadratische Funktionen eignen sich zur Bestimmung von Objekten, wo ein Teil der Attribute möglichst nahe, der andere Teil möglichst weit weg von den entsprechenden Koordinaten eines Anfragepunktes entfernt liegen soll.

Vielen Dank für Ihre Aufmerksamkeit!

Backup

Backup - Modellparameter 1. Zur Laufzeitbetrachtung des BRS+ steht die Datenkomplexität (keine Index-, oder Anfragekomplexität) im Fokus. N = Anzahl der Datenpunkte des d-dimensionalen Raumes 2. Aus der Anfrage ergeben sich die beiden Parameter d = Dimension und k = Anzahl der gesuchten top-k Kandidaten. d bestimmt die Anzahl der 2d Ecken eines d-dimensionalen MBRs und die Anzahl der Intervalle von H = [a1,b1] x … x [ad,bd]. 3. Die Anzahl t = Splits je Koordinate (Erzeugung des binären R-Baums ) bestimmt die Baumtiefe (BT) = dt, die Granularität g = 2dt (2 hoch BT), sowie die Anzahl der Knoten 2t+1 -2.

Backup 7 QK K M 8 6 2 4 Q 3 9 5 1 Q: Quadratisch K: Konvex QK: Quasi-konvex M: Monoton

Backup Geometrische Interpretation quasi-konvexer Funktionen Niveaulinien und -mengen einer (quasi-)konvexen Funktion (links) und zweier nicht-quasi-konvexer Funktionen

Lg 6.2 6.0 5.8 8.0 7.0 9.0 Bg