Algorithmen und Indexstrukturen für Top-k-Anfragen mit quasi-konvexen oder quadratischen Bewertungsfunktionen Promotionsvortrag Peter Poensgen Vorsitzender: Prof. Dr. Leucker Gutachter: Prof. Dr. Möller, Prof. Dr. Thalheim
Wie hoch ist die Miete in unmittelbarer Nähe der Fachhochschule? Lg Wie hoch ist die Miete in unmittelbarer Nähe der Fachhochschule? Anfrage 2 (Minimumproblem) SELECT TOP k OID, Mietpreis FROM Immobilien ORDER BY (Bg – 8)2 + (Lg – 6)2 ASC Anfrage 1 (Maximumproblem) SELECT TOP k OID, Mietpreis FROM Immobilien WHERE Plz BETWEEN 80331 AND 81929 ORDER BY (Bg – 8)2 + 5(Lg – 6)2 DESC Wie hoch ist die Miete am nördlichen oder südlichen Stadtrand? Bg
Überblick Branch-and-Bound Ranked Search (BRS) Maximumprinzip monotoner Funktionen Topologie von Hyperrechtecken BRS-Verfahren mit nicht-monotonen Funktionen
Branch-and-Bound Ranked Search Verfahren zur Lösung von Maximum- und Minimumproblemen Ein effizientes Verfahren zur Beantwortung von Top-k-Anfragen ist der von Tao et al. vorgestellte Branch-and-Bound Ranked Search Algorithmus1, im folgenden BRS genannt. Der BRS verwendet: eine Zuordnung der Datenpunkte einer Relation zu minimal begrenzenden Hyperrechtecken (MBRs), einen R-Baum, obere bzw. untere Schranken (bounds) für jedes MBR, eine Prioritätswarteschlange. 1 Y. Tao, V. Hristidis, D. Papadias and Y. Papakonstantinou, “Branch-and-Bound Processing of Ranked Queries,” Information Systems, 32(3), pp. 424-445, 2007
Branch-and-Bound Ranked Search Welche Schranken sind besonders geeignet? Als obere (untere) Schranke verwendet der BRS den größtmöglichen (kleinstmöglichen) Wert, den eine Funktion auf einem MBR annehmen kann. Liegt das Maximum bzw. Minimum einer Funktion auf dem Rand ihres Definitionsbereiches (hier MBRs), so erfüllt sie ein Maximum- bzw. Minimumprinzip.
Lg E5 17 5 E3 1 E2 FH (8,6) E1 1 4 1 37 E6 E4 1 10 45 89 32 Bg
BRS-Verfahren mit monotonen Funktionen Eine Ecke ist „ausgezeichnet“ Ist die Bewertungsfunktion monoton steigend (fallend), so verwendet der BRS als obere Schranke des MBRs eines R-Baumes den Funktionswert der rechten oberen (linken unteren) Ecke. Gibt es ähnliche ausgezeichnete Extremstellen auch für nicht-monotone Bewertungsfunktionen?
Topologie von Hyperrechtecken 3 Typen Ein achsenparalleles Hyperrechteck ist eine Teilmenge die sich als endliches kartesisches Produkt von geschlossenen Intervallen darstellen lässt.2 Ein MBR ist ein achsenparalleles Hyperechteck, welches eine Punktemenge des Euklidischen Raumes minimal umschließt. Ein allgemeines Hyperrechteck ist eine Geometrie, die kongruent mit einem achsenparallelen Hyperrechteck ist. 2 Das BRS-Verfahren verwendet ein rechtswinkliges (kartesisches) Koordinatensystem.
Topologie von Hyperrechtecken Iteratives Konstruktionsverfahren von Hyperrechtecken Quelle: H. S. M. Coxeter, Regular Polytopes, New York: Dover Publications, Inc., 1973. Beim Übergang in die nächsthöhere Dimension wird das -dimensionale Hyperrechteck dupliziert und die entsprechenden Punkte der beiden -dimensionalen Hyperrechtecke durch Strecken miteinander verbunden. Jedes -dimensionale Hyperrechteck hat Ecken und Seitenflächen, die Hyperrechtecke der Dimension sind.
BRS mit nicht-monotonen Funktionen Quasi-konvexe Funktionen zur Lösung des Maximumproblems Bewertungsfunktion von Anfrage 1: Eine multivariate Funktion auf einer konvexen Menge heißt konvex, wenn für alle und jedes gilt, dass Sie heißt quasi-konvex, wenn gilt
BRS mit nicht-monotonen Funktionen Maximumprinzip quasi-konvexer Funktionen auf (allgemeinen) Hyperrechtecken Theorem 1: Es sei eine Funktion, eine konvexe Menge, dann gilt: ist quasi-konvex ist auf mindestens einer der Ecken eines jeden allgemeinen Hyperrechteckes maximal.
BRS mit nicht-monotonen Funktionen Maximumprinzip quasi-konvexer Funktionen auf (allgemeinen) Hyperrechtecken Beweis „“ (Induktion über die Dimension) Induktionsanfang Der Induktionsschritt folgt aus der Konstruktion eines -dim. Hyperrechtecks. Denn dieses ist aus -dim. Hyper- rechtecken zusammengesetzt, so dass die Verbindungslinie einer Ecke und einem angenommenen Punkt im Inneren eine -dim. Seitenfläche schneidet, für die die Induktionsannahme gilt. A C M B D
BRS mit nicht-monotonen Funktionen Maximumprinzip quasi-konvexer Funktionen auf (allgemeinen) Hyperrechtecken Beweis: „“ Man betrachte zwei beliebige Punkte aus dem Definitionsbereich von f. Da f nach Voraussetzung auf den Ecken eines jeden Hyperrechteckes maximal ist, so auch auf den Ecken der Strecke (1- dim. Hyperrechteck), die durch die beiden Punkte aufgespannt wird. Also gilt:
BRS mit quasi-konvexen Funktionen Ist die Bewertungsfunktion quasi-konvex, dann genügt es, die Funktionswerte der Ecken eines -dimensionalen MBRs zu berechnen, um den maximalen dieser Werte als obere Schranke für dieses MBR zu verwenden.
BRS mit nicht-monotonen Funktionen Quadratische Funktionen zur Lösung des Minimumproblems Bewertungsfunktion von Anfrage 2: Eine Funktion der Form mit für jedes i heißt (multivariate) quadratische Funktion. Für ein festes i ist die i-te (eindimensionale) Komponentenfunktion von heißt Anfragepunkt oder Zentrum, Gewichtungsvektor der Funktion.
BRS mit nicht-monotonen Funktionen Minimumprinzip quadratischer Funktionen auf achsenparallelen Hyperrechtecken Theorem 2: Es sei quadratisch, ein achsenparalleles Hyper-rechteck und der Datenpunkt, auf dem die Funktion minimal ist. Dann liegt auf dem Rand des Hyperrechtecks oder
BRS mit nicht-monotonen Funktionen Minimumprinzip quadratischer Funktionen auf achsenparallelen Hyperrechtecken Beweis: Aufgrund der Gleichung lässt sich die Berechnung des Minimums einer quadratischen Funktion auf einem Hyperrechteck auf den eindimensionalen Fall, also die Betrachtung ihrer Komponentenfunktionen reduzieren.
BRS mit nicht-monotonen Funktionen Minimumprinzip quadratischer Funktionen auf achsenparallelen Hyperrechtecken Gewichtung positiv: Minimum ist Null, wenn das Intervall das globale Minimum der Funktion enthält. Ansonsten liegt das Minimum entweder auf der linken, oder der rechten Intervallgrenze. Gewichtung negativ: Minimum liegt entweder auf der linken, oder der rechten Intervallgrenze. xi-Achse qi qi xi-Achse
durch Summation der Minima all ihrer Komponentenfunktionen , BRS-Verfahren mit quadratischen Funktionen Ist die Bewertungsfunktion quadratisch, dann berechnet sich die untere Schranke eines d-dimensionalen MBRs durch Summation der Minima all ihrer Komponentenfunktionen , auf den Intervallen .
Maximal auf nicht ausgezeichneter Ecke Fazit: Quasi-konvexe Bewertungsfunktionen Maximal auf nicht ausgezeichneter Ecke Quasi-konvexe Funktionen verallgemeinern das Maximumprinzip monotoner Funktionen auf MBRs in dem Sinne, dass sie auf (mindestens) einer beliebigen, nicht ausgezeichneten Ecke eines MBRs maximal sind. Es genügt, die Funktionswerte auf den Ecken zu berechnen, um die obere Grenze für einen MBR zu bestimmen. Quasi-konvexe Funktionen eignen sich u.a. zur Suche nach Objekten, die von einem gegebenen Anfragepunkt möglichst weit entfernt sein sollen.
Minimal auf dem Rand, oder Null Fazit: Quadratische Bewertungsfunktionen Minimal auf dem Rand, oder Null Quadratische Funktionen erfüllen ein Minimumprinzip auf MBRs. Einzige Ausnahme: Das Minimum liegt im Inneren und ist Null. Wenn und dann ist: Quadratische Funktionen eignen sich zur Bestimmung von Objekten, wo ein Teil der Attribute möglichst nahe, der andere Teil möglichst weit weg von den entsprechenden Koordinaten eines Anfragepunktes entfernt liegen soll.
Vielen Dank für Ihre Aufmerksamkeit!
Backup
Backup - Modellparameter 1. Zur Laufzeitbetrachtung des BRS+ steht die Datenkomplexität (keine Index-, oder Anfragekomplexität) im Fokus. N = Anzahl der Datenpunkte des d-dimensionalen Raumes 2. Aus der Anfrage ergeben sich die beiden Parameter d = Dimension und k = Anzahl der gesuchten top-k Kandidaten. d bestimmt die Anzahl der 2d Ecken eines d-dimensionalen MBRs und die Anzahl der Intervalle von H = [a1,b1] x … x [ad,bd]. 3. Die Anzahl t = Splits je Koordinate (Erzeugung des binären R-Baums ) bestimmt die Baumtiefe (BT) = dt, die Granularität g = 2dt (2 hoch BT), sowie die Anzahl der Knoten 2t+1 -2.
Backup 7 QK K M 8 6 2 4 Q 3 9 5 1 Q: Quadratisch K: Konvex QK: Quasi-konvex M: Monoton
Backup Geometrische Interpretation quasi-konvexer Funktionen Niveaulinien und -mengen einer (quasi-)konvexen Funktion (links) und zweier nicht-quasi-konvexer Funktionen
Lg 6.2 6.0 5.8 8.0 7.0 9.0 Bg