Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger FernUniversität in Hagen.

Slides:



Advertisements
Ähnliche Präsentationen
Der R-Baum Richard Göbel.
Advertisements

Punkt-in-Polygon-Verfahren III (R/R+-Baum)
Informatik II: Algorithmen und Datenstrukturen SS 2013
Eine dynamische Menge, die diese Operationen unterstützt,
SST - Sequence Search Tree
Objekt – Relationales – Modell Tomasz Makowski IN
FH-Hof Der B-Baum Richard Göbel. FH-Hof Wahl des Verzweigungsgrad Verzweigungsgrad kann größer als 2 sein v Nachfolger für einen Knoten v-1 Werte in einem.
7. Natürliche Binärbäume
Suche in Texten (Stringsuche )
Kapitel 6. Suchverfahren
Genetische Algorithmen für die Variogrammanpassung
Der R-Baum Richard Göbel.
Dynamische Programmierung (2) Matrixkettenprodukt
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen 09 - Weitere Sortierverfahren Heapsort-Nachtrag Prof. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.
Algorithmen und Datenstrukturen
Institut für Kartographie und Geoinformation Dipl.-Ing. J. Schmittwilken Diskrete Mathe II Übung
R-tree, R*-tree und R+-tree
Diskrete Mathematik I Vorlesung 9b AVL-Baum, Algorithmen.
Geoinformation III Vorlesung 3 Quadtrees.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II Vorlesung In welcher Masche liegt der Punkt p?
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Globaler Ansatz Hough-Transformation
Modellierung von Baumstrukturen mit einem einzigen Polygonnetz
Heinrich Hertz Institut für Nachrichtentechnik Berlin
FH-Hof Analyse des R-Baums - Teil 1 Richard Göbel.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung 1 SS 2001 Algorithmus von Dijkstra.
Effiziente Algorithmen
Collision Detection.
DataMining Von Daten zu Informationen und Wissen
Einführung in die Programmierung
Effiziente Algorithmen
Diskrete Mathematik II
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Polynome und schnelle Fourier-Transformation
Einführung in die Informatik für Naturwissenschaftler und Ingenieure
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich.
Einführung in die Programmierung Wintersemester 2009/10 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich.
18 IndizierungInhalt 8Indizierung 8.1Grundlagen 8.2Besonderheiten des Primärschlüssels 8.3Einfachen Index erstellen 8.4Zusammengesetzten Index erstellen.
ProSeminar WS 2007/08 Leo Hackstein
Studieren Lernen Claudia Lischke-Arzt.
Bestimmung der Fläche zwischen den Tangenten und dem Graph
Jahrestagung der ASpB - München
Algorithmen und Datenstrukturen Übungsmodul 8
Fourier-Analyse und technologische Anwendungen
Lisa Blum - Kathrin Kunze - Michael Kreil
Vom graphischen Differenzieren
Algorithmische Probleme in Funknetzwerken IV
Dr.-Ing. R. Marklein - GET I - WS 06/07 - V Grundlagen der Elektrotechnik I (GET I) Vorlesung am Fr. 08:30-10:00 Uhr; R (Hörsaal)
Diskrete Mathematik I Vorlesung 2 Arrays.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung Datenstrukturen für den Algorithmus von.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II Vorlesung 4 WS 01/02 Quadtrees.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung Suche des kürzesten Weges in einem Netz.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung Voronoi-Diagramme.
Geoinformation II 6. Sem. Vorlesung April 2000 Geometrische Algorithmen - ein einführendes, größeres Beispiel für ein Semester-begleitendes Programmier.
- Studienarbeit - Entwurf und Umsetzung von kombinierten Anfragen für die Ähnlichkeitssuche auf digitalen Bilder auf der Basis von Regionen und Features.
Institut für Biomedizinische Technik Universität Karlsruhe Institut für Biomedizinische Technik Seminarvortrag Segmentierung medizinischer Bilder anhand.
ExKurs EinfG 1/8 Dr. Barbara Hoffmann LiteraturKompetenz Mit dem elektronischen Schreiben ist es Ihnen leicht gemacht, Objekte in Ihren Text.
Customizing Tools: Genehmigungsverfahren
Preisfindung Rabattgruppen
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
„A Fresh Look at Precision in Process Conformance“ Seminar: Sicherheitstechnoligien der Informationsgesellschaft SS 2011 – Institut für Informatik und.
Vorlesung AVL-Bäume/Algorithmen-
Vorlesung AVL-Bäume/Algorithmen-
Microsoft Excel S-Verweis Excel: SVerweis.
 Präsentation transkript:

Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger FernUniversität in Hagen

Übersicht ● Einordnung in das Themengebiet Datamining ● Ähnlichkeitssuche ● Zeitreihen ● Anwendungen ● Effiziente Ähnlichkeitssuche auf Zeitreihen nach Rakesh Agrawal, Christos Faloutsos, Arun N. Swami ● Fouriertransformation ● R*-Tree ● Suche auf Teil-Zeitreihen

Datamining Eine von vielen Definitionen: Datamining ist „die Anwendung (mathematischer) Methoden auf einen [üblicherweise großen] Datenbestand, mit dem Ziel der Mustererkennung“. Wikipedia - Die freie Enzyklopädie (Hrsg.) Wikipedia DVD-Ausgabe vom 20. September 2006 Artikel “Data-Mining“

Techniken und Methoden ● Entscheidungs- und Klassifikationsbäume ● Neuronale Netze ● Rule-Induction ● Clustering und Ähnlichkeitssuche ● k-Means-Clustering ● k-Nearest-Neighbours ● Range-Query

Zeitreihen

Agrawal, Faloutsos, Swami ● Erlaubt ● Range-Queries ● All-Pairs-Queries ● Restriktionen ● äquidistante Zeitreihen ● identischer Länge ● Keine Suche auf Teil-Zeitreihen ● Grundidee ● Abbildung der Zeitreihen auf Frequenz-Spektren mittels Diskreter Fourier-Transformation ● Indizierung anhand von drei bis fünf Frequenzen mit einem R*-Tree

Fourieranalyse: Basis

Fourieranalyse: Fourierreihen

Fourieranalyse: Ähnlichkeit

Fourieranalyse: Rauschen

Fourieranalyse: Folgerungen ● Ähnliche Zeitreihen → Ähnliche Spektren ● Niedrige Frequenzen sind signifikant ● auch bei braunem Rauschen ● Störungen = (weißes) Rauschen ● damit ist (als Überlagerung) immer zu rechnen ● weißes Rauschen ist „Worst Case“ → Verwendung der niedrigen Frequenzen zur Indizierung der Zeitreihen möglich! → Es kann zu false alerts im Index kommen Es kann nicht zu false dismissals kommen

R*-Tree: Bounding Boxes ● Ursprünglich real-räumliche ausgedehnte Objekte ● Nutzung minimaler Bounding-Boxes ● Übertragung auf ● Feature-Räume (ggf. multi-dimensional) ● Punkte als degenerierte Objekte

R*-Tree: Index ● Bounding Boxes um Objekt-Gruppen ● Gruppierung nach minimalen ● Flächen ● Überschneidungen ●... ● Hierarchisch, d.h. Gruppen von Gruppen → Baum-Struktur ● Suche nur in Zweigen, deren Bounding Box das gesuchte Objekt umfasst

R*-Tree: Suche Suche nur in Zweigen, deren Bounding Box... ● das gesuchte Objekt vollständig umfasst ● sich mit dem Suchbereich überschneidet

R*-Tree: Updates ● Aufwände für ● Berechnung der minimalen Bounding Boxes über den gesamten Zugriffspfad ● Zuordnung zu Gruppen ● Reorganisation der Gruppen ● bei überfüllten Knoten ● bei degenerierter Gruppierung → Tradeoff zwischen ● Such-Beschleunigung und ● Update-Verzögerung ● Hier liegen Unterschiede zwischen Mitgliedern der R-Tree Familie

Agrawal, Faloutsos, Swami ● Einfügen einer Zeitreihe ● Diskrete Fourier-Transformation durchführen ● Eintrag im R*-Tree ● Range-Query zu einer Anfrage-Zeitreihe durchführen ● Diskrete Fourier-Transformation durchführen ● Suche im R*-Tree nach Treffern Kann false alarms enthalten ● Postprocessing Berechnung der wahren Distanz anhand der Zeitreihen ● Ergebnis: Liste von Zeitreihen, die in der Range liegen

Fortentwicklungen ● Zeitreihen unterschiedlicher Länge / Abtast-Rate: Resampling ● Abfrage auf Teil-Zeitreihen ● Indizierung ● Minimale Länge für Abfrage-Zeitreihen festlegen: length ● “Fenster“ der Länge lenght über die Zeitreihen bewegen → Traces von Punkten im Feature-Raum ● Teil-Traces als ausgedehnte Objekte im R*-Tree indiziert ● Suche ● Länge length:→ Einfache Suche im Index ● Länge größer length:→ Prefix-Suche (ineffektiv) → Multi-Suche auf Teil-Stücke mit reduzierter Range; Ergebnis: Vereinigungsmenge