Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Heinz Albert Geändert vor über 9 Jahren
1
Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de FernUniversität in Hagen
2
Übersicht ● Einordnung in das Themengebiet Datamining ● Ähnlichkeitssuche ● Zeitreihen ● Anwendungen ● Effiziente Ähnlichkeitssuche auf Zeitreihen nach Rakesh Agrawal, Christos Faloutsos, Arun N. Swami ● Fouriertransformation ● R*-Tree ● Suche auf Teil-Zeitreihen
3
Datamining Eine von vielen Definitionen: Datamining ist...... „die Anwendung (mathematischer) Methoden auf einen [üblicherweise großen] Datenbestand, mit dem Ziel der Mustererkennung“. Wikipedia - Die freie Enzyklopädie (Hrsg.) Wikipedia DVD-Ausgabe vom 20. September 2006 Artikel “Data-Mining“
4
Techniken und Methoden ● Entscheidungs- und Klassifikationsbäume ● Neuronale Netze ● Rule-Induction ● Clustering und Ähnlichkeitssuche ● k-Means-Clustering ● k-Nearest-Neighbours ● Range-Query
5
Zeitreihen
6
Agrawal, Faloutsos, Swami ● Erlaubt ● Range-Queries ● All-Pairs-Queries ● Restriktionen ● äquidistante Zeitreihen ● identischer Länge ● Keine Suche auf Teil-Zeitreihen ● Grundidee ● Abbildung der Zeitreihen auf Frequenz-Spektren mittels Diskreter Fourier-Transformation ● Indizierung anhand von drei bis fünf Frequenzen mit einem R*-Tree
7
Fourieranalyse: Basis
8
Fourieranalyse: Fourierreihen
9
Fourieranalyse: Ähnlichkeit
10
Fourieranalyse: Rauschen
11
Fourieranalyse: Folgerungen ● Ähnliche Zeitreihen → Ähnliche Spektren ● Niedrige Frequenzen sind signifikant ● auch bei braunem Rauschen ● Störungen = (weißes) Rauschen ● damit ist (als Überlagerung) immer zu rechnen ● weißes Rauschen ist „Worst Case“ → Verwendung der niedrigen Frequenzen zur Indizierung der Zeitreihen möglich! → Es kann zu false alerts im Index kommen Es kann nicht zu false dismissals kommen
12
R*-Tree: Bounding Boxes ● Ursprünglich real-räumliche ausgedehnte Objekte ● Nutzung minimaler Bounding-Boxes ● Übertragung auf ● Feature-Räume (ggf. multi-dimensional) ● Punkte als degenerierte Objekte
13
R*-Tree: Index ● Bounding Boxes um Objekt-Gruppen ● Gruppierung nach minimalen ● Flächen ● Überschneidungen ●... ● Hierarchisch, d.h. Gruppen von Gruppen → Baum-Struktur ● Suche nur in Zweigen, deren Bounding Box das gesuchte Objekt umfasst
14
R*-Tree: Suche Suche nur in Zweigen, deren Bounding Box... ● das gesuchte Objekt vollständig umfasst ● sich mit dem Suchbereich überschneidet
15
R*-Tree: Updates ● Aufwände für ● Berechnung der minimalen Bounding Boxes über den gesamten Zugriffspfad ● Zuordnung zu Gruppen ● Reorganisation der Gruppen ● bei überfüllten Knoten ● bei degenerierter Gruppierung → Tradeoff zwischen ● Such-Beschleunigung und ● Update-Verzögerung ● Hier liegen Unterschiede zwischen Mitgliedern der R-Tree Familie
16
Agrawal, Faloutsos, Swami ● Einfügen einer Zeitreihe ● Diskrete Fourier-Transformation durchführen ● Eintrag im R*-Tree ● Range-Query zu einer Anfrage-Zeitreihe durchführen ● Diskrete Fourier-Transformation durchführen ● Suche im R*-Tree nach Treffern Kann false alarms enthalten ● Postprocessing Berechnung der wahren Distanz anhand der Zeitreihen ● Ergebnis: Liste von Zeitreihen, die in der Range liegen
17
Fortentwicklungen ● Zeitreihen unterschiedlicher Länge / Abtast-Rate: Resampling ● Abfrage auf Teil-Zeitreihen ● Indizierung ● Minimale Länge für Abfrage-Zeitreihen festlegen: length ● “Fenster“ der Länge lenght über die Zeitreihen bewegen → Traces von Punkten im Feature-Raum ● Teil-Traces als ausgedehnte Objekte im R*-Tree indiziert ● Suche ● Länge length:→ Einfache Suche im Index ● Länge größer length:→ Prefix-Suche (ineffektiv) → Multi-Suche auf Teil-Stücke mit reduzierter Range; Ergebnis: Vereinigungsmenge
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.