Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Rechen- und Kommunikationszentrum (RZ) Datamining-Methoden zur Analyse von Messdaten Immanuel Zumbruch.

Ähnliche Präsentationen


Präsentation zum Thema: "Rechen- und Kommunikationszentrum (RZ) Datamining-Methoden zur Analyse von Messdaten Immanuel Zumbruch."—  Präsentation transkript:

1 Rechen- und Kommunikationszentrum (RZ) Datamining-Methoden zur Analyse von Messdaten Immanuel Zumbruch

2 Seminarvortrag, RZ: Immanuel ZumbruchFolie 2  Einleitung  Motivation, Ziel der Seminararbeit  Mustererkennung  Bayes Klassifikator  K-Nächste-Nachbarn Verfahren  Künstliche Neuronale Netze  Zeitreihenanalyse  Überblick, Komponentenmodelle  Bestimmung der Deterministischen Komponenten  Stochastische Prozesse für die Restkomponenten  Zusammenfassung Inhaltsverzeichnis

3 Seminarvortrag, RZ: Immanuel ZumbruchFolie 3 Einleitung

4 Seminarvortrag, RZ: Immanuel ZumbruchFolie 4  Motivation  Sehr viele Messdaten die täglich Anfallen  => Sehr viele potentiell ableitbare, wichtige Informationen!  Bisher unvollständiger Analyseprozess  Nötig zur Extraktion relevanter Informationen aus den Datenmassen  Prozessoptimierung  Kostenreduktion  Einsparung von Ressourcen  Bessere Überwachung von Prozessen  Ziel  Überblick über die vorhandenen Methoden des Dataminings schaffen.  Schwerpunkt: Zeitreihenanalyse Einführung

5 Seminarvortrag, RZ: Immanuel ZumbruchFolie 5 Mustererkennung

6 Seminarvortrag, RZ: Immanuel ZumbruchFolie 6  Grundgedanke: Finden einer Entscheidungsfunktion  Klassifizieren von Merkmalsvektor x Entscheidungsfunktion

7 Seminarvortrag, RZ: Immanuel ZumbruchFolie 7  Wahrscheinlichkeitstheoretischer Ansatz  Jeder Merkmalsvektor kann eindeutig einer Klasse zugeordnet werden.  Sprich:  Jede Klasse hat für die Merkmalsvektoren eine eigene gewichtete Verteilungsfunktion.  Gegeben durch:  Die Entscheidungsfunktion wählt die Klasse für den Merkmalsvektor x, welche die höchste Wahrscheinlichkeit an der Stelle im Merkmalsraum hat.  Entscheidungsfunktion  Umkehrung der Argumente, da E(x) und nicht E(b)! Bayesscher Ansatz

8 Seminarvortrag, RZ: Immanuel ZumbruchFolie 8 Beispiel – (A Priori-)/Klassenverteilungen

9 Seminarvortrag, RZ: Immanuel ZumbruchFolie 9 K-Nächste-Nachbarn Klassifikator

10 Seminarvortrag, RZ: Immanuel ZumbruchFolie 10 Künstliche Neuronale Netze

11 Seminarvortrag, RZ: Immanuel ZumbruchFolie 11  Was ist ein KNN?  Modelliert funktionale Abhängigkeiten zwischen Ein- und Ausgabe  Wofür verwendet man ein KNN  Klassifizierung  Prognose von Zeitreihen  Bildverarbeitung  Frühwarnsysteme  Schrift-/Spracherkennung Einführung

12 Seminarvortrag, RZ: Immanuel ZumbruchFolie 12  Aufbau neuronaler Netze von Säugetieren  Neuronen sind Zellkörper, die eingehende Signale weiterleiten  Sind verbunden durch unterschiedlich dicke/geformte Dendriten  An den Enden der Dendriten befinden sich die Synapsen  Am synaptischen Spalt werden Neurotransmitter zur Übertragung Signals verwendet. Biologisches Vorbild

13 Seminarvortrag, RZ: Immanuel ZumbruchFolie 13  Darstellung durch Graphen  Die Neuronen sind die Knoten des Graphen  Die Dendriten sind die Kanten, welche die Knoten verbinden.  Sind gewichtet und gerichtet!  Die Übertragungssignale werden mit Übergangsfunktionen berechnet.  Schichtenbildung Aufbau von KNNs

14 Seminarvortrag, RZ: Immanuel ZumbruchFolie 14 Zeitreihenanalyse

15 Seminarvortrag, RZ: Immanuel ZumbruchFolie 15  Was ist eine Zeitreihe?  Zeitlich geordnete Folge von Messwerten  Endlich  Feste zeitliche Abstände zwischen den Messwerten  Beispiele: Aktienkurse, Temperaturen, BIP, …  Was ist Zeitreihenanalyse  Mathematische Modelle für die deterministischen und nichtdeterministischen Komponenten der Zeitreihe.  Deterministisch: Trend, saisonale Schwankungen  Nichtdeterministisch: Restkomponenten  Ermöglicht besseres Verständnis und Prognose Einführung

16 Seminarvortrag, RZ: Immanuel ZumbruchFolie 16  Festlegung von Komponenten, in welche die Zeitreihe zerlegt werden soll.  Trendkomponenten  Saisonale Komponenten  Zufallskomponenten  Additives Komponentenmodell  Aufbau:  Multiplikatives Komponentenmodell  Aufbau: Komponentenmodelle

17 Seminarvortrag, RZ: Immanuel ZumbruchFolie 17  Methode der kleinsten Fehlerquadrate  Schätzen eines Trendpolynoms:  Beispiel: linearer Trend  Zum Schätzen von a und b gilt es folgendes Minimierungsproblem zu lösen  Auch andere Modelle möglich. Z.B. ein exponentielles Wachstum (z.B. Entwicklung der Weltbevölkerung) Trendbestimmung

18 Seminarvortrag, RZ: Immanuel ZumbruchFolie 18 Trendbestimmung – Beispiel 1

19 Seminarvortrag, RZ: Immanuel ZumbruchFolie 19  Filterung  Definieren eines Filters  Beispiel: Filter für Monatsdaten  Die 2v Randwerte fallen weg!  Exponentielles Glätten  Rekursive Definition:  Für nahe 1 ist der Einfluss vergangener Werte größer  Wenn nahe 0, werden die zukünftigen Werte stärker gewichtet Trendbestimmung

20 Seminarvortrag, RZ: Immanuel ZumbruchFolie 20  Bestimmung von Mittelwerten der Elemente mit gleicher Position in den Perioden.  Beispiel für Monatsdaten (bei k vollständigen Perioden):  1.  2.  Lässt sich einfach auf Perioden anderer Länge anpassen  Einfaches Verfahren Saisonale Komponenten

21 Seminarvortrag, RZ: Immanuel ZumbruchFolie 21  Anpassen eines trigonometrischen Polynoms an die Messwerte  Für k Perioden Verwenden des Ansatzes:  Schätzung der Parameter durch Methode der kleinsten Fehlerquadrate  Nachteil: Viele freie Parameter bei großem Messdatenumfang  Gemeinsame Schätzung mit Trendkomponente möglich  Bei einem linearen Trend z.B.:  Ziel: Subtraktion der Trend- und Saisonkomponenten von der Zeitreihe, zur Ermittlung stationärer Zufallskomponenten! Saisonale Komponenten

22 Seminarvortrag, RZ: Immanuel ZumbruchFolie 22  Modellierung durch stochastische Prozesse  Stationarität  Ein Stochastischer Prozess heißt (schwach) Stationär, wenn  Kovarianz ist nur noch abhängig vom Abstand der Messwerte zueinander  Heißt Autokovarianzfunktion  Wichtige Voraussetzung um Aussagen über eine ganze Reihe von Messwerten zu machen. Modelle für die Zufallskomponenten

23 Seminarvortrag, RZ: Immanuel ZumbruchFolie 23  Beispiel für einen einfachen stationären Prozess: Weißes Rauschen  Ein Prozess heißt weißes Rauschen, wenn  Folgende Voraussetzungen gelten für alle Elemente der Zeitreihe:  Die Autokovarianzfunktion errechnet sich zu: Weißes Rauschen

24 Seminarvortrag, RZ: Immanuel ZumbruchFolie 24  Ein MA-Prozess der Ordnung q ist gegeben durch  Definition:  Die Autokovarianz für einen MA(q)-Prozess:  Bsp.: MA(1)-Prozess  => Autokovarianzfkt.:  Verschwindet für h>1  Struktureigenschaften:  Nur Werte bis zum Lag q beeinflussen den aktuellen Wert. Moving-Average Prozesse

25 Seminarvortrag, RZ: Immanuel ZumbruchFolie 25  Ein AR-Prozess der Ordnung p ist gegeben durch  Definition:  Oder durch Umformung:  Beispiel: AR(1)-Prozess  Geg. durch  Autokovarianzfkt.:  => Exponentielle Abnahme mit wachsender Entfernung zwischen 2 Werten.  Vorteile: Leichte Schätzung der Parameter, wenn Ordnung feststeht.  Struktureigenschaften: Zufällige Ereignisse, die weit in der Vergangenheit liegen „schwingen“ in der Gegenwart trotzdem mit. Autoregressive Prozesse

26 Seminarvortrag, RZ: Immanuel ZumbruchFolie 26  Autoregessiver Moving-Average-Prozess der Ordnung p,q (kurz ARMA(p,q)  Definition:  Sind Kombination aus AR- und MA-Prozessen.  Vorteil: Oft weniger Parameter zur Modellierung nötig.  Nachteil: Mathematisch sehr schwierig zu handhaben. ARMA-Prozesse

27 Seminarvortrag, RZ: Immanuel ZumbruchFolie 27 Zusammenfassung Gegenüberstellung der Methoden zur Datenanalyse

28 Seminarvortrag, RZ: Immanuel ZumbruchFolie 28  Mustererkennung  Kann verwendet werden für:  Frühwarnsysteme  => Mehrere Messwerte beschreiben gemeinsam Systemzustände  Vorteile  Einfache modellierung  Einfaches training  Schnell  Nachteile  Hilft nicht bei der Prognose  Keine Abbildung zeitlicher Abläufe möglich Mustererkennung

29 Seminarvortrag, RZ: Immanuel ZumbruchFolie 29  Künstliche Neuronale Netze  Können verwendet werden für:  Prognose, Frühwarnsysteme  Vorteile  Schnell, da Berechnungen paralellisierbar  Anpassbar an viele Probleme  Nachteile  Training ist schwierig  Wahl der passenden Trainingsdaten und des Umfangs  Graphstruktur lässt keine Rückschlüsse auf kausale Zusammenhänge zwischen den Messwerten zu Künstliche neuronale Netze

30 Seminarvortrag, RZ: Immanuel ZumbruchFolie 30  Zeitreihenanalyse  Kann verwendet werden für:  Analyse zeitlicher Abläufe, Prognose  Vorteile  Liefert verständliche und genaue Modelle für zeitabhängige Daten  Nachteile  Schwierige Wahl des passendes Modells für die Zufallskomponenten  Keine Klassifikation von Zuständen möglich  Keine Zusammenführung mehrerer Messgrößen Zeitreihenanalyse

31 Seminarvortrag, RZ: Immanuel ZumbruchFolie 31 Vielen Dank für die Aufmerksamkeit! Gibt es noch Fragen?


Herunterladen ppt "Rechen- und Kommunikationszentrum (RZ) Datamining-Methoden zur Analyse von Messdaten Immanuel Zumbruch."

Ähnliche Präsentationen


Google-Anzeigen