Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Datenvorverarbeitung

Ähnliche Präsentationen


Präsentation zum Thema: "Datenvorverarbeitung"—  Präsentation transkript:

1 Datenvorverarbeitung
Grundlagen und Lösungen mit KNIME Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management)

2 Gliederung Einführung in die Thematik
Grundlagen der Datenvorverarbeitung Datenvorverarbeitung anhand von Beispielen mit Knime 3.1 Datenreduktion 3.2 Datentransformation 3.3 Datensäuberung 4. Schlussfolgerung

3 1. Einführung in die Thematik
Datenvorverarbeitung ist im Bereich der Multimediatechnik und im Logistik-Bereich von Bedeutung Ziele: Datenvorverarbeitung mit ihren Bestandteilen und unterschiedlichen Verfahren vorstellen Durchführung von Anwendungsbeispielen mithilfe von Knime Unterschiedliche Voraussetzungen mit unterschiedlichen Verfahren

4 2. Grundlagen der Datenvorverarbeitung
Zweck der Datenvorverarbeitung: Reduktion der Eingangsgrößen auf ein Mindestmaß die Reduktion der Datensätze darf dabei nicht zu einem Verlust systemrelevanter Parameter führen Unterschiedliche Varianten und Verfahren dienen der Verbesserung von Datensätzen Dadurch kann der Datensatz besser be- und verarbeitet werden Knime hilft bei der Verbesserung durch Datenvorverarbeitung

5 Es gibt hauptsächlich vier verschiedene Datenvorverarbeitungsverfahren
Datenselektion Datenreduktion Datentransformation Datensäuberung Datenvorverarbeitungsverfahren Unterschiedliche Datenarten erfordern unterschiedliche Datenvorverarbeitungsverfahren

6 Anreicherung der Daten
Verschiedene Prozesse der Vorbereitung sollen das Data Mining vereinfachen Anreicherung der Daten Verbesserung der Daten-qualität Verringe-rung der Dimen-sionen Betrach-tung der Daten Stich-proben: Verteilung überprüfen Zugriff auf Daten Data Mining

7 3. Datenvorverarbeitung mit Knime
Darstellung der einzelnen Verfahren durch die Software Knime Welchen Einfluss hat eine unterschiedliche Datenvor-verarbeitung auf das Ergebnis? Wie geht man mit welchen Daten um? Experimente mit verschiedenen Datensätzen als erster Ansatz für Anwendungsempfehlungen

8 3.1 Datenreduktion Ziel ist es die Zahl der relevanten Dimensionen zu reduzieren Attribute streichen / auswählen Korrelationen dienen der Darstellung von Zusammenhängen zwischen zwei Attributen Auch unrealistische Werte können eliminiert werden Streichung von Spalten oder Zeilen mit keinem oder sehr niedrigen Aussagewert

9 Korrelation bilden, um die Beziehungen der Daten zueinander herauszufinden

10 Tabelle zeigt die Zusammenhänge der Daten zueinander

11 Zur Darstellung werden alle anderen Spalten entfernt

12 Streudiagramm macht auf Ausreißer aufmerksam, die begutachtet werden müssen

13 Durch das Sortieren kann festgestellt werden, dass einige Daten bzw
Durch das Sortieren kann festgestellt werden, dass einige Daten bzw. Zeilen überflüssig sind

14 Weiteres Sortieren bestätigt den Zusammenhang

15 Das Ergebnis ist die Streichung einer Spalte und von 54 Zeilen

16 Beispiel für eine vermutete nichts aussagende Spalte
ABER: Col3 und Col7 sind wichtig für die Auswertung des Datensatzes Ursache liegt in der Aussage der Spalten Die Aussagefähigkeiten der Daten müssen beachtet werden, auch wenn nur wenige Attribute vorhanden sind!

17 3.2 Datentransformation Überführung der Daten in eine Form, die für Data Mining- Verfahren geeigneter ist (Repräsentationsänderung) Verfahren zur Behandlung von Rauschen können hierzu gezählt werden Umkodierung von Attributen (Veränderung des Typ) Generalisierung: Ersetzung eines numerischen Attributs durch ein symbolisches Attribut mit quantitativer Aussage, z.B. niedrig, mittel, hoch Aggregation: Zusammenfassen mehrerer Tupel zu einem

18 Datentransformation – Umkodierung von Attributen
Normalisierung von numerischen werten im Wertebereichen Skalierung von Daten in Intervallen [0..1] Binning ermöglicht die Intervallbildung von numerischen Daten

19 Auto-Binner erstellt eine neue Spalte
Veränderung der Darstellung, aber nicht des Informations-gehaltes eines Attributes.

20 Das Ergebnis mit der alten Spalte und ohne Binning ist sehr unübersichtlich

21 Nach dem Auto-Binning erhält meine eine über-sichtliche Darstellung der gebildeten Intervalle

22 Das Numeric Binner benötigt Eingabe-informationen über die zu bildenden Intervalle

23 Auch hier ergibt sich eine wesentlich übersichtlichere Darstellung der Altersgruppen

24 Datentransformation - Generalisierung
Reduktion des Informationsgehaltes eines Attributs Zusammenfassung mehrerer Ausprägungen eines symbolischen Attributes zu einer einzigen Ausprägung z.B. c_temperat>=80 -> High, c_temperat>=70 && c_temperat<80 ->Mittel

25 Datentransformation - Java-Snippet Node

26 3.3 Datensäuberung Rohdaten sind oft Lückenhaft
Fehlerhaft oder wenig sorgfältig erfasste Daten Fehlende Werte müssen aus verschiedenen Gründen behandelt werden: Data Mining-Verfahren können nicht mit fehlenden Werten umgehen Attribute mit überwiegend fehlenden Werten sind nutzlos

27 Missing Value - Dieser Knoten hilft dabei fehlende Werte in Zellen zu behandeln

28 Wie soll man mit fehlende Daten umgehen?
Spielt die Positionierung des Missing-Value Knoten eine Rolle?

29 Herzdaten: Auswertung verschiedener Eigenschaften, die ausschlag-gebend für das Auftreten eines Herzleidens sein könnten Ziel-Attribut „heart“ Contract-Daten: Ziel-Attribut ist die Akzeptierbarkeit von Arbeitsverträgen

30 3.3 Datensäuberung Anwendungsempfehlungen (1/2)
Behandlung fehlender Werte: Entfernen von Tupeln, bei denen Werte fehlen ist sinnvoll, wenn die Klassifikation fehlt wenn dies wenige Tupel betrifft Entfernen des Attributes ist sinnvoll, wenn dies viele Tupel betrifft

31 Anwendungsempfehlungen (2/2)
Manueller Nachtrag der fehlenden Werte sehr zeitaufwendig nur sinnvoll bei wenigen fehlenden Werten Semantik der fehlenden Werte muss berücksichtigt werden Vorhersage eines wahrscheinlichen Wertes Lernen einer Klassifikation zur Vorhersage des betroffenen Attributs Daten-Training Zu viel Training der Daten führt zu einem schlechteren Ergebnis

32 4. Schlussfolgerung Der Bereich der Datenvorverarbeitung ist sehr vielfältig Durch sie kann die Auswertung eines Datensatzes vereinfacht und verbessert werden Fehler werden in der Datenvorverarbeitung gesucht, erkannt und bearbeitet Mit der Software Knime kann die Datenvorverarbeitung sehr gut und umfangreich gestaltet werden Die Datenvorverarbeitung ist zur Auswertung von Datensätzen unumgänglich und äußerst wichtig!

33 Quellen Althoff, Klaus-Dieter (2005)
„Wissensentdeckung und maschinelles Lernen“, Vorlesungsfolien der Universität Hildesheim 2005;URL:http://www.iis.uni-hildesheim.de/files/teaching/wintersemester /VorlesungWissensentdeckung/Resourcen/2004-weml-12.pdf, letzter Abruf: Reuter, Matthias (2004) „Datenvorverarbeitung (Preprocessing)“, URL: letzter Abruf: Werth, Oliver (2004/2005) „Datenvorverarbeitung von nominalen Daten für DataMining“, darmstadt.de/lehre/oberseminar/folien/Werth_Oliver-Slides.pdf, S. 4, letzter Abruf: Cleve, Jürgen (2011) „DataMining Skript WS 2011/12“Hochschule Wismar, Fakultät für Wirtschaftswissenschaften, S. 59 ff.

34 Vielen Dank für Ihre Aufmerksamkeit!
Wir stehen Ihnen nun für weiterführende Fragen zur Verfügung!


Herunterladen ppt "Datenvorverarbeitung"

Ähnliche Präsentationen


Google-Anzeigen