Präsentation herunterladen
1
Datenvorverarbeitung
Grundlagen und Lösungen mit KNIME Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management)
2
Gliederung Einführung in die Thematik
Grundlagen der Datenvorverarbeitung Datenvorverarbeitung anhand von Beispielen mit Knime 3.1 Datenreduktion 3.2 Datentransformation 3.3 Datensäuberung 4. Schlussfolgerung
3
1. Einführung in die Thematik
Datenvorverarbeitung ist im Bereich der Multimediatechnik und im Logistik-Bereich von Bedeutung Ziele: Datenvorverarbeitung mit ihren Bestandteilen und unterschiedlichen Verfahren vorstellen Durchführung von Anwendungsbeispielen mithilfe von Knime Unterschiedliche Voraussetzungen mit unterschiedlichen Verfahren
4
2. Grundlagen der Datenvorverarbeitung
Zweck der Datenvorverarbeitung: Reduktion der Eingangsgrößen auf ein Mindestmaß die Reduktion der Datensätze darf dabei nicht zu einem Verlust systemrelevanter Parameter führen Unterschiedliche Varianten und Verfahren dienen der Verbesserung von Datensätzen Dadurch kann der Datensatz besser be- und verarbeitet werden Knime hilft bei der Verbesserung durch Datenvorverarbeitung
5
Es gibt hauptsächlich vier verschiedene Datenvorverarbeitungsverfahren
Datenselektion Datenreduktion Datentransformation Datensäuberung Datenvorverarbeitungsverfahren Unterschiedliche Datenarten erfordern unterschiedliche Datenvorverarbeitungsverfahren
6
Anreicherung der Daten
Verschiedene Prozesse der Vorbereitung sollen das Data Mining vereinfachen Anreicherung der Daten Verbesserung der Daten-qualität Verringe-rung der Dimen-sionen Betrach-tung der Daten Stich-proben: Verteilung überprüfen Zugriff auf Daten Data Mining
7
3. Datenvorverarbeitung mit Knime
Darstellung der einzelnen Verfahren durch die Software Knime Welchen Einfluss hat eine unterschiedliche Datenvor-verarbeitung auf das Ergebnis? Wie geht man mit welchen Daten um? Experimente mit verschiedenen Datensätzen als erster Ansatz für Anwendungsempfehlungen
8
3.1 Datenreduktion Ziel ist es die Zahl der relevanten Dimensionen zu reduzieren Attribute streichen / auswählen Korrelationen dienen der Darstellung von Zusammenhängen zwischen zwei Attributen Auch unrealistische Werte können eliminiert werden Streichung von Spalten oder Zeilen mit keinem oder sehr niedrigen Aussagewert
9
Korrelation bilden, um die Beziehungen der Daten zueinander herauszufinden
10
Tabelle zeigt die Zusammenhänge der Daten zueinander
11
Zur Darstellung werden alle anderen Spalten entfernt
12
Streudiagramm macht auf Ausreißer aufmerksam, die begutachtet werden müssen
13
Durch das Sortieren kann festgestellt werden, dass einige Daten bzw
Durch das Sortieren kann festgestellt werden, dass einige Daten bzw. Zeilen überflüssig sind
14
Weiteres Sortieren bestätigt den Zusammenhang
15
Das Ergebnis ist die Streichung einer Spalte und von 54 Zeilen
16
Beispiel für eine vermutete nichts aussagende Spalte
ABER: Col3 und Col7 sind wichtig für die Auswertung des Datensatzes Ursache liegt in der Aussage der Spalten Die Aussagefähigkeiten der Daten müssen beachtet werden, auch wenn nur wenige Attribute vorhanden sind!
17
3.2 Datentransformation Überführung der Daten in eine Form, die für Data Mining- Verfahren geeigneter ist (Repräsentationsänderung) Verfahren zur Behandlung von Rauschen können hierzu gezählt werden Umkodierung von Attributen (Veränderung des Typ) Generalisierung: Ersetzung eines numerischen Attributs durch ein symbolisches Attribut mit quantitativer Aussage, z.B. niedrig, mittel, hoch Aggregation: Zusammenfassen mehrerer Tupel zu einem
18
Datentransformation – Umkodierung von Attributen
Normalisierung von numerischen werten im Wertebereichen Skalierung von Daten in Intervallen [0..1] Binning ermöglicht die Intervallbildung von numerischen Daten
19
Auto-Binner erstellt eine neue Spalte
Veränderung der Darstellung, aber nicht des Informations-gehaltes eines Attributes.
20
Das Ergebnis mit der alten Spalte und ohne Binning ist sehr unübersichtlich
21
Nach dem Auto-Binning erhält meine eine über-sichtliche Darstellung der gebildeten Intervalle
22
Das Numeric Binner benötigt Eingabe-informationen über die zu bildenden Intervalle
23
Auch hier ergibt sich eine wesentlich übersichtlichere Darstellung der Altersgruppen
24
Datentransformation - Generalisierung
Reduktion des Informationsgehaltes eines Attributs Zusammenfassung mehrerer Ausprägungen eines symbolischen Attributes zu einer einzigen Ausprägung z.B. c_temperat>=80 -> High, c_temperat>=70 && c_temperat<80 ->Mittel
25
Datentransformation - Java-Snippet Node
26
3.3 Datensäuberung Rohdaten sind oft Lückenhaft
Fehlerhaft oder wenig sorgfältig erfasste Daten Fehlende Werte müssen aus verschiedenen Gründen behandelt werden: Data Mining-Verfahren können nicht mit fehlenden Werten umgehen Attribute mit überwiegend fehlenden Werten sind nutzlos
27
Missing Value - Dieser Knoten hilft dabei fehlende Werte in Zellen zu behandeln
28
Wie soll man mit fehlende Daten umgehen?
Spielt die Positionierung des Missing-Value Knoten eine Rolle?
29
Herzdaten: Auswertung verschiedener Eigenschaften, die ausschlag-gebend für das Auftreten eines Herzleidens sein könnten Ziel-Attribut „heart“ Contract-Daten: Ziel-Attribut ist die Akzeptierbarkeit von Arbeitsverträgen
30
3.3 Datensäuberung Anwendungsempfehlungen (1/2)
Behandlung fehlender Werte: Entfernen von Tupeln, bei denen Werte fehlen ist sinnvoll, wenn die Klassifikation fehlt wenn dies wenige Tupel betrifft Entfernen des Attributes ist sinnvoll, wenn dies viele Tupel betrifft
31
Anwendungsempfehlungen (2/2)
Manueller Nachtrag der fehlenden Werte sehr zeitaufwendig nur sinnvoll bei wenigen fehlenden Werten Semantik der fehlenden Werte muss berücksichtigt werden Vorhersage eines wahrscheinlichen Wertes Lernen einer Klassifikation zur Vorhersage des betroffenen Attributs Daten-Training Zu viel Training der Daten führt zu einem schlechteren Ergebnis
32
4. Schlussfolgerung Der Bereich der Datenvorverarbeitung ist sehr vielfältig Durch sie kann die Auswertung eines Datensatzes vereinfacht und verbessert werden Fehler werden in der Datenvorverarbeitung gesucht, erkannt und bearbeitet Mit der Software Knime kann die Datenvorverarbeitung sehr gut und umfangreich gestaltet werden Die Datenvorverarbeitung ist zur Auswertung von Datensätzen unumgänglich und äußerst wichtig!
33
Quellen Althoff, Klaus-Dieter (2005)
„Wissensentdeckung und maschinelles Lernen“, Vorlesungsfolien der Universität Hildesheim 2005;URL: letzter Abruf: Reuter, Matthias (2004) „Datenvorverarbeitung (Preprocessing)“, URL: letzter Abruf: Werth, Oliver (2004/2005) „Datenvorverarbeitung von nominalen Daten für DataMining“, darmstadt.de/lehre/oberseminar/folien/Werth_Oliver-Slides.pdf, S. 4, letzter Abruf: Cleve, Jürgen (2011) „DataMining Skript WS 2011/12“Hochschule Wismar, Fakultät für Wirtschaftswissenschaften, S. 59 ff.
34
Vielen Dank für Ihre Aufmerksamkeit!
Wir stehen Ihnen nun für weiterführende Fragen zur Verfügung!
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.