Datenvorverarbeitung Grundlagen und Lösungen mit KNIME Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management)
Gliederung Einführung in die Thematik Grundlagen der Datenvorverarbeitung Datenvorverarbeitung anhand von Beispielen mit Knime 3.1 Datenreduktion 3.2 Datentransformation 3.3 Datensäuberung 4. Schlussfolgerung
1. Einführung in die Thematik Datenvorverarbeitung ist im Bereich der Multimediatechnik und im Logistik-Bereich von Bedeutung Ziele: Datenvorverarbeitung mit ihren Bestandteilen und unterschiedlichen Verfahren vorstellen Durchführung von Anwendungsbeispielen mithilfe von Knime Unterschiedliche Voraussetzungen mit unterschiedlichen Verfahren
2. Grundlagen der Datenvorverarbeitung Zweck der Datenvorverarbeitung: Reduktion der Eingangsgrößen auf ein Mindestmaß die Reduktion der Datensätze darf dabei nicht zu einem Verlust systemrelevanter Parameter führen Unterschiedliche Varianten und Verfahren dienen der Verbesserung von Datensätzen Dadurch kann der Datensatz besser be- und verarbeitet werden Knime hilft bei der Verbesserung durch Datenvorverarbeitung
Es gibt hauptsächlich vier verschiedene Datenvorverarbeitungsverfahren Datenselektion Datenreduktion Datentransformation Datensäuberung Datenvorverarbeitungsverfahren Unterschiedliche Datenarten erfordern unterschiedliche Datenvorverarbeitungsverfahren
Anreicherung der Daten Verschiedene Prozesse der Vorbereitung sollen das Data Mining vereinfachen Anreicherung der Daten Verbesserung der Daten-qualität Verringe-rung der Dimen-sionen Betrach-tung der Daten Stich-proben: Verteilung überprüfen Zugriff auf Daten Data Mining
3. Datenvorverarbeitung mit Knime Darstellung der einzelnen Verfahren durch die Software Knime Welchen Einfluss hat eine unterschiedliche Datenvor-verarbeitung auf das Ergebnis? Wie geht man mit welchen Daten um? Experimente mit verschiedenen Datensätzen als erster Ansatz für Anwendungsempfehlungen
3.1 Datenreduktion Ziel ist es die Zahl der relevanten Dimensionen zu reduzieren Attribute streichen / auswählen Korrelationen dienen der Darstellung von Zusammenhängen zwischen zwei Attributen Auch unrealistische Werte können eliminiert werden Streichung von Spalten oder Zeilen mit keinem oder sehr niedrigen Aussagewert
Korrelation bilden, um die Beziehungen der Daten zueinander herauszufinden
Tabelle zeigt die Zusammenhänge der Daten zueinander
Zur Darstellung werden alle anderen Spalten entfernt
Streudiagramm macht auf Ausreißer aufmerksam, die begutachtet werden müssen
Durch das Sortieren kann festgestellt werden, dass einige Daten bzw Durch das Sortieren kann festgestellt werden, dass einige Daten bzw. Zeilen überflüssig sind
Weiteres Sortieren bestätigt den Zusammenhang
Das Ergebnis ist die Streichung einer Spalte und von 54 Zeilen
Beispiel für eine vermutete nichts aussagende Spalte ABER: Col3 und Col7 sind wichtig für die Auswertung des Datensatzes Ursache liegt in der Aussage der Spalten Die Aussagefähigkeiten der Daten müssen beachtet werden, auch wenn nur wenige Attribute vorhanden sind!
3.2 Datentransformation Überführung der Daten in eine Form, die für Data Mining- Verfahren geeigneter ist (Repräsentationsänderung) Verfahren zur Behandlung von Rauschen können hierzu gezählt werden Umkodierung von Attributen (Veränderung des Typ) Generalisierung: Ersetzung eines numerischen Attributs durch ein symbolisches Attribut mit quantitativer Aussage, z.B. niedrig, mittel, hoch Aggregation: Zusammenfassen mehrerer Tupel zu einem
Datentransformation – Umkodierung von Attributen Normalisierung von numerischen werten im Wertebereichen Skalierung von Daten in Intervallen [0..1] Binning ermöglicht die Intervallbildung von numerischen Daten
Auto-Binner erstellt eine neue Spalte Veränderung der Darstellung, aber nicht des Informations-gehaltes eines Attributes.
Das Ergebnis mit der alten Spalte und ohne Binning ist sehr unübersichtlich
Nach dem Auto-Binning erhält meine eine über-sichtliche Darstellung der gebildeten Intervalle
Das Numeric Binner benötigt Eingabe-informationen über die zu bildenden Intervalle
Auch hier ergibt sich eine wesentlich übersichtlichere Darstellung der Altersgruppen
Datentransformation - Generalisierung Reduktion des Informationsgehaltes eines Attributs Zusammenfassung mehrerer Ausprägungen eines symbolischen Attributes zu einer einzigen Ausprägung z.B. c_temperat>=80 -> High, c_temperat>=70 && c_temperat<80 ->Mittel
Datentransformation - Java-Snippet Node
3.3 Datensäuberung Rohdaten sind oft Lückenhaft Fehlerhaft oder wenig sorgfältig erfasste Daten Fehlende Werte müssen aus verschiedenen Gründen behandelt werden: Data Mining-Verfahren können nicht mit fehlenden Werten umgehen Attribute mit überwiegend fehlenden Werten sind nutzlos
Missing Value - Dieser Knoten hilft dabei fehlende Werte in Zellen zu behandeln
Wie soll man mit fehlende Daten umgehen? Spielt die Positionierung des Missing-Value Knoten eine Rolle?
Herzdaten: Auswertung verschiedener Eigenschaften, die ausschlag-gebend für das Auftreten eines Herzleidens sein könnten Ziel-Attribut „heart“ Contract-Daten: Ziel-Attribut ist die Akzeptierbarkeit von Arbeitsverträgen
3.3 Datensäuberung Anwendungsempfehlungen (1/2) Behandlung fehlender Werte: Entfernen von Tupeln, bei denen Werte fehlen ist sinnvoll, wenn die Klassifikation fehlt wenn dies wenige Tupel betrifft Entfernen des Attributes ist sinnvoll, wenn dies viele Tupel betrifft
Anwendungsempfehlungen (2/2) Manueller Nachtrag der fehlenden Werte sehr zeitaufwendig nur sinnvoll bei wenigen fehlenden Werten Semantik der fehlenden Werte muss berücksichtigt werden Vorhersage eines wahrscheinlichen Wertes Lernen einer Klassifikation zur Vorhersage des betroffenen Attributs Daten-Training Zu viel Training der Daten führt zu einem schlechteren Ergebnis
4. Schlussfolgerung Der Bereich der Datenvorverarbeitung ist sehr vielfältig Durch sie kann die Auswertung eines Datensatzes vereinfacht und verbessert werden Fehler werden in der Datenvorverarbeitung gesucht, erkannt und bearbeitet Mit der Software Knime kann die Datenvorverarbeitung sehr gut und umfangreich gestaltet werden Die Datenvorverarbeitung ist zur Auswertung von Datensätzen unumgänglich und äußerst wichtig!
Quellen Althoff, Klaus-Dieter (2005) „Wissensentdeckung und maschinelles Lernen“, Vorlesungsfolien der Universität Hildesheim 2005;URL:http://www.iis.uni-hildesheim.de/files/teaching/wintersemester20042005/VorlesungWissensentdeckung/Resourcen/2004-weml-12.pdf, letzter Abruf: 05.06.2013 Reuter, Matthias (2004) „Datenvorverarbeitung (Preprocessing)“, URL: http://www2.in.tu-clausthal.de/~reuter/fd.htm, letzter Abruf: 05.06.2013 Werth, Oliver (2004/2005) „Datenvorverarbeitung von nominalen Daten für DataMining“, http://www.ke.tu- darmstadt.de/lehre/oberseminar/folien/Werth_Oliver-Slides.pdf, S. 4, letzter Abruf: 05.06.2013 Cleve, Jürgen (2011) „DataMining Skript WS 2011/12“Hochschule Wismar, Fakultät für Wirtschaftswissenschaften, S. 59 ff.
Vielen Dank für Ihre Aufmerksamkeit! Wir stehen Ihnen nun für weiterführende Fragen zur Verfügung!