Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen.

Ähnliche Präsentationen


Präsentation zum Thema: "Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen."—  Präsentation transkript:

1 Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen und Lösungen mit KNIME

2 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 2 Gliederung 1. Einführung in die Thematik 2. Grundlagen der Datenvorverarbeitung 3. Datenvorverarbeitung anhand von Beispielen mit Knime 3.1Datenreduktion 3.2Datentransformation 3.3Datensäuberung 4.Schlussfolgerung

3 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 1. Einführung in die Thematik Datenvorverarbeitung ist im Bereich der Multimediatechnik und im Logistik-Bereich von Bedeutung Ziele: Datenvorverarbeitung mit ihren Bestandteilen und unterschiedlichen Verfahren vorstellen Durchführung von Anwendungsbeispielen mithilfe von Knime Unterschiedliche Voraussetzungen mit unterschiedlichen Verfahren 3

4 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 2. Grundlagen der Datenvorverarbeitung Zweck der Datenvorverarbeitung: Reduktion der Eingangsgrößen auf ein Mindestmaß die Reduktion der Datensätze darf dabei nicht zu einem Verlust systemrelevanter Parameter führen Unterschiedliche Varianten und Verfahren dienen der Verbesserung von Datensätzen Dadurch kann der Datensatz besser be- und verarbeitet werden Knime hilft bei der Verbesserung durch Datenvorverarbeitung 4

5 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Es gibt hauptsächlich vier verschiedene Datenvorverarbeitungsverfahren 5 Datenselektion Datenreduktion Datentransformation Datensäuberung Unterschiedliche Datenarten erfordern unterschiedliche Datenvorverarbeitungsverfahren Datenvorverarbeitungsverfahren

6 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Verschiedene Prozesse der Vorbereitung sollen das Data Mining vereinfachen 6 Data Mining Verbesserung der Daten- qualität Betrach- tung der Daten Zugriff auf Daten Anreicherung der Daten Verringe- rung der Dimen- sionen Stich- proben: Verteilung überprüfen

7 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 3.Datenvorverarbeitung mit Knime Darstellung der einzelnen Verfahren durch die Software Knime Welchen Einfluss hat eine unterschiedliche Datenvor- verarbeitung auf das Ergebnis? Wie geht man mit welchen Daten um? Experimente mit verschiedenen Datensätzen als erster Ansatz für Anwendungsempfehlungen 7

8 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 3.1 Datenreduktion Ziel ist es die Zahl der relevanten Dimensionen zu reduzieren Attribute streichen / auswählen Korrelationen dienen der Darstellung von Zusammenhängen zwischen zwei Attributen Auch unrealistische Werte können eliminiert werden Streichung von Spalten oder Zeilen mit keinem oder sehr niedrigen Aussagewert 8

9 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Korrelation bilden, um die Beziehungen der Daten zueinander herauszufinden 9

10 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Tabelle zeigt die Zusammenhänge der Daten zueinander 10

11 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Zur Darstellung werden alle anderen Spalten entfernt 11

12 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Streudiagramm macht auf Ausreißer aufmerksam, die begutachtet werden müssen 12

13 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Durch das Sortieren kann festgestellt werden, dass einige Daten bzw. Zeilen überflüssig sind 13

14 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Weiteres Sortieren bestätigt den Zusammenhang 14

15 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Das Ergebnis ist die Streichung einer Spalte und von 54 Zeilen 15

16 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Beispiel für eine vermutete nichts aussagende Spalte 16 ABER: Col3 und Col7 sind wichtig für die Auswertung des Datensatzes Ursache liegt in der Aussage der Spalten Die Aussagefähigkeiten der Daten müssen beachtet werden, auch wenn nur wenige Attribute vorhanden sind!

17 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 3.2 Datentransformation 17 Überführung der Daten in eine Form, die für Data Mining- Verfahren geeigneter ist (Repräsentationsänderung) Verfahren zur Behandlung von Rauschen können hierzu gezählt werden Umkodierung von Attributen (Veränderung des Typ) Generalisierung: Ersetzung eines numerischen Attributs durch ein symbolisches Attribut mit quantitativer Aussage, z.B. niedrig, mittel, hoch Aggregation: Zusammenfassen mehrerer Tupel zu einem

18 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Datentransformation – Umkodierung von Attributen 18 Normalisierung von numerischen werten im Wertebereichen Skalierung von Daten in Intervallen [0..1] Binning ermöglicht die Intervallbildung von numerischen Daten

19 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Auto-Binner erstellt eine neue Spalte 19 Veränderung der Darstellung, aber nicht des Informations- gehaltes eines Attributes.

20 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Das Ergebnis mit der alten Spalte und ohne Binning ist sehr unübersichtlich 20

21 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Nach dem Auto-Binning erhält meine eine über- sichtliche Darstellung der gebildeten Intervalle 21

22 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Das Numeric Binner benötigt Eingabe- informationen über die zu bildenden Intervalle 22

23 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Auch hier ergibt sich eine wesentlich übersichtlichere Darstellung der Altersgruppen 23

24 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 24 Reduktion des Informationsgehaltes eines Attributs Zusammenfassung mehrerer Ausprägungen eines symbolischen Attributes zu einer einzigen Ausprägung z.B. c_temperat>=80 -> High, c_temperat>=70 && c_temperat Mittel Datentransformation - Generalisierung

25 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 25 Datentransformation - Java-Snippet Node

26 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 3.3 Datensäuberung Rohdaten sind oft Lückenhaft Fehlerhaft oder wenig sorgfältig erfasste Daten Fehlende Werte müssen aus verschiedenen Gründen behandelt werden: Data Mining-Verfahren können nicht mit fehlenden Werten umgehen Attribute mit überwiegend fehlenden Werten sind nutzlos 26

27 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Missing Value - Dieser Knoten hilft dabei fehlende Werte in Zellen zu behandeln 27

28 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 28 Wie soll man mit fehlende Daten umgehen? Spielt die Positionierung des Missing-Value Knoten eine Rolle?

29 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 29 Herzdaten: Auswertung verschiedener Eigenschaften, die ausschlag- gebend für das Auftreten eines Herzleidens sein könnten Ziel-Attribut heart Contract-Daten: Ziel-Attribut ist die Akzeptierbarkeit von Arbeitsverträgen

30 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 3.3 Datensäuberung Anwendungsempfehlungen (1/2) 30 Behandlung fehlender Werte: Entfernen von Tupeln, bei denen Werte fehlen ist sinnvoll, wenn die Klassifikation fehlt wenn dies wenige Tupel betrifft Entfernen des Attributes ist sinnvoll, wenn dies viele Tupel betrifft

31 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Anwendungsempfehlungen (2/2) Manueller Nachtrag der fehlenden Werte sehr zeitaufwendig nur sinnvoll bei wenigen fehlenden Werten Semantik der fehlenden Werte muss berücksichtigt werden Vorhersage eines wahrscheinlichen Wertes Lernen einer Klassifikation zur Vorhersage des betroffenen Attributs Daten-Training Zu viel Training der Daten führt zu einem schlechteren Ergebnis 31

32 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 4. Schlussfolgerung Der Bereich der Datenvorverarbeitung ist sehr vielfältig Durch sie kann die Auswertung eines Datensatzes vereinfacht und verbessert werden Fehler werden in der Datenvorverarbeitung gesucht, erkannt und bearbeitet Mit der Software Knime kann die Datenvorverarbeitung sehr gut und umfangreich gestaltet werden Die Datenvorverarbeitung ist zur Auswertung von Datensätzen unumgänglich und äußerst wichtig! 32

33 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer Quellen Althoff, Klaus-Dieter (2005) Wissensentdeckung und maschinelles Lernen, Vorlesungsfolien der Universität Hildesheim 2005;URL:http://www.iis.uni- hildesheim.de/files/teaching/wintersemester /VorlesungWissensentdeckung/Resourcen/2004-weml- 12.pdf, letzter Abruf: Reuter, Matthias (2004) Datenvorverarbeitung (Preprocessing), URL: letzter Abruf: Werth, Oliver (2004/2005) Datenvorverarbeitung von nominalen Daten für DataMining, darmstadt.de/lehre/oberseminar/folien/Werth_Oliver-Slides.pdf, S. 4, letzter Abruf: Cleve, Jürgen (2011) DataMining Skript WS 2011/12Hochschule Wismar, Fakultät für Wirtschaftswissenschaften, S. 59 ff. 33

34 Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer 34 Vielen Dank für Ihre Aufmerksamkeit! Wir stehen Ihnen nun für weiterführende Fragen zur Verfügung!


Herunterladen ppt "Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management) Datenvorverarbeitung Grundlagen."

Ähnliche Präsentationen


Google-Anzeigen