Datenvorverarbeitung

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Excel – Kurs Philip Clasen
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Team 1 Annemarie Ulbricht, Ariane Kunst, Jan Bierer
On the Criteria to Be Used in Decomposing Systems into Modules
Seniorenbefragung zum Thema: Wohnen im Alter
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
Konfidenzintervalle für Parameter
Modellvergleich.
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
Internet facts 2006-I Graphiken zu dem Berichtsband AGOF e.V. September 2006.
Internet facts 2006-III Graphiken zum Berichtsband AGOF e.V. März 2007.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Internet facts 2005-IV Graphiken zu dem Berichtsband AGOF e.V. Juli 2006.
Anwendungsseminar: Kausale Modellbildung
Betreuerin: Kathleen Jerchel
Suchen und Finden in der BayDat-Datenbank
Inhalte und Maßnahmen eingegeben haben,
Die Darstellung technischer Unterrichts-inhalte mit Flash-Animationen
Wismar Business School
Kennlinie Lichtregelung in JavaNNS Version 1.1
Emotionale Intelligenz
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Multikollinearität Wann spricht man von Multikollinearität?
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
© Gabriele Sowada © Gabriele Sowada 2 Manuell Beispiel 1 demonstriert die Vorgehensweise bei der manuellen Programm- Eingabe am.
Neue variable Lernkontrollen mit Diagnose und Förderplanung
Self Organizing Tree Algorithm
Internet: Funktionsweise und Dienste
TWS/Graph HORIZONT Produkt-Präsentation Software für Rechenzentren
Institut für Arbeitswissenschaft TECHNISCHE UNIVERSITÄT DARMSTADT © Schaub, Helbig, Spelten, Landau 1998 Bewertung körperlicher Arbeit BkA Version 4.3.
Zur Veranstaltung Business Intelligence
des Business Intelligence Projekts
Folie 1 © IAB Austria, Presseinformation Roland M. Kreutzer, 4/2005.
Fuzzy Rule Learner Wissensextraktion / Data-Mining
HORIZONT 1 XINFO ® Das IT - Informationssystem Java Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
Wir üben die Malsätzchen
STATISIK LV Nr.: 1375 SS März 2005.
Was soll und kann eine fachdidaktische Vorlesung leisten? Maximilian Selinka.
Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering
WS 2009/10 Datenbanksysteme Fr 15:15 – 16:45 R Vorlesung #3 Das relationale Modell (Teil 2)
Analyse von Ablaufdiagrammen
HORIZONT 1 XINFO ® Das IT - Informationssystem HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 /
HORIZONT 1 XINFO ® Das IT - Informationssystem HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 /
HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
Rationelle Vorgehensweise bei der Fiona-Antragstellung
Symmetrische Blockchiffren DES – der Data Encryption Standard
SAP Seminar 2007 Materialstammsätze anlegen
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
Determinanten und Cramer‘sche Regel
Analyseprodukte numerischer Modelle
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Schlechte Verbindung? was tun? P ke ve lus e au er St ecke a t r t f d r.
Vortrag von Rechtsanwältin Verena Nedden, Fachanwältin für Steuerrecht zur Veranstaltung Wege zum bedingungslosen Grundeinkommen der Piratenpartei Rhein-Hessen.
1 © Holger Meyer, Scheeßel 2008 Schönes Haus! … aber es verbraucht zuviel.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Der Erotik Kalender 2005.
Exploiting Web Applications
Das IT - Informationssystem
SAP Seminar 2007 Organisationsobjekte anlegen
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Monatsbericht Ausgleichsenergiemarkt Gas – November
 Präsentation transkript:

Datenvorverarbeitung Grundlagen und Lösungen mit KNIME Modul Wissensextraktion / Data Mining Karim Eddarif (Multimediatechnik) Christian Meyerhöfer (Digitale Logistik und Management)

Gliederung Einführung in die Thematik Grundlagen der Datenvorverarbeitung Datenvorverarbeitung anhand von Beispielen mit Knime 3.1 Datenreduktion 3.2 Datentransformation 3.3 Datensäuberung 4. Schlussfolgerung

1. Einführung in die Thematik Datenvorverarbeitung ist im Bereich der Multimediatechnik und im Logistik-Bereich von Bedeutung Ziele: Datenvorverarbeitung mit ihren Bestandteilen und unterschiedlichen Verfahren vorstellen Durchführung von Anwendungsbeispielen mithilfe von Knime Unterschiedliche Voraussetzungen mit unterschiedlichen Verfahren

2. Grundlagen der Datenvorverarbeitung Zweck der Datenvorverarbeitung: Reduktion der Eingangsgrößen auf ein Mindestmaß die Reduktion der Datensätze darf dabei nicht zu einem Verlust systemrelevanter Parameter führen Unterschiedliche Varianten und Verfahren dienen der Verbesserung von Datensätzen Dadurch kann der Datensatz besser be- und verarbeitet werden Knime hilft bei der Verbesserung durch Datenvorverarbeitung

Es gibt hauptsächlich vier verschiedene Datenvorverarbeitungsverfahren Datenselektion Datenreduktion Datentransformation Datensäuberung Datenvorverarbeitungsverfahren Unterschiedliche Datenarten erfordern unterschiedliche Datenvorverarbeitungsverfahren

Anreicherung der Daten Verschiedene Prozesse der Vorbereitung sollen das Data Mining vereinfachen Anreicherung der Daten Verbesserung der Daten-qualität Verringe-rung der Dimen-sionen Betrach-tung der Daten Stich-proben: Verteilung überprüfen Zugriff auf Daten Data Mining

3. Datenvorverarbeitung mit Knime Darstellung der einzelnen Verfahren durch die Software Knime Welchen Einfluss hat eine unterschiedliche Datenvor-verarbeitung auf das Ergebnis? Wie geht man mit welchen Daten um? Experimente mit verschiedenen Datensätzen als erster Ansatz für Anwendungsempfehlungen

3.1 Datenreduktion Ziel ist es die Zahl der relevanten Dimensionen zu reduzieren Attribute streichen / auswählen Korrelationen dienen der Darstellung von Zusammenhängen zwischen zwei Attributen Auch unrealistische Werte können eliminiert werden Streichung von Spalten oder Zeilen mit keinem oder sehr niedrigen Aussagewert

Korrelation bilden, um die Beziehungen der Daten zueinander herauszufinden

Tabelle zeigt die Zusammenhänge der Daten zueinander

Zur Darstellung werden alle anderen Spalten entfernt

Streudiagramm macht auf Ausreißer aufmerksam, die begutachtet werden müssen

Durch das Sortieren kann festgestellt werden, dass einige Daten bzw Durch das Sortieren kann festgestellt werden, dass einige Daten bzw. Zeilen überflüssig sind

Weiteres Sortieren bestätigt den Zusammenhang

Das Ergebnis ist die Streichung einer Spalte und von 54 Zeilen

Beispiel für eine vermutete nichts aussagende Spalte ABER: Col3 und Col7 sind wichtig für die Auswertung des Datensatzes Ursache liegt in der Aussage der Spalten Die Aussagefähigkeiten der Daten müssen beachtet werden, auch wenn nur wenige Attribute vorhanden sind!

3.2 Datentransformation Überführung der Daten in eine Form, die für Data Mining- Verfahren geeigneter ist (Repräsentationsänderung) Verfahren zur Behandlung von Rauschen können hierzu gezählt werden Umkodierung von Attributen (Veränderung des Typ) Generalisierung: Ersetzung eines numerischen Attributs durch ein symbolisches Attribut mit quantitativer Aussage, z.B. niedrig, mittel, hoch Aggregation: Zusammenfassen mehrerer Tupel zu einem

Datentransformation – Umkodierung von Attributen Normalisierung von numerischen werten im Wertebereichen Skalierung von Daten in Intervallen [0..1] Binning ermöglicht die Intervallbildung von numerischen Daten

Auto-Binner erstellt eine neue Spalte Veränderung der Darstellung, aber nicht des Informations-gehaltes eines Attributes.

Das Ergebnis mit der alten Spalte und ohne Binning ist sehr unübersichtlich

Nach dem Auto-Binning erhält meine eine über-sichtliche Darstellung der gebildeten Intervalle

Das Numeric Binner benötigt Eingabe-informationen über die zu bildenden Intervalle

Auch hier ergibt sich eine wesentlich übersichtlichere Darstellung der Altersgruppen

Datentransformation - Generalisierung Reduktion des Informationsgehaltes eines Attributs Zusammenfassung mehrerer Ausprägungen eines symbolischen Attributes zu einer einzigen Ausprägung z.B. c_temperat>=80 -> High, c_temperat>=70 && c_temperat<80 ->Mittel

Datentransformation - Java-Snippet Node

3.3 Datensäuberung Rohdaten sind oft Lückenhaft Fehlerhaft oder wenig sorgfältig erfasste Daten Fehlende Werte müssen aus verschiedenen Gründen behandelt werden: Data Mining-Verfahren können nicht mit fehlenden Werten umgehen Attribute mit überwiegend fehlenden Werten sind nutzlos

Missing Value - Dieser Knoten hilft dabei fehlende Werte in Zellen zu behandeln

Wie soll man mit fehlende Daten umgehen? Spielt die Positionierung des Missing-Value Knoten eine Rolle?

Herzdaten: Auswertung verschiedener Eigenschaften, die ausschlag-gebend für das Auftreten eines Herzleidens sein könnten Ziel-Attribut „heart“ Contract-Daten: Ziel-Attribut ist die Akzeptierbarkeit von Arbeitsverträgen

3.3 Datensäuberung Anwendungsempfehlungen (1/2) Behandlung fehlender Werte: Entfernen von Tupeln, bei denen Werte fehlen ist sinnvoll, wenn die Klassifikation fehlt wenn dies wenige Tupel betrifft Entfernen des Attributes ist sinnvoll, wenn dies viele Tupel betrifft

Anwendungsempfehlungen (2/2) Manueller Nachtrag der fehlenden Werte sehr zeitaufwendig nur sinnvoll bei wenigen fehlenden Werten Semantik der fehlenden Werte muss berücksichtigt werden Vorhersage eines wahrscheinlichen Wertes Lernen einer Klassifikation zur Vorhersage des betroffenen Attributs Daten-Training Zu viel Training der Daten führt zu einem schlechteren Ergebnis

4. Schlussfolgerung Der Bereich der Datenvorverarbeitung ist sehr vielfältig Durch sie kann die Auswertung eines Datensatzes vereinfacht und verbessert werden Fehler werden in der Datenvorverarbeitung gesucht, erkannt und bearbeitet Mit der Software Knime kann die Datenvorverarbeitung sehr gut und umfangreich gestaltet werden Die Datenvorverarbeitung ist zur Auswertung von Datensätzen unumgänglich und äußerst wichtig!

Quellen Althoff, Klaus-Dieter (2005) „Wissensentdeckung und maschinelles Lernen“, Vorlesungsfolien der Universität Hildesheim 2005;URL:http://www.iis.uni-hildesheim.de/files/teaching/wintersemester20042005/VorlesungWissensentdeckung/Resourcen/2004-weml-12.pdf, letzter Abruf: 05.06.2013 Reuter, Matthias (2004) „Datenvorverarbeitung (Preprocessing)“, URL: http://www2.in.tu-clausthal.de/~reuter/fd.htm, letzter Abruf: 05.06.2013 Werth, Oliver (2004/2005) „Datenvorverarbeitung von nominalen Daten für DataMining“, http://www.ke.tu- darmstadt.de/lehre/oberseminar/folien/Werth_Oliver-Slides.pdf, S. 4, letzter Abruf: 05.06.2013 Cleve, Jürgen (2011) „DataMining Skript WS 2011/12“Hochschule Wismar, Fakultät für Wirtschaftswissenschaften, S. 59 ff.

Vielen Dank für Ihre Aufmerksamkeit! Wir stehen Ihnen nun für weiterführende Fragen zur Verfügung!