Zur Veranstaltung Business Intelligence Data Mining Untersuchung der Umfragedaten der Direktstudenten im Bereich Wirtschaft der Hochschule Wismar mit der Open- Source Software KNIME Zur Veranstaltung Business Intelligence Vorgetragen von: Sina Maria Viehhofer Sophie Wieckowski Betreuer: Prof. Dr. Jürgen Cleve Datum: 07.01.2013
Gliederung Datenvorbereitung Data Mining Clustering Klassifikation Assoziationsanalyse Fazit
Datenvorbereitung Überprüfung auf Vollständigkeit Vollständigkeit Ermittlung fehlender Werte mithilfe von kNN Datensatz Ergebnis Fr.13 WS Ergebnis Fr. 15 Ergebnis Fr. 23 22 2 60% 62 5 33% 1 41% 64 54% 87 32% 110 38% 170 70 190 Konsistenz Widersprüche identifizieren Wenn möglich korrigieren ggf. als fehlerhaft markieren
Datenvorbereitung Detaillierungsgrad Detaillierungsgrad reduzieren Fragen zusammenfassen Antwortmöglichkeiten zusammenfassen Frage 6+7 (Erststudium und vorheriger Studiengang) Frage 6 Erststudium Frage 6.2 nominal Erststudium Frage 13+14 (Arbeit und Stundenzahl) Frage 13 Arbeit Frage 22+23 (Fernseher und Stundenzahl) Frage 22 Fernseher Frage 24+25 (Videospiele und Stundenzahl) Frage 24 Videospiele Frage 16 Antwortmöglichkeit WG in Mietwohnung ergänzt Transformation Umwandlung in numerische Daten
Gliederung Datenvorbereitung Data Mining Clustering Klassifikation Assoziationsanalyse Fazit
Data Mining Clustering k-Means Keine sinnvollen Ergebnisse Sinnvolle Kategorisierung bereits bei der Erstellung des Fragebogens vorgenommen
Fehlerfreiheit > 80 Prozent Data Mining Klassifikation Entscheidungsbaum Vergleich Decision Tree Learner – Node (Gini- Index, Gain-Ratio) mit dem J48-Node (C4.5-Algorithmus) Fehlerfreiheit > 80 Prozent Attribut Fehlerfreiheit in Prozent Erststudium 90,425 Studium an der Hochschule Wismar aufgrund der Empfehlung 84,043 Studium an der Hochschule Wismar aufgrund im Fragebogen nicht aufgeführter Gründe 96,17 Zur Hochschule mit der Bahn 95,745 Zur Hochschule mit dem Bus 94,681 Zur Hochschule mit dem Auto 81,915 Zur Hochschule mit dem Motorrad 98,936 Fortbewegung in Wismar mit dem Bus 92,553 Fortbewegung in Wismar mit dem Fahrrad 86,17
Data Mining Klassifikation k- Nearest Neighbor Überprüfung auf Vollständigkeit Ermittlung fehlender Wert emit Hilfe von kNN Fehlerfreiheit Spanne von 25% bis 100% In Summe 61% Höchste Genauigkeit bei Multiple-Choice Fragen
Data Mining Klassifikation Naive Bayes Attribute müssen voneinander unabhängig sein Ausgabe über Scorer möglich Attribut: Leistung Fehlerfreiheit 61% Distanz 74 Durchschnittliche Distanz 1,17 Fehlerfreiheit Gesamt: 63%
Assoziationsregeln Bsp.: Data Mining Assoziationsanalyse A-Priori Interessantheitsmaße: Konfidenz + Support Ausgabe in Assoziationsregeln Assoziationsregeln Bsp.: 1. Alter=21-25 + finanz.. Unterstützung=ja (109 DS) ==> Erststudium=ja conf:(0.97) 2. Alter=21-25 + Bafög=nein + Mit Leistung zufrieden=ja + ausreichend?=ja (38 DS) ==> finanz. Unterstützung=ja (37 DS) Conf:(0.97)
Gliederung Datenvorbereitung Data Mining Clustering Klassifikation Assoziationsanalyse Fazit
Fazit Auswahl des richtigen Verfahrens von großer Bedeutung. Die Beurteilung ob ein Fehlerfreiheitsmaß ausreichend ist, muss individuell anhand der Daten und des Verfahrens erfolgen. Eine allgemeingültige Definition existiert nicht. Algorithmus Durchschnittliche Fehlerfreiheit in Prozent k-Means k-Nearest Neighbor 61 NaiveBayes 63 C4.5 67 Apriori ---- Data Mining als unterstützendes Werkzeug
Danke für die Aufmerksamkeit