des Business Intelligence Projekts Vorstellung der Ergebnisse des Business Intelligence Projekts Master Digitale Logistik und Management Präsentiert von: Maxim Beifert, Mohamed Oukettou
Gliederung Ist-Situation und Datenvorbereitung Datensäberung Datenreduktion Data Mining Verfahren Naive Bayes Clustering mit K-Means J48/ ID3 Schlussfolgerung
Ist-Situation und Datenvorbereitung Insgesamt 54 und 234 Datensätze. Verschiedene Themen (Finanzen, Wohnsituation, Studium, Freizeit, Verkehrsmittel, Zufriedenheit). Datenvorbereitung Datensäuberung: fehlende Daten manuell einfügen. inkonsistente Daten Betriebswirtschaft- Bachelor BW Wirtschaftsinformatik- Bachelor WI
Datenvorbereitung Datenreduktion (Ausgangspunkt 54*234= 12636) auf 34 Spalten und Datensätze von 234 auf 229 (34*229= 7786) Ausblenden von Attributen: z.B wie bewegst dich in Wismar (Anderes und Motorad) fast 100% benutzen kein Motorad sowie keinen anderen Verkehrsmittel Entfernen von Datensätze Zusammenfassen von Attributen: In welchen Wohnverhältnissen lebst du (Eigentumswohnung- Mietwohnung- Wohngemeinschaft- Studentenwohnheim- Eltern) wie kommst Du zur Hochschule (Bahn, Bus, Auto, Fahrrad, ZuFuß) Wie bewegst Du Dich in Wismar (Bus- Auto- Fahrrad- Zu Fuß)
Datenvorbereitung Finanzen Wohnsituation Studium Freizeit Verkehrsmittel Zufriedenheit Bafög finanzielle Unterstützung Arbeit Budget Wohnverhältnis Fläche Studiengang Semester Erstsudium Grund für S in Wismar Leistung im S Fernseher Fernseh (Std) Onlinespiele (Std) Sport WE in Wismar Ankunft nach Wismar Bewegung in Wismar Zufriedenheit mit der Lebens-situation Zufriedenheit mit der S Leistung Ziel: Zufriedenheit mit der aktuellen Lebenssituation als Student in Wismar vorhersagen
Data Mining Verfahren Naive Bayes: Am Anfang wählen wir alle Kategorien Und erzielen wir die Ergebnisse:
Accuracy % ; Anzahl von Daten Error % ; Anzahl von Daten Data Mining Verfahren In einer anderen Vorgehensweise nehmen wir die Kategorien im einzelnen Die Tabelle zeigt die erzielten Ergebnisse Themen Accuracy % ; Anzahl von Daten Error % ; Anzahl von Daten Finanzen 45,6 ; 21 54,3 ; 25 Studium 41,3 ; 19 58,6 ; 27 Wohnsituation 52,1 ; 24 47,8 ; 22 Freizeit Zufriedenheit Verkehrsmittel
Data Mining Verfahren Clustering K-Means K= 5 k= 4
Data Mining Verfahren Clustering K-Means
Data Mining Verfahren Entscheidungsbaum mit J48 und ID3 J48
Accuracy % ; Anzahl von Daten Error % ; Anzahl von Daten Data Mining Verfahren J 48 Themen Accuracy % ; Anzahl von Daten Error % ; Anzahl von Daten Finanzen 47,8 ; 22 52,17; 24 Studium 30,4; 14 69,5%; 32 Wohnsituation 47,8; 22 52,1; 24 Freizeit 54,3; 25 45,6; 21 Zufriedenheit Verkehrsmittel 43,4; 20 56,5; 26
Data Mining Verfahren ID3 Im allgemein das Verfahren von ID 3 Algorithmus sieht aus wie J48
Schlussfolgerung Umsetzung die Theorie in der Praxis Verwendung von verschiedenen Verfahren des Data Mining mit dem Naive Bayes Verfahren erzielt man die besten Ergebnisse J48 und ID3 sind Verfahren zur Generierung von Entscheidungsbäume und liefern fast die gleiche Egebnisse