Bearbeiter: Maren Sötebier, Hannes Neumann, Oliver Böhm Hochschule Wismar University of Applied Sciences Technology, Business and Design Fakultät für Ingenieurwissenschaften, Bereich EuI Data Mining Cup 2012 Bearbeiter: Maren Sötebier, Hannes Neumann, Oliver Böhm
Ausgangsszenario 570 Produkte mit Informationen über: Tag Produkt ID Verkaufspreis verkauft Menge an diesem Tag Trainingsdaten: 42 Tage (intern 28) Validierungsdaten: 14 Tage
Analyse der gegebenen Daten Aufbereitung und Vorbetrachtung der Daten in MATLAB Sortierung und statistische Analyse Ermitteln der Korrelationskoeffizienten zwischen Preis und Verkaufsmenge
Ergebnisse der Analyse (1) keine Anhaltspunkte für Clustering durch: fehlende Produktbezeichnungen „unrealistische Schwankungen“ unbekannter Wochenrhythmus Preis und Verkauf zeigen keinerlei direkte Wechselwirkung geringe Beeinflussung des Verkaufsverlaufes eines Produktes durch den Preis- oder Verkaufsverlauf eines anderen Produktes ø Abhängigkeit vom Preisverlauf: ≈ 0,39 ø Abhängigkeit vom Verkaufsverlauf: ≈ 0,45 über alle Produkte betrachtet stellen die Tage 3, 10 , 17 und 24 höchstwahrscheinlich Sonntage da
Ergebnisse der Analyse (2) Preisverläufe zwischen Trainings- und Validierungsdaten teilweise sehr unterschiedlich Vermutung: 7-Tage Rhythmus (beginnend mit Freitag) über alle Produkte betrachtet stellen die Tage 3, 10 , 17 und 24 höchstwahrscheinlich Sonntage da
Erreichte Resultate in MATLAB
Erreichte Resultate in KNIME
Gewonnene Erkenntnisse 28 Datensätze mit 3 Informationen pro Produkt nicht ausreichend für treffsichere Vorhersage keine Abhängigkeiten zwischen Preisverlauf und Mengenverlauf erkennbar Zufallsbasierte Vorhersage mit akzeptablen Ergebnissen
Endergebnis 477.36 20628.24 Beste erreichte Punktzahl: Manhattan-Distanz: 20628.24
Vielen Dank für Ihre Aufmerksamkeit!