Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering

Name: Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering
Uploaded: 2017-12-27T21:54:37+00:00
Duration: PTM8S11
Channel: Odelia Gau
Description: Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering

Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering
deck using PDA or similar devices Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes

Gliederung Software Vorverarbeitung Analyse Algorithmen Verfeinerung
Auswahl

Software Daten wurden in .csv Format gespeichert
Excel für frühe Analysen und Umwandlung Knime + Weka + Math plugins für Datamining, Clusterung und die meisten Algorithmen Matlab für für Regression, Interpolation und Approximationverfahren Dropbox für Synchronisation

Vorverarbeitung Keine fehlenden Werte Keine Duplikate
Keine fehlerhaften Werte  Rein syntaxisch her Daten komplett korrekt Allerdings...

Vorverarbeitung Allerdings... Starke Schwankungen, mit „Peaks“
Keine zusätzlichen/abgeleiteten Informationen (wie Wochentag oder Gewinn) Werte nicht normalisiert und/oder nominalisiert

Vorverarbeitung Erstellen von CSV Dateien mit Zusätzlichen Informationen: -Gewinn,Wochentag, Durschnittlicher Gewinn (soweit) Zusätzliche nominalisierten und normalisierten Werte Durschnittswerte für Diagramme und Statistiken Strukturieren und Anlegen von Zwischentabellen/Resultaten Tabellen mit allen Wochenwerten in einer Zeile (pro Produkt)

Analysis Erstellen von Tabellen mit Mittelwerten und Summen
Darstellen von Diagrammen Notieren von Abweichungen, Min/Max-Werten Überprüfen auf Auffälligkeiten durch gruppierte Tabellen Starker Exceleinsatz

Algorithmen Erstellen von Matlab und Knime Umgebungen
Möglichkeiten schnell Module und Algorithmen zu tauschen Schnelles Anpassen der Daten... ... für Noralisieren, Partitonieren, Splitten, Clusterung... ...und schließlich Auswertung

Algorithmen: Regression (linear, logistic, polynom, WEKA versions)
Bayes (Naive, WEKA versions, Multinomial) Neuronal Network (MLP, PNN, WEKA Voted Perceptron Kstar, LWL Decission Trees Clustering: Kmeans, Xmeans .. (usw.)

Algorithmen Ergebnisse meist sehr ungenau (accuracy <<10%)
aber 2 Algorithmen waren klar im Vorteil: Kstar – WEKA plugin – ungenau aber erkennt Tendenz Regressionen (Polynom/Linear) Accuracy Werte bis zu 20% Beide trotzdem bei weitem nicht genau genug

Verfeinerung Verbesserung der Resultate auf viele Weisen
Veränderung interner Variablen Clusterung nach Wochentagen verbessert Ergebnisse stark Zusätzliche Einbindung von Neuronalen Netzwerken Entfernen oder skalieren mancher Daten

Verfeinerung Größte Veränderung durch Sortierung nach Wochentagen
Durch mehr als 7 Cluster allerdings noch bessere Resultate Clustersuche schlägt sich vor K-means Relativ gute Ergebnisse bei Regression und Kstar

Das experementieren ging dann eine Weile weiter...

Testen - Knime 1) Allgemeiner Workflow und WEKA Workflow
2) Anwendungen meister Algorithmen 3) Entscheidung: Regression(Matlab) und Kstar(Knime) 4) Kstar – Anpassung der Variablen (++) 5) Kstar+MLP – Hinzufügen eines neuronalen Netzes (--) 6) Kstar – Clusterung nach Wochetagen (++) 7) Kstar+Kmeans – Automatische Clusterung (++) 8) Kstar+Kmeans – Skalierung/Filterung (++) Beste Kstar Ergebnisse in 600ter Bereich...

Verfeinern - Matlab 1. Durchschnitt Tag/Menge pro Produkt
2. DS Wochentag/Menge pro Produkt (~16%) 3. MIN, MAX statt DS (ca.30%) 4. Ausreißer beseitigen (+ca.1.5%) 5. Identische Datensätze (+ca.1.5%) 6. Durchschnittspreis (+ca.0.5%) 7. Approximation Menge (30-40%, aber E:NaN, M:NaN) (8.Clustering Menge) (9.Clustering Produkt) 10.Zusammenführung aller Ansätze

Auswahl Bis man zwischen Regression und Kstar wählen musste
(Bei Aufteilung 4:2 Wochen) Kstar: EuklD: 650, ManD: 20000, Accuracy bis 25% Regression: EuklD: 462, ManD: 20948, Accuracy bis 16.4% Regression kann konfiguriert werden, auf Kosten von der EuklD und ManD höhere Accuracy zu bekommen (30+) Endentscheidung: Regression

Quellen und Zusatzinformationen

Danke fürs Zuhören!

Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering

Ähnliche Präsentationen

Präsentation zum Thema: "Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering

Ähnliche Präsentationen

Präsentation zum Thema: "Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback