Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering.

Ähnliche Präsentationen


Präsentation zum Thema: "Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering."—  Präsentation transkript:

1 Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering deck using PDA or similar devices

2 Data Mining Cup Wissensextraktion 2 Gliederung Software Vorverarbeitung Analyse Algorithmen Verfeinerung Auswahl

3 Data Mining Cup Wissensextraktion Software Daten wurden in.csv Format gespeichert Excel für frühe Analysen und Umwandlung Knime + Weka + Math plugins für Datamining, Clusterung und die meisten Algorithmen Matlab für für Regression, Interpolation und Approximationverfahren Dropbox für Synchronisation 3

4 Data Mining Cup Wissensextraktion 4

5 Vorverarbeitung Keine fehlenden Werte Keine Duplikate Keine fehlerhaften Werte Rein syntaxisch her Daten komplett korrekt Allerdings... 5

6 Data Mining Cup Wissensextraktion Vorverarbeitung Allerdings... Starke Schwankungen, mit Peaks Keine zusätzlichen/abgeleiteten Informationen (wie Wochentag oder Gewinn) Werte nicht normalisiert und/oder nominalisiert 6

7 Data Mining Cup Wissensextraktion Vorverarbeitung Erstellen von CSV Dateien mit Zusätzlichen Informationen: -Gewinn,Wochentag, Durschnittlicher Gewinn (soweit) Zusätzliche nominalisierten und normalisierten Werte Durschnittswerte für Diagramme und Statistiken Strukturieren und Anlegen von Zwischentabellen/Resultaten Tabellen mit allen Wochenwerten in einer Zeile (pro Produkt) 7

8 Data Mining Cup Wissensextraktion 8

9 Analysis Erstellen von Tabellen mit Mittelwerten und Summen Darstellen von Diagrammen Notieren von Abweichungen, Min/Max-Werten Überprüfen auf Auffälligkeiten durch gruppierte Tabellen Starker Exceleinsatz 9

10 Data Mining Cup Wissensextraktion 10

11 Data Mining Cup Wissensextraktion Algorithmen Erstellen von Matlab und Knime Umgebungen Möglichkeiten schnell Module und Algorithmen zu tauschen Schnelles Anpassen der Daten für Noralisieren, Partitonieren, Splitten, Clusterung......und schließlich Auswertung 11

12 Data Mining Cup Wissensextraktion 12

13 Data Mining Cup Wissensextraktion Regression (linear, logistic, polynom, WEKA versions) Bayes (Naive, WEKA versions, Multinomial) Neuronal Network (MLP, PNN, WEKA Voted Perceptron Kstar, LWL Decission Trees Clustering: Kmeans, Xmeans.. (usw.) 13 Algorithmen:

14 Data Mining Cup Wissensextraktion Regression (linear, logistic, polynom, WEKA versions) Bayes (Naive, WEKA versions, Multinomial) Neuronal Network (MLP, PNN, WEKA Voted Perceptron Kstar, LWL Decission Trees Clustering: Kmeans, Xmeans.. (usw.) 14 Algorithmen:

15 Data Mining Cup Wissensextraktion Ergebnisse meist sehr ungenau (accuracy <<10%) aber 2 Algorithmen waren klar im Vorteil: Kstar – WEKA plugin – ungenau aber erkennt Tendenz Regressionen (Polynom/Linear) Accuracy Werte bis zu 20% Beide trotzdem bei weitem nicht genau genug 15 Algorithmen

16 Data Mining Cup Wissensextraktion Verbesserung der Resultate auf viele Weisen Veränderung interner Variablen Clusterung nach Wochentagen verbessert Ergebnisse stark Zusätzliche Einbindung von Neuronalen Netzwerken Entfernen oder skalieren mancher Daten 16 Verfeinerung

17 Data Mining Cup Wissensextraktion Größte Veränderung durch Sortierung nach Wochentagen Durch mehr als 7 Cluster allerdings noch bessere Resultate Clustersuche schlägt sich vor K-means Relativ gute Ergebnisse bei Regression und Kstar 17 Verfeinerung

18 Data Mining Cup Wissensextraktion Das experementieren ging dann eine Weile weiter... 18

19 Data Mining Cup Wissensextraktion Testen - Knime 19 1)Allgemeiner Workflow und WEKA Workflow 2)Anwendungen meister Algorithmen 3)Entscheidung: Regression(Matlab) und Kstar(Knime) 4)Kstar – Anpassung der Variablen (++) 5)Kstar+MLP – Hinzufügen eines neuronalen Netzes (--) 6)Kstar – Clusterung nach Wochetagen (++) 7)Kstar+Kmeans – Automatische Clusterung (++) 8)Kstar+Kmeans – Skalierung/Filterung (++) Beste Kstar Ergebnisse in 600ter Bereich...

20 Data Mining Cup Wissensextraktion 20

21 Data Mining Cup Wissensextraktion Verfeinern - Matlab Durchschnitt Tag/Menge pro Produkt 2. DS Wochentag/Menge pro Produkt (~16%) 3. MIN, MAX statt DS (ca.30%) 4. Ausreißer beseitigen (+ca.1.5%) 5. Identische Datensätze (+ca.1.5%) 6. Durchschnittspreis (+ca.0.5%) 7. Approximation Menge (30-40%, aber E:NaN, M:NaN) (8.Clustering Menge) (9.Clustering Produkt) 10.Zusammenführung aller Ansätze

22 Data Mining Cup Wissensextraktion 22

23 Data Mining Cup Wissensextraktion Auswahl 23 Bis man zwischen Regression und Kstar wählen musste (Bei Aufteilung 4:2 Wochen) Kstar: EuklD: 650, ManD: 20000, Accuracy bis 25% Regression: EuklD: 462, ManD: 20948, Accuracy bis 16.4% Regression kann konfiguriert werden, auf Kosten von der EuklD und ManD höhere Accuracy zu bekommen (30+) Endentscheidung: Regression

24 Data Mining Cup Wissensextraktion Quellen und Zusatzinformationen https://www.dropbox.com/home content/uploads/2012/03/Microsoft-Excel-2011-Logo.png content/uploads/2012/03/Microsoft-Excel-2011-Logo.png 24

25 Danke fürs Zuhören! 25


Herunterladen ppt "Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering."

Ähnliche Präsentationen


Google-Anzeigen