Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering

Slides:



Advertisements
Ähnliche Präsentationen
Lehrplanbezug IT 7.3 Daten erfassen, ordnen, verarbeiten und austauschen (ca. 10 Std.) Die Schüler eignen sich Grundkenntnisse in der Arbeit mit einem.
Advertisements

Team 1 Annemarie Ulbricht, Ariane Kunst, Jan Bierer
Data Mining / Wissensextraktion
Datenvorverarbeitung
Schutzvermerk nach DIN 34 beachten CANopen 5-Jan-14, Seite 1 EDS und DCF-Dateien.
Statistische Suche nach melodischen Prototypen
Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.
Zusammenfassung TabelleEinfügen- Illustrationen – Tabelle) Zeilen- und Spaltenanzahl angeben Daten eingeben DiagrammEinfügen - Illustrationen - Diagramm.
Grundlagen im Bereich der Tabellenkalkulation
Nicht-Lineare Regression
Datentransformation und deskriptive Statistik I
Übung zur Vorlesung Theorien Psychometrischer Tests I
ABC-Analyse Tabelle erstellen (in der Materialwirtschaft)
Access 2000 Datenbanken.
Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,
Datenmatrix.
Korrelationskoeffizient nach Bravais-Pearson Eigenschaften X und Y unabhängig.
Wismar Business School
Classification of Credit Applicants Using Data Mining. Thema.
Auswertung der Ergebnisse Excel-Auswertungsdatei
Driss Harrou FH D Fachhochschule Düsseldorf 1 Aufgabenstellung - Erstellung eines modularisierten Akquirierungsprogramms für die aerodynamischen Messgrößen.
01 1 Dateneingabe Die Daten der Schüler können über die Tabelle eingegeben werden. In der Schule sind diese Daten aber bereits abgespeichert. Der Systembetreuer.
Präsentieren mit Powerpoint
Bearbeiter: Maren Sötebier, Hannes Neumann, Oliver Böhm
Zur Veranstaltung Business Intelligence
des Business Intelligence Projekts
DataMining Von Daten zu Informationen und Wissen
INSTITUT FÜR SPORTWISSENSCHAFTEN DER UNIVERSITÄT INNSBRUCK
Der modulare Aufbau BusinessNavigator.
Mathematik STATISTIK Viktoria Kozdron, 5AK VBS Augarten.
1. Meldung Schuldaten (Anfang Mai)
Fuzzy Rule Learner Wissensextraktion / Data-Mining
PULSION Medical Systems SE
1 Dipl.-Ing.(FH) Oliver Schulte In Kooperation mit Thema : Objektorientierte Realisierung eines Programms zur Erkennung von Vogelstimmen mit Hilfe Neuronaler.
Adaption von K-Means Algorithmen an Datenbanken
Probabilistic Neural Network
Fachhochschule München, Projektstudium Chipkarten SS 2002 Qualitätssicherung/Tester Wozu braucht man Tester? Vorbereitung Durchführung Ergebnisse Resumée.
R zieht ein in das Oracle Data Warehouse
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
Institut für Wirtschaftsinformatik – Software Engineering, JKU Linz 1 Algorithmen und Datenstrukturen Übungsmodul 5 Dr. W. Narzt u. Dr. A. Stritzinger.
Das Statistikmodul Omicron Syntax Data AB vor.
Objekte Objekte sind Elemente, die man mit dem Programm bearbeiten kann. Datei, aufgebaut als Tabelle (Relation) Datensatz, entspricht einer Zeile der.
Medien früher und heute
Klassifikation und Regression mittels neuronaler Netze
Structured Query Language
Excel Grundlagen.
Microsoft Excel Eine kurze Einführung.
Musterlösung zum Arbeitsblatt Nr. 1
Datenlogger-Auswerte Software GSoft
Erstellen einer Arff-Datei
Erheben, berechnen und darstellen von Daten
E x c e l ist ein Tabellenkalkulationsprogramm Bestandteil des MS-Office- Paket.
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
Datenmatrix HKI Proseminar Philipp Cielen.
Werkzeuge: ArcCatalog, ArcMap, ArcToolbox, ArcScene Birgit Abendroth
Auswertung analytischer Daten - Auswertungsziele
Auswertung analytischer Daten - Auswertungsziele.
HORIZONT 1 Product HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / Das IT – Informationssystem.
Arbeitsmaterialien im DFU-Unterricht
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Statistische Auswertung und Darstellungsmöglichkeiten von Messdaten Seminarvortrag von Christian Gorgels im Studiengang Scientific Programming.
Mobile Learning Engineering (MLE)
Intelligent Data Mining
Lernmodul Einführung Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Nutzungsbedingungen:
2.3 Gruppierte Datensätze
 Präsentation transkript:

Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering deck using PDA or similar devices Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de

Gliederung Software Vorverarbeitung Analyse Algorithmen Verfeinerung Auswahl

Software Daten wurden in .csv Format gespeichert Excel für frühe Analysen und Umwandlung Knime + Weka + Math plugins für Datamining, Clusterung und die meisten Algorithmen Matlab für für Regression, Interpolation und Approximationverfahren Dropbox für Synchronisation

Vorverarbeitung Keine fehlenden Werte Keine Duplikate Keine fehlerhaften Werte  Rein syntaxisch her Daten komplett korrekt Allerdings...

Vorverarbeitung Allerdings... Starke Schwankungen, mit „Peaks“ Keine zusätzlichen/abgeleiteten Informationen (wie Wochentag oder Gewinn) Werte nicht normalisiert und/oder nominalisiert

Vorverarbeitung Erstellen von CSV Dateien mit Zusätzlichen Informationen: -Gewinn,Wochentag, Durschnittlicher Gewinn (soweit) Zusätzliche nominalisierten und normalisierten Werte Durschnittswerte für Diagramme und Statistiken Strukturieren und Anlegen von Zwischentabellen/Resultaten Tabellen mit allen Wochenwerten in einer Zeile (pro Produkt)

Analysis Erstellen von Tabellen mit Mittelwerten und Summen Darstellen von Diagrammen Notieren von Abweichungen, Min/Max-Werten Überprüfen auf Auffälligkeiten durch gruppierte Tabellen Starker Exceleinsatz

Algorithmen Erstellen von Matlab und Knime Umgebungen Möglichkeiten schnell Module und Algorithmen zu tauschen Schnelles Anpassen der Daten... ... für Noralisieren, Partitonieren, Splitten, Clusterung... ...und schließlich Auswertung

Algorithmen: Regression (linear, logistic, polynom, WEKA versions) Bayes (Naive, WEKA versions, Multinomial) Neuronal Network (MLP, PNN, WEKA Voted Perceptron Kstar, LWL Decission Trees Clustering: Kmeans, Xmeans .. (usw.)

Algorithmen: Regression (linear, logistic, polynom, WEKA versions) Bayes (Naive, WEKA versions, Multinomial) Neuronal Network (MLP, PNN, WEKA Voted Perceptron Kstar, LWL Decission Trees Clustering: Kmeans, Xmeans .. (usw.)

Algorithmen Ergebnisse meist sehr ungenau (accuracy <<10%) aber 2 Algorithmen waren klar im Vorteil: Kstar – WEKA plugin – ungenau aber erkennt Tendenz Regressionen (Polynom/Linear) Accuracy Werte bis zu 20% Beide trotzdem bei weitem nicht genau genug

Verfeinerung Verbesserung der Resultate auf viele Weisen Veränderung interner Variablen Clusterung nach Wochentagen verbessert Ergebnisse stark Zusätzliche Einbindung von Neuronalen Netzwerken Entfernen oder skalieren mancher Daten

Verfeinerung Größte Veränderung durch Sortierung nach Wochentagen Durch mehr als 7 Cluster allerdings noch bessere Resultate Clustersuche schlägt sich vor K-means Relativ gute Ergebnisse bei Regression und Kstar

Das experementieren ging dann eine Weile weiter...

Testen - Knime 1) Allgemeiner Workflow und WEKA Workflow 2) Anwendungen meister Algorithmen 3) Entscheidung: Regression(Matlab) und Kstar(Knime) 4) Kstar – Anpassung der Variablen (++) 5) Kstar+MLP – Hinzufügen eines neuronalen Netzes (--) 6) Kstar – Clusterung nach Wochetagen (++) 7) Kstar+Kmeans – Automatische Clusterung (++) 8) Kstar+Kmeans – Skalierung/Filterung (++) Beste Kstar Ergebnisse in 600ter Bereich...

Verfeinern - Matlab 1. Durchschnitt Tag/Menge pro Produkt 2. DS Wochentag/Menge pro Produkt (~16%) 3. MIN, MAX statt DS (ca.30%) 4. Ausreißer beseitigen (+ca.1.5%) 5. Identische Datensätze (+ca.1.5%) 6. Durchschnittspreis (+ca.0.5%) 7. Approximation Menge (30-40%, aber E:NaN, M:NaN) (8.Clustering Menge) (9.Clustering Produkt) 10.Zusammenführung aller Ansätze

Auswahl Bis man zwischen Regression und Kstar wählen musste (Bei Aufteilung 4:2 Wochen) Kstar: EuklD: 650, ManD: 20000, Accuracy bis 25% Regression: EuklD: 462, ManD: 20948, Accuracy bis 16.4% Regression kann konfiguriert werden, auf Kosten von der EuklD und ManD höhere Accuracy zu bekommen (30+) Endentscheidung: Regression

Quellen und Zusatzinformationen http://www.knime.org/ http://www.data-mining-cup.de/ http://www.knime.org/files/weka.jpg http://www.mathworks.de/products/matlab/ https://www.dropbox.com/home http://www.kreditrechner-kostenlos.de/wp-content/uploads/2012/03/Microsoft-Excel-2011-Logo.png

Danke fürs Zuhören!