Christian Schulz, Marc Thielbeer, Sebastian Boldt

Slides:



Advertisements
Ähnliche Präsentationen
Datenbankdesign mit ACCESS.
Advertisements

PG402 Wissensmanagement Zeitreihen in Datenbanken 1 PG-402 Wissensmanagement: Zeitreihen in Datenbanken Klaus Unterstein.
Der k-d-Baum Richard Göbel.
1.1.2: Frequent Pattern Growth von Nicolai Voget
Apriori-Algorithmus zur Entdeckung von Assoziationsregeln
Data Mining Anwendungen und Techniken
Datenvorverarbeitung
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Messen „Messen ist die Bestimmung der Ausprägung einer
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Data Mining. © Prof. T. Kudraß, HTWK Leipzig 2 Data Mining ist, wenn man vorher nicht so genau weiß, wonach man eigentlich sucht! Definition des Data.
Oberseminar Datenbanken Carsten Severin Tobias Sorgatz
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II Vorlesung In welcher Masche liegt der Punkt p?
Grundlegende Analysen & Zwischendarstellungen
Bruchpunktanalyse langzeitkorrelierter Daten
Statistiktutorat Thema 1: Grundbegriffe der Statistik
Was sind Histogramme? (1)
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse
Classification of Credit Applicants Using Data Mining. Thema.


Fast Algorithm for Mining Association Rules
Themenfeld „Daten und Zufall“ – arithmetisches Mittel – Klassenstufe 5/6 Ariane Dubiel, Azida Shahabuddin, Sandra Mense.
Neuronale Netzwerke am Beispiel eines MLP
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Machine Learning Decision Trees (2).
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Objektmodellierung Objekte und Klassen Ein Objekt ist ein Exemplar.
Spezifikation von Anforderungen
12. Vorlesung: Aktivitätsdiagramme
Daten auswerten Boxplots
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Self Organizing Tree Algorithm
Zur Veranstaltung Business Intelligence
des Business Intelligence Projekts
DataMining Von Daten zu Informationen und Wissen
Aufgabenzettel V Statistik I
GIS - Seminar Wintersemester 2000/2001
1 Dipl.-Ing.(FH) Oliver Schulte In Kooperation mit Thema : Objektorientierte Realisierung eines Programms zur Erkennung von Vogelstimmen mit Hilfe Neuronaler.
Polynome und schnelle Fourier-Transformation
Ergebnispräsentation Steffen Ciupke Jörg Hipp
Probabilistic Neural Network
Medizinische Visualisierung
Prädiktion und Klassifikation mit Random Forest
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
Einführung in Datenbankmodellierung und SQL
Mathematik 1. Studienjahr Modul M1: Elemente der Mathematik
Der Zentralwert.
Klassifikation und Regression mittels neuronaler Netze
CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle ( )
Klassen und Klassenstruktur
Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.
Erhalt der Privatsphäre beim Data Mining Ulrich Graf Betreuer: Frank Eichinger Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit.
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
HEURISTIKEN.
Induktion von Entscheidungsbäumen Seminar Data Mining am Fachgebiet Datenbanken und Informationssysteme Sommersemester 2007 Betreuer: Hendrik Warneke.
c-means clustering (FCM)
Assoziationsanalyse Klassifikation Clustering
6. Tagung Mobilitätsmanagement von Morgen
Bachelorkolloquium – Thema:
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Erfassung der RWTH-Software-Shop-Daten und Auswertung am Beispiel von MATLAB Campus Mareike van Heel Rechen- und Kommunikationszentrum Seminarvortrag.
- Seite 1 TIME INTELLIGENCE ® by Zeichenrand – Löschen! Titel.
DOAG DWH-SIG/Ralf BrüggemannFolie 1/ Data Mining-Verfahren: Theorie und Anwendungsgebiete Ralf Brüggemann PROMATIS AG.
TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.
- Seite 1 TIME INTELLIGENCE ® by Titel.
Lernmodul Einführung Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Nutzungsbedingungen:
 Präsentation transkript:

Christian Schulz, Marc Thielbeer, Sebastian Boldt ID3 vs. Apriori Christian Schulz, Marc Thielbeer, Sebastian Boldt Herzlich Willkommen hier zu unserem Vortrag, wir 3 sollten uns mit dem Vergleich von ID3 und der Assoziationsanalysappe befassen.

Inhaltsverzeichnis Klassifikation ( ID3 ) Assoziationsanalyse ( Apriori ) Klassifikation anhand von Assoziationsregeln Realisierung in KNIME Probleme Auswertung der Ergebnisse Zusammenfassung & Ausblick Ja und in unserem Vortrag sagen erst einmal kurz was zu Assoziationsregeln allgemein , stellen anschließend die von uns zu untersuchenden Algorithmen etwas näher vor. Gehen dann auf die Umsetzung der Aufgabenstelleung, die Realisierung mit knime sowie die dabei auftretenden probleme ein. Und letztendlich geben wir eben nen kleinen Ausblick.

Klassifikation Zuordnung von Objekten mit gemeinsamen Eigenschaften zu Gruppen/Klassen Im Gegensatz zum Clustering  Klassen bereits bekannt Erstellen von Klassifikationsregeln (z.B “guter Kunde” wenn Alter > 20 und …) Verwendung von Stichproben (Trainigsdaten) Die Klassifikation hingegen ordnet eben bestimmte Objekte einer Klasse hinzu , im Gegensatz zum Clustering sind hier die Klassen eben schon vorher bekannt. Da gibt es heben verschiedene Ansätze mit denen man sowas jetzt machen kann. Trainingsdaten Klassifikator If object.rank <= 1 && object.age <= 20 { object.skill = “High” } NAME RANK SKILL AGE Peter 1 HIGH 18 Gustav 2 LOW 35 Harald 3 49

ID3-Algorithmus Algorithmus der zur Entscheidungsfindung dient Generierung von Entscheidungsbäumen Iterative Basisstruktur Für jedes nicht benutztes Attribut werden Entropien bezüglich der Traningsmenge berechnet Aus Attribut mit höchsten Informationsgehalt wird Baumknoten generiert Das Verfahren terminiert wenn alle Traningsmengen klassifiziert worden sind ID3 wird verwendet, wenn bei großer Datenmenge viele verschiedene Attribute von Bedeutung sind und deshalb ein Entscheidungsbaum ohne große Berechnungen generiert werden soll. Somit entstehen meist einfache Entscheidungsbäume. Es kann aber nicht garantiert werden, dass keine besseren Bäume möglich wären. Die Basisstruktur von ID3 ist iterativ. Es werden zu jedem noch nicht benutzten Attribut Entropien bezüglich der Trainingsmenge berechnet. Das Attribut mit dem höchsten Informationsgehalt, also der größten Entropie, wird gewählt und daraus ein neuer Baum-Knoten generiert. Das Verfahren terminiert, wenn alle Trainingsinstanzen klassifiziert wurden, d.h. wenn jedem Blattknoten eine Klassifikation zugeordnet ist.

Assoziationsanalyse Assoziationsregeln beschreiben Korrelationen zwischen gemeinsam auftretenden Dingen Zweck : Auffinden von Elementen einer Menge die das Auffinden anderer Elemente implizieren Beispielregel (Warenkorbanalyse): Kunden die Brot kaufen, werden mit einer Wahrscheinlichkeit von 60 % auch Milch kaufen Support & Konfidenz spielen wichtie Rolle Die Assoziationsanaylse ist eben dafür da bestimmte Regeln aufzustellen. Und diese regeln beschreiben eben Korrelationen zwischen gemeinsam auftretenden Dingen. Der Zweck ist ganz einfach. Es geht eben darum Elemente einer Menge aufzufinden die anderen Elemente implizieren. Son Beispiel was da immer wieder kommt ist die Warenkorbanalye . Das beispielsweise 60 % der Kunden die Brot kaufen auch Milch kaufen. Dabei spielen eben support und Konfidenz eine wichtige Rolle, die eben die relativen Haüfigkeiten von den auftretenden Konstelationen beschreiben.

Apriori-Algorithmus Iteratives Verfahren zur Erzeugung von Assoziationsregeln Funktionsweise: Übergabe von: Datensätzen, min. Support, min. Konfidenz Bestimmung von Frequent Itemsets deren relative Häufigkeit min. Support übersteigt Bildung von Assoziationsregeln aus Itemsets die min. Konfidenz erfüllen Der Aprioir algorithmus dient eben dazu Assoziatiosnregeln mit einer bestimmten relativen häufigkeit zu finden

Klassifikation anhand von Assoziationsregeln Assoziationsregeln für die Klassifikation nutzen Aufstellen der Assoziationsregeln (Apriori Algorithmus) Klassifikation des Datensatzes anhand dieser Regeln Trainingsdaten Assoziationsregeln If object.rank <= 1 && object.age <= 20 { object.skill = “High” } NAME RANK SKILL AGE Peter 1 HIGH 18 Gustav 2 LOW 35 Harald 3 49

Realisierung in Knime Nutzung bestehender Bausteine (ID3 , Apriori , Decision Tree ) Vergleich von unterscheidlichen Datensätzen Datenvorverarbeitung mittels bestimmter Module Aufteilung von Daten in Trainings und Test-Daten Ausgabe der Ergebnisse Die Umsetzung der Tests zum Vergleich des ID3 mit Apriori erfolgte mit Knime. Hierzu wurden bestehende Bausteine (in Knime Notes / Knoten genannt) wie der ID3-node, Aprioir-node und der decision tree-node. Mit diesen Knime-Elementen wurden entsprechende Wokrflows entworfen, diese wurden dann zum Vergleich mit unterschiedlichen Dtensätzen gefüttert. Die Daten mussten unter zu Hilfenahme bestimmter Module vorverarbeitet werden. Da die meisten verwendeten Module nur nominale Datentypen verarbeiten konnten. Um die einzelen Module auf die entprechenden Datensätze zutrainieren mussten die in Trainings und Test-Daten aufgeteilt werden. Die Ausgabe der Ergebnisse erfolge über das Scorer-Modul.

Apriori in Knime Auslesen der Daten über File Reader Aufteilung der kontinuierlichen Größen in diskrete Werte mit Numeric Binner Partionierung der Daten in Test und Trainingsdaten

Apriori in Knime Manuelles Filtern der Relevanten Regeln Eintragen in die Rule Engine

Apriori in Knime Wenn Zielattribut kein boolscher Wert -> One2Many Element notwendig Aufteilung jedes möglichen Wertes in einzelne Spalten mit boolschem Wert

ID3 & Decision Tree Knime Einlesen der Daten über File-Reader Aufteilung in Intervalle mittels Numeric Binner Partionierung der Datensätze und Training und Testdaten Vorhersage mittels Predictor Als erstes werden wie auch beim Apriori-Workflow die Daten über ein File-Reader eingelesen. Dann mussten, wenn notwenig einige Attribute in Intervalle eingeteil und in die nominale Datenform gebracht werden. Im Anschluss wurden diese dann in Trainings und Testdaten aufgeteilt. Die Vorhersage erfolgte dann über den Weka und dem Decision Teee Predictor.

Vergleich der Genauigkeiten Vergleich von 4 Datensätzen Bei Klassenanzahl = 1 keine gravierenden Unterscheide Bei höherer Klassenanzahl bessere Klassifizierung mittels Apriori Bei großen Datensätzen zu hoher Aufwand

Probleme KNIME-Module bieten nicht die nötigen Ein & Ausgänge Abbildung von numerischen Daten auf Intervalle Abbildung dieser Intervalle auf boolsche Werte Mit Anzahl der Klassen steigt der Konfigurationsaufwand in KNIME A-Priori im Gegensatz zum ID3 unter Knime deshalb sehr aufwändig

Zusammenfassung & Ausblick Zielstellung : Apriori Regeln für die Klassififkation von Daten besser geeignet als ID3 ? Knime Module erweitern Für Große Datensätze aufgrund des manuellen Zwischenschrittes in Knime momentan noch ungeeignet Vergleichbare Ergebnisse der unterscheidlichen Ansätze Bei höherer Anzahl von Klassen bessere Klassifizierung