Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Christian Schulz, Marc Thielbeer, Sebastian Boldt

Ähnliche Präsentationen


Präsentation zum Thema: "Christian Schulz, Marc Thielbeer, Sebastian Boldt"—  Präsentation transkript:

1 Christian Schulz, Marc Thielbeer, Sebastian Boldt
ID3 vs. Apriori Christian Schulz, Marc Thielbeer, Sebastian Boldt Herzlich Willkommen hier zu unserem Vortrag, wir 3 sollten uns mit dem Vergleich von ID3 und der Assoziationsanalysappe befassen.

2 Inhaltsverzeichnis Klassifikation ( ID3 )
Assoziationsanalyse ( Apriori ) Klassifikation anhand von Assoziationsregeln Realisierung in KNIME Probleme Auswertung der Ergebnisse Zusammenfassung & Ausblick Ja und in unserem Vortrag sagen erst einmal kurz was zu Assoziationsregeln allgemein , stellen anschließend die von uns zu untersuchenden Algorithmen etwas näher vor. Gehen dann auf die Umsetzung der Aufgabenstelleung, die Realisierung mit knime sowie die dabei auftretenden probleme ein. Und letztendlich geben wir eben nen kleinen Ausblick.

3 Klassifikation Zuordnung von Objekten mit gemeinsamen Eigenschaften zu Gruppen/Klassen Im Gegensatz zum Clustering  Klassen bereits bekannt Erstellen von Klassifikationsregeln (z.B “guter Kunde” wenn Alter > 20 und …) Verwendung von Stichproben (Trainigsdaten) Die Klassifikation hingegen ordnet eben bestimmte Objekte einer Klasse hinzu , im Gegensatz zum Clustering sind hier die Klassen eben schon vorher bekannt. Da gibt es heben verschiedene Ansätze mit denen man sowas jetzt machen kann. Trainingsdaten Klassifikator If object.rank <= 1 && object.age <= 20 { object.skill = “High” } NAME RANK SKILL AGE Peter 1 HIGH 18 Gustav 2 LOW 35 Harald 3 49

4 ID3-Algorithmus Algorithmus der zur Entscheidungsfindung dient
Generierung von Entscheidungsbäumen Iterative Basisstruktur Für jedes nicht benutztes Attribut werden Entropien bezüglich der Traningsmenge berechnet Aus Attribut mit höchsten Informationsgehalt wird Baumknoten generiert Das Verfahren terminiert wenn alle Traningsmengen klassifiziert worden sind ID3 wird verwendet, wenn bei großer Datenmenge viele verschiedene Attribute von Bedeutung sind und deshalb ein Entscheidungsbaum ohne große Berechnungen generiert werden soll. Somit entstehen meist einfache Entscheidungsbäume. Es kann aber nicht garantiert werden, dass keine besseren Bäume möglich wären. Die Basisstruktur von ID3 ist iterativ. Es werden zu jedem noch nicht benutzten Attribut Entropien bezüglich der Trainingsmenge berechnet. Das Attribut mit dem höchsten Informationsgehalt, also der größten Entropie, wird gewählt und daraus ein neuer Baum-Knoten generiert. Das Verfahren terminiert, wenn alle Trainingsinstanzen klassifiziert wurden, d.h. wenn jedem Blattknoten eine Klassifikation zugeordnet ist.

5 Assoziationsanalyse Assoziationsregeln beschreiben Korrelationen zwischen gemeinsam auftretenden Dingen Zweck : Auffinden von Elementen einer Menge die das Auffinden anderer Elemente implizieren Beispielregel (Warenkorbanalyse): Kunden die Brot kaufen, werden mit einer Wahrscheinlichkeit von 60 % auch Milch kaufen Support & Konfidenz spielen wichtie Rolle Die Assoziationsanaylse ist eben dafür da bestimmte Regeln aufzustellen. Und diese regeln beschreiben eben Korrelationen zwischen gemeinsam auftretenden Dingen. Der Zweck ist ganz einfach. Es geht eben darum Elemente einer Menge aufzufinden die anderen Elemente implizieren. Son Beispiel was da immer wieder kommt ist die Warenkorbanalye . Das beispielsweise 60 % der Kunden die Brot kaufen auch Milch kaufen. Dabei spielen eben support und Konfidenz eine wichtige Rolle, die eben die relativen Haüfigkeiten von den auftretenden Konstelationen beschreiben.

6 Apriori-Algorithmus Iteratives Verfahren zur Erzeugung von Assoziationsregeln Funktionsweise: Übergabe von: Datensätzen, min. Support, min. Konfidenz Bestimmung von Frequent Itemsets deren relative Häufigkeit min. Support übersteigt Bildung von Assoziationsregeln aus Itemsets die min. Konfidenz erfüllen Der Aprioir algorithmus dient eben dazu Assoziatiosnregeln mit einer bestimmten relativen häufigkeit zu finden

7 Klassifikation anhand von Assoziationsregeln
Assoziationsregeln für die Klassifikation nutzen Aufstellen der Assoziationsregeln (Apriori Algorithmus) Klassifikation des Datensatzes anhand dieser Regeln Trainingsdaten Assoziationsregeln If object.rank <= 1 && object.age <= 20 { object.skill = “High” } NAME RANK SKILL AGE Peter 1 HIGH 18 Gustav 2 LOW 35 Harald 3 49

8 Realisierung in Knime Nutzung bestehender Bausteine (ID3 , Apriori , Decision Tree ) Vergleich von unterscheidlichen Datensätzen Datenvorverarbeitung mittels bestimmter Module Aufteilung von Daten in Trainings und Test-Daten Ausgabe der Ergebnisse Die Umsetzung der Tests zum Vergleich des ID3 mit Apriori erfolgte mit Knime. Hierzu wurden bestehende Bausteine (in Knime Notes / Knoten genannt) wie der ID3-node, Aprioir-node und der decision tree-node. Mit diesen Knime-Elementen wurden entsprechende Wokrflows entworfen, diese wurden dann zum Vergleich mit unterschiedlichen Dtensätzen gefüttert. Die Daten mussten unter zu Hilfenahme bestimmter Module vorverarbeitet werden. Da die meisten verwendeten Module nur nominale Datentypen verarbeiten konnten. Um die einzelen Module auf die entprechenden Datensätze zutrainieren mussten die in Trainings und Test-Daten aufgeteilt werden. Die Ausgabe der Ergebnisse erfolge über das Scorer-Modul.

9 Apriori in Knime Auslesen der Daten über File Reader
Aufteilung der kontinuierlichen Größen in diskrete Werte mit Numeric Binner Partionierung der Daten in Test und Trainingsdaten

10 Apriori in Knime Manuelles Filtern der Relevanten Regeln
Eintragen in die Rule Engine

11 Apriori in Knime Wenn Zielattribut kein boolscher Wert -> One2Many Element notwendig Aufteilung jedes möglichen Wertes in einzelne Spalten mit boolschem Wert

12 ID3 & Decision Tree Knime
Einlesen der Daten über File-Reader Aufteilung in Intervalle mittels Numeric Binner Partionierung der Datensätze und Training und Testdaten Vorhersage mittels Predictor Als erstes werden wie auch beim Apriori-Workflow die Daten über ein File-Reader eingelesen. Dann mussten, wenn notwenig einige Attribute in Intervalle eingeteil und in die nominale Datenform gebracht werden. Im Anschluss wurden diese dann in Trainings und Testdaten aufgeteilt. Die Vorhersage erfolgte dann über den Weka und dem Decision Teee Predictor.

13 Vergleich der Genauigkeiten
Vergleich von 4 Datensätzen Bei Klassenanzahl = 1 keine gravierenden Unterscheide Bei höherer Klassenanzahl bessere Klassifizierung mittels Apriori Bei großen Datensätzen zu hoher Aufwand

14 Probleme KNIME-Module bieten nicht die nötigen Ein & Ausgänge
Abbildung von numerischen Daten auf Intervalle Abbildung dieser Intervalle auf boolsche Werte Mit Anzahl der Klassen steigt der Konfigurationsaufwand in KNIME A-Priori im Gegensatz zum ID3 unter Knime deshalb sehr aufwändig

15 Zusammenfassung & Ausblick
Zielstellung : Apriori Regeln für die Klassififkation von Daten besser geeignet als ID3 ? Knime Module erweitern Für Große Datensätze aufgrund des manuellen Zwischenschrittes in Knime momentan noch ungeeignet Vergleichbare Ergebnisse der unterscheidlichen Ansätze Bei höherer Anzahl von Klassen bessere Klassifizierung


Herunterladen ppt "Christian Schulz, Marc Thielbeer, Sebastian Boldt"

Ähnliche Präsentationen


Google-Anzeigen