Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Berechnung von Association Rules Vortrag in Data Warehouse und Mining.

Ähnliche Präsentationen


Präsentation zum Thema: "Berechnung von Association Rules Vortrag in Data Warehouse und Mining."—  Präsentation transkript:

1 Berechnung von Association Rules Vortrag in Data Warehouse und Mining

2 Association Rules2 Inhalt zEinleitung: Entstehung, Nomenklatur zApriori: grundlegender Algorithmus zHierarchische Items zMengenwertige Items zAusblick

3 Association Rules3 Einleitung zEntstehung ygrössere Datenbestände ygenauere Datenbestände ybessere Hardware-Resourcen ÙWunsch auf Erkennung von interessanten Regeln in diesen grossen Datenbeständen Einleitung Apriori Hierarchie Quantität

4 Association Rules4 Nomenklatur zTransaktion: Aktion auf Datenbank (Einkauf,...) zItem: Teil einer Transaktion (Milch,...) zItemset: Menge von Items zAssociation Rule: X Y (wenn Transaktion X enthält, dann enthält sie auch Y) zConfidence c: c % der Transaktionen befolgen die Association Rules (minconf: untere Schranke für Algorithmus) zSupport s: s % der Transaktionen enthalten X und Y (minsup: untere Schranke für Algorithmus) Einleitung Apriori Hierarchie Quantität

5 Association Rules5 Beispiel T1 {Zahnpasta, Schokolade, Milch} T2{Schokolade, Milch} T3{Brot, Käse} T4{Zahnpasta, Milch, Käse} T5{Milch, Brot, Käse} ConfidenceSupport Brot Käse100%40% Käse Milch66.6%40% Zahnpasta Schokolade50%20% Einleitung Apriori Hierarchie Quantität

6 Association Rules6 Motivation zWunsch auf maschinelles Erkennen dieser Association Rules: Algorithmus Apriori zManche Items besitzen grundlegende Abhängigkeit, hierarchische Abstammung (Milch Vollmilch) zGewisse Association Rules brauchen mengenwertige Items (2 Autos 2 Kinder über 18) Einleitung Apriori Hierarchie Quantität

7 Association Rules7 Algorithmus Apriori zEntdecken von Association Rules in zwei Probleme unterteilbar. yFinden aller Itemsets mit minimalem Support yBenutzung dieser Itemsets zum Ermitteln der Association Rules Einleitung Apriori Hierarchie Quantität

8 Association Rules8 Itemsets finden zFinden aller Itemsets mit minimalen Support yBeginn mit einelementigen Sets (1-sets) -> einfaches Zählen yVereinigen der ermittelten (k-1)-Sets zu neuen k-Sets xJoin-Step: Herstellung der Kandidaten xPrune-Step: Löschen aller Kandidaten, die eine falsche Untermenge besitzen Einleitung Apriori Hierarchie Quantität

9 Association Rules9 Beispiel: Itemsets Beispiel: {1 2 3} {1 2 4} {1 3 4} {1 3 5} {2 3 4} { } { } Join 3-setsKandidaten für 4-sets { } 4-sets Prune Einleitung Apriori Hierarchie Quantität

10 Association Rules10 Generierung zGenerierung der Association Rules yUntersuchung aller Subsets a eines Itemsets I ya (I - a), wenn Einleitung Apriori Hierarchie Quantität Support(I) Support(a) >= minconf

11 Association Rules11 minconf=75% Beispiel: Generierung I={2,3,4} [40%] Subsets: {2,3} {4} Support(I) = 40% Support(a)= 50%Confidence = 80 %OK! {2} {3,4} Support(I) = 40% Support(a) = 80%Confidence = 50 %NO! Einleitung Apriori Hierarchie Quantität

12 Association Rules12 Einleitung zBisher: Milch Brot [80%] wäre viel informativer, wenn Diätmilch Weissbrot [75%] Ù Wunsch auf Hierarchie Einleitung Apriori Hierarchie Quantität

13 Association Rules13 Beispiel Esswaren MilchBrot... Diät... VollWeissVollkorn... Je tiefer ein Item in der Hierarchie ist, umso kleiner sollte der geforderte Support sein Einleitung Apriori Hierarchie Quantität

14 Association Rules14 Codierung zErweiterung von Apriori: yCodierung der verschiedenen Produkte Milch 1Diätmilch 11 Vollmilch 12 Brot 2Weissbrot 21 Vollkornbrot 22 T1:{11,21,22,32} T2:{21,22,31}... Transaktionstabelle: Einleitung Apriori Hierarchie Quantität

15 Association Rules15 Erste Itemsets zZuerst auf oberster Stufe Suche der Itemsets: ÙBerechnung der Association Rules und Filterung der Transaktions-Tabelle {1*}30% {2*}40% {1*,2*} 30% T1:{11,21,22} T2:{21,22} Einleitung Apriori Hierarchie Quantität

16 Association Rules16 Iteration zIteration: Suche der nächsten Itemsets auf gefilterter Tabelle (bis Tabelle leer oder am Ende der Hierarchie) ÙBerechnung der Association Rules und Filterung der Transaktions-Tabelle {11}20% {21}30% {22}30% {11,21} 20% {11,22} 20% Einleitung Apriori Hierarchie Quantität

17 Association Rules17 Einleitung zBisher: nur binäre Association Rules z.B. Brot Milch zAusweitung auf quantitative Association Rules, z.B. y{Alter:30..39, verheiratet=ja} {Autos: 2} y{Autos: 0..1} {verheiratet=nein} Einleitung Apriori Hierarchie Quantität

18 Association Rules18 Probleme z Triviale Umwandlung von Wertemenge auf binäre Tabelle, ABER: yItemanzahl explodiert (Ausführungszeit!) yAnzahl der Regeln explodiert Einleitung Apriori Hierarchie Quantität

19 Association Rules19 Intervalle zModifizierter Algorithmus: yFür jedes Mengenattribut wird ein Intervall ausgewählt Einleitung Apriori Hierarchie Quantität

20 Association Rules20 Intervalle wählen zProblem bei der Intervallwahl: yviel zu viele Kombinationen von Intervallen zEinführung der Partial Completeness: Mass für den Informationsverlust bei einer Generalisierung eines Intervalls Einleitung Apriori Hierarchie Quantität

21 Association Rules21 Partial Completeness zk-Partial-Completeness: yFür die Generalisierung eines Itemsets darf der Support nicht um mehr als Faktor k zunehmen Einleitung Apriori Hierarchie Quantität 5% 6% 8% 5% 6% 8% 6% 1.5-Partial-Complete:

22 Association Rules22 Verringerung der AR yStreichung der erwarteten Association Rules x{Alter:20..30}12x {Alter:20..25}3x x{Alter:20..30} -> {Autos:1..2} 8% Support, 70% Confidence x{Alter:20..25} -> {Autos:1..2} 2% Support, 70% Confidence Streichbar, da keine neue Erkenntnis Einleitung Apriori Hierarchie Quantität

23 Association Rules23 Ausblick zAlgorithmus Apriori: optimierte Versionen mit schnellerer Laufzeit oder mit geringerem Speicherbedarf zhierarchische Items: nicht nur Association Rules in der gleichen Ebene finden, sondern auch über verschiedene Ebenen Apriori Hierarchie Quantität Ausblick


Herunterladen ppt "Berechnung von Association Rules Vortrag in Data Warehouse und Mining."

Ähnliche Präsentationen


Google-Anzeigen