Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Fast Algorithm for Mining Association Rules Oliver Müller Künstliche Intelligenz II WS09/10 Leibniz Universität Hannover.

Ähnliche Präsentationen


Präsentation zum Thema: "Fast Algorithm for Mining Association Rules Oliver Müller Künstliche Intelligenz II WS09/10 Leibniz Universität Hannover."—  Präsentation transkript:

1 Fast Algorithm for Mining Association Rules Oliver Müller Künstliche Intelligenz II WS09/10 Leibniz Universität Hannover

2 Inhalt Fast Algorithm for Mining Association Rules2 Problemstellung Formalisierung Algorithmus Apriori Algorithmus AprioriTid Algorithmus AprioriHybrid Ergebnisse Zusammenfassung

3 Problemstellung Fast Algorithm for Mining Association Rules3 Verkaufs-Transaktionen aufzeichnen Mittels Barcode-Technologie Großer Datenbestand Einzelner Datensatz bestehend aus Datum, gekaufte Artikel

4 Problemstellung Fast Algorithm for Mining Association Rules4 Verkaufs-Transaktionen aufzeichnen Mittels Barcode-Technologie Großer Datenbestand Einzelner Datensatz bestehend aus Datum, gekaufte Artikel Interesse von Firmen meist für Marketing-Zwecke Kundenspezifische Vermarktungs-Strategien (Cross-Marketing, Attached Mailing, Katalog Design, etc.)

5 Problemstellung Fast Algorithm for Mining Association Rules5 Verkaufs-Transaktionen aufzeichnen Mittels Barcode-Technologie Großer Datenbestand Einzelner Datensatz bestehend aus Datum, gekaufte Artikel Interesse von Firmen meist für Marketing-Zwecke Kundenspezifische Vermarktungs-Strategien (Cross-Marketing, Attached Mailing, Katalog Design, etc.) Ziel: Mining von Assoziations-Regeln im Datenbestand

6 Problemstellung Fast Algorithm for Mining Association Rules6 Verkaufs-Transaktionen aufzeichnen Mittels Barcode-Technologie Großer Datenbestand Einzelner Datensatz bestehend aus Datum, gekaufte Artikel Interesse von Firmen meist für Marketing-Zwecke Kundenspezifische Vermarktungs-Strategien (Cross-Marketing, Attached Mailing, Katalog Design, etc.) Ziel: Mining von Assoziations-Regeln im Datenbestand Beispiel: Reifen ^ Zubehör Kfz-Dienstleistung Zu 98% Sicherheit (Confidence)

7 Notation Fast Algorithm for Mining Association Rules7 Menge von Items ( -Itemset)

8 Notation Fast Algorithm for Mining Association Rules8 Menge von Items ( -Itemset) Transaktion ist eine Menge von Items mit

9 Notation Fast Algorithm for Mining Association Rules9 Menge von Items ( -Itemset) Transaktion ist eine Menge von Items mit Menge von Transaktionen: TID = Unique Identifier für jede Transaktion Lexikographische Sortierung

10 Notation Fast Algorithm for Mining Association Rules10 Menge von Items ( -Itemset) Transaktion ist eine Menge von Items mit Menge von Transaktionen: TID = Unique Identifier für jede Transaktion Lexikographische Sortierung Assoziations-Regel: wenn gilt: und

11 Notation Fast Algorithm for Mining Association Rules11 Menge von Items ( -Itemset) Transaktion ist eine Menge von Items mit Menge von Transaktionen: TID = Unique Identifier für jede Transaktion Lexikographische Sortierung Assoziations-Regel: wenn gilt: und Confidence : aller Transaktionen in die enthalten, enthalten auch

12 Notation Fast Algorithm for Mining Association Rules12 Menge von Items ( -Itemset) Transaktion ist eine Menge von Items mit Menge von Transaktionen: TID = Unique Identifier für jede Transaktion Lexikographische Sortierung Assoziations-Regel: wenn gilt: und Confidence : aller Transaktionen in die enthalten, enthalten auch Support : aller Transaktionen in enthalten

13 Formale Definition des Problems Fast Algorithm for Mining Association Rules13 Generierung einer Liste aller Assoziations-Regeln mit und

14 Formale Definition des Problems Fast Algorithm for Mining Association Rules14 Generierung einer Liste aller Assoziations-Regeln mit und Achtung: Probabilistische Eigenschaft der Assoziations-Regeln beachten: nicht unbedingt eingehalten nicht unbedingt eingehalten

15 Andere Algorithmen Fast Algorithm for Mining Association Rules15 AIS SETM Knowledge Discovery Klassifikations Regeln Kausale Regeln Function fitting KID3

16 Ablauf Fast Algorithm for Mining Association Rules16 1. Finden von Itemsets mit Support Diese werden groß genannt, alle anderen klein

17 Ablauf Fast Algorithm for Mining Association Rules17 1. Finden von Itemsets mit Support Diese werden groß genannt, alle anderen klein 2. Nutze große Itemsets zur Generierung der Regeln:

18 Ablauf Fast Algorithm for Mining Association Rules18 1. Finden von Itemsets mit Support Diese werden groß genannt, alle anderen klein 2. Nutze große Itemsets zur Generierung der Regeln: Sei ein großes Itemset Für jedes erzeuge Regel, wenn

19 Finden großer Itemsets Fast Algorithm for Mining Association Rules19 Mehrere Durchläufe von

20 Finden großer Itemsets Fast Algorithm for Mining Association Rules20 Mehrere Durchläufe von 1. Durchlauf: Zähle Support von einzelnen Items

21 Finden großer Itemsets Fast Algorithm for Mining Association Rules21 Mehrere Durchläufe von 1. Durchlauf: Zähle Support von einzelnen Items k-ter Durchlauf: Erzeuge neue Kandidaten aus großen Itemsets von vorherigen Durchläufen Verwerfe Kandidaten mit zu geringem Support

22 Finden großer Itemsets Fast Algorithm for Mining Association Rules22 Mehrere Durchläufe von 1. Durchlauf: Zähle Support von einzelnen Items k-ter Durchlauf: Erzeuge neue Kandidaten aus großen Itemsets von vorherigen Durchläufen Verwerfe Kandidaten mit zu geringem Support Terminiere, wenn keine großen Itemsets mehr gefunden werden

23 Idee Fast Algorithm for Mining Association Rules23 Intuition: Jedes Subset eines großen Itemsets ist groß

24 Idee Fast Algorithm for Mining Association Rules24 Intuition: Jedes Subset eines großen Itemsets ist groß Finde Kandidaten für große k-Itemsets durch Kombination großer (k-1)-Itemsets

25 Idee Fast Algorithm for Mining Association Rules25 Intuition: Jedes Subset eines großen Itemsets ist groß Finde Kandidaten für große k-Itemsets durch Kombination großer (k-1)-Itemsets Entferne alle Kandidaten, welche kleine Subsets enthalten

26 Algorithmus Apriori Fast Algorithm for Mining Association Rules26 1. Schritt: Zähle Support 1-Items

27 Algorithmus Apriori Fast Algorithm for Mining Association Rules27 1. Schritt: Zähle Support 1-Items k-ter Schritt

28 Algorithmus Apriori Fast Algorithm for Mining Association Rules28 1. Schritt: Zähle Support 1-Items k-ter Schritt: Erzeuge neue Kandidaten

29 Algorithmus Apriori Fast Algorithm for Mining Association Rules29 1. Schritt: Zähle Support 1-Items k-ter Schritt: Erzeuge neue Kandidaten Durchsuche alle Transaktionen Alle Kandidaten aus t Zähle den Support hoch

30 Algorithmus Apriori Fast Algorithm for Mining Association Rules30 1. Schritt: Zähle Support 1-Items k-ter Schritt: Erzeuge neue Kandidaten Durchsuche alle Transaktionen Alle Kandidaten aus t Zähle den Support hoch Übernehme nur die mit genügend Support

31 Algorithmus Apriori Fast Algorithm for Mining Association Rules31 1. Schritt: Zähle Support 1-Items k-ter Schritt: Erzeuge neue Kandidaten Durchsuche alle Transaktionen Alle Kandidaten aus t Zähle den Support hoch Übernehme nur die mit genügend Support

32 Algorithmus Apriori – Apriori-Gen Fast Algorithm for Mining Association Rules32 Besteht aus 2 Schritten 1. Schritt: Join (Kombination von zwei -Itemsets) und sind in den ersten Einträgen identisch

33 Algorithmus Apriori – Apriori-Gen Fast Algorithm for Mining Association Rules33 Besteht aus 2 Schritten 1. Schritt: Join (Kombination von zwei -Itemsets) 2. Schritt: Prune und sind in den ersten Einträgen identisch Entferne alle Kandidaten, welche kleine Subsets enthalten

34 Algorithmus Apriori – Apriori-Gen Fast Algorithm for Mining Association Rules34 Beispiel: Join: Prune:, da nicht in

35 Algorithmus Apriori - Subset Fast Algorithm for Mining Association Rules35 Benutzt Hash-Tree Hash-Wert in i-ter Ebene berechnet sich durch i- ten Item aus c Laufzeit O(max(k, size(t))) Wichtig: Items lexikographisch sortiert.

36 Algorithmus Apriori - Problem Fast Algorithm for Mining Association Rules36 In jeder Iteration wird die gesamte Datenbank durchsucht!

37 Modifikation - Algorithmus AprioriTid Fast Algorithm for Mining Association Rules37 Durchsucht die Datenbank nur einmal

38 Modifikation - Algorithmus AprioriTid Fast Algorithm for Mining Association Rules38 Durchsucht die Datenbank nur einmal Kandidaten werden auch hier mit apriori-gen erzeugt. Zur Berechnung des Supports wird dann jedoch die Menge statt benutzt

39 Modifikation - Algorithmus AprioriTid Fast Algorithm for Mining Association Rules39 Durchsucht die Datenbank nur einmal Kandidaten werden auch hier mit apriori-gen erzeugt. Zur Berechnung des Supports wird dann jedoch die Menge statt benutzt Einträge von haben die Form Idee: Speichere zu jeder Transaktion eine Liste aller potentiell großen -Itemsets entspricht dabei der Datenbank

40 Algorithmus AprioriTid - Beispiel Fast Algorithm for Mining Association Rules40 TIDItems TIDSet-of-Itemsets 100{ {1}, {3}, {4} } 200{ {2}, {3}, {5} } 300{ {1}, {2}, {3}, {5} } 400{ {2}, {5} } Minimum support = 2 ItemsetSupport {1}2 {2}3 {3}3 {5}3 ItemsetSupport {1 2}1 {1 3}2 {1 5}1 {2 3}2 {2 5}3 {3 5}2 TIDSet-of-Itemsets 100{ {1 3} } 200{ {2 3}, {2 5}, {3 5} } 300{ {1 2}, {1 3}, {1 5}, {2 3}, {2 5}, {3 5} } 400{ {2 5} } ItemsetSupport {1 3}2 {2 3}2 {2 5}3 {3 5}2 ItemsetSupport {2 3 5}1 TIDSet-of-Itemsets 200{ {2 3 5} } 300{ {2 3 5} } ItemsetSupport {2 3 5}2

41 Ergebnisse Fast Algorithm for Mining Association Rules41 Vergleich von Apriori und AprioriTid mit den Algorithmen AIS (Kandidaten für große Itemsets on-the-fly erzeugen) SETM (on-the-fly, SQL optimiert)

42 Ergebnisse Fast Algorithm for Mining Association Rules42 Vergleich von Apriori und AprioriTid mit den Algorithmen AIS (Kandidaten für große Itemsets on-the-fly erzeugen) SETM (on-the-fly, SQL optimiert) AIS und SETM erzeugen sehr viel mehr Kandidaten

43 Ergebnisse Fast Algorithm for Mining Association Rules43 Vergleich von Apriori und AprioriTid mit den Algorithmen AIS (Kandidaten für große Itemsets on-the-fly erzeugen) SETM (on-the-fly, SQL optimiert) AIS und SETM erzeugen sehr viel mehr Kandidaten Wie vergleichen? Mit synthetisch generierten Daten (welches Modell?) (Reale Daten)

44 Synthetische Daten Fast Algorithm for Mining Association Rules44 Gutes Modell für reales Käufer-Verhalten: Tendenz zum Kauf mehrerer Artikel gleichzeitig. Transaktionen haben eine typische Größe (Parameter | T |) Große Itemsets haben eine typische Größe (Parameter | I |) Große Itemsets haben oft gemeinsame Items Nicht alle Artikel eines großen Itemsets werden immer zusammen gekauft Weitere Parameter: | D |Anzahl der Transaktionen N Anzahl Items (hier: N =1000 )...

45 Ergebnisse Fast Algorithm for Mining Association Rules45 SETM Zeiten für T>5 sind sehr viel höher

46 Ergebnisse Fast Algorithm for Mining Association Rules46

47 Ergebnisse Fast Algorithm for Mining Association Rules47 Apriori ist bei großen Problemen besser als AprioriTid

48 Vergleich Apriori – AprioriTid Fast Algorithm for Mining Association Rules48 AprioriTid benutzt statt. Passt in den Speicher, so ist AprioriTid schneller als Apriori.

49 Vergleich Apriori – AprioriTid Fast Algorithm for Mining Association Rules49 AprioriTid benutzt statt. Passt in den Speicher, so ist AprioriTid schneller als Apriori. Wenn zu groß wird, passt es nicht in den Speicher und die Ladezeiten erhöhen sich sehr (Schreiben/Lesen auf Festplatte).

50 AprioriHybrid Fast Algorithm for Mining Association Rules50 Verwende Apriori in den ersten Iterationen Wenn als klein genug angenommen wird, wechsle zu AprioriTid

51 AprioriHybrid Fast Algorithm for Mining Association Rules51 Verwende Apriori in den ersten Iterationen Wenn als klein genug angenommen wird, wechsle zu AprioriTid Verwende dazu eine Heuristik:

52 AprioriHybrid Fast Algorithm for Mining Association Rules52 Verwende Apriori in den ersten Iterationen Wenn als klein genug angenommen wird, wechsle zu AprioriTid Verwende dazu eine Heuristik: Umschaltung verbraucht Zeit Ist meistens immer noch besser

53 AprioriHybrid – Ergebnisse Fast Algorithm for Mining Association Rules53 AprioriHybrid ist meist noch besser als Apriori und AprioriTid

54 Zusammenfassung Fast Algorithm for Mining Association Rules54 Assoziationsregeln sind ein wichtiges Werkzeug zur Analyse von Datenbeständen

55 Zusammenfassung Fast Algorithm for Mining Association Rules55 Assoziationsregeln sind ein wichtiges Werkzeug zur Analyse von Datenbeständen Es wurden Algorithmen vorgestellt, welche schneller und Ressourcensparender arbeiten als bisherige Ansätze

56 Zusammenfassung Fast Algorithm for Mining Association Rules56 Assoziationsregeln sind ein wichtiges Werkzeug zur Analyse von Datenbeständen Es wurden Algorithmen vorgestellt, welche schneller und Ressourcensparender arbeiten als bisherige Ansätze AprioriHybrid schlägt AIS und SETM dabei um Größenordnungen bei großen Datenbeständen

57 Zusammenfassung Fast Algorithm for Mining Association Rules57 Assoziationsregeln sind ein wichtiges Werkzeug zur Analyse von Datenbeständen Es wurden Algorithmen vorgestellt, welche schneller und Ressourcensparender arbeiten als bisherige Ansätze AprioriHybrid schlägt AIS und SETM dabei um Größenordnungen bei großen Datenbeständen Aber: Was ist mit hierarchisch sortierten Daten? Beispiel: is-a-Beziehung (Spülmaschine ist ein Küchengerät …) Regeln nicht immer sinnvoll (Rückgang #Piraten Zunahme globale Erwärmung)

58 Fast Algorithm for Mining Association Rules58


Herunterladen ppt "Fast Algorithm for Mining Association Rules Oliver Müller Künstliche Intelligenz II WS09/10 Leibniz Universität Hannover."

Ähnliche Präsentationen


Google-Anzeigen