Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Ähnliche Präsentationen


Präsentation zum Thema: "Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp."—  Präsentation transkript:

1 Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp

2 Agenda Online COBWEB Inkrementelle Online Assoziationsregeln Zusammenfassende Kritik Rückblick

3 Vorgehen nach der Einführungspräsentation Vergleich der Ansätze Inkrementelles Lernen und Online Data Mining und der Anforderungen an die dabei verwendeten Algorithmen Erweiterung des Conceptual Clusterings um Elemente mit Online Behavior Prüfung der Vereinbarkeit von Online Assoziationsregeln mit Methoden des Inkrementellen Lernens Synthese beider Ansätze in Hinblick auf große Datenmengen Ziel

4 Agenda Online COBWEB Inkrementelle Online Assoziationsregeln Zusammenfassende Kritik Rückblick

5 Online COBWEB Idee: Parameter (insb. Cuttoff) während der Laufzeit des Algorithmus anpassen Fragen Kann ein bestehender Baum unter Verwendung der Operationen Merge und Split sinnvoll restrukturiert werden? Kann Informationsverlust durch zu geringer Clusteranzahl zu Beginn vermieden werden?

6 Online COBWEB Durch inkrementelle Eigenschaft des COBWEB-Algorithmus ist Veränderung der Parameter möglich Vorgehen: Mit einem Cuttoff von Null beginnen Nach einer best. Anzahl Instanzen Ergebnis prüfen Bei Overfitting Cuttoff schrittweise erhöhen

7 Online COBWEB COBWEB Kontroll-Struktur Funktion COBWEB (Objekt, Root) 1.) Update Counts in der Wuzel 2.) Finde den Sohn der Wurzel mit bester CU und mache eines der Folgenden a) Erschaffung einer neuen Klasse b) Mergen? COBWEB(Objekt, Merged node) c) Splitten? COBWEB(Objekt, Root) d) Keines der Obigen COBWEB(Objekt, Best Host)

8 Online COBWEB CAB K C D K BA Merge Operation ohne Cuttoff C a : best fitting host; C b : runner up CU(C 1,....C a+b,...C k ) > CU(C 1,...,C a,...,C b,...C k ) Einfügen der neuen Instanz

9 Online COBWEB C K BA C ABAB K Situation 1 Situation 2 Merge Operation mit Cuttoff Entscheidung (Merge) analog CU(Situation1) – CU(Situation 2) < Cuttoff Situation 2 Einfügen der neuen Instanz unter Berücksichtigung des Cuttoff

10 Online COBWEB Performance (COBWEB) Kosten des Einfügens einer Instanz: O(B 2 log B n*AV) A: #Attibute V: durchschnittliche #Attributwerte COBWEB ist fähig Schlussfolgerungen zu treffen bzw. besitzt die Eigenschaft Regelmäßigkeiten zu entdecken COBWEB ist ein inkrementelles, ökonomisches und robustes Conceptual Clustering System

11 Online COBWEB Zusammenfassende Kritik Keine Literatur zu diesem (trivialen) Ansatz zu finden, obwohl zu COBWEB diverse Erweiterungen existieren Praktische Test mit WEKA-COBWEB lassen auf einen relativ geringen Einfluss der Parameter schließen Daten besitzen keine Clusterstruktur Overfitting trotz scharfen Cuttoffs Hauptproblem inkrementeller Algorithmen (Reihenfolge der Instanzen) wird von diesem Ansatz keineswegs gelöst

12 Agenda Online COBWEB Inkrementelle Online Assoziationsregeln Zusammenfassende Kritik Rückblick

13 Inkrementelle Online Assoziationsregeln erforderliche Leistungen des Verfahrens inkrementelle Eigenschaft:... Wissen aus Ausgangsdaten DB (repräsentiert durch Assoziationsregeln) wird um neue Transaktion in db erweitert (ohne Zugriff auf DB) Möglichkeiten der Inkrementierung: 1. Pruning von bestehenden großen Itemsets/ Assoziationsregeln 2. Aktualisierung von Support und Konfidenz 3. Hinzufügen neuer Assoziationsregeln Problemfall Transaktionsdaten DB nicht mehr vorhanden

14 Inkrementelle Online Assoziationsregeln theoretische Ansätze für Inkrementierung von CARMA Hinzunahme neuer Assoziationsregeln:...einfache Abschätzung untere und obere Schranke Support des Itemsets Steffen Ciupke: evtl. Abschätzung (v.a. maxSupport) angeben Steffen Ciupke: evtl. Abschätzung (v.a. maxSupport) angeben lim Support(v) = (T-1) + t(v) N + n lim Support(v) = t(v) N + n T(v) minSupport(DB)N T(v): # Transaktionen mit Itemset v in DB t: # Transaktionen mit Itemset v in db N: # Transaktionen gesamt DB n: # Transaktionen gesamt db

15 Inkrementelle Online Assoziationsregeln theoretische Ansätze für Inkrementierung von CARMA Hinzunahme neuer Assoziationsregeln: Steffen Ciupke: evtl. Abschätzung (v.a. maxSupport) angeben Steffen Ciupke: evtl. Abschätzung (v.a. maxSupport) angeben Fallunterscheidung: 1. lim Support(v) > supportSequence(t): neue Assoziationsregel 2. lim Support(v) < supportSequence(t): Regel bleibt unberücksichtigt 3. lim Support(v) < supportSequence(t) < lim Support(v) Problemfall Notwendigkeit Index auf DB zu erstellen

16 Inkrementelle Online Assoziationsregeln Negative Border Algorithmus (S. Thomas et al.) ermöglicht inkrementelle Anwendung von Assoziationsregeln: best case, average case:ohne Zugriff auf DB worst case: maximal einmaliger Scan DB bei stark reduzierter Anzahl zu überprüfender Transaktionen Steffen Ciupke: wichtig: Restriktion bzgl konstanter MinSupport-Grenzwerte ! Steffen Ciupke: wichtig: Restriktion bzgl konstanter MinSupport-Grenzwerte ! Algorithmus läßt sich für herkömmliche Assoziationsregelverfahren anwenden (z.B. APRIORI) große Performancevorteile (Faktor 20 ggü. APRIORI bereits bei Transaktionen (v.a. bei mittlerem Support)) Erweiterung von CARMA um Negative Border Lösungsansatz existierendes, effizientes Verfahren

17 Ansatzpunkte in CARMA Inkrementelle Online Assoziationsregeln Menge der Kandidaten für Menge der großen Itemsets Pruning der Kandiaten mit zu geringem Support

18 Inkrementelle Online Assoziationsregeln Funktion Negative Border N Bd (L): Negative Border von L L i : Menge der großen Itemsets (Kardinalität i: Anzahl Items) C k : Menge der Kandiaten (Kardinalität k: Anzahl Items) äquivalent: Generierung Kandidaten Phase I CARMA Negative Border ist Index über maximale Itemsets L ( N Bd (L k ) = C k - L k )

19 Inkrementelle Online Assoziationsregeln Umsetzung inkrementeller Ablauf Ermittlung der Menge der großen Itemsets mit Standard- CARMA Update des count(s) Ausgangs- Itemsets aus DB Assoziations- regeln aus DB werden beibehalten od. geprunt Generierung von neuen Assoziations- regeln Funktionen arbeiten ohne Scan auf DB mathemat. Abschätzung support- Sequence auf DB notwendig

20 Inkrementelle Online Assoziationsregeln Umsetzung inkrementeller Ablauf Gesamtmenge der vorgehaltenen Itemsets ist gewachsen Generierung der Menge der neuen großen Itemsets und Negative Border (Schrittweite: jeweils um 1 vergrößerte Kardinalität der Itemsets) Rescan DB ermittelt Support Itemsets s {s L DB+ N Bd ( L DB+ ) | s L db N Bd ( L DB+ ) s L DB N Bd ( L DB ) }

21 Inkrementelle Online Assoziationsregeln Eigenschaftsänderung durch Kombination inkrementeller & Online Ansatz maximal einmaliger Scan der Datenmenge nur für konstanten MinSupport möglich für CARMA-Verfahren mit exakten Ergebnissen für Support und Konfidenz maximal 2 Scans über Update-Datensatz (db) und 1 Scan über ursprüngliche Datensätze (DB) notwendig dabei jedoch Reduzierung der Komplexität/Kosten Einschränkung der auf Support zu überprüfenden Itemsets Forwardpruning nutzt bei erstem Durchlauf gewonnene Erkenntnisse (vorzeitiger Abbruch des Prunings möglich)

22 Zusammenfassende Kritik: Online Ansatz Hellerstein Effizienz Online Ansatz auf sehr großen Datenmengen (Telekomdaten, generell Terrabyteberreich) durch strukturelle Eigenschaften (v.a. ABC-Tool, Basis- Verfahren Online Reordering) fragwürdig - kein Widerleg durch Performancedaten ! offensichtlich Probleme in der Umsetzung für weitere Data Mining Anwendungen - bisher nur für Assoziationsregeln verwirklicht fruchtbarer Denkanstoß......Berücksichtigung Tradeoff: + - interaktive Einbindung Intuition/externes Wissen Laufzeitoptimierung

23 Prinzipielle Vereinbarkeit der beiden Ansätze? Jedes inkrementelle Verfahren besitzt per Definition ANYTIME- Verhalten Vorgehen bei Erweiterung von existierenden inkrementellen Data Mining Methoden mit..:...Problem: Repräsentation der Wissensbasis...Shift der Kostenorientierung für große DB RechenzeitminimierungDB-Zugriffsminimierung Zusammenfassende Kritik

24 Fragen

25 Online COBWEB C ABDABD K Merge Operation mit Cuttoff Einfügen der neuen Instanz unter Berücksichtigung des Cuttoff C ABAB K D

26 Beispielhafter Ablauf Online Associatione Rules ( CARMA ) Inkrementelle Online Association Rules

27 CARMA 1. Scan : firstTrans(): Transaktion zu der Itemset in Menge der potentiell großen Itemsets hinzugenommen wird count():Anzahl des Vorkommen des Itemset nach firstTrans maxMissed:()obere Schranke für Vorkommen vor firstTrans (in Abh. von bearbeiteter Datenmenge und supportSequence) supportSequence:dynamische Speicherung der nutzerspezifizierten Supportgrenzwerte Ermöglicht Angabe einer oberen und unteren Schranke für Support Inkrementelle Online Association Rules

28 Backup Untere Schranke für Abschätzung minSupport in Abhängigkeit von supportSequence minSupport(L DB ) = avg n ( n ) + c - 1 n c: Kardinalität des größten Itemsets in L DB n: # Transaktionen in L DB Durch CARMA generierte L DB (Basis supportSequence ) ist Menge der großen Itemsets bzgl. minSupport n = avg n ( n ) + c - 1 n CARMA ( i ) statt CARMA ( i ) gewährleistet minSupport(L DB ) = n Erweiterung:


Herunterladen ppt "Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp."

Ähnliche Präsentationen


Google-Anzeigen