Einführungspräsentation Steffen Ciupke Jörg Hipp

Einführungspräsentation Steffen Ciupke Jörg Hipp
Vergleich der Ansätze des „Inkrementellen Lernen“ mit den Ideen des „Online Data Mining“ Einführungspräsentation Steffen Ciupke Jörg Hipp

Inkrementelles Lernen
Agenda Einleitung Inkrementelles Lernen Online Data Mining Ausblick

Einleitung Einsatzmöglichkeit inkrementeller Clustering Verfahren und Online Data Mining zur Klassifizierung von Telekommunikationsdaten Vergleich der Ansätze des inkrementellen Lernens und des Online Data Mining Vorstellung einiger Verfahren und der Anforderungen an die dabei verwendeten Algorithmen Evaluierung der Verfahren hinsichtlich möglicher Erweiterungen oder Kombinationsmöglichkeiten Synthese beider Ansätze in Hinblick auf große Datenmengen Ziel

Motivation und Charakteristika inkrementeller Lernverfahren Motivation Zugriff auf Wissen - sporadisch - häufig Daten sollen bereits unmittelbar nach Beobachtung verwendbar sein Charakteristika Verwendung einer Wissensbasis Effizienter Zugriff Einfache Updates bzw. Assimilation neuer Beobachtungen  Tradeoff: Cost vs. Quality

Mit inkrementellen Lernverfahren verbundene Probleme Inhärente Unsicherheit hinsichtlich verschiedener Fragestellungen Probleme Wie weit hängt das Ergebnis von der Reihenfolge der Beobachtungen ab? Sind lokale Restrukturierungen in der Wissensbasis ausreichend, um schlechte Anfangsentscheidungen auszugleichen? Stellt das Ergebnis ein (lokales) Minimum der Zielfunktion dar?

Überblick über Entwicklungen in diesem Bereich des Machine Learning um Unterschiedliche Ansätze in der Darstellung der Wissensbasis Verschiedene Umsetzungen des inkrementellen Aspekts Trends in der Performance der Verfahren Kennen zu lernen. Auffinden der für die Klassifikation großer Datenmengen geeignete Verfahren oder Ansätze Ziel

Inkrementelles Lernen aus Beispielen Concept Learning System (CLS) [Hunt, Martin, Stone; 1966] Vorgehen Nicht inkrementeller Aufbau eines Entscheidungsbaumes Erste Teilung entlang der Werte eines „best discriptive attribute“  Verwendung einer einfachen Häufigkeitsmessung Neue Beobachtungen werden bestehenden Klassen zugeordnet Bei einer Missklassifikation wird der gesamte Baum neu berechnet  „revolutionäres“ Verfahren Aus vorhandenen Beobachtungen wird nicht inkrementell ein Entscheidungsbaum abgeleitet. Bestimmung des „best discriptive attributes“ durch eine einfache Häufigkeitsmessung um das Attribut zu bestimmen, dessen Werte am besten mit den verschiedenen Klassen verbunden sind. Die Werte dieser divisive attributes werden nun zur Beschriftung der Kanten des Entscheidungsbaumes verwendet. Neue Beobachtungen werden nun sequentiell entlang der beschrifteten Pfeile einer der bestehende Klassen zugeordnet. Tritt eine Missklassifikation ein, so wir der gesamte Baum, aus allen verfügbaren Daten) neu berechnet  „revolutionäres“ Verfahren Kritik Keine eigenständige Klassifikation der Daten Vollständige Konsistenz Schlechte Performance wegen ständiger Neuberechnungen

Inkrementelles Lernen aus Beispielen AQ [Michalski; 1973] Vorgehen Darstellung der Wissensbasis als „flache“ logische „Concept Descriptions“ Nur ein Teil der Beobachtungen zur Neuberechnung „fehlerhafter“ Teile der Wissensbasis benutzt wird Verwendung einer Euklidischen Distanzmessung um „gute“ Repräsentanten der Konzepte zu erkennen Limitierung der Neuberechnung auf die Teile der Wissensbasis, die zu einer Missklassifikation geführt haben AQ [Michalski] Vergleichbar mir CLS, benutzt jedoch zur Darstellung der Wissensbasis „flache“ logische „Concept Descriptions“ (in DNF). Das inkrementelle Verhalten wird hierbei dadurch unterstützt, dass immer nur ein Teil der Beobachtungen zur Neuberechnung „fehlerhafter“ Teile der Wissensbasis benutzt wird. Kritik Keine eigenständige Klassifikation der Daten Benötigt vollständige Konsistenz

Inkrementelles Lernen aus Beispielen STAGGER [Schlimmer; 1987] Vorgehen Darstellung der Wissensbasis als „flache“ logische „Concept Descriptions“ mit lokalen Reparaturen der Wissensbasis Benötigt keine vollständige Konsistenz der Daten  keine abrupten Reparaturen nach jeder Missklassifikation Repräsentation der Konzepte als probabalistische Zusammenfassung wichtiger Subkomponenten STAGGER [Schlimmer] Eine Erweiterung von AQ unter Verwendung stochastischer Verfahren um statistisches Rauschen berücksichtigen zu können. Hier wird nicht mehr von einer vollkommenen Konsistenz der Daten ausgegangen. Effektiver Umgang mit statistischem Rauschen Fähigkeit Umweltveränderungen zu erkennen

Inkrementelles Lernen aus Beispielen ID4 [Fisher; 1986] Vorgehen Weiterentwicklung von CLS Feinere Methode zur Auswahl des „best divisive attribute“ Statt der kompletten Datenbasis, wird nur eine stochastische Zusammenfassung gespeichert Lokale Reparaturen an den Teilbäumen Ist eine Weiterentwicklung von CLS und basiert auf Entscheidungsbäumen. Es besitzt jedoch eine feinere Methode zur Auswahl des „best divisive attribute“. Das beste Attribut maximiert den erwartete Informationswert. Statt der kompletten Datenbasis, wird nur eine stochastische Zusammenfassung gespeichert, was zu einer immensen Verbesserung der Kosten führt. Sobald ein signifikanter Vergleich zwischen den Attributen gemacht werden kann, wird ein Wurzelattribut gewählt. Neue Teilbäume werden nicht sofort gebildet, da keine Beobachtungen gespeichert werden. Statt dessen wird es, nach der Erhöhung der Häufigkeit in der Wurzel, zu dem entsprechenden Teilbaum geleitet und erhöht hier ebenfalls die Häufigkeit. Kritik Keine eigenständige Klassifikation der Daten

Incremental Conceptual Clustering COBWEB [Fisher; 1987] Methode, um verständliche Muster in Daten zu entdecken Vorgehen Eigenständige Entwicklung eines „Classification Tree“ Integration neuer Beobachtungen entlang „best matching nodes“ Speicherung einer statistischen Zusammenfassung in jedem Knoten (vgl. ID4) Evaluation Function basiert auf den Attributwerten aller Beobachtungen Das System unterscheidet sich von den vorherigen [ID4] dadurch, dass es eigenständig „Classification Trees“ bildet, die eine gute Vorhersage entlang vieler Attribute ermöglichen sollen, statt eine optimale Vorhersage zu einem vordefinierten Attribut zu liefern. COBWEB integriert neue Beobachtungen in den „Classification Tree“, indem es die Beobachtung entlang eines Pfades der am besten passenden Knoten klassifiziert. Es verwendet hierzu eine Wissensbasis, die viele Vorhersageaufgaben koordiniert, nämlich eine für jedes Attribut. Kritik Reihenfolgeabhängig

Prinzipieller Unterschied zu nicht inkrementellen Clusteralgorithmen K-Means  iteriert über gesamtem Datenbestand  Verwendet Distanzmessung Wo der K-Means Algorithmus über dem gesamten Datenbestand solange iteriert bis Konvergenz erreicht ist arbeiten inkrementelle Verfahren den Bestand Instanz für Instanz ab. CU basiert nicht auf einer Distanzmessung, wie z.B. der K-Means Algorithmus, sonder verwendet die Wahrscheinlichkeit bestimmter Attributwerte in den einzelnen Clustern um eine Aussage über die Güte der Klassifizierung zu machen COBWEB  arbeitet Datenbestand Instanz für Instanz ab  Verwendet Wahrscheinlichkeiten/Häufigkeiten

Beim Incremental Conceptual Clustering wird bei jedem Schritt ein Baum gebildet, dessen Blätter die Instanzen und die Wurzel den gesamten Datenbestand repräsentierten. Verfahren Updates  Einfügen eines neuen Blattes  Komplette Restrukturierung des Baumes Evaluation Function Category Utility  misst die Gesamtqualität der Unterteilung  Schlüssel für Entscheidung über Updates Restrukturierung  Merge: Vereinigt zwei Subcluster  Split: Ersetzt Knoten durch Söhne Am Anfang besteht der Baum nur aus einem Knoten und wird mit jeder neuen Instanz upgedated. Diese Updates können einfach darin bestehen zu entscheiden, wo ein neues Blatt eingefügt werden kann, oder sie können eine komplette Restrukturierung des Baumes bedeuten. Der Schlüssel um zu entschieden wie und wo ein Update durchgeführt werden soll, heißt „category utility“ und misst die Gesamtqualität der Unterteilung. Um Restrukturierungen zu ermöglichen, werden die Operationen Merge und Split, in Abhängigkeit von der „category utility“, definiert. „Merge“ vereinigt zwei Subcluster, wenn dadurch eine Verbesserung der „category utility“ erreicht werden kann, wohingegen „Split“ genau das Gegenteil bewirkt, den Ersatz eines Knotens durch seine Söhne. „Mergen“ und „Splitten“ stellen eine inkrementelle Möglichkeit dar um den Baum, nach fehlerhaften Wahlentscheidungen durch eine unglückliche Reihenfolge der Beobachtungen, zu restrukturieren. inkrementelle Möglichkeit den Baum nach fehlerhaften Wahlentscheidungen zu restrukturieren

Beispiel für den Aufbau eines „Classification Tree“ mit „incremental conceptual clusering“

Erweiterungen des Incremental Conceptual Clustering Prinzips um nicht erwünschte Eigenschaften zu vermeiden Numerische Attribute  Category Untility basiert auf Schätzung der Mittelwerte und Varianz Problem Knoten enthält nur eine Instanz  Varianz wird Null  infinite Werte der CU Das Verfahren kann auch für numerische Attribute angewendet werden, da die „category utility“ auch für diese, basierend auf einer Schätzung der Mittelwerte und Standardabweichungen, definiert ist. Es taucht hier jedoch dann ein Problem auf, wenn ein Knoten nur eine Instanz enthält, da dann die Varianz null wird. Ein Wert von Null würde aber in der „category utility“ Formel zu infiniten Werten führen, so dass hier eine einfache heuristische Lösung verwendet wird um eine mindest Varianz zu erhalten. Dieser Parameter stellt die Messungenauigkeit einer Instanz dar und wird „acuity“ genannt Lösung Verwendung einer Mindestvarianz  Acuity stellt die Messungenauigkeit dar

Erweiterungen des Incremental Conceptual Clustering Prinzips um nicht erwünschte Eigenschaften zu vermeiden Cluster enthalten ein Blatt für jede Instanz undurchschaubar große Hierarchie  Overfitting Cutoff  unterdrückt das Wachstum der Hierarchie  Wenn sich Instanzen ausreichend ähneln werden sie zusammengefasst Die Cluster, die durch dieses Schema erzeugt werden enthalten ein Blatt für jede Instanz und produzieren eine undurchschaubar große Hierarchie für eine Datenbank von vernünftiger Größe. Um dieses „Overfitting“ zu verhindern wird ein weiterer Parameter eingeführt, der das Wachstum unterdrücket. Einige Instanzen sind ausreichend ähnlich zu anderen um keinen eigenen Sohn zu erfordern. Der „Cutoff“ wird ebenfalls über die „category utility“ spezifiziert: Wenn der Zuwachs durch das Hinzufügen eines neuen Knotens ausreichend klein ist, wird der Knoten abgeschnitten. Es ist jedoch meistens einiges experimentieren mit den Parametern notwendig um zufriedenstellende Ergebnisse zu erhalten und ein schärferer „Cutoff“ führ zu weniger zufriedenstellenden Clustern. Experimentieren mit Parametern um zufriedenstellende Ergebnisse zu erhalten

„Incremental Conceptual Clustering“ am Beispiel von COBWEB N=Node I=New Instance An example of probabalistic concepts Die hier verwendete CU bezieht sich nur auf ein einziges Cluster, eigentlich müsste man noch über alle Cluster summieren und mir 1/k multiplizieren

Inkrementelles Lernen - Online Data Mining
Entsprechend dem Vorgehen beim Inkrementellen Lernen ist ein Online Verfahren zu bestimmen, anhand dessen eine Synthese der beiden Ansätze geprüft wird Erweiterung des COBWEB um Elemente mit Online Behavior Fortführung der Ergebnisse Präsentationsteil Inkrementelles Lernen: Definition und Abgrenzung des Themengebiets Vorstellung Verfahren Anforderungen an Algorithmen Auswahl eines potentiell inkrementell erweiterbaren Verfahrens Präsentationsteil Online Data Mining:

Online Data Mining Grundlagen des Themengebiets
Definition „Online“: System stellt dem Nutzer in Echtzeit Informationen über sowie die Möglichkeit der Einflußnahme auf eine Query während ihrer Abarbeitung zur Vefügung (Online Behavior vs. "Batch Mode") Wesentliche Arbeit von 2 Forschungsgruppen Prof. J.M. Hellerstein (UC Berkeley): CONTROL J. Han (Simon Fraser, B.C.): OLAM Online im Bezug auf DB Datenbankzugriff ähnelt "archaischem" Batch Mode = BlackBox-Verhalten,d.h. großer Zeitverzug zwischen Stellen der Query und Ergebnissen ohne Einflußmöglichkeit! no one perfect query: um eine Query/ ein Funktion (wie z.B. Clustering, AssoRules) exakt bzgl der Parameter zu formulieren, müßte „die Antwort bereits bekannt sein“ Notwendigkeit ergibt sich aus „no one perfect query“-Problematik zentrale Lösungsansätze... Interaktivität Intuitivität ...stellen nicht-triviale Anforderungen bei Anwendung auf großen Datenmengen

... während der Bearbeitung
Online Data Mining Die Lösungsansätze definieren das Lastenheft für die Anpassung bestehender Datenbankverfahren an die Onlinemethodik Interaktivität: Kontinuierliche Ausgabe von Zwischenergebnissen (early returns) zusätzliche Angaben bzgl. Exaktheit (Konfidenzintervalle) Einflußmöglichkeiten auf Funktionsparameter (Query Refinement) Kontrolle über Trade-Off Exaktheit Û Bearbeitungszeit ... während der Bearbeitung Online Behavior vs. Batch Mode Crystal Ball Black Box Query Refinement, keine Anpassung ohne neue Control on-the-fly Query trial-and-error Iterative Verfeinerung der Query .... während nach der Abarbeitung der Query Trade-Off: ...bedeutet auch z.B. die Möglichkeit die Query auf Grund der bisher erzielten Zwischenergebnisse abzubrechen Intuivität: v.a. wenn zunächst grobes Wissen/allgem. Überblick über die Daten gesucht wird, sind exakte Queries wenig sinnvoll und zu Zeit(Kosten) aufwendig fuzzy Qs: weiches/ ohne Festlegung von formalen Parametern Erfragen von Eigenschaften der Daten zentral Aussage: Einbringen des Wissens (auch der Intuition) bringt Performance-Vorteil (s.a. Kostenfkt und Aussage "opt. Sitzungszeit nicht Queryzeit") Intuivität: ... die Systemumgebung soll ein Erarbeiten und Überprüfen von Hypothesen vereinfachen explorative Datenanalyse: Browsing / "Eyeballing" auf unterschiedlichen Abstraktionsebenen fuzzy Queries Möglichkeit externes Wissen unkompliziert einzubringen

Online Data Mining Hellerstein: CONTROL-Project (Continous Output and Navigation Technology with Refinement Online) Online Enumeration: explorative Datenanalyse via Spreadsheets auf großen Datenmengen (Tool: ABC) Online Data Mining: Online Association Rules implementiert (CARMA) Forschungsansätze auch für andere Methoden (Clustering) Online Aggregation: ermöglicht Interaktion während SQL Aggregation Query (Feedback möglich durch UDFs) SQL Aggregations Queries: z.B. Group By Implementierung in existierende DBMS mit hilfe von UDFs möglich UDFs: ermöglichen das für Online Behavior notwendige Feedback während der eigentlichen Query-Bearbeitung zu Clouds: Entsprechung zu Konfidenzintervall ist "schattierte" Darstellung der erwarteten noch nocht bearbeiteten Datensätze in einem bestimmten Bereich zu Zeitkomplexität: eine Analyse der gesamten Datenmenge wird immer "teuer" sein (Bezug : >Mögl. Query abzubrechen >externes Wissen/Intuition Nutzer erhöht Effizienz) s.a. Kostenfunktion im weiteren: Online Datenvisualisierung (CLOUDs) Optimierung der Zeitkomplexität der gesamten Datenanalyse- Sitzung (i.G. zur Optimierung einer einzelnen Iteration des Analyseprozeß')

...ohne explizites Stellen einer Query
Online Data Mining CONTROL-Methoden umgehen einige grundlegende Schwachstellen herkömmlicher Datenanalyseverfahren Spreadsheets: ABC Größenbeschränkungen (Bsp. Excel) werden aufgehoben Exploration der Daten: Scrolling, Filtern, Sortieren Abstraktion der Daten: Gruppierung Umstrukturierung (Pivotieren) Interpretation der Position des Scrollbar als fuzzy Query / Nutzerpräferenz (für Online Reordering) ...ohne explizites Stellen einer Query Assoziationsregeln: CARMA (Continous Association Rule Mining Algorithm) 2 Scans über Datenmenge 1. Scan: vorläufige Ergebnisse zu Support und Konfidenz (inkl. Konfidenzintervall) werden online ausgegeben und Grenzwerte sind interaktiv anpaßbar 2.Scan: Feststellen des exakten Supports , Pruning Zu Spreadsheets: Ermöglichen die gewohnte "intuitive" Funktionalität auf großen Datenmengen Intuition des Nutzer ist effiziente Mögl. Rauschen(Ausreißer) innerhalb der Daten zu beseitigen/ nicht zu berücksichtigen

Online Data Mining CARMA
1. Scan : firstTrans(): Transaktion zu der Itemset in Menge der potentiell großen Itemsets hinzugenommen wird count(): Anzahl des Vorkommen des Itemset nach firstTrans maxMissed:() obere Schranke für Vorkommen vor firstTrans (in Abh. von bearbeiteter Datenmenge und supportSequence) supportSequence: dynamische Speicherung der nutzerspezifizierten Supportgrenzwerte Ermöglicht Angabe einer oberen und unteren Schranke für Support

Online Data Mining Realisierung der Nutzer-Interaktion via GUI (Bsp. Online Aggregation) Verfahren zur Bestimmung des Konfidenzintervalls an bereits bearbeitete Datenmenge angepaßt ähnlicher Ansatz :Wang User Defined Aggregates ermöglichen ebenfalls early returns SQL Aggregations Queries: z.B. Group By Implementierung in existierende DBMS mit hilfe von UDFs möglich UDFs: ermöglichen das für Online Behavior notwendige Feedback während der eigentlichen Query-Bearbeitung wesentliche Unterstützung durch Methodik...Online Reordering Selektion der Datensätze nach Grad der „Interessantheit“(Nutzerpräferenzen)

Online Data Mining Online Reordering: (Prefetch & Spool) zwischen dem reinen Auslesen der Daten und der aufgesetzten Applikation wird ein Reorder-Operator eingefügt theoretisches Ziel: Überführung des ursprünglichen Datenstroms in permutierten, der Nutzerpräferenz entsprechenden Strom Ausnutzen des Komplexitäts- Vorteils von Produce ggü. Process Operator wählt Daten mit höchster Präferenz aus Spooling nichtpräferierter Daten auf Sidedisk Verwendung von Feedbackqualitätsfunktion (als Auswahlmetrik) Online Reordering : Verfahren nutzt den Zeitvorteil zwischen reinem Auslesen der Daten und dem mehrfachen Zugriff durch Applikation Operator wählt Daten mit höchster Präferenz aus und spoolt andere auf Nebenspeicher (Sidedisk)(.. auf diese wird aber später (v.a. bei Präferenzänderung) zur Datenanreicherung zugeggriffen dabei Verwendung von Feedbackqualitätsfunktion: dabei Verwendung unterschiedl. Metriken möglich entsprechend der Präferenz gewichtete maximale Einschränkung der Konfidenz (d.h. in Abh. der Zahl der bereits bearbeiteten Daten dieser Gruppe) oder maximale Annäherung an Nutzerpräferenz(d.h. unabhängig von der Zahl der bereits bearbeiteten Daten dieser Gruppe) Bsp. Online Reordering erlaubt Scrolling, Springen (simuliertes Nutzervehalten) während einer Sortierung , mit Antwortzeiten im Untersekundenbereich zum Vergleich: Sortierung im Batch-Mode (d.h. Algorithmus mit Blocking-Charakteristikum) dauerte 15 min !!!

Online Data Mining Alternativen zu Ansatz Hellerstein arbeiten mit Precomputation, d.h. Aufbereitung der Daten zu Data Cube Han: Data Mining + OLAP = OLAM (Online Analytical Mining) DBMiner ermöglicht interaktive Anwendung von Data Mining Methoden (Clustering, Aggregation, Assoziations Regeln) Parallele Anwendung mehrerer Data Mining Funktionen + Interaktion zwischen diesen möglich Tool ermöglicht Data Exploration (interaktiv, flexibel, intuitiv, auf unterschiedlichen Abstraktionsebenen) Aufsetzen der OLAM-Anwendungen auf bestehende OLAP-Tools Kritik: Interaktivität nur auf aufbereiteten Daten, d.h. Probleme (kein echtes Online Behavior) bei noch nicht vorab definierten Analysedimensionen

Online Data Mining Anforderungen an verwendete Algorithmen um Online Behavior zu ermöglichen: Anytime Algorithmen (entspr. Hellerstein): sinnvolle Näherungsergebnisse (inkl. Gütefunktionen) sind ab Beginn der Anwendung vefügbar Ablauforganisation: Pipeline Processing Problem Blocking Algorithms: Scan der gesamten Datenmenge vor Ergebnisausgabe notwendig (Bsp. Sortierung) Methoden für die umfangreiches Preprocessing notwendig ist Anytime Algo: kein umfangreicher Overhead (entspr. Preprocessing) Gütefunktion: Konfidenzintervall bestimmbar Ablauforganisation: Pipeline Processing Kostenfkt: entspricht Strafterm für Totzeiten ( ohne Ausgabe- und Interaktionsmöglichkeit) eines Algorithmus Optimierung der Zeitkomplexität der gesamten Datenanalyse- Sitzung (i.G. zur Optimierung einer einzelnen Iteration des Analyseprozeß') ->eine Analyse der gesamten Datenmenge wird immer "teuer" sein (Bezug : >Mögl. Query abzubrechen >externes Wissen/Intuition Nutzer erhöht Effizienz) s.a. Kostenfunktion repräsentiert über Kostenfunktion (Bsp.): K(toutput, tdead) = atoutput + ebtdead ... fordert evtl. aber auch die Päferenz herkömmlicher Methodik (Batch Mode) bei zu hohen "Online-Kosten" !

Ausblick Ziel weiteres Vorgehen
Vergleich der Ansätze Inkrementelles Lernen und Online Data Mining und der Anforderungen an die dabei verwendeten Algorithmen Evaluierung der Möglichkeit einer Erweiterung des Conceptual Clusterings um Elemente mit Online Behavior Prüfung der Vereinbarkeit von Online Association Rules mit Methoden des Inkrementellen Lernens ... dies soll jeweils mit Bezug zur konkreten Problemstellung unserer Telekommunikationsdaten geschehen Synthese beider Ansätze in Hinblick auf große Datenmengen Ziel

Fragen

Einführungspräsentation Steffen Ciupke Jörg Hipp

Ähnliche Präsentationen

Präsentation zum Thema: "Einführungspräsentation Steffen Ciupke Jörg Hipp"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Einführungspräsentation Steffen Ciupke Jörg Hipp

Ähnliche Präsentationen

Präsentation zum Thema: "Einführungspräsentation Steffen Ciupke Jörg Hipp"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback