Einführungspräsentation Steffen Ciupke Jörg Hipp

Slides:



Advertisements
Ähnliche Präsentationen
Der R-Baum Richard Göbel.
Advertisements

Perceptrons and the perceptron learning rule
Kohonennetze für Information Retrieval mit User Feedback
Der k-d-Baum Richard Göbel.
Apriori-Algorithmus zur Entdeckung von Assoziationsregeln
Data Mining Anwendungen und Techniken
Von David Keß, Heinrich Wölk, Daniel Hauck
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Kapitel 6: Klassifizierung von Sortiertechniken
Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
Kapitel 4 Datenstrukturen
Christian A. Kopf Institut für Informatik FU Berlin Episode Recognizer Framework - Rahmenwerk zur Episodenerkennung.
DEPARTMENT FÜR INFORMATIK
Genetische Algorithmen
Genetische Algorithmen
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
Der R-Baum Richard Göbel.
DOM (Document Object Model)
Markplätze für Agenten Seminar Softwareagenten Timo Hoelzel.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 16 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Algorithmen und Datenstrukturen
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Seminar parallele Programmierung SS 2003
Sebastian Grahn Sebastian Kühn
Rigi und Web2Rsf vorgestellt von Tobias Weigand. Inhalt Ziel von Web2Rsf und Rigi Vorstellung des Parsers Web2Rsf Vorstellung des Werkzeugs Rigi Analyse.
Vortrag: Ingo Gensch, Mathias Reich am:
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Weiteres Programm Studium des Breitendurchlaufs Hierzu

Seminar: Informationstechnik in der Medizin Universität Dortmund Fakultät für Elektrotechnik und Informationstechnik Lehrstuhl für Kommunikationstechnik.
Konzeption und Realisierung von DSS
Machine Learning Decision Trees (2).
Maschinelles Lernen und automatische Textklassifikation
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Objektmodellierung Objekte und Klassen Ein Objekt ist ein Exemplar.
Spezifikation von Anforderungen
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Self Organizing Tree Algorithm
EXCEL PROFESSIONAL KURS
Zur Veranstaltung Business Intelligence
DataMining Von Daten zu Informationen und Wissen
Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers
Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Effiziente Algorithmen
Hartmut Klauck Universität Frankfurt SS
Ergebnispräsentation Steffen Ciupke Jörg Hipp
WINTEGRATION®.
Wasserfallmodell und Einzelbegriffe
Algorithmen und Datenstrukturen Übungsmodul 8
Klassifikation und Regression mittels neuronaler Netze
CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle ( )
Analyse der Laufzeit von Algorithmen
Möglichkeiten der Visualisierung
Bern University of Applied Sciences Engineering and Information Technology Documentation generator for XML-based description standards Ausgangslage: Die.
2. Sitzung Forschungsprozess als Abfolge von Entscheidungen
1 Prof. Dr. Andreas SchmietendorfWS06/07 Übung 3 Test der Möglichkeiten des JDBC-Interfaces.
SS 2015 – IBB4C Datenmanagement Fr 17:00 – 18:30 R Vorlesung #1 Datenmanagement.
Induktion von Entscheidungsbäumen Seminar Data Mining am Fachgebiet Datenbanken und Informationssysteme Sommersemester 2007 Betreuer: Hendrik Warneke.
Binärbäume.
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Comprehensive Information Base (CIB) – ein Prototyp zur semantischen Datenintegration Stefan Arts
Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.
COURSE in Köln – Copyright, 2009 Lattwein GmbH Michael Prinz Lattwein GmbH Query Reports nach „Maß“
 Präsentation transkript:

Einführungspräsentation Steffen Ciupke Jörg Hipp Vergleich der Ansätze des „Inkrementellen Lernen“ mit den Ideen des „Online Data Mining“ Einführungspräsentation Steffen Ciupke Jörg Hipp

Inkrementelles Lernen Agenda Einleitung Inkrementelles Lernen Online Data Mining Ausblick

Einleitung Einsatzmöglichkeit inkrementeller Clustering Verfahren und Online Data Mining zur Klassifizierung von Telekommunikationsdaten Vergleich der Ansätze des inkrementellen Lernens und des Online Data Mining Vorstellung einiger Verfahren und der Anforderungen an die dabei verwendeten Algorithmen Evaluierung der Verfahren hinsichtlich möglicher Erweiterungen oder Kombinationsmöglichkeiten Synthese beider Ansätze in Hinblick auf große Datenmengen Ziel

Inkrementelles Lernen Motivation und Charakteristika inkrementeller Lernverfahren Motivation Zugriff auf Wissen - sporadisch - häufig Daten sollen bereits unmittelbar nach Beobachtung verwendbar sein Charakteristika Verwendung einer Wissensbasis Effizienter Zugriff Einfache Updates bzw. Assimilation neuer Beobachtungen  Tradeoff: Cost vs. Quality

Inkrementelles Lernen Mit inkrementellen Lernverfahren verbundene Probleme Inhärente Unsicherheit hinsichtlich verschiedener Fragestellungen Probleme Wie weit hängt das Ergebnis von der Reihenfolge der Beobachtungen ab? Sind lokale Restrukturierungen in der Wissensbasis ausreichend, um schlechte Anfangsentscheidungen auszugleichen? Stellt das Ergebnis ein (lokales) Minimum der Zielfunktion dar?

Inkrementelles Lernen Überblick über Entwicklungen in diesem Bereich des Machine Learning um Unterschiedliche Ansätze in der Darstellung der Wissensbasis Verschiedene Umsetzungen des inkrementellen Aspekts Trends in der Performance der Verfahren Kennen zu lernen. Auffinden der für die Klassifikation großer Datenmengen geeignete Verfahren oder Ansätze Ziel

Inkrementelles Lernen Inkrementelles Lernen aus Beispielen Concept Learning System (CLS) [Hunt, Martin, Stone; 1966] Vorgehen Nicht inkrementeller Aufbau eines Entscheidungsbaumes Erste Teilung entlang der Werte eines „best discriptive attribute“  Verwendung einer einfachen Häufigkeitsmessung Neue Beobachtungen werden bestehenden Klassen zugeordnet Bei einer Missklassifikation wird der gesamte Baum neu berechnet  „revolutionäres“ Verfahren Aus vorhandenen Beobachtungen wird nicht inkrementell ein Entscheidungsbaum abgeleitet. Bestimmung des „best discriptive attributes“ durch eine einfache Häufigkeitsmessung um das Attribut zu bestimmen, dessen Werte am besten mit den verschiedenen Klassen verbunden sind. Die Werte dieser divisive attributes werden nun zur Beschriftung der Kanten des Entscheidungsbaumes verwendet. Neue Beobachtungen werden nun sequentiell entlang der beschrifteten Pfeile einer der bestehende Klassen zugeordnet. Tritt eine Missklassifikation ein, so wir der gesamte Baum, aus allen verfügbaren Daten) neu berechnet  „revolutionäres“ Verfahren Kritik Keine eigenständige Klassifikation der Daten Vollständige Konsistenz Schlechte Performance wegen ständiger Neuberechnungen

Inkrementelles Lernen Inkrementelles Lernen aus Beispielen AQ [Michalski; 1973] Vorgehen Darstellung der Wissensbasis als „flache“ logische „Concept Descriptions“ Nur ein Teil der Beobachtungen zur Neuberechnung „fehlerhafter“ Teile der Wissensbasis benutzt wird Verwendung einer Euklidischen Distanzmessung um „gute“ Repräsentanten der Konzepte zu erkennen Limitierung der Neuberechnung auf die Teile der Wissensbasis, die zu einer Missklassifikation geführt haben AQ [Michalski] Vergleichbar mir CLS, benutzt jedoch zur Darstellung der Wissensbasis „flache“ logische „Concept Descriptions“ (in DNF). Das inkrementelle Verhalten wird hierbei dadurch unterstützt, dass immer nur ein Teil der Beobachtungen zur Neuberechnung „fehlerhafter“ Teile der Wissensbasis benutzt wird. Kritik Keine eigenständige Klassifikation der Daten Benötigt vollständige Konsistenz

Inkrementelles Lernen Inkrementelles Lernen aus Beispielen STAGGER [Schlimmer; 1987] Vorgehen Darstellung der Wissensbasis als „flache“ logische „Concept Descriptions“ mit lokalen Reparaturen der Wissensbasis Benötigt keine vollständige Konsistenz der Daten  keine abrupten Reparaturen nach jeder Missklassifikation Repräsentation der Konzepte als probabalistische Zusammenfassung wichtiger Subkomponenten STAGGER [Schlimmer] Eine Erweiterung von AQ unter Verwendung stochastischer Verfahren um statistisches Rauschen berücksichtigen zu können. Hier wird nicht mehr von einer vollkommenen Konsistenz der Daten ausgegangen. Effektiver Umgang mit statistischem Rauschen Fähigkeit Umweltveränderungen zu erkennen

Inkrementelles Lernen Inkrementelles Lernen aus Beispielen ID4 [Fisher; 1986] Vorgehen Weiterentwicklung von CLS Feinere Methode zur Auswahl des „best divisive attribute“ Statt der kompletten Datenbasis, wird nur eine stochastische Zusammenfassung gespeichert Lokale Reparaturen an den Teilbäumen Ist eine Weiterentwicklung von CLS und basiert auf Entscheidungsbäumen. Es besitzt jedoch eine feinere Methode zur Auswahl des „best divisive attribute“. Das beste Attribut maximiert den erwartete Informationswert. Statt der kompletten Datenbasis, wird nur eine stochastische Zusammenfassung gespeichert, was zu einer immensen Verbesserung der Kosten führt. Sobald ein signifikanter Vergleich zwischen den Attributen gemacht werden kann, wird ein Wurzelattribut gewählt. Neue Teilbäume werden nicht sofort gebildet, da keine Beobachtungen gespeichert werden. Statt dessen wird es, nach der Erhöhung der Häufigkeit in der Wurzel, zu dem entsprechenden Teilbaum geleitet und erhöht hier ebenfalls die Häufigkeit. Kritik Keine eigenständige Klassifikation der Daten

Inkrementelles Lernen Incremental Conceptual Clustering COBWEB [Fisher; 1987] Methode, um verständliche Muster in Daten zu entdecken Vorgehen Eigenständige Entwicklung eines „Classification Tree“ Integration neuer Beobachtungen entlang „best matching nodes“ Speicherung einer statistischen Zusammenfassung in jedem Knoten (vgl. ID4) Evaluation Function basiert auf den Attributwerten aller Beobachtungen Das System unterscheidet sich von den vorherigen [ID4] dadurch, dass es eigenständig „Classification Trees“ bildet, die eine gute Vorhersage entlang vieler Attribute ermöglichen sollen, statt eine optimale Vorhersage zu einem vordefinierten Attribut zu liefern. COBWEB integriert neue Beobachtungen in den „Classification Tree“, indem es die Beobachtung entlang eines Pfades der am besten passenden Knoten klassifiziert. Es verwendet hierzu eine Wissensbasis, die viele Vorhersageaufgaben koordiniert, nämlich eine für jedes Attribut. Kritik Reihenfolgeabhängig

Inkrementelles Lernen Prinzipieller Unterschied zu nicht inkrementellen Clusteralgorithmen K-Means  iteriert über gesamtem Datenbestand  Verwendet Distanzmessung Wo der K-Means Algorithmus über dem gesamten Datenbestand solange iteriert bis Konvergenz erreicht ist arbeiten inkrementelle Verfahren den Bestand Instanz für Instanz ab. CU basiert nicht auf einer Distanzmessung, wie z.B. der K-Means Algorithmus, sonder verwendet die Wahrscheinlichkeit bestimmter Attributwerte in den einzelnen Clustern um eine Aussage über die Güte der Klassifizierung zu machen COBWEB  arbeitet Datenbestand Instanz für Instanz ab  Verwendet Wahrscheinlichkeiten/Häufigkeiten

Inkrementelles Lernen Beim Incremental Conceptual Clustering wird bei jedem Schritt ein Baum gebildet, dessen Blätter die Instanzen und die Wurzel den gesamten Datenbestand repräsentierten. Verfahren Updates  Einfügen eines neuen Blattes  Komplette Restrukturierung des Baumes Evaluation Function Category Utility  misst die Gesamtqualität der Unterteilung  Schlüssel für Entscheidung über Updates Restrukturierung  Merge: Vereinigt zwei Subcluster  Split: Ersetzt Knoten durch Söhne Am Anfang besteht der Baum nur aus einem Knoten und wird mit jeder neuen Instanz upgedated. Diese Updates können einfach darin bestehen zu entscheiden, wo ein neues Blatt eingefügt werden kann, oder sie können eine komplette Restrukturierung des Baumes bedeuten. Der Schlüssel um zu entschieden wie und wo ein Update durchgeführt werden soll, heißt „category utility“ und misst die Gesamtqualität der Unterteilung. Um Restrukturierungen zu ermöglichen, werden die Operationen Merge und Split, in Abhängigkeit von der „category utility“, definiert. „Merge“ vereinigt zwei Subcluster, wenn dadurch eine Verbesserung der „category utility“ erreicht werden kann, wohingegen „Split“ genau das Gegenteil bewirkt, den Ersatz eines Knotens durch seine Söhne. „Mergen“ und „Splitten“ stellen eine inkrementelle Möglichkeit dar um den Baum, nach fehlerhaften Wahlentscheidungen durch eine unglückliche Reihenfolge der Beobachtungen, zu restrukturieren. inkrementelle Möglichkeit den Baum nach fehlerhaften Wahlentscheidungen zu restrukturieren

Inkrementelles Lernen Beispiel für den Aufbau eines „Classification Tree“ mit „incremental conceptual clusering“

Inkrementelles Lernen Erweiterungen des Incremental Conceptual Clustering Prinzips um nicht erwünschte Eigenschaften zu vermeiden Numerische Attribute  Category Untility basiert auf Schätzung der Mittelwerte und Varianz Problem Knoten enthält nur eine Instanz  Varianz wird Null  infinite Werte der CU Das Verfahren kann auch für numerische Attribute angewendet werden, da die „category utility“ auch für diese, basierend auf einer Schätzung der Mittelwerte und Standardabweichungen, definiert ist. Es taucht hier jedoch dann ein Problem auf, wenn ein Knoten nur eine Instanz enthält, da dann die Varianz null wird. Ein Wert von Null würde aber in der „category utility“ Formel zu infiniten Werten führen, so dass hier eine einfache heuristische Lösung verwendet wird um eine mindest Varianz zu erhalten. Dieser Parameter stellt die Messungenauigkeit einer Instanz dar und wird „acuity“ genannt Lösung Verwendung einer Mindestvarianz  Acuity stellt die Messungenauigkeit dar

Inkrementelles Lernen Erweiterungen des Incremental Conceptual Clustering Prinzips um nicht erwünschte Eigenschaften zu vermeiden Cluster enthalten ein Blatt für jede Instanz undurchschaubar große Hierarchie  Overfitting Cutoff  unterdrückt das Wachstum der Hierarchie  Wenn sich Instanzen ausreichend ähneln werden sie zusammengefasst Die Cluster, die durch dieses Schema erzeugt werden enthalten ein Blatt für jede Instanz und produzieren eine undurchschaubar große Hierarchie für eine Datenbank von vernünftiger Größe. Um dieses „Overfitting“ zu verhindern wird ein weiterer Parameter eingeführt, der das Wachstum unterdrücket. Einige Instanzen sind ausreichend ähnlich zu anderen um keinen eigenen Sohn zu erfordern. Der „Cutoff“ wird ebenfalls über die „category utility“ spezifiziert: Wenn der Zuwachs durch das Hinzufügen eines neuen Knotens ausreichend klein ist, wird der Knoten abgeschnitten. Es ist jedoch meistens einiges experimentieren mit den Parametern notwendig um zufriedenstellende Ergebnisse zu erhalten und ein schärferer „Cutoff“ führ zu weniger zufriedenstellenden Clustern. Experimentieren mit Parametern um zufriedenstellende Ergebnisse zu erhalten

Inkrementelles Lernen „Incremental Conceptual Clustering“ am Beispiel von COBWEB N=Node I=New Instance An example of probabalistic concepts Die hier verwendete CU bezieht sich nur auf ein einziges Cluster, eigentlich müsste man noch über alle Cluster summieren und mir 1/k multiplizieren

Inkrementelles Lernen - Online Data Mining Entsprechend dem Vorgehen beim Inkrementellen Lernen ist ein Online Verfahren zu bestimmen, anhand dessen eine Synthese der beiden Ansätze geprüft wird Erweiterung des COBWEB um Elemente mit Online Behavior Fortführung der Ergebnisse Präsentationsteil Inkrementelles Lernen: Definition und Abgrenzung des Themengebiets Vorstellung Verfahren Anforderungen an Algorithmen Auswahl eines potentiell inkrementell erweiterbaren Verfahrens Präsentationsteil Online Data Mining:

Online Data Mining Grundlagen des Themengebiets Definition „Online“: System stellt dem Nutzer in Echtzeit Informationen über sowie die Möglichkeit der Einflußnahme auf eine Query während ihrer Abarbeitung zur Vefügung (Online Behavior vs. "Batch Mode") Wesentliche Arbeit von 2 Forschungsgruppen Prof. J.M. Hellerstein (UC Berkeley): CONTROL J. Han (Simon Fraser, B.C.): OLAM Online im Bezug auf DB Datenbankzugriff ähnelt "archaischem" Batch Mode = BlackBox-Verhalten,d.h. großer Zeitverzug zwischen Stellen der Query und Ergebnissen ohne Einflußmöglichkeit! no one perfect query: um eine Query/ ein Funktion (wie z.B. Clustering, AssoRules) exakt bzgl der Parameter zu formulieren, müßte „die Antwort bereits bekannt sein“ Notwendigkeit ergibt sich aus „no one perfect query“-Problematik zentrale Lösungsansätze... Interaktivität Intuitivität ...stellen nicht-triviale Anforderungen bei Anwendung auf großen Datenmengen

... während der Bearbeitung Online Data Mining Die Lösungsansätze definieren das Lastenheft für die Anpassung bestehender Datenbankverfahren an die Onlinemethodik Interaktivität: Kontinuierliche Ausgabe von Zwischenergebnissen (early returns) zusätzliche Angaben bzgl. Exaktheit (Konfidenzintervalle) Einflußmöglichkeiten auf Funktionsparameter (Query Refinement) Kontrolle über Trade-Off Exaktheit Û Bearbeitungszeit ... während der Bearbeitung Online Behavior vs. Batch Mode Crystal Ball Black Box Query Refinement, keine Anpassung ohne neue Control on-the-fly Query trial-and-error Iterative Verfeinerung der Query .... während nach der Abarbeitung der Query Trade-Off: ...bedeutet auch z.B. die Möglichkeit die Query auf Grund der bisher erzielten Zwischenergebnisse abzubrechen Intuivität: v.a. wenn zunächst grobes Wissen/allgem. Überblick über die Daten gesucht wird, sind exakte Queries wenig sinnvoll und zu Zeit(Kosten) aufwendig fuzzy Qs: weiches/ ohne Festlegung von formalen Parametern Erfragen von Eigenschaften der Daten zentral Aussage: Einbringen des Wissens (auch der Intuition) bringt Performance-Vorteil (s.a. Kostenfkt und Aussage "opt. Sitzungszeit nicht Queryzeit") Intuivität: ... die Systemumgebung soll ein Erarbeiten und Überprüfen von Hypothesen vereinfachen explorative Datenanalyse: Browsing / "Eyeballing" auf unterschiedlichen Abstraktionsebenen fuzzy Queries Möglichkeit externes Wissen unkompliziert einzubringen

Online Data Mining Hellerstein: CONTROL-Project (Continous Output and Navigation Technology with Refinement Online) Online Enumeration: explorative Datenanalyse via Spreadsheets auf großen Datenmengen (Tool: ABC) Online Data Mining: Online Association Rules implementiert (CARMA) Forschungsansätze auch für andere Methoden (Clustering) Online Aggregation: ermöglicht Interaktion während SQL Aggregation Query (Feedback möglich durch UDFs) SQL Aggregations Queries: z.B. Group By Implementierung in existierende DBMS mit hilfe von UDFs möglich UDFs: ermöglichen das für Online Behavior notwendige Feedback während der eigentlichen Query-Bearbeitung zu Clouds: Entsprechung zu Konfidenzintervall ist "schattierte" Darstellung der erwarteten noch nocht bearbeiteten Datensätze in einem bestimmten Bereich zu Zeitkomplexität: eine Analyse der gesamten Datenmenge wird immer "teuer" sein (Bezug : >Mögl. Query abzubrechen >externes Wissen/Intuition Nutzer erhöht Effizienz) s.a. Kostenfunktion im weiteren: Online Datenvisualisierung (CLOUDs) Optimierung der Zeitkomplexität der gesamten Datenanalyse- Sitzung (i.G. zur Optimierung einer einzelnen Iteration des Analyseprozeß')

...ohne explizites Stellen einer Query Online Data Mining CONTROL-Methoden umgehen einige grundlegende Schwachstellen herkömmlicher Datenanalyseverfahren Spreadsheets: ABC Größenbeschränkungen (Bsp. Excel) werden aufgehoben Exploration der Daten: Scrolling, Filtern, Sortieren Abstraktion der Daten: Gruppierung Umstrukturierung (Pivotieren) Interpretation der Position des Scrollbar als fuzzy Query / Nutzerpräferenz (für Online Reordering) ...ohne explizites Stellen einer Query Assoziationsregeln: CARMA (Continous Association Rule Mining Algorithm) 2 Scans über Datenmenge 1. Scan: vorläufige Ergebnisse zu Support und Konfidenz (inkl. Konfidenzintervall) werden online ausgegeben und Grenzwerte sind interaktiv anpaßbar 2.Scan: Feststellen des exakten Supports , Pruning Zu Spreadsheets: Ermöglichen die gewohnte "intuitive" Funktionalität auf großen Datenmengen Intuition des Nutzer ist effiziente Mögl. Rauschen(Ausreißer) innerhalb der Daten zu beseitigen/ nicht zu berücksichtigen

Online Data Mining CARMA 1. Scan : firstTrans(): Transaktion zu der Itemset in Menge der potentiell großen Itemsets hinzugenommen wird count(): Anzahl des Vorkommen des Itemset nach firstTrans maxMissed:() obere Schranke für Vorkommen vor firstTrans (in Abh. von bearbeiteter Datenmenge und supportSequence) supportSequence: dynamische Speicherung der nutzerspezifizierten Supportgrenzwerte Ermöglicht Angabe einer oberen und unteren Schranke für Support

Online Data Mining Realisierung der Nutzer-Interaktion via GUI (Bsp. Online Aggregation) Verfahren zur Bestimmung des Konfidenzintervalls an bereits bearbeitete Datenmenge angepaßt ähnlicher Ansatz :Wang User Defined Aggregates ermöglichen ebenfalls early returns SQL Aggregations Queries: z.B. Group By Implementierung in existierende DBMS mit hilfe von UDFs möglich UDFs: ermöglichen das für Online Behavior notwendige Feedback während der eigentlichen Query-Bearbeitung wesentliche Unterstützung durch Methodik...Online Reordering Selektion der Datensätze nach Grad der „Interessantheit“(Nutzerpräferenzen)

Online Data Mining Online Reordering: (Prefetch & Spool) zwischen dem reinen Auslesen der Daten und der aufgesetzten Applikation wird ein Reorder-Operator eingefügt theoretisches Ziel: Überführung des ursprünglichen Datenstroms in permutierten, der Nutzerpräferenz entsprechenden Strom Ausnutzen des Komplexitäts- Vorteils von Produce ggü. Process Operator wählt Daten mit höchster Präferenz aus Spooling nichtpräferierter Daten auf Sidedisk Verwendung von Feedbackqualitätsfunktion (als Auswahlmetrik) Online Reordering : Verfahren nutzt den Zeitvorteil zwischen reinem Auslesen der Daten und dem mehrfachen Zugriff durch Applikation Operator wählt Daten mit höchster Präferenz aus und spoolt andere auf Nebenspeicher (Sidedisk)(.. auf diese wird aber später (v.a. bei Präferenzänderung) zur Datenanreicherung zugeggriffen dabei Verwendung von Feedbackqualitätsfunktion: dabei Verwendung unterschiedl. Metriken möglich entsprechend der Präferenz gewichtete maximale Einschränkung der Konfidenz (d.h. in Abh. der Zahl der bereits bearbeiteten Daten dieser Gruppe) oder maximale Annäherung an Nutzerpräferenz(d.h. unabhängig von der Zahl der bereits bearbeiteten Daten dieser Gruppe) Bsp. Online Reordering erlaubt Scrolling, Springen (simuliertes Nutzervehalten) während einer Sortierung , mit Antwortzeiten im Untersekundenbereich zum Vergleich: Sortierung im Batch-Mode (d.h. Algorithmus mit Blocking-Charakteristikum) dauerte 15 min !!!

Online Data Mining Alternativen zu Ansatz Hellerstein arbeiten mit Precomputation, d.h. Aufbereitung der Daten zu Data Cube Han: Data Mining + OLAP = OLAM (Online Analytical Mining) DBMiner ermöglicht interaktive Anwendung von Data Mining Methoden (Clustering, Aggregation, Assoziations Regeln) Parallele Anwendung mehrerer Data Mining Funktionen + Interaktion zwischen diesen möglich Tool ermöglicht Data Exploration (interaktiv, flexibel, intuitiv, auf unterschiedlichen Abstraktionsebenen) Aufsetzen der OLAM-Anwendungen auf bestehende OLAP-Tools Kritik: Interaktivität nur auf aufbereiteten Daten, d.h. Probleme (kein echtes Online Behavior) bei noch nicht vorab definierten Analysedimensionen

Online Data Mining Anforderungen an verwendete Algorithmen um Online Behavior zu ermöglichen: Anytime Algorithmen (entspr. Hellerstein): sinnvolle Näherungsergebnisse (inkl. Gütefunktionen) sind ab Beginn der Anwendung vefügbar Ablauforganisation: Pipeline Processing Problem Blocking Algorithms: Scan der gesamten Datenmenge vor Ergebnisausgabe notwendig (Bsp. Sortierung) Methoden für die umfangreiches Preprocessing notwendig ist Anytime Algo: kein umfangreicher Overhead (entspr. Preprocessing) Gütefunktion: Konfidenzintervall bestimmbar Ablauforganisation: Pipeline Processing Kostenfkt: entspricht Strafterm für Totzeiten ( ohne Ausgabe- und Interaktionsmöglichkeit) eines Algorithmus Optimierung der Zeitkomplexität der gesamten Datenanalyse- Sitzung (i.G. zur Optimierung einer einzelnen Iteration des Analyseprozeß') ->eine Analyse der gesamten Datenmenge wird immer "teuer" sein (Bezug : >Mögl. Query abzubrechen >externes Wissen/Intuition Nutzer erhöht Effizienz) s.a. Kostenfunktion repräsentiert über Kostenfunktion (Bsp.): K(toutput, tdead) = atoutput + ebtdead ... fordert evtl. aber auch die Päferenz herkömmlicher Methodik (Batch Mode) bei zu hohen "Online-Kosten" !

Ausblick Ziel weiteres Vorgehen Vergleich der Ansätze Inkrementelles Lernen und Online Data Mining und der Anforderungen an die dabei verwendeten Algorithmen Evaluierung der Möglichkeit einer Erweiterung des Conceptual Clusterings um Elemente mit Online Behavior Prüfung der Vereinbarkeit von Online Association Rules mit Methoden des Inkrementellen Lernens ... dies soll jeweils mit Bezug zur konkreten Problemstellung unserer Telekommunikationsdaten geschehen Synthese beider Ansätze in Hinblick auf große Datenmengen Ziel

Fragen