Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Datenbanksysteme 3 Sommer 2003 Data Mining - 1 Worzyk FH Anhalt Data Mining Definition, Anwendungsbespiele Data Mining Prozess Data Mining Cup –2001 –2002.

Ähnliche Präsentationen


Präsentation zum Thema: "Datenbanksysteme 3 Sommer 2003 Data Mining - 1 Worzyk FH Anhalt Data Mining Definition, Anwendungsbespiele Data Mining Prozess Data Mining Cup –2001 –2002."—  Präsentation transkript:

1 Datenbanksysteme 3 Sommer 2003 Data Mining - 1 Worzyk FH Anhalt Data Mining Definition, Anwendungsbespiele Data Mining Prozess Data Mining Cup –2001 –2002 –2003

2 Datenbanksysteme 3 Sommer 2003 Data Mining - 2 Worzyk FH Anhalt Datenquellen, Datensenken und die Wüste vorhandene Daten benötigte Daten gewünschte Daten Nachfrage

3 Datenbanksysteme 3 Sommer 2003 Data Mining - 3 Worzyk FH Anhalt Definition Data Mining Data Mining is the nontrivial extraction of implicit, previous unknown and potentially useful information from data William J. Frawley Gregory Piatetsky-Shapiro,

4 Datenbanksysteme 3 Sommer 2003 Data Mining - 4 Worzyk FH Anhalt Leistungsmerkmale Hypothesenfreiheit Automatisierte Vorhersage von Trends, Verhalten und Mustern Automatisierte Aufdeckung unbekannter Strukturen Zusatzkomponenten für Preprocessing und Ergebnisaufbereitung

5 Datenbanksysteme 3 Sommer 2003 Data Mining - 5 Worzyk FH Anhalt Anwendungsbeispiele

6 Datenbanksysteme 3 Sommer 2003 Data Mining - 6 Worzyk FH Anhalt Anwendungsbeispiele Astronomie Erdwissenschaften Marketing Investment Betrugserkennung Individualisierte Werbeanzeigen Electronic Commerce Datenschutz

7 Datenbanksysteme 3 Sommer 2003 Data Mining - 7 Worzyk FH Anhalt

8 Datenbanksysteme 3 Sommer 2003 Data Mining - 8 Worzyk FH Anhalt Ansatz Tradi- tionell Data Mining Hypothesen festlegen Methode entwickeln Datenbasis analysieren Ergebnisse verdichten Ergebnisse interpretieren AnwenderComputer Experte Computer System StatistikerAnwender Datenbasis analysieren Interessante Muster finden Ergebnisse interpretieren Anwender Data Mining System

9 Datenbanksysteme 3 Sommer 2003 Data Mining - 9 Worzyk FH Anhalt Definition Data Mining Data Mining in databases is the non-trivial process of identifying valid, novel, potential useful, and ultimately understandable patterns in data William J. Frawley Gregory Piatetsky-Shapiro,

10 Datenbanksysteme 3 Sommer 2003 Data Mining - 10 Worzyk FH Anhalt Informationsbedarf abhängig von der Aufgabe Veränderlichkeit Strukturiertheit

11 Datenbanksysteme 3 Sommer 2003 Data Mining - 11 Worzyk FH Anhalt Data Mining Prozeßmodell PreprocessingValidierungInterpretationAnalyse Data Warehouse OLTP Ext Daten

12 Datenbanksysteme 3 Sommer 2003 Data Mining - 12 Worzyk FH Anhalt Data Mining Cup 2001 Aufgabe Ein Versandhändler von Büromaterialien sendet regelmäßig allen seinen Kunden Informationsmaterial. Außerdem führt er größere Werbeaktionen durch, in die er jedoch nur einen Teil seiner Kunden einbezieht. Nach Möglichkeit sollen nur diejenigen Kunden beworben werden, die auf die Werbeaktion mit einer Bestellung reagieren. Bisher wurden Kunden in eine Werbeaktion einbezogen, für weitere Kunden ist noch zu entscheiden, ob sie in künftige Aktionen einbezogen werden.

13 Datenbanksysteme 3 Sommer 2003 Data Mining - 13 Worzyk FH Anhalt Kundenwertmatrix Die durchschnittlichen Kosten und Gewinne, die aus Werbung und den Bestellungen resultieren, können folgender Matrix entnommen werden:

14 Datenbanksysteme 3 Sommer 2003 Data Mining - 14 Worzyk FH Anhalt Mögliche Auswirkungen Alle Kunden (18.128) angeschrieben, alle bestellen => 20 Mio Gewinn Alle Kunden angeschrieben, keiner bestellt => 5 Mio Verlust Die Hälfte angeschrieben, keiner davon bestellt, die andere Hälfte bestellt => 3.6 Mio Gewinn Die Hälfte angeschrieben, alle bestellen, von der anderen Hälfte bestellt keiner => 10 Mio Gewinn

15 Datenbanksysteme 3 Sommer 2003 Data Mining - 15 Worzyk FH Anhalt Vorhersage Ideal: Dieser Kunde wird bestellen, jener Kunde wird nicht bestellen Real: Dieser Kunde wird mit einer Wahrscheinlichkeit von p bestellen => Bei welcher Bestellwahrscheinlichkeit p soll der Kunde angeschrieben werden?

16 Datenbanksysteme 3 Sommer 2003 Data Mining - 16 Worzyk FH Anhalt Optimale Bestellwahrscheinlichkeit Kunde wird einbezogen K 1 : p * (1-p)* (-265) Kunde wird nicht einbezogen K 2 : p * (1-p)* (-25) K 1 = K p = 240 => p = 0,33

17 Datenbanksysteme 3 Sommer 2003 Data Mining - 17 Worzyk FH Anhalt Gegebene Daten

18 Datenbanksysteme 3 Sommer 2003 Data Mining - 18 Worzyk FH Anhalt Vorgehen Datenexploration Behandlung fehlender Werte Klassifikation mittels fallbasierten Schließens Klassifikation mittels Bayesscher Netze Klassifikation mittels Entscheidungsbäumen Aggregation der Ergebnisse

19 Datenbanksysteme 3 Sommer 2003 Data Mining - 19 Worzyk FH Anhalt Merkmale AKTIV 0/1 Zielmerkmal 0 positiv (ist aktiver Kunde) 1 negativ (ist kein aktiver Kunde) WO Text West/Ost/Fehlend Standort des Kunden (Merkmale mit unterschiedlicher Skalierung in Abhängigkeit dieses Merkmals sind in der Beschreibung angegeben; konkret ist dies hier nur bei Kaufkraft differenziert) Regiotyp 11,...,16 Regionaltyp 11 Kern von Ballungsgebieten 12 Rand von Ballungsgebieten 13 Kernstadt einer Region 14 Randgebiet einer Kernstadt 15 ländliche Zentren 16 Orte auf dem Land …

20 Datenbanksysteme 3 Sommer 2003 Data Mining - 20 Worzyk FH Anhalt Fehlende Werte Zur Behandlung einzelner fehlender Werte boten sich drei Wege an: 1.Datensätze, in denen einer oder mehrere Werte fehlen, werden weggelassen. 2.Die fehlenden Werte werden durch die Mittelwerte beziehungsweise die Modalwerte des jeweiligen Merkmals ersetzt. 3.Es wird ein separates Vorhersagemodell zur Rekonstruktion der fehlenden Werte entwickelt und angewandt. Aufwand-Nutzen-Erwägungen folgend, wurde der zweite Weg beschritten: Fehlende Werte kategorischer Merkmale wurden durch den Modalwert, fehlende Werte numerischer Merkmale durch den arithmetischen Mittelwert des jeweiligen Merkmals ersetzt.

21 Datenbanksysteme 3 Sommer 2003 Data Mining - 21 Worzyk FH Anhalt Aufteilung

22 Datenbanksysteme 3 Sommer 2003 Data Mining - 22 Worzyk FH Anhalt Fallbasiertes Schließen Fallbasiertes Schließen ist eine Methode zum Einsatz gesammelten Erfahrungswissens. Es beruht auf einer sehr einfachen Grundidee: Beim Lösen von Problemen entstehen Lösungen, die auch auf ähnliche Probleme angewandt werden können. Jedes gelöste Problem wird zusammen mit seiner Lösung in einer Falldatenbank gespeichert. Beim Auftreten eines neuen Problems wird die Falldatenbank nach ähnlichen Problemen durchsucht. Die Lösungen dieser ähnlichen Probleme kann dann auf das neue, noch ungelöste Problem übertragen werden.

23 Datenbanksysteme 3 Sommer 2003 Data Mining - 23 Worzyk FH Anhalt Bayessches Netz Ein Bayes'sches Netz ist ein gerichteter, azyklischer Graph; jeder Knoten des Graphen ist mit einer (bedingten) Wahrscheinlichkeitsverteilung attributiert. Die Knoten entsprechen Zufallsvariablen (Merkmalen); die Kanten des Graphen entsprechen kausalen Beziehungen zwischen den Zufallsvariablen. Die bedingten Wahrscheinlichkeitsverteilungen quantifizieren die kausalen Beziehungen. Sowohl die Struktur als auch die Attribute Bayes'scher Netze sind aus Daten erlernbar. Mittels geeigneter Verfahren kann über einem Bayes'schen Netz inferiert, also von bekannten Ausprägungen einiger Zufallsvariabler auf unbekannte Ausprägungen anderer Zufallsvariabler geschlossen werden.

24 Datenbanksysteme 3 Sommer 2003 Data Mining - 24 Worzyk FH Anhalt Bayessches Netz

25 Datenbanksysteme 3 Sommer 2003 Data Mining - 25 Worzyk FH Anhalt Entscheidungsbäume Entscheidungsbäume ordnen Objekte, die durch Mengen von Merkmalen beschrieben werden, einer Klasse zu. Alle Knoten und Kanten eines Entscheidungsbaumes sind markiert: die Blätter des Baumes mit der Klasse, die als Ergebnis zurückgegeben wird, die inneren Knoten mit dem Merkmal, nach dessen Ausprägung verzweigt wird, und die Kanten mit den Ausprägungen, die das Merkmal annehmen kann, das im Anfangsknoten der Kante steht.

26 Datenbanksysteme 3 Sommer 2003 Data Mining - 26 Worzyk FH Anhalt Ergebnisse Fallbasiertes Schließen für große Ähnlichkeiten Fünf unterschiedliche Entscheidungsbäume, dann nach Anzahl der Klassifikation aktiv

27 Datenbanksysteme 3 Sommer 2003 Data Mining - 27 Worzyk FH Anhalt Ergebnisse

28 Datenbanksysteme 3 Sommer 2003 Data Mining - 28 Worzyk FH Anhalt Data Mining Cup 2002 Aufgabe Ein Energieversorger möchte mit zielgerichteten Kundenbindungsmaßnahmen seine Kunden halten. Dazu möchte er potenziellen Kündigern einen günstigeren Tarif (Tarif "Rabatt") anbieten. Da dieser Tarif für den Energieversorger einen geringeren Gewinn bedeutet, will er die vorraussichtlich treuen Kunden von diesem Angebot nicht infor-mieren, um nicht zu vielen von diesen Kunden den Tarif "Rabatt gewähren zu müssen. Ziel des Einsatzes von Data Mining ist es hierbei, die potenziellen Kündiger von den treuen Kunden zu unterscheiden. Potenziellen Kündigern wird dann der Tarif "Rabatt" angeboten, um sie damit zu binden. Insgesamt ist es für den Energieversorger deutlich günstiger, einen potenziellen Kündiger weiterhin im Tarif "Rabatt" zu versorgen als ihn ganz zu verlieren.

29 Datenbanksysteme 3 Sommer 2003 Data Mining - 29 Worzyk FH Anhalt Gegebene Daten Eigene Daten –payment_type (Art der Bezahlung) –power_consumption (letzter jährlicher Stromverbrauch in kWh) –hhh (Anzahl Haushalte im Haus) –hgew (Anzahl Gewerbe im Haus) Gekaufte Daten –Mikroselections-Merkmale (z.B. Kaufkraft, Straßentyp, Bebauungstyp, Familienstand, usw.) –PKW-Indices (z.B. PKW-Dichte, PKW-Leistungsindex, PKW- Kleinbusindex, usw.) –Psychonomics-Versicherungstypologien (z.B. Kundentypen, usw.) –Pharmatypologien (z.B. gesunder Kraftprotz, usw.)

30 Datenbanksysteme 3 Sommer 2003 Data Mining - 30 Worzyk FH Anhalt Kundenwertmatrix KündigerKunde Kunde erhält Angebot 43,80 EUR66,30 EUR Kunde erhält keine Angebot 0,00 EUR72,00 EUR

31 Datenbanksysteme 3 Sommer 2003 Data Mining - 31 Worzyk FH Anhalt Kündigerwahrscheinlichkeit

32 Datenbanksysteme 3 Sommer 2003 Data Mining - 32 Worzyk FH Anhalt Datensichtung Aus Trainings- und Klassifikationsdaten gemeinsame Datenmenge Für fehlende Werte Indikatorvariablen eingeführt Umkodierung –Modalwert, Ausreißer abschneiden Faktorenanalyse

33 Datenbanksysteme 3 Sommer 2003 Data Mining - 33 Worzyk FH Anhalt Haushalte im Haus

34 Datenbanksysteme 3 Sommer 2003 Data Mining - 34 Worzyk FH Anhalt Statistische Verfahren Clusteranalyse Kreuztabellen Logistische Regression in Clustern

35 Datenbanksysteme 3 Sommer 2003 Data Mining - 35 Worzyk FH Anhalt Test der Ergebnisse Mit einer Stichprobe aus den Trainingsdaten wurden Entscheidungsparameter bestimmt. Damit wurden die restlichen Daten der Trainingsmenge klassifiziert und der Kundenwert berechnet. Das Verfahren wurde mit 10 unterschiedlichen Stichproben wiederholt.

36 Datenbanksysteme 3 Sommer 2003 Data Mining - 36 Worzyk FH Anhalt Ergebnisse

37 Datenbanksysteme 3 Sommer 2003 Data Mining - 37 Worzyk FH Anhalt Data Mining Cup 2003 Aufgabe Um zumindest die durch Sichten und Löschen der Spams bei den Mitarbeitern verursachten Kosten zu minimieren, kann man Spam-Filter einsetzen. Diese können entweder bereits auf den Mail-Servern (wie etwa SpamAssassin) arbeiten oder auch in das E- Mail-Programm eines Nutzers integriert sein (ein Beispiel hierfür sind die aktuellen Versionen von Mozilla). Ziel dieser Programme ist eine möglichst gute Erkennung unerwünschter Mails, während erwünschte nicht herausgefiltert werden sollten.SpamAssassin Mozilla Im Rahmen des Wettbewerbs sollten Verfahren des Data-Mining angewandt werden, um eine möglichst gute Klassifikation in Spams und Nicht-Spams bei den Wettbewerbsdaten zu erreichen.

38 Datenbanksysteme 3 Sommer 2003 Data Mining - 38 Worzyk FH Anhalt Szenario Den Teilnehmern des Data-Mining-Cups wurden 8000 Datensätze mit Klassenzugehörigkeit zum Lernen eines Klassifikators zur Verfügung gestellt, sowie zu klassififizierende Datensätze, deren Klassenzugehörigkeit nur der Jury bekannt war. Ziel war es, aus diesen s möglichst gut alle Spam- Mails herauszufiltern. Die letztendliche Platzierung ergab sich aus der Anzahl der zugestellten Spams (Falsch-Negative), wobei als Nebenbedingung die Anzahl der versehentlich herausgefilterten Nicht-Spams (Falsch-Positive) 1% aller Nicht- Spam-Mails nicht überschreiten durfte. Teilnehmer, die diesen Prozentsatz überschritten, wurden in der Endwertung nicht berücksichtigt. Die Teilnehmer erhielten jedoch nicht die s selbst, sondern eine Reihe beschreibender Merkmale, wie sie der Open-Source Spam-Filter Spam Assassin verwendet.Spam Assassin

39 Datenbanksysteme 3 Sommer 2003 Data Mining - 39 Worzyk FH Anhalt Datensichtung 832 Merkmale ID-Anomalie: In hohen IDs nur noch Spam

40 Datenbanksysteme 3 Sommer 2003 Data Mining - 40 Worzyk FH Anhalt Spam Assassin SpamAssassin prüft für jede zunächst das Vorhandensein einer Reihe von Merkmalen. Dieser Merkmalsvektor entspricht den im Wettbewerb vorliegenden Daten. SpamAssassin ordnet jedem dieser Merkmale eine Gewichtung zu. Merkmale, die eher in Spams anzutreffen sind erhalten ein positives Gewicht, Merkmale, die eher dagegen sprechen, dass es sich um Spam handelt, ein negatives. Die genaue Höhe der Gewichte wird vom Autor des Programms mittels eines genetischen Algorithmus und einer großen Datenbank an s bestimmt, so dass sich eine möglichst gute Klassifikationsleistung mit diesen Daten ergibt.

41 Datenbanksysteme 3 Sommer 2003 Data Mining - 41 Worzyk FH Anhalt Verwendete Verfahren Verfahren Algorih mus Klasse in Weka Entscheidungsbaum (EB)C4.5weka.classifiers.trees.j48.J48 Naive Bayes (NB) weka.classifiers.bayes.NaiveBa yes Methode der nächsten Nachbarschaft (NN) (weka.classifiers.lazy.IBk) * * Support-Vector Maschine (SVM) SMO weka.classifiers.functions.supp ortVector.SMO Logistische Regression (LR) weka.classifiers.functions.Logis tic Boosting AdaBoos tM1 weka.classifiers.meta.AdaBoost M1 Stacking weka.classifiers.meta.Stacking

42 Datenbanksysteme 3 Sommer 2003 Data Mining - 42 Worzyk FH Anhalt Support-Vektor-Maschinen

43 Datenbanksysteme 3 Sommer 2003 Data Mining - 43 Worzyk FH Anhalt Data Mining Cup 2004 Zeitplan Sofort: Anmeldung Ausgabe der Aufgabe und der Daten Abgabe der Ergebnisse bis Data Mining Cup


Herunterladen ppt "Datenbanksysteme 3 Sommer 2003 Data Mining - 1 Worzyk FH Anhalt Data Mining Definition, Anwendungsbespiele Data Mining Prozess Data Mining Cup –2001 –2002."

Ähnliche Präsentationen


Google-Anzeigen