Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Data Mining Definition, Anwendungsbespiele Data Mining Prozess

Ähnliche Präsentationen


Präsentation zum Thema: "Data Mining Definition, Anwendungsbespiele Data Mining Prozess"—  Präsentation transkript:

1 Data Mining Definition, Anwendungsbespiele Data Mining Prozess
Data Mining Cup 2001 2002 2003

2 Datenquellen, Datensenken und die Wüste
vorhandene Daten benötigte Daten Nachfrage Vorhanden, benötigt und gewünscht: das ist der Idealzustand. Eine Aufgabe des Informationmanagements ist es, diesen Durchschnitt zu maximieren. Vorhanden und benötigt, aber nicht gewünscht: Dieser Bereich kann durch Aufbereitung der Informationen nutzbargemacht werden. Hier kann das Data Mining ansetzen und die Inforamtionen dem Bedarfsträger erschliessen. Vorhanden und gewünscht, aber nicht benötigt: Hier ist die Gefahr sehr groß, dass Geld, Personal und Zeit verschwendet werden. Benötigt und gewünscht, aber nicht vorhanden: Dieser Zustand sollte so schnell wie möglich abgestellt werden. Vorhanden und weder benötigt noch gewünscht: Hier werden Daten erhoben oder erzeugt und gespeichert, die von niemandem benötigt werden. Dieser Zustand tritt häufig ein, wenn sich die Organisationsform ändert und der alte Datenfluß beibehalten wird. Gewünscht aber weder benötigt noch vorhanden: Auch hier ist die Gefahr sehr groß, dass Geld, Personal und Zeit verschwendet werden. Benötigt, aber weder vorhanden noch gewünscht: Ein objektiver Informationsbedarf ist schwer zu definieren. Information hängt immer von der Person ab, die informiert werden möchte. Nachgefragt: Der Bedarfsträger kann oder will in der Regel nicht seinen Bedarf decken. Er hat Vorbehalte bezüglich der Möglichkeit, die Information in vorgegebener Zeit mit vertretbarem Aufwand und in der notwendigen Qualität zu bekommen. gewünschte Daten

3 Definition Data Mining
„ is the nontrivial extraction of implicit, previous unknown and potentially useful information from data“ William J. Frawley Gregory Piatetsky-Shapiro, Diese Definition stammt aus dem Jahr 1991 als der Begriff Data Mining noch nicht geboren war. Es wurde von „Knowledge discovery“ gesprochen. Weitere Synonyme sind: Knowledge Extraction, Database Exploration, Information Harvesting, Datenmustererkennung.

4 Leistungsmerkmale Hypothesenfreiheit
Automatisierte Vorhersage von Trends, Verhalten und Mustern Automatisierte Aufdeckung unbekannter Strukturen Zusatzkomponenten für Preprocessing und Ergebnisaufbereitung Der methodische Kernaspekt von Data Mining liegt in Verfahren, die selbständig Annahmen generieren (maschinelles Lernen), diese prüfen und dem Anwender relevante Ergebnisse in verständlicher Form präsentieren. Automatisierte Vorhersage von Trends, Verhalten und Mustern auf der Basis von bekannten Verhaltensschemata aus der Vergangenheit (überwachtes Lernen) Automatisierte Aufdeckung unbekannter Strukturen aus bisher ungeordneten Datenhalden (unüberwachtes Lernen) Zusatzkomponenten für Preprocessing : Datenübernahme, Datenbereinigungsmaßnahmen, analytische Grundfunktionalitäten wie z.B. das Erkennen von Ausreißern und Ergebnisaufbereitung (Visualisierung).

5 Anwendungsbeispiele Klassisches Beispiel: Wer Windeln kauft, kauft auch Bier. Welche Kunden unterschiedlicher Sparten sind identisch? Welche meiner Kunden haben noch Geld und noch einen Mangel?

6 Anwendungsbeispiele Astronomie Erdwissenschaften Marketing Investment
Betrugserkennung Individualisierte Werbeanzeigen Electronic Commerce Datenschutz Astronomie: Solar Wind Electron Moments Erdwissenschaften: Satellitenaufnahmen Marketing: Preisfindung, Warenkorbanalysen Investment: Betrugserkennung: Ist diese Buchung mit dieser Kreditkarte ein Betrugsversuch Individualisierte Werbeanzeigen Electronic Commerce: Reihenfolge und Verweildauer auf den Internetseiten Datenschutz: Ist diese Folge von Signalen ein Einbruchsversuch?

7

8 Ansatz Tradi- tionell Hypothesen festlegen Methode entwickeln
Datenbasis analysieren Ergebnisse verdichten Ergebnisse interpretieren Anwender Computer Experte Computer System Statistiker Anwender Data Mining Datenbasis analysieren Interessante Muster finden Ergebnisse interpretieren Anwender Data Mining System

9 Definition Data Mining
„in databases is the non-trivial process of identifying valid, novel, potential useful, and ultimately understandable patterns in data“ William J. Frawley Gregory Piatetsky-Shapiro, An die Stelle von „extraction“ ist „process“ getreten, weil verwertbare Ergebnisse in der Regel noch nicht mit einer einmaligen Analyse zu erhalten sind. „non-trivial“ meint, dass es sich um enen neuartigen Analyseansatz handelt. „valid“ soll andeuten, dass eine statistische Sicherheit für die gefundene Aussage gegeben sein muss. Die Neuigkeit „novel“ tritt an sie Stelle von „previous unknown“: die Fokussierung auf neue Erkenntnisse Die nur möglicherweise vorhandene Nützlichkeit „potential useful“ sagt, dass große Schwierigkeiten bestehen, die Nützlichkeit durch eine Rechenmaschine bewerten zu lassen. Die Verständlichkeit „ultimately understandable“ ist ein neuer Bestandteil in der Definition. Erste Systeme hatten häufig große Defizite bei der Darstellung der Ergebnisse. Statt nach Informationen wird jetzt nach Mustern „pattern“ gesucht. Die Bewertung, ob es sich um eine Information handelt, kann ein System nicht leisten.

10 Informationsbedarf abhängig von der Aufgabe
Veränderlichkeit Strukturiertheit Der Informationsbedarf für hoch strukturierte, stabile Aufgaben kann vorab ermittelt werden

11 Data Mining Prozeßmodell
Ext Daten OLTP Data Warehouse Preprocessing Validierung Interpretation Analyse Datenbereitstellung: Es muß geklärt werden, welche Daten in welchem Umfang benötigt werden. Weiterhin muß geklärt werden, ob und in welchem Umfang aktuellen Daten in den aktuelle Daten in den Prozeß eingebunden werden sollen. Preprocessing: Die Daten müssen so aufbereitet werden, dass das Analysewerkzeug die Daten verarbeiten kann. Häufig müssen normalisierte Tabellen wieder denormalisiert werden und in eine flache Tabelle überführt werden. Analyse, Verfahrenswahl: Die Wahl des Verfahrens und des Analysewerkzeuges kann sich abhängig von den Ergebnissen und deren Interpretation ändern. Ebenso kann eine veränderte Fragestellung das Verfahren ändern. Interpretation: Die Ergebnisse müssen vom Methoden- und vom Fachspezialisten interpretiert werden. Validierung: Die gewonnen Erkenntnisse müssen validiert werden, bevor sie freigegeben werden. Häufig ist eine statistisch gesicherte Validierung nicht möglich. Ergebnisverwertung: Die Ergebnisse können einen Einfluß auf die Struktur des Datawarehous haben. Insbesondere dann, wenn eine anschliessende Auswertung zusätzliche oder anders strukturierte Daten benötigt.

12 Data Mining Cup 2001 Aufgabe
Ein Versandhändler von Büromaterialien sendet regelmäßig allen seinen Kunden Informationsmaterial. Außerdem führt er größere Werbeaktionen durch, in die er jedoch nur einen Teil seiner Kunden einbezieht. Nach Möglichkeit sollen nur diejenigen Kunden beworben werden, die auf die Werbeaktion mit einer Bestellung reagieren. Bisher wurden Kunden in eine Werbeaktion einbezogen, für weitere Kunden ist noch zu entscheiden, ob sie in künftige Aktionen einbezogen werden.

13 Kundenwertmatrix Die durchschnittlichen Kosten und Gewinne,
die aus Werbung und den Bestellungen resultieren, können folgender Matrix entnommen werden: Aufwendige Werbeveranstaltung, z.B. Roadshow, Seminar

14 Mögliche Auswirkungen
Alle Kunden (18.128) angeschrieben, alle bestellen => 20 Mio Gewinn Alle Kunden angeschrieben, keiner bestellt => 5 Mio Verlust Die Hälfte angeschrieben, keiner davon bestellt, die andere Hälfte bestellt => 3.6 Mio Gewinn Die Hälfte angeschrieben, alle bestellen, von der anderen Hälfte bestellt keiner => 10 Mio Gewinn

15 Vorhersage Ideal: Dieser Kunde wird bestellen, jener Kunde wird nicht bestellen Real: Dieser Kunde wird mit einer Wahrscheinlichkeit von p bestellen => Bei welcher Bestellwahrscheinlichkeit p soll der Kunde angeschrieben werden?

16 Optimale Bestellwahrscheinlichkeit
Kunde wird einbezogen K1: p * (1-p)* (-265) Kunde wird nicht einbezogen K2: p * (1-p)* (-25) K1= K p = 240 => p = 0,33

17 Gegebene Daten

18 Vorgehen Datenexploration Behandlung fehlender Werte
Klassifikation mittels fallbasierten Schließens Klassifikation mittels Bayes‘scher Netze Klassifikation mittels Entscheidungsbäumen Aggregation der Ergebnisse

19 Merkmale AKTIV 0/1 Zielmerkmal
AKTIV 0/1 Zielmerkmal 0 positiv (ist aktiver Kunde) 1 negativ (ist kein aktiver Kunde) WO Text West/Ost/Fehlend Standort des Kunden (Merkmale mit unterschiedlicher Skalierung in Abhängigkeit dieses Merkmals sind in der Beschreibung angegeben; konkret ist dies hier nur bei Kaufkraft differenziert) Regiotyp 11,...,16 Regionaltyp 11 Kern von Ballungsgebieten 12 Rand von Ballungsgebieten 13 Kernstadt einer Region 14 Randgebiet einer Kernstadt 15 ländliche Zentren 16 Orte auf dem Land

20 Fehlende Werte Zur Behandlung einzelner fehlender Werte boten sich drei Wege an: Datensätze, in denen einer oder mehrere Werte fehlen, werden weggelassen. Die fehlenden Werte werden durch die Mittelwerte beziehungsweise die Modalwerte des jeweiligen Merkmals ersetzt. Es wird ein separates Vorhersagemodell zur Rekonstruktion der fehlenden Werte entwickelt und angewandt. Aufwand-Nutzen-Erwägungen folgend, wurde der zweite Weg beschritten: Fehlende Werte kategorischer Merkmale wurden durch den Modalwert, fehlende Werte numerischer Merkmale durch den arithmetischen Mittelwert des jeweiligen Merkmals ersetzt.

21 Aufteilung

22 Fallbasiertes Schließen
Fallbasiertes Schließen ist eine Methode zum Einsatz gesammelten Erfahrungswissens. Es beruht auf einer sehr einfachen Grundidee: Beim Lösen von Problemen entstehen Lösungen, die auch auf ähnliche Probleme angewandt werden können. Jedes gelöste Problem wird zusammen mit seiner Lösung in einer Falldatenbank gespeichert. Beim Auftreten eines neuen Problems wird die Falldatenbank nach ähnlichen Problemen durchsucht. Die Lösungen dieser ähnlichen Probleme kann dann auf das neue, noch ungelöste Problem übertragen werden.

23 Bayes‘sches Netz Ein Bayes'sches Netz ist ein gerichteter, azyklischer Graph; jeder Knoten des Graphen ist mit einer (bedingten) Wahrscheinlichkeitsverteilung attributiert. Die Knoten entsprechen Zufallsvariablen (Merkmalen); die Kanten des Graphen entsprechen kausalen Beziehungen zwischen den Zufallsvariablen. Die bedingten Wahrscheinlichkeitsverteilungen quantifizieren die kausalen Beziehungen. Sowohl die Struktur als auch die Attribute Bayes'scher Netze sind aus Daten erlernbar. Mittels geeigneter Verfahren kann über einem Bayes'schen Netz inferiert, also von bekannten Ausprägungen einiger Zufallsvariabler auf unbekannte Ausprägungen anderer Zufallsvariabler geschlossen werden.

24 Bayes‘sches Netz

25 Entscheidungsbäume Entscheidungsbäume ordnen Objekte, die durch Mengen von Merkmalen beschrieben werden, einer Klasse zu. Alle Knoten und Kanten eines Entscheidungsbaumes sind markiert: die Blätter des Baumes mit der Klasse, die als Ergebnis zurückgegeben wird, die inneren Knoten mit dem Merkmal, nach dessen Ausprägung verzweigt wird, und die Kanten mit den Ausprägungen, die das Merkmal annehmen kann, das im Anfangsknoten der Kante steht.

26 Ergebnisse Fallbasiertes Schließen für große Ähnlichkeiten
Fünf unterschiedliche Entscheidungsbäume, dann nach Anzahl der Klassifikation „aktiv“

27 Ergebnisse

28 Data Mining Cup 2002 Aufgabe
Ein Energieversorger möchte mit zielgerichteten Kundenbindungsmaßnahmen seine Kunden halten. Dazu möchte er potenziellen Kündigern einen günstigeren Tarif (Tarif "Rabatt") anbieten. Da dieser Tarif für den Energieversorger einen geringeren Gewinn bedeutet, will er die vorraussichtlich treuen Kunden von diesem Angebot nicht infor-mieren, um nicht zu vielen von diesen Kunden den Tarif "Rabatt„ gewähren zu müssen. Ziel des Einsatzes von Data Mining ist es hierbei, die potenziellen Kündiger von den treuen Kunden zu unterscheiden. Potenziellen Kündigern wird dann der Tarif "Rabatt" angeboten, um sie damit zu binden. Insgesamt ist es für den Energieversorger deutlich günstiger, einen potenziellen Kündiger weiterhin im Tarif "Rabatt" zu versorgen als ihn ganz zu verlieren.

29 Gegebene Daten Eigene Daten Gekaufte Daten
payment_type (Art der Bezahlung) power_consumption (letzter jährlicher Stromverbrauch in kWh) hhh (Anzahl Haushalte im Haus) hgew (Anzahl Gewerbe im Haus) Gekaufte Daten Mikroselections-Merkmale (z.B. Kaufkraft, Straßentyp, Bebauungstyp, Familienstand, usw.) PKW-Indices (z.B. PKW-Dichte, PKW-Leistungsindex, PKW-Kleinbusindex, usw.) Psychonomics-Versicherungstypologien (z.B. Kundentypen, usw.) Pharmatypologien (z.B. gesunder Kraftprotz, usw.)

30 Kundenwertmatrix Kündiger Kunde Kunde erhält Angebot 43,80 EUR
Kunde erhält keine Angebot 0,00 EUR 72,00 EUR

31 Kündigerwahrscheinlichkeit

32 Datensichtung Aus Trainings- und Klassifikationsdaten gemeinsame Datenmenge Für fehlende Werte Indikatorvariablen eingeführt Umkodierung Modalwert, Ausreißer abschneiden Faktorenanalyse

33 Haushalte im Haus

34 Statistische Verfahren
Clusteranalyse Kreuztabellen Logistische Regression in Clustern

35 Test der Ergebnisse Mit einer Stichprobe aus den Trainingsdaten wurden Entscheidungsparameter bestimmt. Damit wurden die restlichen Daten der Trainingsmenge klassifiziert und der Kundenwert berechnet. Das Verfahren wurde mit 10 unterschiedlichen Stichproben wiederholt.

36 Ergebnisse

37 Data Mining Cup 2003 Aufgabe
Um zumindest die durch Sichten und Löschen der Spams bei den Mitarbeitern verursachten Kosten zu minimieren, kann man Spam-Filter einsetzen. Diese können entweder bereits auf den Mail-Servern (wie etwa SpamAssassin) arbeiten oder auch in das -Programm eines Nutzers integriert sein (ein Beispiel hierfür sind die aktuellen Versionen von Mozilla). Ziel dieser Programme ist eine möglichst gute Erkennung unerwünschter Mails, während erwünschte nicht herausgefiltert werden sollten. Im Rahmen des Wettbewerbs sollten Verfahren des Data-Mining angewandt werden, um eine möglichst gute Klassifikation in Spams und Nicht-Spams bei den Wettbewerbsdaten zu erreichen.

38 Szenario Den Teilnehmern des Data-Mining-Cups wurden 8000 Datensätze mit Klassenzugehörigkeit zum Lernen eines Klassifikators zur Verfügung gestellt, sowie zu klassififizierende Datensätze, deren Klassenzugehörigkeit nur der Jury bekannt war. Ziel war es, aus diesen s möglichst gut alle Spam-Mails herauszufiltern. Die letztendliche Platzierung ergab sich aus der Anzahl der zugestellten Spams (Falsch-Negative), wobei als Nebenbedingung die Anzahl der versehentlich herausgefilterten Nicht-Spams (Falsch-Positive) 1% aller Nicht-Spam-Mails nicht überschreiten durfte. Teilnehmer, die diesen Prozentsatz überschritten, wurden in der Endwertung nicht berücksichtigt. Die Teilnehmer erhielten jedoch nicht die s selbst, sondern eine Reihe beschreibender Merkmale, wie sie der Open-Source Spam-Filter Spam Assassin verwendet.

39 Datensichtung 832 Merkmale ID-Anomalie: In hohen ID‘s nur noch Spam

40 Spam Assassin SpamAssassin prüft für jede zunächst das Vorhandensein einer Reihe von Merkmalen. Dieser Merkmalsvektor entspricht den im Wettbewerb vorliegenden Daten. SpamAssassin ordnet jedem dieser Merkmale eine Gewichtung zu. Merkmale, die eher in Spams anzutreffen sind erhalten ein positives Gewicht, Merkmale, die eher dagegen sprechen, dass es sich um Spam handelt, ein negatives. Die genaue Höhe der Gewichte wird vom Autor des Programms mittels eines genetischen Algorithmus und einer großen Datenbank an s bestimmt, so dass sich eine möglichst gute Klassifikationsleistung mit diesen Daten ergibt.

41 Verwendete Verfahren Verfahren Algorihmus Klasse in Weka
Entscheidungsbaum (EB) C4.5 weka.classifiers.trees.j48.J48 Naive Bayes (NB) weka.classifiers.bayes.NaiveBayes Methode der nächsten Nachbarschaft (NN) (weka.classifiers.lazy.IBk)* Support-Vector Maschine (SVM) SMO weka.classifiers.functions.supportVector.SMO Logistische Regression (LR) weka.classifiers.functions.Logistic Boosting AdaBoostM1 weka.classifiers.meta.AdaBoostM1 Stacking weka.classifiers.meta.Stacking

42 Support-Vektor-Maschinen
Da das Siegermodell letztlich eine Support-Vektor-Maschine war, sei im Folgenden noch kurz die Funktionsweise dieser Methode beschrieben. Beim Lernen wird hier versucht, die Daten mittels einer Hyperebene so zu trennen, dass der Abstand der Datensätze der einzelnen Klassen von dieser Ebene maximal wird. Die folgende Abbildung soll dies für den zweidimensionalen Fall darstellen, wo die Hyperebene eine Gerade ist. Die Gerade stellt dabei die Entscheidungsgrenze dar. Sie wird definiert durch die 3 umrandeten Datensätze, den Support Vektoren. Alle anderen Datenpunkte haben keinen Einfluss auf die Lage der Geraden. Mittels eines mathematischen Tricks (Kernelfunktionen) ist es möglich, auch nichtlineare Entscheidungsgrenzen zu erreichen, da intern dann mit einem weitaus höherdimensionalen Merkmalsraum als dem der zu lernenden Daten gearbeitet wird. Dieser wird zwar auch mittels einer Hyperebene getrennt, zurücktransformiert in den ursprünglichen Merkmalsraum ergibt sich jedoch eine nichtlineare Grenze zwischen den Klassen.

43 Data Mining Cup 2004 Zeitplan Sofort: Anmeldung
15.4. Ausgabe der Aufgabe und der Daten 13.5. Abgabe der Ergebnisse 22.6. bis Data Mining Cup


Herunterladen ppt "Data Mining Definition, Anwendungsbespiele Data Mining Prozess"

Ähnliche Präsentationen


Google-Anzeigen