Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Data Mining Assoziationsanalyse Klassifikation Clustering.

Ähnliche Präsentationen


Präsentation zum Thema: "Data Mining Assoziationsanalyse Klassifikation Clustering."—  Präsentation transkript:

1 Data Mining Assoziationsanalyse Klassifikation Clustering

2 Literatur Datenbanksysteme, Kapitel 17 Kemper, Eickler Introduction to Data Mining Pang-Ning Tan et. al. Data Mining2

3 Was ist Data Mining? Data Mining ist der Prozess, nützliche Informationen aus großen Datenbeständen zu gewinnen. Hierbei werden mathematische Methoden auf den Datenbestand angewandt zur Mustererkennung. Data Mining3

4 Was ist (nicht) Data Mining? Beispiele für Data Mining Bestimmte Namen sind in bestimmten Gegenden häufiger anzutreffen (z.B. Mayer besonders häufig in Baden-Württemberg, gen-evolu.de) Wettervorhersage Folgendes ist NICHT Data Mining Nachschlagen einer Telefonnummer im Telefonverzeichnis Webanfrage zu Informationen über Data Mining Data Mining4

5 Warum Data Mining? – betriebswirtschaftliche Sicht Sehr viele Daten werden gespeichert: – Einkäufe – Geldtransfer – Internet-Daten, Webshops –... Computer sind preisgünstiger und schneller geworden – Speicherplatz wird immer günstiger – Daten leicht beschaffbar Konkurrenzdruck – Bedarf der Zielgruppenanalyse – Bedarf der Produktoptimierung Data Mining5

6 Warum Data Mining? – wissenschaftliche Sicht Daten werden mit großer Geschwindigkeit erzeugt und gespeichert – experimentelle Messdaten – wissenschaftliche Simulationen Data Mining hilft in der Wissenschaft: – Klassifikation von Daten – Formulierung und Verifikation von Hypothesen Data Mining6

7 Ursprünge des Data Mining Verwendet Ideen des maschinellen Lernens, der Mustererkennung, der Statistik und von Datenbanksystemen Traditionelle Techniken können nicht angewendet werden aufgrund – großer Datenmengen – hoher Dimensionalität der Daten – Heterogenität der Daten Maschinelles Lernen Mustererkennung Statistik Data Mining Datenbank- Systeme Data Mining7

8 Methoden des Data Mining Vorhersagende Methoden Verwendung von Variablen, um unbekannte oder zukünftige Werte anderer Variablen vorherzusagen. Regression Klassifikation Beschreibende Methoden Herausfinden interpretierbarer Muster, die die Daten beschreiben Visualisierung Assoziationsregeln Clustering Aufdecken von Anomalien Data Mining8

9 Attribut-Typen Qualitative (oder kategorische) Attribute repräsentieren verschiedene Kategorien und keine Zahlen. Mathematische Operationen nicht sinnvoll. Beispiel: Augenfarbe, IP-Adresse, Postleitzahl Qualitative Attribute unterteilen sich in Nominal und Ordinal – Nominal: Attribute ohne Sortierung= ≠ – Ordinal: Attribute mit einer sinnhaften Sortierung Quantitative (oder numerische) Attribute Zahlen. Mathematische Operationen möglich. Beispiel: Temperatur, Gewicht, Anzahl Quantitative Attribute unterteilen sich in Intervall und Ratio – Intervall: es gibt keine echte Null, Division nicht sinnvoll + - – Rational: es gibt eine echte Null, Division möglich * ÷ Data Mining9

10 diskrete / kontinuierliche Attribute Diskrete Attribute Anzahl der Werte endlich oder abzählbar unendlich häufig Integer als Datentyp z.B. Postleitzahlen, Anzahl Zeichen Kontinuierliche Attribute Real/Fließkomma als Datentyp wird so genau angegeben, wie das Meßinstrument es erlaubt dadurch zwar nur endliche Anzahl von Nachkommastellen, jedoch Begrenzung nur durch Messinstrument z.B. Temperatur, Höhe, Gewicht Qualitative Attribute sind immer diskret Quantitative Attribute können diskret oder kontinuierlich sein Data Mining10

11 Visualisierung von Daten Visualisierung von Daten ist die Anzeige von Information in einer Graphik oder Tabelle. Erfolgreiche Visualisierung erfordert, dass – die Daten (die Information) in ein visuelles Format konvertiert wird. – die Beziehung zwischen den Attributen in der Visualisierung analysiert werden kann. Ziel ist die Interpretation der visualisierten Information durch Personen. Data Mining11

12 Box Plot Diagrammtyp zur Darstellung statistischer Daten Besteht aus Box, die 50 % der Werte aufnimmt, und zwei Linien (Whisker), die das Rechteck verlängern Durchgezogene Linie: Median Stellt die Verteilung der Werte eines Attributs gut dar Data Mining12 Ausreißer 10 % 25 % 75 % 50 % 90 %

13 Boxplot - Beispiel Der Median des Attributes A ist für Männer 2 und für Frauen 4,1. Ist dies ein großer Unterschied? Data Mining13 Evt. NEIN:Evt. JA:

14 Karte wissenschaftlicher Zusammenarbeit Data Mining14 visualcomplexity.com

15 Bsp. Zeitabhängige Grafiken: Global Pulse Data Mining15 Twitter-Nachrichten von und nach Japan kurz vor und nach dem Tsunami am Untersuchter Zeitraum: 1 Stunde Pink: aus Japan herausgehende Nachrichten Gelb: nach Japan hereingehende Nachrichten blog.twitter.com

16 schlechte Diagramme Falls eine Information in einem Diagramm verwendet wird, darf diese nicht zu Fehlinterpretationen führen. Hier: 3D, Material Data Mining16

17 Data Mining17

18 Data Mining18

19 ASSOZIATIONSANALYSE Data Mining19

20 Assoziationsanalyse Die Assoziationsanalyse sucht in den Daten nach Regeln, die angeben, wie wahrscheinlich das Auftreten eines Elements gleichzeitig mit bestimmten anderen Elementen ist. Beispiel: PC -> Drucker (Kauf eines PCs impliziert den Kauf eines Druckers) Implikation bedeutet gleichzeitiges Auftreten der Elemente. Es bedeutet jedoch keine Kausalität! – Also nicht: Weil Artikel A gekauft wird, wird auch Artikel B gekauft. – Sondern: Wenn Artikel A gekauft wird, wird mit einer bestimmten Wahrscheinlichkeit ebenfalls B gekauft. Data Mining20

21 Data Mining21 Assoziationsregeln Beispielregel – Wenn jemand einen PC kauft, dann kauft er/sie auch einen Drucker Konfidenz – Dieser Wert legt fest, bei welchem Prozentsatz der Datenmenge, bei der die Voraussetzung (linke Seite) erfüllt ist, die Regel (rechte Seite) auch erfüllt ist. – Eine Konfidenz von 80% für unsere Beispielregel sagt aus, dass vier Fünftel der Leute, die einen PC gekauft haben, auch einen Drucker dazu gekauft haben. Support – Dieser Wert legt fest, wie viele Datensätze überhaupt gefunden wurden, um die Gültigkeit der Regel zu verifizieren. – Bei einem Support von 1% wäre also jeder hundertste Verkauf ein PC zusammen mit einem Drucker.

22 Data Mining22 Verkaufstransaktionen Warenkörbe Finde alle Assoziationsregeln L  R – mit einem Support größer als minsupp und – einer Konfidenz von mindestens minconf Dazu sucht man zunächst die sogenannten frequent itemsets (FI), also Produktmengen, die in mindestens minsupp der Einkaufswägen/ Transaktionen enthalten sind Der A Priori-Algorithmus basiert auf der Erkenntnis, dass alle Teilmengen eines FI auch FIs sein müssen VerkaufsTransaktionen TransIDProdukt 111Drucker 111Papier 111PC 111Toner 222PC 222Scanner 333Drucker 333Papier 333Toner 444Drucker 444PC 555Drucker 555Papier 555PC 555Scanner 555Toner

23 Data Mining23 A Priori Algorithmus für alle Produkte überprüfe ob es ein frequent itemset ist, also in mindestens minsupp Einkaufswagen enthalten ist k:=1 iteriere solange für jeden frequent itemset I k mit k Produkten generiere alle itemsets I k+1 mit k+1 Produkten und I k  I k+1 lies alle Einkäufe einmal (sequentieller Scan auf der Datenbank) und überprüfe, welche der (k+1)-elementigen itemset- Kandidaten mindestens minsupp mal vorkommen k:=k+1 bis keine neuen frequent itemsets gefunden werden

24 Data Mining24 A Priori-Algorithmus VerkaufsTransaktionen TransIDProdukt 111Drucker 111Papier 111PC 111Toner 222PC 222Scanner 333Drucker 333Papier 333Toner 444Drucker 444PC 555Drucker 555Papier 555PC 555Scanner 555Toner Zwischenergebnisse FI-KandidatAnzahl {Drucker}4 {Papier}3 {PC}4 {Scanner}2 {Toner}3 {Drucker, Papier}3 {Drucker, PC}3 {Drucker, Scanner} {Drucker, Toner}3 {Papier, PC}2 {Papier, Scanner} {Papier, Toner}3 {PC, Scanner} {PC,Toner}2 {Scanner, Toner} Disqua- lifiziert Minsupp=3

25 Data Mining25 A Priori-Algorithmus VerkaufsTransaktionen TransIDProdukt 111Drucker 111Papier 111PC 111Toner 222PC 222Scanner 333Drucker 333Papier 333Toner 444Drucker 444PC 555Drucker 555Papier 555PC 555Scanner 555Toner Zwischenergebnisse FI-KandidatAnzahl {Drucker, Papier}3 {Drucker, PC}3 {Drucker, Scanner} {Drucker, Toner}3 {Papier, PC}2 {Papier, Scanner} {Papier, Toner}3 {PC, Scanner} {PC,Toner}2 {Scanner, Toner} {Drucker, Papier, PC}2 {Drucker, Papier, Toner}3 {Drucker, PC, Toner}2 {Papier, PC, Toner}2

26 Data Mining26 Ableitung von Assoziationsregeln aus den frequent itemsets Betrachte jeden FI (diese haben hinreichend viel support) Bilde alle nicht-leeren Teilmengen L  FI und untersuche die Regel – L  FI – L – Die Konfidenz dieser Regel berechnet sich als Konfidenz (L  FI – L) = support(FI) / support(L) Wenn die Konfidenz ausreicht, also > minconf ist, behalte diese Regel Betrachte FI = {Drucker, Papier, Toner} – Support = 3 Regel: {Drucker}  {Papier, Toner} – Konfidenz = S({Drucker, Papier, Toner}) / S({Drucker}) = (3/5) / (4/5) = ¾ = 75 %

27 Data Mining27 Erhöhung der Konfidenz Vergrößern der linken Seite (dadurch Verkleinern der rechten Seite) führt zur Erhöhung der Konfidenz – Formal: L  L +, R -  R – Konfidenz (L  R) <= C(L +  R - ) Beispiel-Regel: {Drucker}  {Papier, Toner} – Konfidenz = S({Drucker, Papier, Toner}) / S({Drucker}) = (3/5) / (4/5) = ¾ = 75% Beispiel-Regel: {Drucker,Papier}  {Toner} – Konfidenz = S({Drucker, Papier, Toner}) / S({Drucker,Papier}) = (3/5) / (3/5) = 1 = 100%

28 Vorsicht bei Deutung der Konfidenz Personen kaufen Kaffee und Tee Assoziationsregel Tee  Kaffee wird untersucht Konfidenz(Tee  Kaffee) = 0.75 Konfidenz scheint hoch zu sein, dies ist jedoch irreführend: Konfidenz(¬Tee  Kaffee) = 0.94 Data Mining28 Kaffee¬ KaffeeGesamt Tee15520 ¬ Tee75580 Gesamt

29 Simpson-Paradoxon Beispiel: Zwei Personen A und B spielen Basketball und zählen den Erfolg ihrer Korbwürfe: Wer ist der bessere Spieler? Wer ist der bessere Spieler, wenn die Wurfweite berücksichtigt wird? Data Mining29 AB getroffen108 nicht getroffen1012 Gesamt20 AB kurzweitGesamtkurzweitGesamt getroffen nicht getroffen Gesamt

30 Simpson-Paradoxon Eine dritte (evtl. versteckte) Variable bewirkt, dass eine beobachtete Beziehung zwischen zwei Variablen verschwindet oder in entgegengesetzte Richtung läuft. Data Mining30

31 Simpson-Paradoxon: Univ. Berkeley BewerberZugelassen Männer844244% Frauen432135% Data Mining31 DepartmentMännerFrauen BewerberZugelassenBewerberZugelassen A82562 %10882 % B56063 %2568 % C32537 %59334 % D41733 %35735 % E19128 %39324 % F2726 %3417 % Ist die Universität Berkeley in ihren Studenten-Zulassungen frauenfeindlich? (Zahlen von 1973) Nur zwei von sechs Departments haben bei Frauen eine niedrigere Zulassungsrate. Frauen bewerben sich tendenziell häufiger in Departments mit einer niedrigen Zulassungs-Rate, Männer dagegen häufiger in Departments mit hoher Zulassungs-Rate.

32 Arbeitsblatt Aufgabe 3 Data Mining32 KundenNrTransaktionsNrEinkauf 10001{a,d,e} 10024{a,b,c,e} 20012{a,b,d,e} 20031{a,c,d,e} 30015{b,c,e} 30022{b,d,e} 40029{c,d} 40040{a,b,c} 50033{a,d,e} 50038{a,b,e}

33 Arbeitsblatt Aufgabe 4 Data Mining33 TransaktionsNrEinkauf 1{Milch, Bier, Windeln} 2{Brot, Butter, Milch} 3{Milch, Windeln, Kekse} 4{Brot, Butter, Kekse} 5{Bier, Kekse, Windeln} 6{Milch, Windeln, Brot, Butter} 7{Brot, Butter, Windeln} 8{Bier, Windeln} 9{Milch, Windeln, Brot, Butter} 10{Bier, Kekse}

34 Stichprobe Data Mining34

35 KLASSIFIKATION Data Mining35

36 Klassifikation Data Mining36 Trainingsmenge Tupelmenge Modell: Entscheidungsbaum Anwenden des Modells Induktion des Entscheidungsbaums Lern-Algorithmus, z.B. Hunt Kontrolle: Fehlerrate, Entropie...

37 Beispiele für Klassifikation Tumorzellen als gut- oder bösartig vorhersagen Kreditkarten-Transaktionen als rechtmäßig oder als Betrug klassifizieren Klassifikation von Adressdaten für Direktmailings Kategorisieren von Nachrichten in Finanzen, Wetter, Unterhaltung, Sport etc. Data Mining37

38 Data Mining38 Klassifikationsregeln Vorhersageattribute – V1, V2,..., Vn Vorhergesagtes Attribut A Klassifikationsregel – P1(V1)  P2(V2) ...  Pn(Vn)  A = c – Prädikate P1, P2,.., Pn – Konstante c Beispielregel (wieAlt>35)  (Geschlecht =`m´)  (Autotyp=`Coupé´)  (Risiko=´hoch´)

39 Data Mining39 Klassifikations-/Entscheidungsbaum

40 Data Mining40 Klassifikations-/Entscheidungsbaum

41 Data Mining41 Klassifikations-/Entscheidungsbaum (wieAlt>35)  (Geschlecht =`m´)  (Autotyp=`Coupé´)  (Risiko=´hoch´)

42 Data Mining42 Erstellen von Entscheidungs-/ Klassifikationsbäumen Trainingsmenge – Große Zahl von Datensätzen, die in der Vergangenheit gesammelt wurden – Sie dient als Grundlage für die Vorhersage von „neu ankommenden“ Objekten – ist Stichprobe: die Daten müssen repräsentativ für die gesamte Datenmenge sein. Kann durch Zufallsauswahl gewonnen werden. – Beispiel: neuer Versicherungskunde wird gemäß dem Verhalten seiner „Artgenossen“ eingestuft Rekursives Partitionieren – Fange mit einem Attribut an und spalte die Tupelmenge – Jede dieser Teilmengen wird rekursiv weiter partitioniert – Bis nur noch gleichartige Objekte in der jeweiligen Partition sind

43 Hunt-Algorithmus = Top-Down-Algorithmus D t ist die Menge der Trainingsdatensätze am Knoten t Falls die Datensätze in D t nur einer Klasse y t angehören, dann ist t ein y t -Blatt. Falls die Datensätze in D t zu mehr als einer Klasse angehören, wird ein Attribut-Test durchgeführt, welches Attribut am geeignetsten ist, um die Daten in kleinere Untermengen zu teilen. Dieser Algorithmus wird rekursiv auf jede Untermenge angewandt. Data Mining43

44 Hunt-Algorithmus Bsp.

45 Entscheidungen im Hunt-Algorithmus Welche Testbedingungen für Attribute sollen möglich sein? – z.B nur binäre Aufteilungen, sowohl für numerische als auch kategorische Daten Nach welchem Kriterium wird entschieden, welches die beste Datenaufteilung ist? – Klassifikations-Fehlerrate, Gini-Index, Entropie An welcher Stelle muss die Aufteilung beendet werden? – Wenn alle Attribute gleich oder ähnlich (Kriterium ?) sind. Data Mining45

46 Testbedingungen für Attribute Abhängig vom Attributtyp – Kategorisch – Numerisch – Kontinuierlich Abhängig von der Anzahl der Aufteilungen – 2-fache Aufteilungen – mehrfache Aufteilungen Data Mining46

47 Aufteilung bei kategorischen Attributen Mehrfache Aufteilungen: Anzahl Teile = Anzahl unterschiedlicher Werte Binäre Aufteilung. Aufteilung in zwei Untermengen. Optimale Aufteilung muss gefunden werden. Data Mining47 PKW-Typ Kombi Sport Limousine PKW-Typ {Sport, Limusine} {Kombi} PKW-Typ {Kombi, Limusine} {Sport}

48 Aufteilung bei kontinuierlichen Daten Data Mining48

49 Wie findet man die beste Aufteilung? Knoten mit homogener Klassenverteilung werden bevorzugt. Benötigt wird ein Maß für Homogenität: Data Mining 49 Inhomogen Homogen

50 Klassifikations-Fehlerrate p(i|t) ist der Prozentsatz der Datensätze, die an einem Knoten t zur Klasse i gehören. Gibt es nur zwei Klassen, so ist p(1|t) = 1 – p(0|t) Schreibweise ohne Angaben des Knotens: p i Fehlerrate: Error(t) = 1 – max i [p(i|t)] = Prozentsatz der falsch klassifizierten Fälle (1 - Fehlerrate) = Genauigkeit Data Mining50

51 Gini-Index Data Mining51

52 Beispiel Gini-Index / Fehlerrate Data Mining 52 P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 Gini = 1 – P(C1) 2 – P(C2) 2 = 1 – (0/6) 2 – (6/6) 2 = 0 (ideal) Fehlerrate = 1 – max(0/6 | 6/6) = 0 P(C1) = 1/6 P(C2) = 5/6 Gini = 1 – (1/6) 2 – (5/6) 2 = Fehlerrate = 1 – max(1/6 | 5/6) = P(C1) = 2/6 P(C2) = 4/6 Gini = 1 – (2/6) 2 – (4/6) 2 = Fehlerrate = 1 – max(2/6 | 4/6) = P(C1) = 3/6 P(C2) = 3/6 Gini = 1 – (3/6) 2 – (3/6) 2 = 0.5 (schlecht) Fehlerrate = 1 – max(3/6 | 3/6) = 0.5 A? JaNein C1C2

53 Vergleich Gini-Index / Fehlerrate Data Mining53

54 Aufgabe Gini-Index / Fehlerrate Sollte zunächst nach a 1 oder zunächst nach a 2 aufgeteilt werden? Berechnen Sie dazu den Gini-Index für a 1 und für a 2. die Fehlerrate für a 1 und für a 2. Data Mining54

55 CLUSTERING Data Mining55

56 Data Mining56 Clustering

57 Was ist Clustering? Data Mining57 Clusterabstände untereinander maximal Abstände innerhalb der Cluster minimal Finden von Gruppen von Objekten, wobei die Objekte einer Gruppe einander ähneln und sich unterscheiden von Objekten anderer Gruppen.

58 Beispiele für Cluster Biologie: Reich, Stamm, Ordnung, Klasse, Familie, Gattung... Klimazonen: Tropen, Subtropen, gemäßigte Zone, Subpolargebiete, Polargebiete Medizin: ähnliche Muster von Symptomen werden zu Krankheiten zusammengefasst Data Mining58

59 Gründe für Clustering Verstehen von Zusammenhängen – Dateneigenschaften und deren Verteilung erkennen Zusammenfassen von Daten – Verkleinern von großen Datenmengen – dadurch schnellere Prozesse auf den Daten – „Teile und beherrsche“ Data Mining59

60 Mehrdeutigkeit bei Clusterbestimmung Data Mining60 Wie viele Cluster sind das? 4 Cluster 2 Cluster 6 Cluster

61 Clustertypen: Deutlich getrennte Cluster Ein Cluster ist eine Punktmenge, wobei jeder Punkt des Clusters näher jedem anderen Punkt des eigenen Clusters ist als zu irgendeinem Punkt eines andern Clusters. Data Mining61

62 Clustertypen: Zentriert Ein Cluster ist eine Punktmenge, wobei jeder Punkt des Clusters näher dem Mittelpunkt des eigenen Clusters ist als zu dem Mittelpunkt eines andern Clusters. Der Mittelpunkt ist häufig ein Mittelwert aus allen Punkten des Clusters. Data Mining62

63 Clustertypen: nächste Nachbarn Ein Cluster ist eine Punktmenge, wobei jeder Punkt des Clusters näher einem oder mehreren Punkten des eigenen Clusters ist als zu irgendeinem Punkt eines andern Clusters. Data Mining63

64 Clustertypen: Dichtigkeit Ein Cluster ist eine dichte Punktmenge, die durch Bereiche geringer Dichte von anderen Regionen mit hoher Dichte abgegrenzt sind. Wird verwendet, wenn Cluster unregelmäßig oder ineinander verschlungen sind und wenn Störungen und Ausreißer vorhanden sind. Data Mining64

65 Kombination aus nächste Nachbarn und Dichtigkeit Bsp.: Optical Character Recognition Data Mining65

66 Clustertypen: Konzeptionell Cluster teilen sich eine gemeinsame Eigenschaft oder repräsentieren ein spezielles Konzept. Data Mining66

67 k-Means-Algorithmus k-Means ist ein häufig genutzter Algorithmus zur Clusterbildung. Zu jedem Cluster gibt es einen Mittelpunkt. Jeder Datenpunkt ist mit dem Cluster verbunden, dessen Mittelpunkt am nächsten liegt. Der Mittelpunkt wird häufig über einen Mittelwert (engl. mean) der Datenpunkte eines Clusters gebildet. Die Anzahl k der Cluster muss vor Ausführung des Algorithmus festgelegt werden. Data Mining67

68 k-Means-Algorithmus Data Mining68 1. Zufällige Wahl der Clusterzentren a. Jedes Objekt wird dem Cluster zugeordnet, dessen Clusterzentrum am nächsten liegt -> Cluster b. Von diesen Clustern wird das neue Clusterzentrum berechnet wiederhole: bis sich die Clusterzentren nicht mehr verschieben

69 k-Means-Algorithmus Data Mining69

70 Gleiche Datenmenge – unterschiedliche Startzentren Data Mining70

71 Grenzen von k-Means: unterschiedliche Clustergrößen Data Mining71 Original Points K-means (3 Clusters)

72 Grenzen von k-Means: unterschiedliche Punktdichte Data Mining72 Original Points K-means (3 Clusters)

73 Data Mining73 alternativer Clustering-Algorithmus Greedy Heuristik Lese sequentiell alle Datensätze Für den nächsten Datensatz r bestimme – Für alle bisher existierenden Cluster denjenigen c, dessen Zentrum den kürzesten Abstand zu r hat – Wenn Abstand(r,Zentrum(c)) <= epsilon Füger r in c ein – Anderenfalls lege einen neuen Cluster c` an, der zunächst nur r enthält Funktioniert solange ganz gut, wie die Cluster in den Hauptspeicher passen Hier im Gegensatz zu k-Means keine vorherige Angabe der Clusteranzahl

74 alternativer Clustering-Algorithmus Data Mining74 Original-Werte alternativer Clustering-Algorithmus


Herunterladen ppt "Data Mining Assoziationsanalyse Klassifikation Clustering."

Ähnliche Präsentationen


Google-Anzeigen