Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Assoziationsanalyse Klassifikation Clustering

Ähnliche Präsentationen


Präsentation zum Thema: "Assoziationsanalyse Klassifikation Clustering"—  Präsentation transkript:

1 Assoziationsanalyse Klassifikation Clustering
Data Mining Assoziationsanalyse Klassifikation Clustering

2 Literatur Datenbanksysteme, Kapitel 17 Kemper, Eickler
Introduction to Data Mining Pang-Ning Tan et. al. Data Mining

3 Was ist Data Mining? Data Mining ist der Prozess, nützliche Informationen aus großen Datenbeständen zu gewinnen. Hierbei werden mathematische Methoden auf den Datenbestand angewandt zur Mustererkennung. Data Mining

4 Was ist (nicht) Data Mining?
Beispiele für Data Mining Bestimmte Namen sind in bestimmten Gegenden häufiger anzutreffen (z.B. Mayer besonders häufig in Baden-Württemberg, gen-evolu.de) Wettervorhersage Folgendes ist NICHT Data Mining Nachschlagen einer Telefonnummer im Telefonverzeichnis Webanfrage zu Informationen über Data Mining Data Mining

5 Warum Data Mining? – betriebswirtschaftliche Sicht
Sehr viele Daten werden gespeichert: Einkäufe Geldtransfer Internet-Daten, Webshops ... Computer sind preisgünstiger und schneller geworden Speicherplatz wird immer günstiger Daten leicht beschaffbar Konkurrenzdruck Bedarf der Zielgruppenanalyse Bedarf der Produktoptimierung Data Mining

6 Warum Data Mining? – wissenschaftliche Sicht
Daten werden mit großer Geschwindigkeit erzeugt und gespeichert experimentelle Messdaten wissenschaftliche Simulationen Data Mining hilft in der Wissenschaft: Klassifikation von Daten Formulierung und Verifikation von Hypothesen Data Mining

7 Ursprünge des Data Mining
Verwendet Ideen des maschinellen Lernens, der Mustererkennung, der Statistik und von Datenbanksystemen Traditionelle Techniken können nicht angewendet werden aufgrund großer Datenmengen hoher Dimensionalität der Daten Heterogenität der Daten Maschinelles Lernen Mustererkennung Statistik Data Mining Datenbank- Systeme Data Mining

8 Methoden des Data Mining
Vorhersagende Methoden Verwendung von Variablen, um unbekannte oder zukünftige Werte anderer Variablen vorherzusagen. Regression Klassifikation Beschreibende Methoden Herausfinden interpretierbarer Muster, die die Daten beschreiben Visualisierung Assoziationsregeln Clustering Aufdecken von Anomalien Data Mining

9 Attribut-Typen Qualitative (oder kategorische) Attribute
repräsentieren verschiedene Kategorien und keine Zahlen. Mathematische Operationen nicht sinnvoll. Beispiel: Augenfarbe, IP-Adresse, Postleitzahl Qualitative Attribute unterteilen sich in Nominal und Ordinal Nominal: Attribute ohne Sortierung = ≠ Ordinal: Attribute mit einer sinnhaften Sortierung < > Quantitative (oder numerische) Attribute Zahlen. Mathematische Operationen möglich. Beispiel: Temperatur, Gewicht, Anzahl Quantitative Attribute unterteilen sich in Intervall und Ratio Intervall: es gibt keine echte Null, Division nicht sinnvoll + - Rational: es gibt eine echte Null, Division möglich * ÷ Data Mining

10 diskrete / kontinuierliche Attribute
Diskrete Attribute Anzahl der Werte endlich oder abzählbar unendlich häufig Integer als Datentyp z.B. Postleitzahlen, Anzahl Zeichen Kontinuierliche Attribute Real/Fließkomma als Datentyp wird so genau angegeben, wie das Meßinstrument es erlaubt dadurch zwar nur endliche Anzahl von Nachkommastellen, jedoch Begrenzung nur durch Messinstrument z.B. Temperatur, Höhe, Gewicht Qualitative Attribute sind immer diskret Quantitative Attribute können diskret oder kontinuierlich sein Data Mining

11 Visualisierung von Daten
Visualisierung von Daten ist die Anzeige von Information in einer Graphik oder Tabelle. Erfolgreiche Visualisierung erfordert, dass die Daten (die Information) in ein visuelles Format konvertiert wird. die Beziehung zwischen den Attributen in der Visualisierung analysiert werden kann. Ziel ist die Interpretation der visualisierten Information durch Personen. Data Mining

12 Box Plot Diagrammtyp zur Darstellung statistischer Daten
Besteht aus Box, die 50 % der Werte aufnimmt, und zwei Linien (Whisker), die das Rechteck verlängern Durchgezogene Linie: Median Stellt die Verteilung der Werte eines Attributs gut dar Ausreißer 10 % 25 % 75 % 50 % 90 % Data Mining

13 Boxplot - Beispiel Der Median des Attributes A ist für Männer 2 und für Frauen 4,1. Ist dies ein großer Unterschied? Evt. JA: Evt. NEIN: Data Mining

14 Karte wissenschaftlicher Zusammenarbeit 2005-2009
visualcomplexity.com Data Mining

15 Bsp. Zeitabhängige Grafiken: Global Pulse
Twitter-Nachrichten von und nach Japan kurz vor und nach dem Tsunami am Untersuchter Zeitraum: 1 Stunde Pink: aus Japan herausgehende Nachrichten Gelb: nach Japan hereingehende Nachrichten blog.twitter.com Data Mining

16 schlechte Diagramme Falls eine Information in einem Diagramm verwendet wird, darf diese nicht zu Fehlinterpretationen führen. Hier: 3D, Material Data Mining

17 Data Mining

18 Data Mining

19 Assoziationsanalyse Data Mining

20 Assoziationsanalyse Die Assoziationsanalyse sucht in den Daten nach Regeln, die angeben, wie wahrscheinlich das Auftreten eines Elements gleichzeitig mit bestimmten anderen Elementen ist. Beispiel: PC -> Drucker (Kauf eines PCs impliziert den Kauf eines Druckers) Implikation bedeutet gleichzeitiges Auftreten der Elemente. Es bedeutet jedoch keine Kausalität! Also nicht: Weil Artikel A gekauft wird, wird auch Artikel B gekauft. Sondern: Wenn Artikel A gekauft wird, wird mit einer bestimmten Wahrscheinlichkeit ebenfalls B gekauft. Data Mining

21 Assoziationsregeln Beispielregel
Wenn jemand einen PC kauft, dann kauft er/sie auch einen Drucker Konfidenz Dieser Wert legt fest, bei welchem Prozentsatz der Datenmenge, bei der die Voraussetzung (linke Seite) erfüllt ist, die Regel (rechte Seite) auch erfüllt ist. Eine Konfidenz von 80% für unsere Beispielregel sagt aus, dass vier Fünftel der Leute, die einen PC gekauft haben, auch einen Drucker dazu gekauft haben. Support Dieser Wert legt fest, wie viele Datensätze überhaupt gefunden wurden, um die Gültigkeit der Regel zu verifizieren. Bei einem Support von 1% wäre also jeder hundertste Verkauf ein PC zusammen mit einem Drucker. Data Mining

22 Verkaufstransaktionen Warenkörbe
TransID Produkt 111 Drucker Papier PC Toner 222 Scanner 333 444 555 Finde alle Assoziationsregeln L  R mit einem Support größer als minsupp und einer Konfidenz von mindestens minconf Dazu sucht man zunächst die sogenannten frequent itemsets (FI), also Produktmengen, die in mindestens minsupp der Einkaufswägen/ Transaktionen enthalten sind Der A Priori-Algorithmus basiert auf der Erkenntnis, dass alle Teilmengen eines FI auch FIs sein müssen Data Mining

23 A Priori Algorithmus für alle Produkte
überprüfe ob es ein frequent itemset ist, also in mindestens minsupp Einkaufswagen enthalten ist k:=1 iteriere solange für jeden frequent itemset Ik mit k Produkten generiere alle itemsets Ik+1 mit k+1 Produkten und Ik  Ik+1 lies alle Einkäufe einmal (sequentieller Scan auf der Datenbank) und überprüfe, welche der (k+1)-elementigen itemset- Kandidaten mindestens minsupp mal vorkommen k:=k+1 bis keine neuen frequent itemsets gefunden werden Data Mining

24 VerkaufsTransaktionen
A Priori-Algorithmus VerkaufsTransaktionen TransID Produkt 111 Drucker Papier PC Toner 222 Scanner 333 444 555 Minsupp=3 Zwischenergebnisse FI-Kandidat Anzahl {Drucker} 4 {Papier} 3 {PC} {Scanner} 2 {Toner} {Drucker, Papier} {Drucker, PC} {Drucker, Scanner} {Drucker, Toner} {Papier, PC} {Papier, Scanner} {Papier, Toner} {PC, Scanner} {PC,Toner} {Scanner, Toner} Disqua-lifiziert Data Mining

25 VerkaufsTransaktionen
A Priori-Algorithmus VerkaufsTransaktionen TransID Produkt 111 Drucker Papier PC Toner 222 Scanner 333 444 555 Zwischenergebnisse FI-Kandidat Anzahl {Drucker, Papier} 3 {Drucker, PC} {Drucker, Scanner} {Drucker, Toner} {Papier, PC} 2 {Papier, Scanner} {Papier, Toner} {PC, Scanner} {PC,Toner} {Scanner, Toner} {Drucker, Papier, PC} {Drucker, Papier, Toner} {Drucker, PC, Toner} {Papier, PC, Toner} Data Mining

26 Ableitung von Assoziationsregeln aus den frequent itemsets
Betrachte jeden FI (diese haben hinreichend viel support) Bilde alle nicht-leeren Teilmengen L  FI und untersuche die Regel L  FI – L Die Konfidenz dieser Regel berechnet sich als Konfidenz (L  FI – L) = support(FI) / support(L) Wenn die Konfidenz ausreicht, also > minconf ist, behalte diese Regel Betrachte FI = {Drucker, Papier, Toner} Support = 3 Regel: {Drucker}  {Papier, Toner} Konfidenz = S({Drucker, Papier, Toner}) / S({Drucker}) = (3/5) / (4/5) = ¾ = 75 % Data Mining

27 Erhöhung der Konfidenz
Vergrößern der linken Seite (dadurch Verkleinern der rechten Seite) führt zur Erhöhung der Konfidenz Formal: L  L+ , R-  R Konfidenz (LR) <= C(L+ R- ) Beispiel-Regel: {Drucker}  {Papier, Toner} Konfidenz = S({Drucker, Papier, Toner}) / S({Drucker}) = (3/5) / (4/5) = ¾ = 75% Beispiel-Regel: {Drucker,Papier}  {Toner} Konfidenz = S({Drucker, Papier, Toner}) / S({Drucker,Papier}) = (3/5) / (3/5) = 1 = 100% Data Mining

28 Vorsicht bei Deutung der Konfidenz
Kaffee ¬ Kaffee Gesamt Tee 15 5 20 ¬ Tee 75 80 90 10 100 Personen kaufen Kaffee und Tee Assoziationsregel Tee  Kaffee wird untersucht Konfidenz(Tee  Kaffee) = 0.75 Konfidenz scheint hoch zu sein, dies ist jedoch irreführend: Konfidenz(¬Tee  Kaffee) = 0.94 Data Mining

29 Simpson-Paradoxon Beispiel: Zwei Personen A und B spielen Basketball und zählen den Erfolg ihrer Korbwürfe: Wer ist der bessere Spieler? Wer ist der bessere Spieler, wenn die Wurfweite berücksichtigt wird? A B getroffen 10 8 nicht getroffen 12 Gesamt 20 A B kurz weit Gesamt getroffen 9 1 10 3 5 8 nicht getroffen 7 2 12 16 4 20 15 Data Mining

30 Simpson-Paradoxon Eine dritte (evtl. versteckte) Variable bewirkt, dass eine beobachtete Beziehung zwischen zwei Variablen verschwindet oder in entgegengesetzte Richtung läuft. Data Mining

31 Simpson-Paradoxon: Univ. Berkeley
Ist die Universität Berkeley in ihren Studenten-Zulassungen frauenfeindlich? (Zahlen von 1973) Bewerber Zugelassen Männer 8442 44% Frauen 4321 35% Department Männer Frauen Bewerber Zugelassen A 825 62 % 108 82 % B 560 63 % 25 68 % C 325 37 % 593 34 % D 417 33 % 357 35 % E 191 28 % 393 24 % F 272 6 % 341 7 % Nur zwei von sechs Departments haben bei Frauen eine niedrigere Zulassungsrate. Frauen bewerben sich tendenziell häufiger in Departments mit einer niedrigen Zulassungs-Rate, Männer dagegen häufiger in Departments mit hoher Zulassungs-Rate. Data Mining

32 Arbeitsblatt Aufgabe 3 KundenNr TransaktionsNr Einkauf 1 0001 {a,d,e}
0024 {a,b,c,e} 2 0012 {a,b,d,e} 0031 {a,c,d,e} 3 0015 {b,c,e} 0022 {b,d,e} 4 0029 {c,d} 0040 {a,b,c} 5 0033 0038 {a,b,e} Data Mining

33 {Milch, Windeln, Brot, Butter}
Arbeitsblatt Aufgabe 4 TransaktionsNr Einkauf 1 {Milch, Bier, Windeln} 2 {Brot, Butter, Milch} 3 {Milch, Windeln, Kekse} 4 {Brot, Butter, Kekse} 5 {Bier, Kekse, Windeln} 6 {Milch, Windeln, Brot, Butter} 7 {Brot, Butter, Windeln} 8 {Bier, Windeln} 9 10 {Bier, Kekse} Data Mining

34 Stichprobe Eine Stichprobe ist eine kleinere Teilmenge einer Datenmenge. Stichproben sind notwendig, wenn die Analyse der gesamten Datenmenge zu aufwendig ist. Stichproben müssen repräsentativ für die gesamte Datenmenge sein. Eine Stichprobe ist dann repräsentativ, wenn sie annähernd die selben Eigenschaften hat wie die gesamte Datenmenge. Beispiel zur Erzeugung einer Stichprobe: Einfache Zufallsauswahl. Die Wahrscheinlichkeit für die Auswahl eines Datensatzes aus der Originalmenge in die Stichprobe ist gleich. Je größer die Stichprobe, je kleiner Median-Abstand zwischen Stichprobe und Datenmenge: ~ 1 𝑆𝑡𝑖𝑐ℎ𝑝𝑟𝑜𝑏𝑒𝑛𝑔𝑟öß𝑒 (Unabhängig von Größe der Datenmenge!) Data Mining

35 Klassifikation Data Mining

36 Induktion des Entscheidungsbaums
Klassifikation Lern-Algorithmus, z.B. Hunt Kontrolle: Fehlerrate, Entropie... Induktion des Entscheidungsbaums Modell: Entscheidungsbaum Trainingsmenge Anwenden des Modells Tupelmenge Data Mining

37 Beispiele für Klassifikation
Tumorzellen als gut- oder bösartig vorhersagen Kreditkarten-Transaktionen als rechtmäßig oder als Betrug klassifizieren Klassifikation von Adressdaten für Direktmailings Kategorisieren von Nachrichten in Finanzen, Wetter, Unterhaltung, Sport etc. Data Mining

38 Klassifikationsregeln
Vorhersageattribute V1, V2, ..., Vn Vorhergesagtes Attribut A Klassifikationsregel P1(V1)  P2(V2)  ...  Pn(Vn)  A = c Prädikate P1, P2, .., Pn Konstante c Beispielregel (wieAlt>35)  (Geschlecht =`m´)  (Autotyp=`Coupé´)  (Risiko=´hoch´) Data Mining

39 Klassifikations-/Entscheidungsbaum
Data Mining

40 Klassifikations-/Entscheidungsbaum
Data Mining

41 Klassifikations-/Entscheidungsbaum
(wieAlt>35)  (Geschlecht =`m´)  (Autotyp=`Coupé´)  (Risiko=´hoch´) Data Mining

42 Erstellen von Entscheidungs-/ Klassifikationsbäumen
Trainingsmenge Große Zahl von Datensätzen, die in der Vergangenheit gesammelt wurden Sie dient als Grundlage für die Vorhersage von „neu ankommenden“ Objekten ist Stichprobe: die Daten müssen repräsentativ für die gesamte Datenmenge sein. Kann durch Zufallsauswahl gewonnen werden. Beispiel: neuer Versicherungskunde wird gemäß dem Verhalten seiner „Artgenossen“ eingestuft Rekursives Partitionieren Fange mit einem Attribut an und spalte die Tupelmenge Jede dieser Teilmengen wird rekursiv weiter partitioniert Bis nur noch gleichartige Objekte in der jeweiligen Partition sind Data Mining

43 Hunt-Algorithmus = Top-Down-Algorithmus
Dt ist die Menge der Trainingsdatensätze am Knoten t Falls die Datensätze in Dt nur einer Klasse yt angehören, dann ist t ein yt-Blatt. Falls die Datensätze in Dt zu mehr als einer Klasse angehören, wird ein Attribut-Test durchgeführt, welches Attribut am geeignetsten ist, um die Daten in kleinere Untermengen zu teilen. Dieser Algorithmus wird rekursiv auf jede Untermenge angewandt. Data Mining

44 Hunt-Algorithmus Bsp.

45 Entscheidungen im Hunt-Algorithmus
Welche Testbedingungen für Attribute sollen möglich sein? z.B nur binäre Aufteilungen, sowohl für numerische als auch kategorische Daten Nach welchem Kriterium wird entschieden, welches die beste Datenaufteilung ist? Klassifikations-Fehlerrate, Gini-Index, Entropie An welcher Stelle muss die Aufteilung beendet werden? Wenn alle Attribute gleich oder ähnlich (Kriterium ?) sind. Data Mining

46 Testbedingungen für Attribute
Abhängig vom Attributtyp Kategorisch Numerisch Kontinuierlich Abhängig von der Anzahl der Aufteilungen 2-fache Aufteilungen mehrfache Aufteilungen Data Mining

47 Aufteilung bei kategorischen Attributen
Mehrfache Aufteilungen: Anzahl Teile = Anzahl unterschiedlicher Werte Binäre Aufteilung. Aufteilung in zwei Untermengen. Optimale Aufteilung muss gefunden werden. PKW-Typ Kombi Sport Limousine PKW-Typ {Sport, Limusine} {Kombi} PKW-Typ {Kombi, Limusine} {Sport} Data Mining

48 Aufteilung bei kontinuierlichen Daten
Data Mining

49 Wie findet man die beste Aufteilung?
Knoten mit homogener Klassenverteilung werden bevorzugt. Benötigt wird ein Maß für Homogenität: Inhomogen Homogen Data Mining

50 Klassifikations-Fehlerrate
p(i|t) ist der Prozentsatz der Datensätze, die an einem Knoten t zur Klasse i gehören. Gibt es nur zwei Klassen, so ist p(1|t) = 1 – p(0|t) Schreibweise ohne Angaben des Knotens: pi Fehlerrate: Error(t) = 1 – maxi[p(i|t)] = Prozentsatz der falsch klassifizierten Fälle (1 - Fehlerrate) = Genauigkeit Data Mining

51 Gini-Index Gini-Index ist Maß für Ungleichverteilungen
Zahl zwischen 0 und (bei binären Klassen) Maximum 0,5, wenn die Datensätze auf alle Klassen gleich verteilt sind. Keine Information. Minimum 0, wenn alle Datensätze einer Klasse angehören. Maximum an Information. Gini-Index an einem Knoten t für eine Menge T von Trainingsobjekten: Gini(T) = 1 – 𝑖 (𝑝 𝑖 𝑡 ) 2 Gini-Index für Partitionierung von T in T1, T2, .. Tm: Gini(T1,..Tm)= 𝑖=1 𝑚 𝑇𝑖 𝑇 𝐺𝑖𝑛𝑖(𝑇𝑖) wird von rpart() in R verwendet Data Mining

52 Beispiel Gini-Index / Fehlerrate
Ja Nein C1 C2 P(C1) = 0/6 = P(C2) = 6/6 = 1 Gini = 1 – P(C1)2 – P(C2)2 = 1 – (0/6)2 – (6/6)2 = 0 (ideal) Fehlerrate = 1 – max(0/6 | 6/6) = 0 P(C1) = 1/ P(C2) = 5/6 Gini = 1 – (1/6)2 – (5/6)2 = Fehlerrate = 1 – max(1/6 | 5/6) = 0.167 P(C1) = 2/ P(C2) = 4/6 Gini = 1 – (2/6)2 – (4/6)2 = Fehlerrate = 1 – max(2/6 | 4/6) = 0.333 P(C1) = 3/ P(C2) = 3/6 Gini = 1 – (3/6)2 – (3/6)2 = (schlecht) Fehlerrate = 1 – max(3/6 | 3/6) = 0.5 Data Mining

53 Vergleich Gini-Index / Fehlerrate
Data Mining

54 Aufgabe Gini-Index / Fehlerrate
Sollte zunächst nach a1 oder zunächst nach a2 aufgeteilt werden? Berechnen Sie dazu den Gini-Index für a1 und für a2. die Fehlerrate für a1 und für a2. Data Mining

55 Clustering Data Mining

56 Clustering Data Mining

57 Was ist Clustering? Finden von Gruppen von Objekten, wobei die Objekte einer Gruppe einander ähneln und sich unterscheiden von Objekten anderer Gruppen. Clusterabständeuntereinander maximal Abstände innerhalb der Cluster minimal Data Mining

58 Beispiele für Cluster Biologie: Reich, Stamm, Ordnung, Klasse, Familie, Gattung... Klimazonen: Tropen, Subtropen, gemäßigte Zone, Subpolargebiete, Polargebiete Medizin: ähnliche Muster von Symptomen werden zu Krankheiten zusammengefasst Data Mining

59 Gründe für Clustering Verstehen von Zusammenhängen
Dateneigenschaften und deren Verteilung erkennen Zusammenfassen von Daten Verkleinern von großen Datenmengen dadurch schnellere Prozesse auf den Daten „Teile und beherrsche“ Data Mining

60 Mehrdeutigkeit bei Clusterbestimmung
Wie viele Cluster sind das? 6 Cluster 4 Cluster 2 Cluster Data Mining

61 Clustertypen: Deutlich getrennte Cluster
Ein Cluster ist eine Punktmenge, wobei jeder Punkt des Clusters näher jedem anderen Punkt des eigenen Clusters ist als zu irgendeinem Punkt eines andern Clusters. Data Mining

62 Clustertypen: Zentriert
Ein Cluster ist eine Punktmenge, wobei jeder Punkt des Clusters näher dem Mittelpunkt des eigenen Clusters ist als zu dem Mittelpunkt eines andern Clusters. Der Mittelpunkt ist häufig ein Mittelwert aus allen Punkten des Clusters. Data Mining

63 Clustertypen: nächste Nachbarn
Ein Cluster ist eine Punktmenge, wobei jeder Punkt des Clusters näher einem oder mehreren Punkten des eigenen Clusters ist als zu irgendeinem Punkt eines andern Clusters. Data Mining

64 Clustertypen: Dichtigkeit
Ein Cluster ist eine dichte Punktmenge, die durch Bereiche geringer Dichte von anderen Regionen mit hoher Dichte abgegrenzt sind. Wird verwendet, wenn Cluster unregelmäßig oder ineinander verschlungen sind und wenn Störungen und Ausreißer vorhanden sind. Data Mining

65 Kombination aus nächste Nachbarn und Dichtigkeit
Bsp.: Optical Character Recognition Data Mining

66 Clustertypen: Konzeptionell
Cluster teilen sich eine gemeinsame Eigenschaft oder repräsentieren ein spezielles Konzept. Data Mining

67 k-Means-Algorithmus k-Means ist ein häufig genutzter Algorithmus zur Clusterbildung. Zu jedem Cluster gibt es einen Mittelpunkt. Jeder Datenpunkt ist mit dem Cluster verbunden, dessen Mittelpunkt am nächsten liegt. Der Mittelpunkt wird häufig über einen Mittelwert (engl. mean) der Datenpunkte eines Clusters gebildet. Die Anzahl k der Cluster muss vor Ausführung des Algorithmus festgelegt werden. Data Mining

68 k-Means-Algorithmus 1. Zufällige Wahl der Clusterzentren wiederhole:
a. Jedes Objekt wird dem Cluster zugeordnet, dessen Clusterzentrum am nächsten liegt -> Cluster b. Von diesen Clustern wird das neue Clusterzentrum berechnet bis sich die Clusterzentren nicht mehr verschieben Data Mining

69 k-Means-Algorithmus Data Mining

70 Gleiche Datenmenge – unterschiedliche Startzentren
Data Mining

71 Grenzen von k-Means: unterschiedliche Clustergrößen
Original Points K-means (3 Clusters) Data Mining

72 Grenzen von k-Means: unterschiedliche Punktdichte
Original Points K-means (3 Clusters) Data Mining

73 alternativer Clustering-Algorithmus
Greedy Heuristik Lese sequentiell alle Datensätze Für den nächsten Datensatz r bestimme Für alle bisher existierenden Cluster denjenigen c, dessen Zentrum den kürzesten Abstand zu r hat Wenn Abstand(r,Zentrum(c)) <= epsilon Füger r in c ein Anderenfalls lege einen neuen Cluster c` an, der zunächst nur r enthält Funktioniert solange ganz gut, wie die Cluster in den Hauptspeicher passen Hier im Gegensatz zu k-Means keine vorherige Angabe der Clusteranzahl Data Mining

74 alternativer Clustering-Algorithmus
Original-Werte alternativer Clustering-Algorithmus Data Mining


Herunterladen ppt "Assoziationsanalyse Klassifikation Clustering"

Ähnliche Präsentationen


Google-Anzeigen