Assoziationsanalyse Klassifikation Clustering

Name: Assoziationsanalyse Klassifikation Clustering
Uploaded: 2017-08-24T11:33:46+00:00
Duration: PTM33S19
Channel: Lena Reuter
Description: Assoziationsanalyse Klassifikation Clustering

Assoziationsanalyse Klassifikation Clustering
Data Mining Assoziationsanalyse Klassifikation Clustering

Literatur Datenbanksysteme, Kapitel 17 Kemper, Eickler
Introduction to Data Mining Pang-Ning Tan et. al. Data Mining

Was ist Data Mining? Data Mining ist der Prozess, nützliche Informationen aus großen Datenbeständen zu gewinnen. Hierbei werden mathematische Methoden auf den Datenbestand angewandt zur Mustererkennung. Data Mining

Was ist (nicht) Data Mining?
Beispiele für Data Mining Bestimmte Namen sind in bestimmten Gegenden häufiger anzutreffen (z.B. Mayer besonders häufig in Baden-Württemberg, gen-evolu.de) Wettervorhersage Folgendes ist NICHT Data Mining Nachschlagen einer Telefonnummer im Telefonverzeichnis Webanfrage zu Informationen über Data Mining Data Mining

Warum Data Mining? – betriebswirtschaftliche Sicht
Sehr viele Daten werden gespeichert: Einkäufe Geldtransfer Internet-Daten, Webshops ... Computer sind preisgünstiger und schneller geworden Speicherplatz wird immer günstiger Daten leicht beschaffbar Konkurrenzdruck Bedarf der Zielgruppenanalyse Bedarf der Produktoptimierung Data Mining

Warum Data Mining? – wissenschaftliche Sicht
Daten werden mit großer Geschwindigkeit erzeugt und gespeichert experimentelle Messdaten wissenschaftliche Simulationen Data Mining hilft in der Wissenschaft: Klassifikation von Daten Formulierung und Verifikation von Hypothesen Data Mining

Ursprünge des Data Mining
Verwendet Ideen des maschinellen Lernens, der Mustererkennung, der Statistik und von Datenbanksystemen Traditionelle Techniken können nicht angewendet werden aufgrund großer Datenmengen hoher Dimensionalität der Daten Heterogenität der Daten Maschinelles Lernen Mustererkennung Statistik Data Mining Datenbank- Systeme Data Mining

Methoden des Data Mining
Vorhersagende Methoden Verwendung von Variablen, um unbekannte oder zukünftige Werte anderer Variablen vorherzusagen. Regression Klassifikation Beschreibende Methoden Herausfinden interpretierbarer Muster, die die Daten beschreiben Visualisierung Assoziationsregeln Clustering Aufdecken von Anomalien Data Mining

Attribut-Typen Qualitative (oder kategorische) Attribute
repräsentieren verschiedene Kategorien und keine Zahlen. Mathematische Operationen nicht sinnvoll. Beispiel: Augenfarbe, IP-Adresse, Postleitzahl Qualitative Attribute unterteilen sich in Nominal und Ordinal Nominal: Attribute ohne Sortierung = ≠ Ordinal: Attribute mit einer sinnhaften Sortierung < > Quantitative (oder numerische) Attribute Zahlen. Mathematische Operationen möglich. Beispiel: Temperatur, Gewicht, Anzahl Quantitative Attribute unterteilen sich in Intervall und Ratio Intervall: es gibt keine echte Null, Division nicht sinnvoll + - Rational: es gibt eine echte Null, Division möglich * ÷ Data Mining

diskrete / kontinuierliche Attribute
Diskrete Attribute Anzahl der Werte endlich oder abzählbar unendlich häufig Integer als Datentyp z.B. Postleitzahlen, Anzahl Zeichen Kontinuierliche Attribute Real/Fließkomma als Datentyp wird so genau angegeben, wie das Meßinstrument es erlaubt dadurch zwar nur endliche Anzahl von Nachkommastellen, jedoch Begrenzung nur durch Messinstrument z.B. Temperatur, Höhe, Gewicht Qualitative Attribute sind immer diskret Quantitative Attribute können diskret oder kontinuierlich sein Data Mining

Visualisierung von Daten
Visualisierung von Daten ist die Anzeige von Information in einer Graphik oder Tabelle. Erfolgreiche Visualisierung erfordert, dass die Daten (die Information) in ein visuelles Format konvertiert wird. die Beziehung zwischen den Attributen in der Visualisierung analysiert werden kann. Ziel ist die Interpretation der visualisierten Information durch Personen. Data Mining

Box Plot Diagrammtyp zur Darstellung statistischer Daten
Besteht aus Box, die 50 % der Werte aufnimmt, und zwei Linien (Whisker), die das Rechteck verlängern Durchgezogene Linie: Median Stellt die Verteilung der Werte eines Attributs gut dar Ausreißer 10 % 25 % 75 % 50 % 90 % Data Mining

Boxplot - Beispiel Der Median des Attributes A ist für Männer 2 und für Frauen 4,1. Ist dies ein großer Unterschied? Evt. JA: Evt. NEIN: Data Mining

Karte wissenschaftlicher Zusammenarbeit 2005-2009
visualcomplexity.com Data Mining

Bsp. Zeitabhängige Grafiken: Global Pulse
Twitter-Nachrichten von und nach Japan kurz vor und nach dem Tsunami am Untersuchter Zeitraum: 1 Stunde Pink: aus Japan herausgehende Nachrichten Gelb: nach Japan hereingehende Nachrichten blog.twitter.com Data Mining

schlechte Diagramme Falls eine Information in einem Diagramm verwendet wird, darf diese nicht zu Fehlinterpretationen führen. Hier: 3D, Material Data Mining

Data Mining

Assoziationsanalyse Data Mining

Assoziationsanalyse Die Assoziationsanalyse sucht in den Daten nach Regeln, die angeben, wie wahrscheinlich das Auftreten eines Elements gleichzeitig mit bestimmten anderen Elementen ist. Beispiel: PC -> Drucker (Kauf eines PCs impliziert den Kauf eines Druckers) Implikation bedeutet gleichzeitiges Auftreten der Elemente. Es bedeutet jedoch keine Kausalität! Also nicht: Weil Artikel A gekauft wird, wird auch Artikel B gekauft. Sondern: Wenn Artikel A gekauft wird, wird mit einer bestimmten Wahrscheinlichkeit ebenfalls B gekauft. Data Mining

Assoziationsregeln Beispielregel
Wenn jemand einen PC kauft, dann kauft er/sie auch einen Drucker Konfidenz Dieser Wert legt fest, bei welchem Prozentsatz der Datenmenge, bei der die Voraussetzung (linke Seite) erfüllt ist, die Regel (rechte Seite) auch erfüllt ist. Eine Konfidenz von 80% für unsere Beispielregel sagt aus, dass vier Fünftel der Leute, die einen PC gekauft haben, auch einen Drucker dazu gekauft haben. Support Dieser Wert legt fest, wie viele Datensätze überhaupt gefunden wurden, um die Gültigkeit der Regel zu verifizieren. Bei einem Support von 1% wäre also jeder hundertste Verkauf ein PC zusammen mit einem Drucker. Data Mining

Verkaufstransaktionen Warenkörbe
TransID Produkt 111 Drucker Papier PC Toner 222 Scanner 333 444 555 Finde alle Assoziationsregeln L  R mit einem Support größer als minsupp und einer Konfidenz von mindestens minconf Dazu sucht man zunächst die sogenannten frequent itemsets (FI), also Produktmengen, die in mindestens minsupp der Einkaufswägen/ Transaktionen enthalten sind Der A Priori-Algorithmus basiert auf der Erkenntnis, dass alle Teilmengen eines FI auch FIs sein müssen Data Mining

A Priori Algorithmus für alle Produkte
überprüfe ob es ein frequent itemset ist, also in mindestens minsupp Einkaufswagen enthalten ist k:=1 iteriere solange für jeden frequent itemset Ik mit k Produkten generiere alle itemsets Ik+1 mit k+1 Produkten und Ik  Ik+1 lies alle Einkäufe einmal (sequentieller Scan auf der Datenbank) und überprüfe, welche der (k+1)-elementigen itemset- Kandidaten mindestens minsupp mal vorkommen k:=k+1 bis keine neuen frequent itemsets gefunden werden Data Mining

VerkaufsTransaktionen
A Priori-Algorithmus VerkaufsTransaktionen TransID Produkt 111 Drucker Papier PC Toner 222 Scanner 333 444 555 Minsupp=3 Zwischenergebnisse FI-Kandidat Anzahl {Drucker} 4 {Papier} 3 {PC} {Scanner} 2 {Toner} {Drucker, Papier} {Drucker, PC} {Drucker, Scanner} {Drucker, Toner} {Papier, PC} {Papier, Scanner} {Papier, Toner} {PC, Scanner} {PC,Toner} {Scanner, Toner} Disqua-lifiziert Data Mining

VerkaufsTransaktionen
A Priori-Algorithmus VerkaufsTransaktionen TransID Produkt 111 Drucker Papier PC Toner 222 Scanner 333 444 555 Zwischenergebnisse FI-Kandidat Anzahl {Drucker, Papier} 3 {Drucker, PC} {Drucker, Scanner} {Drucker, Toner} {Papier, PC} 2 {Papier, Scanner} {Papier, Toner} {PC, Scanner} {PC,Toner} {Scanner, Toner} {Drucker, Papier, PC} {Drucker, Papier, Toner} {Drucker, PC, Toner} {Papier, PC, Toner} Data Mining

Ableitung von Assoziationsregeln aus den frequent itemsets
Betrachte jeden FI (diese haben hinreichend viel support) Bilde alle nicht-leeren Teilmengen L  FI und untersuche die Regel L  FI – L Die Konfidenz dieser Regel berechnet sich als Konfidenz (L  FI – L) = support(FI) / support(L) Wenn die Konfidenz ausreicht, also > minconf ist, behalte diese Regel Betrachte FI = {Drucker, Papier, Toner} Support = 3 Regel: {Drucker}  {Papier, Toner} Konfidenz = S({Drucker, Papier, Toner}) / S({Drucker}) = (3/5) / (4/5) = ¾ = 75 % Data Mining

Erhöhung der Konfidenz
Vergrößern der linken Seite (dadurch Verkleinern der rechten Seite) führt zur Erhöhung der Konfidenz Formal: L  L+ , R-  R Konfidenz (LR) <= C(L+ R- ) Beispiel-Regel: {Drucker}  {Papier, Toner} Konfidenz = S({Drucker, Papier, Toner}) / S({Drucker}) = (3/5) / (4/5) = ¾ = 75% Beispiel-Regel: {Drucker,Papier}  {Toner} Konfidenz = S({Drucker, Papier, Toner}) / S({Drucker,Papier}) = (3/5) / (3/5) = 1 = 100% Data Mining

Vorsicht bei Deutung der Konfidenz
Kaffee ¬ Kaffee Gesamt Tee 15 5 20 ¬ Tee 75 80 90 10 100 Personen kaufen Kaffee und Tee Assoziationsregel Tee  Kaffee wird untersucht Konfidenz(Tee  Kaffee) = 0.75 Konfidenz scheint hoch zu sein, dies ist jedoch irreführend: Konfidenz(¬Tee  Kaffee) = 0.94 Data Mining

Simpson-Paradoxon Beispiel: Zwei Personen A und B spielen Basketball und zählen den Erfolg ihrer Korbwürfe: Wer ist der bessere Spieler? Wer ist der bessere Spieler, wenn die Wurfweite berücksichtigt wird? A B getroffen 10 8 nicht getroffen 12 Gesamt 20 A B kurz weit Gesamt getroffen 9 1 10 3 5 8 nicht getroffen 7 2 12 16 4 20 15 Data Mining

Simpson-Paradoxon Eine dritte (evtl. versteckte) Variable bewirkt, dass eine beobachtete Beziehung zwischen zwei Variablen verschwindet oder in entgegengesetzte Richtung läuft. Data Mining

Simpson-Paradoxon: Univ. Berkeley
Ist die Universität Berkeley in ihren Studenten-Zulassungen frauenfeindlich? (Zahlen von 1973) Bewerber Zugelassen Männer 8442 44% Frauen 4321 35% Department Männer Frauen Bewerber Zugelassen A 825 62 % 108 82 % B 560 63 % 25 68 % C 325 37 % 593 34 % D 417 33 % 357 35 % E 191 28 % 393 24 % F 272 6 % 341 7 % Nur zwei von sechs Departments haben bei Frauen eine niedrigere Zulassungsrate. Frauen bewerben sich tendenziell häufiger in Departments mit einer niedrigen Zulassungs-Rate, Männer dagegen häufiger in Departments mit hoher Zulassungs-Rate. Data Mining

Arbeitsblatt Aufgabe 3 KundenNr TransaktionsNr Einkauf 1 0001 {a,d,e}
0024 {a,b,c,e} 2 0012 {a,b,d,e} 0031 {a,c,d,e} 3 0015 {b,c,e} 0022 {b,d,e} 4 0029 {c,d} 0040 {a,b,c} 5 0033 0038 {a,b,e} Data Mining

{Milch, Windeln, Brot, Butter}
Arbeitsblatt Aufgabe 4 TransaktionsNr Einkauf 1 {Milch, Bier, Windeln} 2 {Brot, Butter, Milch} 3 {Milch, Windeln, Kekse} 4 {Brot, Butter, Kekse} 5 {Bier, Kekse, Windeln} 6 {Milch, Windeln, Brot, Butter} 7 {Brot, Butter, Windeln} 8 {Bier, Windeln} 9 10 {Bier, Kekse} Data Mining

Stichprobe Eine Stichprobe ist eine kleinere Teilmenge einer Datenmenge. Stichproben sind notwendig, wenn die Analyse der gesamten Datenmenge zu aufwendig ist. Stichproben müssen repräsentativ für die gesamte Datenmenge sein. Eine Stichprobe ist dann repräsentativ, wenn sie annähernd die selben Eigenschaften hat wie die gesamte Datenmenge. Beispiel zur Erzeugung einer Stichprobe: Einfache Zufallsauswahl. Die Wahrscheinlichkeit für die Auswahl eines Datensatzes aus der Originalmenge in die Stichprobe ist gleich. Je größer die Stichprobe, je kleiner Median-Abstand zwischen Stichprobe und Datenmenge: ~ 1 𝑆𝑡𝑖𝑐ℎ𝑝𝑟𝑜𝑏𝑒𝑛𝑔𝑟öß𝑒 (Unabhängig von Größe der Datenmenge!) Data Mining

Klassifikation Data Mining

Induktion des Entscheidungsbaums
Klassifikation Lern-Algorithmus, z.B. Hunt Kontrolle: Fehlerrate, Entropie... Induktion des Entscheidungsbaums Modell: Entscheidungsbaum Trainingsmenge Anwenden des Modells Tupelmenge Data Mining

Beispiele für Klassifikation
Tumorzellen als gut- oder bösartig vorhersagen Kreditkarten-Transaktionen als rechtmäßig oder als Betrug klassifizieren Klassifikation von Adressdaten für Direktmailings Kategorisieren von Nachrichten in Finanzen, Wetter, Unterhaltung, Sport etc. Data Mining

Klassifikationsregeln
Vorhersageattribute V1, V2, ..., Vn Vorhergesagtes Attribut A Klassifikationsregel P1(V1)  P2(V2)  ...  Pn(Vn)  A = c Prädikate P1, P2, .., Pn Konstante c Beispielregel (wieAlt>35)  (Geschlecht =`m´)  (Autotyp=`Coupé´)  (Risiko=´hoch´) Data Mining

Klassifikations-/Entscheidungsbaum
Data Mining

Klassifikations-/Entscheidungsbaum
(wieAlt>35)  (Geschlecht =`m´)  (Autotyp=`Coupé´)  (Risiko=´hoch´) Data Mining

Erstellen von Entscheidungs-/ Klassifikationsbäumen
Trainingsmenge Große Zahl von Datensätzen, die in der Vergangenheit gesammelt wurden Sie dient als Grundlage für die Vorhersage von „neu ankommenden“ Objekten ist Stichprobe: die Daten müssen repräsentativ für die gesamte Datenmenge sein. Kann durch Zufallsauswahl gewonnen werden. Beispiel: neuer Versicherungskunde wird gemäß dem Verhalten seiner „Artgenossen“ eingestuft Rekursives Partitionieren Fange mit einem Attribut an und spalte die Tupelmenge Jede dieser Teilmengen wird rekursiv weiter partitioniert Bis nur noch gleichartige Objekte in der jeweiligen Partition sind Data Mining

Hunt-Algorithmus = Top-Down-Algorithmus
Dt ist die Menge der Trainingsdatensätze am Knoten t Falls die Datensätze in Dt nur einer Klasse yt angehören, dann ist t ein yt-Blatt. Falls die Datensätze in Dt zu mehr als einer Klasse angehören, wird ein Attribut-Test durchgeführt, welches Attribut am geeignetsten ist, um die Daten in kleinere Untermengen zu teilen. Dieser Algorithmus wird rekursiv auf jede Untermenge angewandt. Data Mining

Hunt-Algorithmus Bsp.

Entscheidungen im Hunt-Algorithmus
Welche Testbedingungen für Attribute sollen möglich sein? z.B nur binäre Aufteilungen, sowohl für numerische als auch kategorische Daten Nach welchem Kriterium wird entschieden, welches die beste Datenaufteilung ist? Klassifikations-Fehlerrate, Gini-Index, Entropie An welcher Stelle muss die Aufteilung beendet werden? Wenn alle Attribute gleich oder ähnlich (Kriterium ?) sind. Data Mining

Testbedingungen für Attribute
Abhängig vom Attributtyp Kategorisch Numerisch Kontinuierlich Abhängig von der Anzahl der Aufteilungen 2-fache Aufteilungen mehrfache Aufteilungen Data Mining

Aufteilung bei kategorischen Attributen
Mehrfache Aufteilungen: Anzahl Teile = Anzahl unterschiedlicher Werte Binäre Aufteilung. Aufteilung in zwei Untermengen. Optimale Aufteilung muss gefunden werden. PKW-Typ Kombi Sport Limousine PKW-Typ {Sport, Limusine} {Kombi} PKW-Typ {Kombi, Limusine} {Sport} Data Mining

Aufteilung bei kontinuierlichen Daten
Data Mining

Wie findet man die beste Aufteilung?
Knoten mit homogener Klassenverteilung werden bevorzugt. Benötigt wird ein Maß für Homogenität: Inhomogen Homogen Data Mining

Klassifikations-Fehlerrate
p(i|t) ist der Prozentsatz der Datensätze, die an einem Knoten t zur Klasse i gehören. Gibt es nur zwei Klassen, so ist p(1|t) = 1 – p(0|t) Schreibweise ohne Angaben des Knotens: pi Fehlerrate: Error(t) = 1 – maxi[p(i|t)] = Prozentsatz der falsch klassifizierten Fälle (1 - Fehlerrate) = Genauigkeit Data Mining

Gini-Index Gini-Index ist Maß für Ungleichverteilungen
Zahl zwischen 0 und (bei binären Klassen) Maximum 0,5, wenn die Datensätze auf alle Klassen gleich verteilt sind. Keine Information. Minimum 0, wenn alle Datensätze einer Klasse angehören. Maximum an Information. Gini-Index an einem Knoten t für eine Menge T von Trainingsobjekten: Gini(T) = 1 – 𝑖 (𝑝 𝑖 𝑡 ) 2 Gini-Index für Partitionierung von T in T1, T2, .. Tm: Gini(T1,..Tm)= 𝑖=1 𝑚 𝑇𝑖 𝑇 𝐺𝑖𝑛𝑖(𝑇𝑖) wird von rpart() in R verwendet Data Mining

Beispiel Gini-Index / Fehlerrate
Ja Nein C1 C2 P(C1) = 0/6 = P(C2) = 6/6 = 1 Gini = 1 – P(C1)2 – P(C2)2 = 1 – (0/6)2 – (6/6)2 = 0 (ideal) Fehlerrate = 1 – max(0/6 | 6/6) = 0 P(C1) = 1/ P(C2) = 5/6 Gini = 1 – (1/6)2 – (5/6)2 = Fehlerrate = 1 – max(1/6 | 5/6) = 0.167 P(C1) = 2/ P(C2) = 4/6 Gini = 1 – (2/6)2 – (4/6)2 = Fehlerrate = 1 – max(2/6 | 4/6) = 0.333 P(C1) = 3/ P(C2) = 3/6 Gini = 1 – (3/6)2 – (3/6)2 = (schlecht) Fehlerrate = 1 – max(3/6 | 3/6) = 0.5 Data Mining

Vergleich Gini-Index / Fehlerrate
Data Mining

Aufgabe Gini-Index / Fehlerrate
Sollte zunächst nach a1 oder zunächst nach a2 aufgeteilt werden? Berechnen Sie dazu den Gini-Index für a1 und für a2. die Fehlerrate für a1 und für a2. Data Mining

Clustering Data Mining

Was ist Clustering? Finden von Gruppen von Objekten, wobei die Objekte einer Gruppe einander ähneln und sich unterscheiden von Objekten anderer Gruppen. Clusterabständeuntereinander maximal Abstände innerhalb der Cluster minimal Data Mining

Beispiele für Cluster Biologie: Reich, Stamm, Ordnung, Klasse, Familie, Gattung... Klimazonen: Tropen, Subtropen, gemäßigte Zone, Subpolargebiete, Polargebiete Medizin: ähnliche Muster von Symptomen werden zu Krankheiten zusammengefasst Data Mining

Gründe für Clustering Verstehen von Zusammenhängen
Dateneigenschaften und deren Verteilung erkennen Zusammenfassen von Daten Verkleinern von großen Datenmengen dadurch schnellere Prozesse auf den Daten „Teile und beherrsche“ Data Mining

Mehrdeutigkeit bei Clusterbestimmung
Wie viele Cluster sind das? 6 Cluster 4 Cluster 2 Cluster Data Mining

Clustertypen: Deutlich getrennte Cluster
Ein Cluster ist eine Punktmenge, wobei jeder Punkt des Clusters näher jedem anderen Punkt des eigenen Clusters ist als zu irgendeinem Punkt eines andern Clusters. Data Mining

Clustertypen: Zentriert
Ein Cluster ist eine Punktmenge, wobei jeder Punkt des Clusters näher dem Mittelpunkt des eigenen Clusters ist als zu dem Mittelpunkt eines andern Clusters. Der Mittelpunkt ist häufig ein Mittelwert aus allen Punkten des Clusters. Data Mining

Clustertypen: nächste Nachbarn
Ein Cluster ist eine Punktmenge, wobei jeder Punkt des Clusters näher einem oder mehreren Punkten des eigenen Clusters ist als zu irgendeinem Punkt eines andern Clusters. Data Mining

Clustertypen: Dichtigkeit
Ein Cluster ist eine dichte Punktmenge, die durch Bereiche geringer Dichte von anderen Regionen mit hoher Dichte abgegrenzt sind. Wird verwendet, wenn Cluster unregelmäßig oder ineinander verschlungen sind und wenn Störungen und Ausreißer vorhanden sind. Data Mining

Kombination aus nächste Nachbarn und Dichtigkeit
Bsp.: Optical Character Recognition Data Mining

Clustertypen: Konzeptionell
Cluster teilen sich eine gemeinsame Eigenschaft oder repräsentieren ein spezielles Konzept. Data Mining

k-Means-Algorithmus k-Means ist ein häufig genutzter Algorithmus zur Clusterbildung. Zu jedem Cluster gibt es einen Mittelpunkt. Jeder Datenpunkt ist mit dem Cluster verbunden, dessen Mittelpunkt am nächsten liegt. Der Mittelpunkt wird häufig über einen Mittelwert (engl. mean) der Datenpunkte eines Clusters gebildet. Die Anzahl k der Cluster muss vor Ausführung des Algorithmus festgelegt werden. Data Mining

k-Means-Algorithmus 1. Zufällige Wahl der Clusterzentren wiederhole:
a. Jedes Objekt wird dem Cluster zugeordnet, dessen Clusterzentrum am nächsten liegt -> Cluster b. Von diesen Clustern wird das neue Clusterzentrum berechnet bis sich die Clusterzentren nicht mehr verschieben Data Mining

k-Means-Algorithmus Data Mining

Gleiche Datenmenge – unterschiedliche Startzentren
Data Mining

Grenzen von k-Means: unterschiedliche Clustergrößen
Original Points K-means (3 Clusters) Data Mining

Grenzen von k-Means: unterschiedliche Punktdichte
Original Points K-means (3 Clusters) Data Mining

alternativer Clustering-Algorithmus
Greedy Heuristik Lese sequentiell alle Datensätze Für den nächsten Datensatz r bestimme Für alle bisher existierenden Cluster denjenigen c, dessen Zentrum den kürzesten Abstand zu r hat Wenn Abstand(r,Zentrum(c)) <= epsilon Füger r in c ein Anderenfalls lege einen neuen Cluster c` an, der zunächst nur r enthält Funktioniert solange ganz gut, wie die Cluster in den Hauptspeicher passen Hier im Gegensatz zu k-Means keine vorherige Angabe der Clusteranzahl Data Mining

alternativer Clustering-Algorithmus
Original-Werte alternativer Clustering-Algorithmus Data Mining

Assoziationsanalyse Klassifikation Clustering

Ähnliche Präsentationen

Präsentation zum Thema: "Assoziationsanalyse Klassifikation Clustering"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Assoziationsanalyse Klassifikation Clustering

Ähnliche Präsentationen

Präsentation zum Thema: "Assoziationsanalyse Klassifikation Clustering"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback