Assoziationsanalyse Klassifikation Clustering

Slides:

Advertisements

Ähnliche Präsentationen

Algorithmen und Datenstrukturen

Advertisements

Grundlagen des A*-Algorithmus und Anwendung in der Routenplanung

Knapsack & Bin Packing Sebastian Stober

Polynomial Root Isolation

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Data Mining Anwendungen und Techniken

Aufgabe Analyse (Friedman-Test) von letzter Stunde wiederholen

R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)

Sortierverfahren Richard Göbel.

Philosophische Fakultät 3: Empirische Humanwissenschaften Fachrichtung Erziehungswissenschaft Statistik I Anja Fey, M.A.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.

Algorithmen und Datenstrukturen

Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.

Datenbankentwurf mit Hilfe des ER-Modells entwickeln

Steffen Thomas 96I DATA MINING.

Hypothesen testen: Grundidee

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II Vorlesung In welcher Masche liegt der Punkt p?

2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell

Access 2000 Datenbanken.

Statistiktutorat: Datenkontrolle

Was sind Histogramme? (1)

Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.

Univariate Statistik M. Kresken.

Vorlesung: Biometrie für Studierende der Veterinärmedizin

Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1

Machine Learning Decision Trees (2).

Maschinelles Lernen und automatische Textklassifikation

Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.

Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Objektmodellierung Objekte und Klassen Ein Objekt ist ein Exemplar.

Christian Schulz, Marc Thielbeer, Sebastian Boldt

Histogramm/empirische Verteilung Verteilungen

EXCEL PROFESSIONAL KURS

Ausgleichungsrechnung II

Einführung in die Programmierung

Effiziente Algorithmen

Import und Verknüpfung von Daten

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

UML WS 09/10: Datenbanken vs MarkUp Dozent: Prof. Dr. Manfred Thaller

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Hartmut Klauck Universität Frankfurt SS

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Einführung in die Programmierung Wintersemester 2009/10 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.

Theorie der Stichprobe

Datenbanken Dantenbanksystem Data Base System Datenbasis (Daten)

Prädiktion und Klassifikation mit Random Forest

Strategie der Modellbildung

verstehen planen bearbeiten

Die ersten Schritte bei der Entdeckung der Statistik

Statistische Methoden in der Wirtschafts- und Sozialgeographie

Das Traveling Salesman Problem (TSP)

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation III Vorlesung 1 WS 2001/02 Punkt-in-Landkarte I (Streifenkarte)

Statistik – Regression - Korrelation

Vom graphischen Differenzieren

7. Formale Sprachen und Grammatiken

SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.

Weitere Informationen zur Vorlesung 1)In den Übungen werden die Aufgaben besprochen, die Sie im Internet auf der Seite meines Lehrstuhls finden. 2) Die.

Statistiken je nach Messniveau

Information - syntaktisch

Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.

Der Wiener Prozess und seltene Ereignisse

c-means clustering (FCM)

Preisfindung Rabattgruppen

Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.

Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.

Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.

Präsentation transkript:

Assoziationsanalyse Klassifikation Clustering Data Mining Assoziationsanalyse Klassifikation Clustering

Literatur Datenbanksysteme, Kapitel 17 Kemper, Eickler Introduction to Data Mining Pang-Ning Tan et. al. Data Mining

Was ist Data Mining? Data Mining ist der Prozess, nützliche Informationen aus großen Datenbeständen zu gewinnen. Hierbei werden mathematische Methoden auf den Datenbestand angewandt zur Mustererkennung. Data Mining

Was ist (nicht) Data Mining? Beispiele für Data Mining Bestimmte Namen sind in bestimmten Gegenden häufiger anzutreffen (z.B. Mayer besonders häufig in Baden-Württemberg, gen-evolu.de) Wettervorhersage Folgendes ist NICHT Data Mining Nachschlagen einer Telefonnummer im Telefonverzeichnis Webanfrage zu Informationen über Data Mining Data Mining

Warum Data Mining? – betriebswirtschaftliche Sicht Sehr viele Daten werden gespeichert: Einkäufe Geldtransfer Internet-Daten, Webshops ... Computer sind preisgünstiger und schneller geworden Speicherplatz wird immer günstiger Daten leicht beschaffbar Konkurrenzdruck Bedarf der Zielgruppenanalyse Bedarf der Produktoptimierung Data Mining

Warum Data Mining? – wissenschaftliche Sicht Daten werden mit großer Geschwindigkeit erzeugt und gespeichert experimentelle Messdaten wissenschaftliche Simulationen Data Mining hilft in der Wissenschaft: Klassifikation von Daten Formulierung und Verifikation von Hypothesen Data Mining

Ursprünge des Data Mining Verwendet Ideen des maschinellen Lernens, der Mustererkennung, der Statistik und von Datenbanksystemen Traditionelle Techniken können nicht angewendet werden aufgrund großer Datenmengen hoher Dimensionalität der Daten Heterogenität der Daten Maschinelles Lernen Mustererkennung Statistik Data Mining Datenbank- Systeme Data Mining

Methoden des Data Mining Vorhersagende Methoden Verwendung von Variablen, um unbekannte oder zukünftige Werte anderer Variablen vorherzusagen. Regression Klassifikation Beschreibende Methoden Herausfinden interpretierbarer Muster, die die Daten beschreiben Visualisierung Assoziationsregeln Clustering Aufdecken von Anomalien Data Mining

Attribut-Typen Qualitative (oder kategorische) Attribute repräsentieren verschiedene Kategorien und keine Zahlen. Mathematische Operationen nicht sinnvoll. Beispiel: Augenfarbe, IP-Adresse, Postleitzahl Qualitative Attribute unterteilen sich in Nominal und Ordinal Nominal: Attribute ohne Sortierung = ≠ Ordinal: Attribute mit einer sinnhaften Sortierung < > Quantitative (oder numerische) Attribute Zahlen. Mathematische Operationen möglich. Beispiel: Temperatur, Gewicht, Anzahl Quantitative Attribute unterteilen sich in Intervall und Ratio Intervall: es gibt keine echte Null, Division nicht sinnvoll + - Rational: es gibt eine echte Null, Division möglich * ÷ Data Mining

diskrete / kontinuierliche Attribute Diskrete Attribute Anzahl der Werte endlich oder abzählbar unendlich häufig Integer als Datentyp z.B. Postleitzahlen, Anzahl Zeichen Kontinuierliche Attribute Real/Fließkomma als Datentyp wird so genau angegeben, wie das Meßinstrument es erlaubt dadurch zwar nur endliche Anzahl von Nachkommastellen, jedoch Begrenzung nur durch Messinstrument z.B. Temperatur, Höhe, Gewicht Qualitative Attribute sind immer diskret Quantitative Attribute können diskret oder kontinuierlich sein Data Mining

Visualisierung von Daten Visualisierung von Daten ist die Anzeige von Information in einer Graphik oder Tabelle. Erfolgreiche Visualisierung erfordert, dass die Daten (die Information) in ein visuelles Format konvertiert wird. die Beziehung zwischen den Attributen in der Visualisierung analysiert werden kann. Ziel ist die Interpretation der visualisierten Information durch Personen. Data Mining

Box Plot Diagrammtyp zur Darstellung statistischer Daten Besteht aus Box, die 50 % der Werte aufnimmt, und zwei Linien (Whisker), die das Rechteck verlängern Durchgezogene Linie: Median Stellt die Verteilung der Werte eines Attributs gut dar Ausreißer 10 % 25 % 75 % 50 % 90 % Data Mining

Boxplot - Beispiel Der Median des Attributes A ist für Männer 2 und für Frauen 4,1. Ist dies ein großer Unterschied? Evt. JA: Evt. NEIN: Data Mining

Karte wissenschaftlicher Zusammenarbeit 2005-2009 visualcomplexity.com Data Mining

Bsp. Zeitabhängige Grafiken: Global Pulse Twitter-Nachrichten von und nach Japan kurz vor und nach dem Tsunami am 11.3.2011 Untersuchter Zeitraum: 1 Stunde Pink: aus Japan herausgehende Nachrichten Gelb: nach Japan hereingehende Nachrichten blog.twitter.com Data Mining

schlechte Diagramme Falls eine Information in einem Diagramm verwendet wird, darf diese nicht zu Fehlinterpretationen führen. Hier: 3D, Material Data Mining

Data Mining

Data Mining

Assoziationsanalyse Data Mining

Assoziationsanalyse Die Assoziationsanalyse sucht in den Daten nach Regeln, die angeben, wie wahrscheinlich das Auftreten eines Elements gleichzeitig mit bestimmten anderen Elementen ist. Beispiel: PC -> Drucker (Kauf eines PCs impliziert den Kauf eines Druckers) Implikation bedeutet gleichzeitiges Auftreten der Elemente. Es bedeutet jedoch keine Kausalität! Also nicht: Weil Artikel A gekauft wird, wird auch Artikel B gekauft. Sondern: Wenn Artikel A gekauft wird, wird mit einer bestimmten Wahrscheinlichkeit ebenfalls B gekauft. Data Mining

Assoziationsregeln Beispielregel Wenn jemand einen PC kauft, dann kauft er/sie auch einen Drucker Konfidenz Dieser Wert legt fest, bei welchem Prozentsatz der Datenmenge, bei der die Voraussetzung (linke Seite) erfüllt ist, die Regel (rechte Seite) auch erfüllt ist. Eine Konfidenz von 80% für unsere Beispielregel sagt aus, dass vier Fünftel der Leute, die einen PC gekauft haben, auch einen Drucker dazu gekauft haben. Support Dieser Wert legt fest, wie viele Datensätze überhaupt gefunden wurden, um die Gültigkeit der Regel zu verifizieren. Bei einem Support von 1% wäre also jeder hundertste Verkauf ein PC zusammen mit einem Drucker. Data Mining

Verkaufstransaktionen Warenkörbe TransID Produkt 111 Drucker Papier PC Toner 222 Scanner 333 444 555 Finde alle Assoziationsregeln L  R mit einem Support größer als minsupp und einer Konfidenz von mindestens minconf Dazu sucht man zunächst die sogenannten frequent itemsets (FI), also Produktmengen, die in mindestens minsupp der Einkaufswägen/ Transaktionen enthalten sind Der A Priori-Algorithmus basiert auf der Erkenntnis, dass alle Teilmengen eines FI auch FIs sein müssen Data Mining

A Priori Algorithmus für alle Produkte überprüfe ob es ein frequent itemset ist, also in mindestens minsupp Einkaufswagen enthalten ist k:=1 iteriere solange für jeden frequent itemset Ik mit k Produkten generiere alle itemsets Ik+1 mit k+1 Produkten und Ik  Ik+1 lies alle Einkäufe einmal (sequentieller Scan auf der Datenbank) und überprüfe, welche der (k+1)-elementigen itemset- Kandidaten mindestens minsupp mal vorkommen k:=k+1 bis keine neuen frequent itemsets gefunden werden Data Mining

VerkaufsTransaktionen A Priori-Algorithmus VerkaufsTransaktionen TransID Produkt 111 Drucker Papier PC Toner 222 Scanner 333 444 555 Minsupp=3 Zwischenergebnisse FI-Kandidat Anzahl {Drucker} 4 {Papier} 3 {PC} {Scanner} 2 {Toner} {Drucker, Papier} {Drucker, PC} {Drucker, Scanner} {Drucker, Toner} {Papier, PC} {Papier, Scanner} {Papier, Toner} {PC, Scanner} {PC,Toner} {Scanner, Toner} Disqua-lifiziert Data Mining

VerkaufsTransaktionen A Priori-Algorithmus VerkaufsTransaktionen TransID Produkt 111 Drucker Papier PC Toner 222 Scanner 333 444 555 Zwischenergebnisse FI-Kandidat Anzahl {Drucker, Papier} 3 {Drucker, PC} {Drucker, Scanner} {Drucker, Toner} {Papier, PC} 2 {Papier, Scanner} {Papier, Toner} {PC, Scanner} {PC,Toner} {Scanner, Toner} {Drucker, Papier, PC} {Drucker, Papier, Toner} {Drucker, PC, Toner} {Papier, PC, Toner} Data Mining

Ableitung von Assoziationsregeln aus den frequent itemsets Betrachte jeden FI (diese haben hinreichend viel support) Bilde alle nicht-leeren Teilmengen L  FI und untersuche die Regel L  FI – L Die Konfidenz dieser Regel berechnet sich als Konfidenz (L  FI – L) = support(FI) / support(L) Wenn die Konfidenz ausreicht, also > minconf ist, behalte diese Regel Betrachte FI = {Drucker, Papier, Toner} Support = 3 Regel: {Drucker}  {Papier, Toner} Konfidenz = S({Drucker, Papier, Toner}) / S({Drucker}) = (3/5) / (4/5) = ¾ = 75 % Data Mining

Erhöhung der Konfidenz Vergrößern der linken Seite (dadurch Verkleinern der rechten Seite) führt zur Erhöhung der Konfidenz Formal: L  L+ , R-  R Konfidenz (LR) <= C(L+ R- ) Beispiel-Regel: {Drucker}  {Papier, Toner} Konfidenz = S({Drucker, Papier, Toner}) / S({Drucker}) = (3/5) / (4/5) = ¾ = 75% Beispiel-Regel: {Drucker,Papier}  {Toner} Konfidenz = S({Drucker, Papier, Toner}) / S({Drucker,Papier}) = (3/5) / (3/5) = 1 = 100% Data Mining

Vorsicht bei Deutung der Konfidenz Kaffee ¬ Kaffee Gesamt Tee 15 5 20 ¬ Tee 75 80 90 10 100 Personen kaufen Kaffee und Tee Assoziationsregel Tee  Kaffee wird untersucht Konfidenz(Tee  Kaffee) = 0.75 Konfidenz scheint hoch zu sein, dies ist jedoch irreführend: Konfidenz(¬Tee  Kaffee) = 0.94 Data Mining

Simpson-Paradoxon Beispiel: Zwei Personen A und B spielen Basketball und zählen den Erfolg ihrer Korbwürfe: Wer ist der bessere Spieler? Wer ist der bessere Spieler, wenn die Wurfweite berücksichtigt wird? A B getroffen 10 8 nicht getroffen 12 Gesamt 20 A B kurz weit Gesamt getroffen 9 1 10 3 5 8 nicht getroffen 7 2 12 16 4 20 15 Data Mining

Simpson-Paradoxon Eine dritte (evtl. versteckte) Variable bewirkt, dass eine beobachtete Beziehung zwischen zwei Variablen verschwindet oder in entgegengesetzte Richtung läuft. Data Mining

Simpson-Paradoxon: Univ. Berkeley Ist die Universität Berkeley in ihren Studenten-Zulassungen frauenfeindlich? (Zahlen von 1973) Bewerber Zugelassen Männer 8442 44% Frauen 4321 35% Department Männer Frauen Bewerber Zugelassen A 825 62 % 108 82 % B 560 63 % 25 68 % C 325 37 % 593 34 % D 417 33 % 357 35 % E 191 28 % 393 24 % F 272 6 % 341 7 % Nur zwei von sechs Departments haben bei Frauen eine niedrigere Zulassungsrate. Frauen bewerben sich tendenziell häufiger in Departments mit einer niedrigen Zulassungs-Rate, Männer dagegen häufiger in Departments mit hoher Zulassungs-Rate. Data Mining

Arbeitsblatt Aufgabe 3 KundenNr TransaktionsNr Einkauf 1 0001 {a,d,e} 0024 {a,b,c,e} 2 0012 {a,b,d,e} 0031 {a,c,d,e} 3 0015 {b,c,e} 0022 {b,d,e} 4 0029 {c,d} 0040 {a,b,c} 5 0033 0038 {a,b,e} Data Mining

{Milch, Windeln, Brot, Butter} Arbeitsblatt Aufgabe 4 TransaktionsNr Einkauf 1 {Milch, Bier, Windeln} 2 {Brot, Butter, Milch} 3 {Milch, Windeln, Kekse} 4 {Brot, Butter, Kekse} 5 {Bier, Kekse, Windeln} 6 {Milch, Windeln, Brot, Butter} 7 {Brot, Butter, Windeln} 8 {Bier, Windeln} 9 10 {Bier, Kekse} Data Mining

Stichprobe Eine Stichprobe ist eine kleinere Teilmenge einer Datenmenge. Stichproben sind notwendig, wenn die Analyse der gesamten Datenmenge zu aufwendig ist. Stichproben müssen repräsentativ für die gesamte Datenmenge sein. Eine Stichprobe ist dann repräsentativ, wenn sie annähernd die selben Eigenschaften hat wie die gesamte Datenmenge. Beispiel zur Erzeugung einer Stichprobe: Einfache Zufallsauswahl. Die Wahrscheinlichkeit für die Auswahl eines Datensatzes aus der Originalmenge in die Stichprobe ist gleich. Je größer die Stichprobe, je kleiner Median-Abstand zwischen Stichprobe und Datenmenge: ~ 1 𝑆𝑡𝑖𝑐ℎ𝑝𝑟𝑜𝑏𝑒𝑛𝑔𝑟öß𝑒 (Unabhängig von Größe der Datenmenge!) Data Mining

Klassifikation Data Mining

Induktion des Entscheidungsbaums Klassifikation Lern-Algorithmus, z.B. Hunt Kontrolle: Fehlerrate, Entropie... Induktion des Entscheidungsbaums Modell: Entscheidungsbaum Trainingsmenge Anwenden des Modells Tupelmenge Data Mining

Beispiele für Klassifikation Tumorzellen als gut- oder bösartig vorhersagen Kreditkarten-Transaktionen als rechtmäßig oder als Betrug klassifizieren Klassifikation von Adressdaten für Direktmailings Kategorisieren von Nachrichten in Finanzen, Wetter, Unterhaltung, Sport etc. Data Mining

Klassifikationsregeln Vorhersageattribute V1, V2, ..., Vn Vorhergesagtes Attribut A Klassifikationsregel P1(V1)  P2(V2)  ...  Pn(Vn)  A = c Prädikate P1, P2, .., Pn Konstante c Beispielregel (wieAlt>35)  (Geschlecht =`m´)  (Autotyp=`Coupé´)  (Risiko=´hoch´) Data Mining

Klassifikations-/Entscheidungsbaum Data Mining

Klassifikations-/Entscheidungsbaum Data Mining

Klassifikations-/Entscheidungsbaum (wieAlt>35)  (Geschlecht =`m´)  (Autotyp=`Coupé´)  (Risiko=´hoch´) Data Mining

Erstellen von Entscheidungs-/ Klassifikationsbäumen Trainingsmenge Große Zahl von Datensätzen, die in der Vergangenheit gesammelt wurden Sie dient als Grundlage für die Vorhersage von „neu ankommenden“ Objekten ist Stichprobe: die Daten müssen repräsentativ für die gesamte Datenmenge sein. Kann durch Zufallsauswahl gewonnen werden. Beispiel: neuer Versicherungskunde wird gemäß dem Verhalten seiner „Artgenossen“ eingestuft Rekursives Partitionieren Fange mit einem Attribut an und spalte die Tupelmenge Jede dieser Teilmengen wird rekursiv weiter partitioniert Bis nur noch gleichartige Objekte in der jeweiligen Partition sind Data Mining

Hunt-Algorithmus = Top-Down-Algorithmus Dt ist die Menge der Trainingsdatensätze am Knoten t Falls die Datensätze in Dt nur einer Klasse yt angehören, dann ist t ein yt-Blatt. Falls die Datensätze in Dt zu mehr als einer Klasse angehören, wird ein Attribut-Test durchgeführt, welches Attribut am geeignetsten ist, um die Daten in kleinere Untermengen zu teilen. Dieser Algorithmus wird rekursiv auf jede Untermenge angewandt. Data Mining

Hunt-Algorithmus Bsp.

Entscheidungen im Hunt-Algorithmus Welche Testbedingungen für Attribute sollen möglich sein? z.B nur binäre Aufteilungen, sowohl für numerische als auch kategorische Daten Nach welchem Kriterium wird entschieden, welches die beste Datenaufteilung ist? Klassifikations-Fehlerrate, Gini-Index, Entropie An welcher Stelle muss die Aufteilung beendet werden? Wenn alle Attribute gleich oder ähnlich (Kriterium ?) sind. Data Mining

Testbedingungen für Attribute Abhängig vom Attributtyp Kategorisch Numerisch Kontinuierlich Abhängig von der Anzahl der Aufteilungen 2-fache Aufteilungen mehrfache Aufteilungen Data Mining

Aufteilung bei kategorischen Attributen Mehrfache Aufteilungen: Anzahl Teile = Anzahl unterschiedlicher Werte Binäre Aufteilung. Aufteilung in zwei Untermengen. Optimale Aufteilung muss gefunden werden. PKW-Typ Kombi Sport Limousine PKW-Typ {Sport, Limusine} {Kombi} PKW-Typ {Kombi, Limusine} {Sport} Data Mining

Aufteilung bei kontinuierlichen Daten Data Mining

Wie findet man die beste Aufteilung? Knoten mit homogener Klassenverteilung werden bevorzugt. Benötigt wird ein Maß für Homogenität: Inhomogen Homogen Data Mining

Klassifikations-Fehlerrate p(i|t) ist der Prozentsatz der Datensätze, die an einem Knoten t zur Klasse i gehören. Gibt es nur zwei Klassen, so ist p(1|t) = 1 – p(0|t) Schreibweise ohne Angaben des Knotens: pi Fehlerrate: Error(t) = 1 – maxi[p(i|t)] = Prozentsatz der falsch klassifizierten Fälle (1 - Fehlerrate) = Genauigkeit Data Mining

Gini-Index Gini-Index ist Maß für Ungleichverteilungen Zahl zwischen 0 und 0.5 (bei binären Klassen) Maximum 0,5, wenn die Datensätze auf alle Klassen gleich verteilt sind. Keine Information. Minimum 0, wenn alle Datensätze einer Klasse angehören. Maximum an Information. Gini-Index an einem Knoten t für eine Menge T von Trainingsobjekten: Gini(T) = 1 – 𝑖 (𝑝 𝑖 𝑡 ) 2 Gini-Index für Partitionierung von T in T1, T2, .. Tm: Gini(T1,..Tm)= 𝑖=1 𝑚 𝑇𝑖 𝑇 𝐺𝑖𝑛𝑖(𝑇𝑖) wird von rpart() in R verwendet Data Mining

Beispiel Gini-Index / Fehlerrate Ja Nein C1 C2 P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 Gini = 1 – P(C1)2 – P(C2)2 = 1 – (0/6)2 – (6/6)2 = 0 (ideal) Fehlerrate = 1 – max(0/6 | 6/6) = 0 P(C1) = 1/6 P(C2) = 5/6 Gini = 1 – (1/6)2 – (5/6)2 = 0.278 Fehlerrate = 1 – max(1/6 | 5/6) = 0.167 P(C1) = 2/6 P(C2) = 4/6 Gini = 1 – (2/6)2 – (4/6)2 = 0.444 Fehlerrate = 1 – max(2/6 | 4/6) = 0.333 P(C1) = 3/6 P(C2) = 3/6 Gini = 1 – (3/6)2 – (3/6)2 = 0.5 (schlecht) Fehlerrate = 1 – max(3/6 | 3/6) = 0.5 Data Mining

Vergleich Gini-Index / Fehlerrate Data Mining

Aufgabe Gini-Index / Fehlerrate Sollte zunächst nach a1 oder zunächst nach a2 aufgeteilt werden? Berechnen Sie dazu den Gini-Index für a1 und für a2. die Fehlerrate für a1 und für a2. Data Mining

Clustering Data Mining

Clustering Data Mining

Was ist Clustering? Finden von Gruppen von Objekten, wobei die Objekte einer Gruppe einander ähneln und sich unterscheiden von Objekten anderer Gruppen. Clusterabständeuntereinander maximal Abstände innerhalb der Cluster minimal Data Mining

Beispiele für Cluster Biologie: Reich, Stamm, Ordnung, Klasse, Familie, Gattung... Klimazonen: Tropen, Subtropen, gemäßigte Zone, Subpolargebiete, Polargebiete Medizin: ähnliche Muster von Symptomen werden zu Krankheiten zusammengefasst Data Mining

Gründe für Clustering Verstehen von Zusammenhängen Dateneigenschaften und deren Verteilung erkennen Zusammenfassen von Daten Verkleinern von großen Datenmengen dadurch schnellere Prozesse auf den Daten „Teile und beherrsche“ Data Mining

Mehrdeutigkeit bei Clusterbestimmung Wie viele Cluster sind das? 6 Cluster 4 Cluster 2 Cluster Data Mining

Clustertypen: Deutlich getrennte Cluster Ein Cluster ist eine Punktmenge, wobei jeder Punkt des Clusters näher jedem anderen Punkt des eigenen Clusters ist als zu irgendeinem Punkt eines andern Clusters. Data Mining

Clustertypen: Zentriert Ein Cluster ist eine Punktmenge, wobei jeder Punkt des Clusters näher dem Mittelpunkt des eigenen Clusters ist als zu dem Mittelpunkt eines andern Clusters. Der Mittelpunkt ist häufig ein Mittelwert aus allen Punkten des Clusters. Data Mining

Clustertypen: nächste Nachbarn Ein Cluster ist eine Punktmenge, wobei jeder Punkt des Clusters näher einem oder mehreren Punkten des eigenen Clusters ist als zu irgendeinem Punkt eines andern Clusters. Data Mining

Clustertypen: Dichtigkeit Ein Cluster ist eine dichte Punktmenge, die durch Bereiche geringer Dichte von anderen Regionen mit hoher Dichte abgegrenzt sind. Wird verwendet, wenn Cluster unregelmäßig oder ineinander verschlungen sind und wenn Störungen und Ausreißer vorhanden sind. Data Mining

Kombination aus nächste Nachbarn und Dichtigkeit Bsp.: Optical Character Recognition Data Mining

Clustertypen: Konzeptionell Cluster teilen sich eine gemeinsame Eigenschaft oder repräsentieren ein spezielles Konzept. Data Mining

k-Means-Algorithmus k-Means ist ein häufig genutzter Algorithmus zur Clusterbildung. Zu jedem Cluster gibt es einen Mittelpunkt. Jeder Datenpunkt ist mit dem Cluster verbunden, dessen Mittelpunkt am nächsten liegt. Der Mittelpunkt wird häufig über einen Mittelwert (engl. mean) der Datenpunkte eines Clusters gebildet. Die Anzahl k der Cluster muss vor Ausführung des Algorithmus festgelegt werden. Data Mining

k-Means-Algorithmus 1. Zufällige Wahl der Clusterzentren wiederhole: a. Jedes Objekt wird dem Cluster zugeordnet, dessen Clusterzentrum am nächsten liegt -> Cluster b. Von diesen Clustern wird das neue Clusterzentrum berechnet bis sich die Clusterzentren nicht mehr verschieben Data Mining

k-Means-Algorithmus Data Mining

Gleiche Datenmenge – unterschiedliche Startzentren Data Mining

Grenzen von k-Means: unterschiedliche Clustergrößen Original Points K-means (3 Clusters) Data Mining

Grenzen von k-Means: unterschiedliche Punktdichte Original Points K-means (3 Clusters) Data Mining

alternativer Clustering-Algorithmus Greedy Heuristik Lese sequentiell alle Datensätze Für den nächsten Datensatz r bestimme Für alle bisher existierenden Cluster denjenigen c, dessen Zentrum den kürzesten Abstand zu r hat Wenn Abstand(r,Zentrum(c)) <= epsilon Füger r in c ein Anderenfalls lege einen neuen Cluster c` an, der zunächst nur r enthält Funktioniert solange ganz gut, wie die Cluster in den Hauptspeicher passen Hier im Gegensatz zu k-Means keine vorherige Angabe der Clusteranzahl Data Mining

alternativer Clustering-Algorithmus Original-Werte alternativer Clustering-Algorithmus Data Mining