Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seminar: Neue Ansätze der KI Thema des Referats: SPRINT: A scalable parallel classifier for Data Mining Athina Poppi Uni Dortmund, 4.6.2002 1.

Ähnliche Präsentationen


Präsentation zum Thema: "Seminar: Neue Ansätze der KI Thema des Referats: SPRINT: A scalable parallel classifier for Data Mining Athina Poppi Uni Dortmund, 4.6.2002 1."—  Präsentation transkript:

1 Seminar: Neue Ansätze der KI Thema des Referats: SPRINT: A scalable parallel classifier for Data Mining Athina Poppi Uni Dortmund,

2 Inhaltsverzeichnis 1.Klassifikation 2.Entscheidungsbaum 3.SPRINT 4.Fazit 5.Literatur Athina Poppi Uni Dortmund,

3 1.1 Klassifikation  Ziel: Bildung eines Klassifikationsmodells um die Datenzugehörigkeit vorher sagen zu können.  Verschiedene Methoden. Am beliebtesten: Entscheidungsbäume (sie können relativ schnell konstruiert werden, sind einfach zu interpretieren und man erreicht ähnliche, oft auch bessere Genauigkeit)  Anwendung: Kleinzielmarketing, Betrugabfragung und medizinische Diagnose Athina Poppi Uni Dortmund,

4 1.2 Klassifikationsmodell  Training Set: Datenmenge zur Bildung der Klassifikationsmodells.  Training Sample: Einzelne Datensätze.  Attribute: continuous (zB Einkommen, Alter) oder categorical (zB Autotyp, Sportart).  Continuous # categorical: geordnet # ungeordnet  Classifying attribute Athina Poppi Uni Dortmund,

5 2.1 Entscheidungsbaum Besteht aus mehreren Knoten Jeder Knoten ist ein Blatt oder ein Entscheidungsknoten (split point) Blatt: repräsentiert eine Klasse Split point: Hier wird der Test durchgeführt Athina Poppi Uni Dortmund,

6 2.2 Beispiel: Autoversicherung TidAgeCar Type Risk 023FamilyHigh 117SportsHigh 243SportsHigh 368FamilyLow 432TruckLow 520familyHigh Training Set Decision tree Age<25 CarType in{Sports} High Low Athina Poppi Uni Dortmund, ja nein ja

7 3. SPRINT Scalable PaRallelizable Indution of decision Trees Entwicklung: IBM Almaden Decision-tree-based classification algorithm Serial algorithm Excellent scaleup, speedup and sizeup properties Athina Poppi Uni Dortmund,

8 3.1 Serienalgorithmus 2 Phasen: growth and prune phase. growth phase: Der Baum wird errichtet,also man verteilt die Daten rekursiv. prune phase: Der Baum wird gestutzt bzw. verallgemeinert um eine Überanpassung des Baums aufgrund von Ausreissern oder fehlerhafte Daten in den Trainingsdaten zu verhindern. Zeit benötigt: nur ca. 1% der Gesamtlaufzeit bei die Baumbildung Athina Poppi Uni Dortmund,

9 3.2 Recursive Tree-growth algorithm Athina Poppi Uni Dortmund, Partition (Data S) if (all points in S are from the same class) then return; for each attribute A do evaluate splits on attribute A; Use best split found to partition S into S1 and S2; Partition (S1); Partition (S2); Initial call: Partition(TrainingData)

10 3.3 Datenstrukturen Attribute lists: Jeder Eintrag besteht aus einem Attributwert, dem Klassenwert und einem Schlüssel (Tupel Identifier, Tid). Histograms:  continuous: 2 Histogramms kommunizieren mit jedem Entscheidungsbaum.  Categorical: brauchen nur 1 Histogram (count matrix). Athina Poppi Uni Dortmund,

11 3.4 Splitting a node´s attribute lists Athina Poppi Uni Dortmund, AgeClassTid 17High1 20High5 23High0 32Low4 43High2 68Low3 CarTypeClassTid FamilyHigh1 SportsHigh5 SportsHigh0 FamilyLow4 TruckHigh2 familyLow3 Age< Attribute lists for node 0 Attribute lists for node 1 AgeClassTid 17High1 20High5 23High0 Car Type ClassTid FamilyHigh0 SportsHigh1 familyHigh5

12 3.5 Evaluating continuous split points Athina Poppi Uni Dortmund, AgeClassTid 17High1 20High5 23High0 32Low4 43High2 68Low3 Attribute List Position of Cursor in scan Position 0 Position 3 Position 6 State of class Histograms 00 H L 42 C below C above C below C above C below C above

13 3.6 Evaluating categorical split points Athina Poppi Uni Dortmund, Car Type ClassTid FamilyHigh0 SportsHigh1 SportsHigh2 FamilyLow3 TruckLow4 familyHigh5 Attribute List Count matrix H L Family Sports truck

14 3.7 Finding Split points Ein Split-Test ist abhängig vom Typ des Attributs. continuous: A

15 3.8 Parallelizing Classification Athina Poppi Uni Dortmund, Growth phase: The primary problem remains finding gut split points and partitioning the data using the discovered split-points. SPRINT: parallelizes quite naturally and efficiently (design). Each processor works on only 1/N of the total data Finding split-points:similar to the serial version. Differences appears only before and after the attribute-list partitions are scanned. Continuous: Differences in C below and C above Categorical: global count matrix

16 3.9 Parallel Data Placement AgeClassTid 17High1 20High5 23High0 AgeClassTid 32Low4 43High2 68Low3 Processor 0 Processor 1 Car TypeClassTid FamilyHigh0 SportsHigh1 SportsHigh2 Athina Poppi Uni Dortmund, Car TypeClassTid FamilyLow3 TruckLow4 familyHigh5

17 3.10 Speedup of SPRINT Athina Poppi Uni Dortmund,

18 3.11 Leistung Das parallization werden an Primitiven einer 16- node verwendenden Standard-MPI IBM SP2 Kommunikation des Modells 9076 durchgeführt. Jeder Nullpunkt hat einen Prozessor, an 62.5MHZ mit 128Mb des Gedächtnisses zu laufen. Alle Prozessoren laufen auf AIX-Niveau 4,1 Obwohl SPRINT langsamer als andere Algorithmen ist, stellt er ein fast lineares scaleup aus. Athina Poppi Uni Dortmund,

19 3.12 Uniprocessor performance Athina Poppi Uni Dortmund,

20 4. Fazit SPRINT ist einer Klassifikationsalgorithmus der ausgezeichnetes scalability ausstellt und in der Lage ist, grosse Datensätze anzufassen, dass andere Algorithmen nicht imstande sind. ABER: 1.Es werden bedeutende Kommunikationsunkosten pro Prozessor vorgestellt. 2.Die Prüfenstruktur (die als hashtable eingeführt wird), ist das intensive Gedächtnis und hat die Grösse des gleichen Auftrages, der die Grösse des Ausgangstrainings einstellt. Verbesserte Version von SPRINT: ScalPacC Athina Poppi Uni Dortmund,

21 5. Literaturliste SPRINT: a Scalable Paraller Classifier for Data Mining, John Shafer, Rakesh Agrawal, Manish Mehta, Proceedings of the 22th VLDB Conference Mumbai (Bombay), India, 1996 Parallele Data Mining Algorithmen, Bearbeiter: Rudi Husser, Betreuer: Ralf Rantzau, Prüfer: Prof. Bernhard Mitschang, Datum: , Uni Stuttgart Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 Athina Poppi Uni Dortmund,


Herunterladen ppt "Seminar: Neue Ansätze der KI Thema des Referats: SPRINT: A scalable parallel classifier for Data Mining Athina Poppi Uni Dortmund, 4.6.2002 1."

Ähnliche Präsentationen


Google-Anzeigen