Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seminar: Neue Ansätze der KI

Ähnliche Präsentationen


Präsentation zum Thema: "Seminar: Neue Ansätze der KI"—  Präsentation transkript:

1 Seminar: Neue Ansätze der KI
Thema des Referats: SPRINT: A scalable parallel classifier for Data Mining Athina Poppi Uni Dortmund,

2 Athina Poppi Uni Dortmund, 4.6.2002 2
Inhaltsverzeichnis Klassifikation Entscheidungsbaum SPRINT Fazit Literatur Athina Poppi Uni Dortmund,

3 1.1 Klassifikation Ziel: Bildung eines Klassifikationsmodells um die Datenzugehörigkeit vorher sagen zu können. Verschiedene Methoden. Am beliebtesten: Entscheidungsbäume (sie können relativ schnell konstruiert werden, sind einfach zu interpretieren und man erreicht ähnliche, oft auch bessere Genauigkeit) Anwendung: Kleinzielmarketing, Betrugabfragung und medizinische Diagnose Athina Poppi Uni Dortmund,

4 1.2 Klassifikationsmodell
Training Set: Datenmenge zur Bildung der Klassifikationsmodells. Training Sample: Einzelne Datensätze. Attribute: continuous (zB Einkommen, Alter) oder categorical (zB Autotyp, Sportart). Continuous # categorical: geordnet # ungeordnet Classifying attribute Athina Poppi Uni Dortmund,

5 2.1 Entscheidungsbaum Besteht aus mehreren Knoten
Jeder Knoten ist ein Blatt oder ein Entscheidungsknoten (split point) Blatt: repräsentiert eine Klasse Split point: Hier wird der Test durchgeführt Athina Poppi Uni Dortmund,

6 2.2 Beispiel: Autoversicherung
Age<25 Tid Age Car Type Risk 23 Family High 1 17 Sports 2 43 3 68 Low 4 32 Truck 5 20 family nein CarType in{Sports} ja nein ja High High Low Decision tree Training Set Athina Poppi Uni Dortmund,

7 3. SPRINT Scalable PaRallelizable Indution of decision Trees
Entwicklung: IBM Almaden Decision-tree-based classification algorithm Serial algorithm Excellent scaleup, speedup and sizeup properties Athina Poppi Uni Dortmund,

8 3.1 Serienalgorithmus 2 Phasen: growth and prune phase.
growth phase: Der Baum wird errichtet,also man verteilt die Daten rekursiv. prune phase: Der Baum wird gestutzt bzw. verallgemeinert um eine Überanpassung des Baums aufgrund von Ausreissern oder fehlerhafte Daten in den Trainingsdaten zu verhindern. Zeit benötigt: nur ca. 1% der Gesamtlaufzeit bei die Baumbildung Athina Poppi Uni Dortmund,

9 3.2 Recursive Tree-growth algorithm
Partition (Data S) if (all points in S are from the same class) then return; for each attribute A do evaluate splits on attribute A; Use best split found to partition S into S1 and S2; Partition (S1); Partition (S2); Initial call: Partition(TrainingData) Athina Poppi Uni Dortmund,

10 3.3 Datenstrukturen Attribute lists: Jeder Eintrag besteht aus einem Attributwert, dem Klassenwert und einem Schlüssel (Tupel Identifier, Tid). Histograms: continuous: 2 Histogramms kommunizieren mit jedem Entscheidungsbaum. Categorical: brauchen nur 1 Histogram (count matrix). Athina Poppi Uni Dortmund,

11 3.4 Splitting a node´s attribute lists
Attribute lists for node 1 Age Class Tid 17 High 1 20 5 23 32 Low 4 43 2 68 3 CarType Class Tid Family High 1 Sports 5 Low 4 Truck 2 family 3 Age Class Tid 17 High 1 20 5 23 Car Type Class Tid Family High Sports 1 family 5 Attribute lists for node 0 Age<27.5 1 2 Athina Poppi Uni Dortmund,

12 3.5 Evaluating continuous split points
State of class Histograms Position of Cursor in scan H L Attribute List Cbelow Cabove Age Class Tid 17 High 1 20 5 23 32 Low 4 43 2 68 3 Position 0 4 2 3 Cbelow Cabove Position 3 1 2 4 2 Cbelow Cabove Position 6 Athina Poppi Uni Dortmund,

13 3.6 Evaluating categorical split points
Attribute List Car Type Class Tid Family High Sports 1 2 Low 3 Truck 4 family 5 Count matrix H L Family Sports truck 2 1 Athina Poppi Uni Dortmund,

14 3.7 Finding Split points Ein Split-Test ist abhängig vom Typ des Attributs. continuous: A<x, x ist ein Attributwert von der Wertebereich von A. categorical: BeS, S Teilmenge der Wertemenge von B. Beste Split Point: teilt am besten die mit diesem Knoten verbundene Trainingsdaten auf. Die Güte der Aufteilung sind abhängig von wie gut der Split die verschiedenen Klassen von einander trennt. Athina Poppi Uni Dortmund,

15 3.8 Parallelizing Classification
Growth phase: The primary problem remains finding gut split points and partitioning the data using the discovered split-points. SPRINT: parallelizes quite naturally and efficiently (design). Each processor works on only 1/N of the total data Finding split-points:similar to the serial version. Differences appears only before and after the attribute-list partitions are scanned. Continuous: Differences in Cbelow and Cabove Categorical: global count matrix Athina Poppi Uni Dortmund,

16 3.9 Parallel Data Placement
Processor 0 Age Class Tid 17 High 1 20 5 23 Car Type Class Tid Family High Sports 1 2 Processor 1 Car Type Class Tid Family Low 3 Truck 4 family High 5 Age Class Tid 32 Low 4 43 High 2 68 3 Athina Poppi Uni Dortmund,

17 3.10 Speedup of SPRINT Athina Poppi Uni Dortmund,

18 3.11 Leistung Das parallization werden an Primitiven einer 16-node verwendenden Standard-MPI IBM SP2 Kommunikation des Modells 9076 durchgeführt. Jeder Nullpunkt hat einen Prozessor, an 62.5MHZ mit 128Mb des Gedächtnisses zu laufen. Alle Prozessoren laufen auf AIX-Niveau 4,1 Obwohl SPRINT langsamer als andere Algorithmen ist, stellt er ein fast lineares scaleup aus. Athina Poppi Uni Dortmund,

19 3.12 Uniprocessor performance
Athina Poppi Uni Dortmund,

20 4. Fazit SPRINT ist einer Klassifikationsalgorithmus der ausgezeichnetes scalability ausstellt und in der Lage ist, grosse Datensätze anzufassen, dass andere Algorithmen nicht imstande sind. ABER: Es werden bedeutende Kommunikationsunkosten pro Prozessor vorgestellt. Die Prüfenstruktur (die als hashtable eingeführt wird), ist das intensive Gedächtnis und hat die Grösse des gleichen Auftrages, der die Grösse des Ausgangstrainings einstellt . Verbesserte Version von SPRINT: ScalPacC Athina Poppi Uni Dortmund,

21 5. Literaturliste SPRINT: a Scalable Paraller Classifier for Data Mining, John Shafer, Rakesh Agrawal, Manish Mehta, Proceedings of the 22th VLDB Conference Mumbai (Bombay), India, 1996 Parallele Data Mining Algorithmen, Bearbeiter: Rudi Husser, Betreuer: Ralf Rantzau, Prüfer: Prof. Bernhard Mitschang, Datum: , Uni Stuttgart Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 Athina Poppi Uni Dortmund,


Herunterladen ppt "Seminar: Neue Ansätze der KI"

Ähnliche Präsentationen


Google-Anzeigen