Seminar: Neue Ansätze der KI

Slides:



Advertisements
Ähnliche Präsentationen
Dynamische WEB-Applikationen
Advertisements

Intelligente Anwendungen im Internet
Test am Max Musterschüler
Geometrische Datenstrukturen Haozhe Chen Aaron Richardson.
Kapitel 9: Graphdurchlauf
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
Rechnernetze und verteilte Systeme (BSRvS II)
SST - Sequence Search Tree
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Bäume • Kernidee: Speicherung von Daten in einer Baumstruktur
Geodaten im Internet ( II )
Objektrelationales Mapping mit JPA Entity Mapping Jonas Bandi Simon Martinelli.
Binäre Bäume Richard Göbel.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
Welcome DTD. Document Type Definition Graphic Services/Everything you already know about presentations Was ist eine DTD? DTD ist eine Schemasprache.
Konfidenzintervalle für Parameter
Proactivity for nomadic devices
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
Proseminar Sekundäranalyse SoSe05
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
Automatisches Testen und Bewerten von Java-Klassen
Seminar Web-Engineering Nina Aschenbrenner / Ruben Jubeh 1 FG Software Engineering Software Engineering Seminar Web Engineering Seminar des Fachgebiet.
DVG Verkettete Listen Verkettete Listen. DVG Verkettete Listen 2 Primitive Datentypen Vorteile: –werden direkt vom Prozessor unterstützt.
Datenbanken 2: Die relationale Datentabelle
Machine Learning Decision Trees (2).
Hallo ihr beiden! Wir möchten euch kurz die Uni Gießen vorstellen.
M A X - P L A N C K - G E S E L L S C H A F T Bericht des Partnerinstituts Sabine Krott 1.0 Pilotentreffen im Harnack-Haus, 8. Juni 2006 Distribution:
Dependence Analysis Eugen Kuss. Research proposal Interprocedural Dependence Analysis and Parallelization Problembeschreibung Dependece Analysis: Abhängigkeitsbeziehungen.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Artenschutz im Zoo Hannover
Platz für einen Titel Platz für einen (längeren) Untertitel.
Mehrrechner-Datenbanksysteme
Medien zwischen Technologie und Gesellschaft Dozent: Herr Prof. Dr. Manfred Thaller SS 13 Referent: Christian Braun.
Interaktive Karten zur Visualisierung statistischer Daten mit Descartes Vortrag von Annette Eicker GIS - Seminar WS 2000/01.
1 Österreichisches Jugendrotkreuz Internationaler Tag der Älteren Menschen 01. Oktober.
WS 2004/2005 Datenbanken II - 5W Mi 17:00 – 18:30 G 3.18 Vorlesung #4 Anfragebearbeitung (Teil 2)
Calendar Week 40 Gunnar Beutner. Bug Tracker Hi zusammen, bei der Vorbereitung auf das Meeting ist mir folgende aufgefallen bzw. unklar: - # Ich.
Mindfulness Based Therapy Seminar: ACT Dozentin: Dr. Anke Kirsch
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation I Vorlesung 12 WS 2000/2001 Gerhard Gröger Modellierung mit Geodatabases.
Entity Mapping Persistente Domänenmodelle mit JPA 2.0 und Bean Validation.
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Vorlesung 2 SWS WS 99/00 Gisbert Dittrich FBI Unido
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fakultät.
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich.
Zankena Begriffserklärung.
Parallel Programming Thread Synchronization. Heute 1. Lösung zu Assignment 2 2. Erstellen und Starten von Threads in Java 3. Das synchronized Schlüsselwort.
F-Sharp (F#) Eine multiparadigmatische Sprache. Merkmale von F# Multiparadigmatisch.NET-Sprache Skalierbar und effizient Als Forschungsprojekt von Microsoft.
Prädiktion und Klassifikation mit Random Forest
Mein Stammbaum.
SIT-MOON ESPRIT Project Nr st Review, Brussels, 27th of April 1998 slide 1 Siemens AG Österreich Robotiker Technische Universität Wien Politecnico.
Fleischteile vom Schwein
Fach: Philosophie-Psychologie Klasse: WG 13 Thema: Essstörungen 1
Lisa, Miriam, Lena, Henrike, Anne-Deike und Sina
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich.
Erstellen einer Arff-Datei
Seminar: Neue Ansätze der Künstlichen Intelligenz Seite 1Ulf Schneider02. Juli 2002 Ulf Schneider Neue Ansätze der Künstlichen Intelligenz: OIL Ontology.
Kompositionelle Ordnungsprinzipien 1
Zehnkampf – Datensatz Verena Mayr
Erhalt der Privatsphäre beim Data Mining Ulrich Graf Betreuer: Frank Eichinger Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit.
Georg Spitaler PS Interpretative Zugänge zu Popularkultur WS 2004/05
Induktion von Entscheidungsbäumen Seminar Data Mining am Fachgebiet Datenbanken und Informationssysteme Sommersemester 2007 Betreuer: Hendrik Warneke.
Referat am Thema: Familientherapeutisch- systemische Ansätze Seminar: ADS mit und ohne Hyperaktivität.
Test 1 Test 2 Test 3. Test 4 Test 5 Test 6 Test 7 Test 8 Test 9.
@ Wissensdatenbank der FHS WIKI Wiki-Kollaboration Gruppenarbeit, Referate, Präsentationen wiki.fh-sm.de Jena Erfurt.
Wie verwende ich Suchmaschinen richtig?
Laufzeitverhalten beim Sortieren
Test.
Datenbanken Von Zoe und Carem.
Name: Klasse: Datum: Übung: selbst korrigiert Korrektur Trainer 1 2 3
 Präsentation transkript:

Seminar: Neue Ansätze der KI Thema des Referats: SPRINT: A scalable parallel classifier for Data Mining Athina Poppi Uni Dortmund, 4.6.2002 1

Athina Poppi Uni Dortmund, 4.6.2002 2 Inhaltsverzeichnis Klassifikation Entscheidungsbaum SPRINT Fazit Literatur Athina Poppi Uni Dortmund, 4.6.2002 2

1.1 Klassifikation Ziel: Bildung eines Klassifikationsmodells um die Datenzugehörigkeit vorher sagen zu können. Verschiedene Methoden. Am beliebtesten: Entscheidungsbäume (sie können relativ schnell konstruiert werden, sind einfach zu interpretieren und man erreicht ähnliche, oft auch bessere Genauigkeit) Anwendung: Kleinzielmarketing, Betrugabfragung und medizinische Diagnose Athina Poppi Uni Dortmund, 4.6.2002 3

1.2 Klassifikationsmodell Training Set: Datenmenge zur Bildung der Klassifikationsmodells. Training Sample: Einzelne Datensätze. Attribute: continuous (zB Einkommen, Alter) oder categorical (zB Autotyp, Sportart). Continuous # categorical: geordnet # ungeordnet Classifying attribute Athina Poppi Uni Dortmund, 4.6.2002 4

2.1 Entscheidungsbaum Besteht aus mehreren Knoten Jeder Knoten ist ein Blatt oder ein Entscheidungsknoten (split point) Blatt: repräsentiert eine Klasse Split point: Hier wird der Test durchgeführt Athina Poppi Uni Dortmund, 4.6.2002 5

2.2 Beispiel: Autoversicherung Age<25 Tid Age Car Type Risk 23 Family High 1 17 Sports 2 43 3 68 Low 4 32 Truck 5 20 family nein CarType in{Sports} ja nein ja High High Low Decision tree Training Set Athina Poppi Uni Dortmund, 4.6.2002 6

3. SPRINT Scalable PaRallelizable Indution of decision Trees Entwicklung: IBM Almaden Decision-tree-based classification algorithm Serial algorithm Excellent scaleup, speedup and sizeup properties Athina Poppi Uni Dortmund, 4.6.2002 7

3.1 Serienalgorithmus 2 Phasen: growth and prune phase. growth phase: Der Baum wird errichtet,also man verteilt die Daten rekursiv. prune phase: Der Baum wird gestutzt bzw. verallgemeinert um eine Überanpassung des Baums aufgrund von Ausreissern oder fehlerhafte Daten in den Trainingsdaten zu verhindern. Zeit benötigt: nur ca. 1% der Gesamtlaufzeit bei die Baumbildung Athina Poppi Uni Dortmund, 4.6.2002 8

3.2 Recursive Tree-growth algorithm Partition (Data S) if (all points in S are from the same class) then return; for each attribute A do evaluate splits on attribute A; Use best split found to partition S into S1 and S2; Partition (S1); Partition (S2); Initial call: Partition(TrainingData) Athina Poppi Uni Dortmund, 4.6.2002 9

3.3 Datenstrukturen Attribute lists: Jeder Eintrag besteht aus einem Attributwert, dem Klassenwert und einem Schlüssel (Tupel Identifier, Tid). Histograms: continuous: 2 Histogramms kommunizieren mit jedem Entscheidungsbaum. Categorical: brauchen nur 1 Histogram (count matrix). Athina Poppi Uni Dortmund, 4.6.2002 10

3.4 Splitting a node´s attribute lists Attribute lists for node 1 Age Class Tid 17 High 1 20 5 23 32 Low 4 43 2 68 3 CarType Class Tid Family High 1 Sports 5 Low 4 Truck 2 family 3 Age Class Tid 17 High 1 20 5 23 Car Type Class Tid Family High Sports 1 family 5 Attribute lists for node 0 Age<27.5 1 2 Athina Poppi Uni Dortmund, 4.6.2002 11

3.5 Evaluating continuous split points State of class Histograms Position of Cursor in scan H L Attribute List Cbelow Cabove Age Class Tid 17 High 1 20 5 23 32 Low 4 43 2 68 3 Position 0 4 2 3 Cbelow Cabove Position 3 1 2 4 2 Cbelow Cabove Position 6 Athina Poppi Uni Dortmund, 4.6.2002 12

3.6 Evaluating categorical split points Attribute List Car Type Class Tid Family High Sports 1 2 Low 3 Truck 4 family 5 Count matrix H L Family Sports truck 2 1 Athina Poppi Uni Dortmund, 4.6.2002 13

3.7 Finding Split points Ein Split-Test ist abhängig vom Typ des Attributs. continuous: A<x, x ist ein Attributwert von der Wertebereich von A. categorical: BeS, S Teilmenge der Wertemenge von B. Beste Split Point: teilt am besten die mit diesem Knoten verbundene Trainingsdaten auf. Die Güte der Aufteilung sind abhängig von wie gut der Split die verschiedenen Klassen von einander trennt. Athina Poppi Uni Dortmund, 4.6.2002 14

3.8 Parallelizing Classification Growth phase: The primary problem remains finding gut split points and partitioning the data using the discovered split-points. SPRINT: parallelizes quite naturally and efficiently (design). Each processor works on only 1/N of the total data Finding split-points:similar to the serial version. Differences appears only before and after the attribute-list partitions are scanned. Continuous: Differences in Cbelow and Cabove Categorical: global count matrix Athina Poppi Uni Dortmund, 4.6.2002 15

3.9 Parallel Data Placement Processor 0 Age Class Tid 17 High 1 20 5 23 Car Type Class Tid Family High Sports 1 2 Processor 1 Car Type Class Tid Family Low 3 Truck 4 family High 5 Age Class Tid 32 Low 4 43 High 2 68 3 Athina Poppi Uni Dortmund, 4.6.2002 16

3.10 Speedup of SPRINT Athina Poppi Uni Dortmund, 4.6.2002 17

3.11 Leistung Das parallization werden an Primitiven einer 16-node verwendenden Standard-MPI IBM SP2 Kommunikation des Modells 9076 durchgeführt. Jeder Nullpunkt hat einen Prozessor, an 62.5MHZ mit 128Mb des Gedächtnisses zu laufen. Alle Prozessoren laufen auf AIX-Niveau 4,1 Obwohl SPRINT langsamer als andere Algorithmen ist, stellt er ein fast lineares scaleup aus. Athina Poppi Uni Dortmund, 4.6.2002 18

3.12 Uniprocessor performance Athina Poppi Uni Dortmund, 4.6.2002 19

4. Fazit SPRINT ist einer Klassifikationsalgorithmus der ausgezeichnetes scalability ausstellt und in der Lage ist, grosse Datensätze anzufassen, dass andere Algorithmen nicht imstande sind. ABER: Es werden bedeutende Kommunikationsunkosten pro Prozessor vorgestellt. Die Prüfenstruktur (die als hashtable eingeführt wird), ist das intensive Gedächtnis und hat die Grösse des gleichen Auftrages, der die Grösse des Ausgangstrainings einstellt . Verbesserte Version von SPRINT: ScalPacC Athina Poppi Uni Dortmund, 4.6.2002 20

5. Literaturliste SPRINT: a Scalable Paraller Classifier for Data Mining, John Shafer, Rakesh Agrawal, Manish Mehta, Proceedings of the 22th VLDB Conference Mumbai (Bombay), India, 1996 Parallele Data Mining Algorithmen, Bearbeiter: Rudi Husser, Betreuer: Ralf Rantzau, Prüfer: Prof. Bernhard Mitschang, Datum: 21.02.02, Uni Stuttgart Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 Athina Poppi Uni Dortmund, 4.6.2002 21