Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Adaption von K-Means Algorithmen an Datenbanken

Ähnliche Präsentationen


Präsentation zum Thema: "Adaption von K-Means Algorithmen an Datenbanken"—  Präsentation transkript:

1 Adaption von K-Means Algorithmen an Datenbanken
Gruppe 2 Sven März Christian Bomhardt

2 Aufgabenstellung Implementierung von K-Means
Anpassung an DB2 Datenbank Optimierung durch SQL Abfragen Vergleich der verschiedenen Implementierungen mit Standard Verfahren.

3 Arbeitsumgebung Installation des DB2 Server unter Linux
Programmier-Umgebung Visual Age 2.0 für Windows Visual Age 3.0 unter Linux Einrichten des DB2 Clienten für den Zugriff auf den Uni Rechner über ISDN Anpassung der DB2 Datenbank auf dem NT Test Server

4 Programmierung K-Means wurde für die Datenbank implementiert
Auslesen der Clusterzentren aus der Datenbank Berechne Abstand einer Reihe zu jedem Zentrum Zuweisung der Cluster ID mit dem kleinsten Abstand Wurde Zuweisung geändert neuer Durchlauf Test mit selbst erstellten Zufallsdaten

5 Programmierung Anpassung an die Datenbank
Zuweisung der Cluster zu den Zentren in der Datenbank a) Eine SQL Abfrage mit einer User Defined Function b) Komplette Logik in einem SQL Statement Einsatz der zweiten Variante : UPDATE A SET clusterzuordung=(SELECT MIN(ID) FROM B WHERE distanz(Objekt,Zentrum)=(SELECT MIN(distanz(Objekt,Zentrum)) FROM B )) Wobei A die Objekt Tabelle und B die Clustertabelle sind

6 Das Programm Anmelden an der Datenbank Auswahl der Tabellen
Hilfe durch Datenbank Browser

7 Das Programm Auswahl der Spalten Temporäre Tabelle erstellen
Gewünschten Algorithmus starten Cursor Interface = Standard Version ohne CI => Optimierte SQL Abfrage Ergebnis

8 Ergebnisse Testlauf mit 1000 Datensätzen und 3 Dimensionen
Anbindung an die Datenbank über ISDN Beispiel Daten :

9 Ergebnisse Startlösung 1 und 2 führen fast zu den codierten Zentren
Vorgegeben zufällig , , ,91493 , , ,1628 , , ,6111 , , ,47109 , , ,07383

10 Ergebnisse Zeitliche Unterschiede
Cursor Interface 2 Iterationen : 3 min Cursor Interface 4 Iterationen : 5 min SQL Abfrage Iterationen : 6 s SQL Abfrage Iterationen : 10 s Lange Berechnungszeit des CI durch geringen Datendurchsatz der ISDN Leitung 10000 Datensätze mit 30 Dimensionen über 10Mbit 5 Min Cursor Interface 6 Min SQL Abfrage => Optimierung geeignet für Thin Clients

11 Verbesserungen Programm Algorithmus Clusterzentren vorschlagen
Datenbankbrowser mit erweiterten Funktionen Algorithmus weitere SQL Abfragen implementieren z.B. Test der Zentrenänderung, Optimierung der jetzigen Statements Einbindung weiterer Verfahren kompaktere Darstellung der Daten (Beispiel BIRCH) Selektive Auswahl an Daten (Beispiel CLARA oder DBSCan)

12 Probleme Installation von DB2 unter Linux DB2 SQL Statements und UDFs
Visual Age 2.0 für Windows Keine Standard Swing Klassen Datenbankanbindung noch im Debugger Modus Absturtz des DB2 Servers

13 Demonstration des Programms
Testlauf Demonstration des Programms java KMeans


Herunterladen ppt "Adaption von K-Means Algorithmen an Datenbanken"

Ähnliche Präsentationen


Google-Anzeigen