Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Adaption von K-Means Algorithmen an Datenbanken Gruppe 2 Sven März Christian Bomhardt.

Ähnliche Präsentationen


Präsentation zum Thema: "Adaption von K-Means Algorithmen an Datenbanken Gruppe 2 Sven März Christian Bomhardt."—  Präsentation transkript:

1 Adaption von K-Means Algorithmen an Datenbanken Gruppe 2 Sven März Christian Bomhardt

2 Aufgabenstellung Implementierung von K-Means Anpassung an DB2 Datenbank Optimierung durch SQL Abfragen Vergleich der verschiedenen Implementierungen mit Standard Verfahren.

3 Arbeitsumgebung Installation des DB2 Server unter Linux Programmier-Umgebung Visual Age 2.0 für Windows Visual Age 3.0 unter Linux Einrichten des DB2 Clienten für den Zugriff auf den Uni Rechner über ISDN Anpassung der DB2 Datenbank auf dem NT Test Server

4 Programmierung K-Means wurde für die Datenbank implementiert –Auslesen der Clusterzentren aus der Datenbank –Berechne Abstand einer Reihe zu jedem Zentrum –Zuweisung der Cluster ID mit dem kleinsten Abstand –Wurde Zuweisung geändert neuer Durchlauf Test mit selbst erstellten Zufallsdaten

5 Programmierung Anpassung an die Datenbank –Zuweisung der Cluster zu den Zentren in der Datenbank a) Eine SQL Abfrage mit einer User Defined Function b) Komplette Logik in einem SQL Statement Einsatz der zweiten Variante : –UPDATE A SET clusterzuordung=(SELECT MIN(ID) FROM B WHERE distanz(Objekt,Zentrum)=(SELECT MIN(distanz(Objekt,Zentrum)) FROM B )) –Wobei A die Objekt Tabelle und B die Clustertabelle sind

6 Das Programm Anmelden an der Datenbank Auswahl der Tabellen –Hilfe durch Datenbank Browser

7 Das Programm Auswahl der Spalten Temporäre Tabelle erstellen Gewünschten Algorithmus starten –Cursor Interface = Standard Version –ohne CI => Optimierte SQL Abfrage Ergebnis

8 Ergebnisse Testlauf mit 1000 Datensätzen und 3 Dimensionen Anbindung an die Datenbank über ISDN Beispiel Daten :

9 Ergebnisse Startlösung 1 und 2 führen fast zu den codierten Zentren – Vorgegeben zufällig , ,866681, , , , , , , , ,781837, ,389480, ,07383

10 Ergebnisse Zeitliche Unterschiede –Cursor Interface 2 Iterationen : 3 min –Cursor Interface 4 Iterationen : 5 min –SQL Abfrage 2 Iterationen : 6 s –SQL Abfrage 4 Iterationen : 10 s Lange Berechnungszeit des CI durch geringen Datendurchsatz der ISDN Leitung Datensätze mit 30 Dimensionen über 10Mbit –5 Min Cursor Interface –6 Min SQL Abfrage => Optimierung geeignet für Thin Clients

11 Verbesserungen Programm –Clusterzentren vorschlagen –Datenbankbrowser mit erweiterten Funktionen Algorithmus –weitere SQL Abfragen implementieren z.B. Test der Zentrenänderung, Optimierung der jetzigen Statements –Einbindung weiterer Verfahren kompaktere Darstellung der Daten (Beispiel BIRCH) Selektive Auswahl an Daten (Beispiel CLARA oder DBSCan)

12 Probleme Installation von DB2 unter Linux DB2 SQL Statements und UDFs Visual Age 2.0 für Windows –Keine Standard Swing Klassen –Datenbankanbindung noch im Debugger Modus Absturtz des DB2 Servers

13 Testlauf Demonstration des Programms java KMeans


Herunterladen ppt "Adaption von K-Means Algorithmen an Datenbanken Gruppe 2 Sven März Christian Bomhardt."

Ähnliche Präsentationen


Google-Anzeigen