Topic 2: Tabellenclustering Tutor: Martin Lorenz
Überblick Tabellenanalyse von Topic 1 zeigt als Ergebnis nur Paare von ähnlichen Tabellen Ähnlichkeit kann verschiedene Gründe haben – Spezialisierungen von existierenden Konzepten (Tabellen) Mitarbeiter Manager – Konzeptionelle Trennung Aufspaltung von Merkmalen einer Entität auf mehrere Tabellen mit gleichem Kern – Unwissenheit Entwicklungsabteilung wusste nichts von gleichem Konzept in anderem Modul – Technische Gründe Puffer- oder Transportabellen
Problemstellung Viele Rückschlüsse auf die Ursache und die Zusammenhänge von Redundanz lassen sich nur im Kontext eines Clusters von ähnlichen Tabellen nachvollziehen. Wie clustere ich Tabellen auf Basis der gewählten Ähnlichkeitsmaße?
Aufgaben Entwicklung von unterschiedlichen Clusteringverfahren auf Basis der Ergebnisse der Datenmodelanalyse Visualisierung der Beziehung zwischen Tabellen im Cluster