Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Datenbanksysteme 3 Sommer 2001 Data Mining - 1 Worzyk FH Anhalt Datenquellen, Datensenken und die Wüste vorhandene Daten benötigte Daten gewünschte Daten.

Ähnliche Präsentationen


Präsentation zum Thema: "Datenbanksysteme 3 Sommer 2001 Data Mining - 1 Worzyk FH Anhalt Datenquellen, Datensenken und die Wüste vorhandene Daten benötigte Daten gewünschte Daten."—  Präsentation transkript:

1 Datenbanksysteme 3 Sommer 2001 Data Mining - 1 Worzyk FH Anhalt Datenquellen, Datensenken und die Wüste vorhandene Daten benötigte Daten gewünschte Daten Nachfrage

2 Datenbanksysteme 3 Sommer 2001 Data Mining - 2 Worzyk FH Anhalt Informationsbedarf abhängig von der Aufgabe Veränderlichkeit Strukturiertheit

3 Datenbanksysteme 3 Sommer 2001 Data Mining - 3 Worzyk FH Anhalt Definition Data Mining Data Mining is the nontrivial extraction of implicit, previous unknown and potentially useful information from data William J. Frawley Gregory Piatetsky-Shapiro,

4 Datenbanksysteme 3 Sommer 2001 Data Mining - 4 Worzyk FH Anhalt Leistungsmerkmale Hypothesenfreiheit Automatisierte Vorhersage von Trends, Verhalten und Mustern Automatisierte Aufdeckung unbekannter Strukturen Zusatzkomponenten für Preprocessing und Ergebnisaufbereitung

5 Datenbanksysteme 3 Sommer 2001 Data Mining - 5 Worzyk FH Anhalt Anwendungsbeispiele

6 Datenbanksysteme 3 Sommer 2001 Data Mining - 6 Worzyk FH Anhalt Anwendungsbeispiele Astronomie Erdwissenschaften Marketing Investment Betrugserkennung Individualisierte Werbeanzeigen Electronic Commerce Datenschutz

7 Datenbanksysteme 3 Sommer 2001 Data Mining - 7 Worzyk FH Anhalt Ansatz Tradi- tionell Data Mining Hypothesen festlegen Methode entwickeln Datenbasis analysieren Ergebnisse verdichten Ergebnisse interpretieren AnwenderComputer Experte Computer System StatistikerAnwender Datenbasis analysieren Interessante Muster finden Ergebnisse interpretieren Anwender Data Mining System

8 Datenbanksysteme 3 Sommer 2001 Data Mining - 8 Worzyk FH Anhalt Data Mining Methoden

9 Datenbanksysteme 3 Sommer 2001 Data Mining - 9 Worzyk FH Anhalt Definition Data Mining Data Mining in databases is the non-trivial process of identifying valid, novel, potential useful, and ultimately understandable patterns in data William J. Frawley Gregory Piatetsky-Shapiro,

10 Datenbanksysteme 3 Sommer 2001 Data Mining - 10 Worzyk FH Anhalt Information Daten (Semantik) sind aus Zeichen (Syntaktik) bestehende Abbilder der Wirklichkeit. Eine Nachricht (Semantik) ist eine Menge von Daten, die für ein Individuum eine inhaltliche Bedeutung hat. Information (Pragmatik) ist die Veränderung der verhaltenswirksamen Erkenntnis eines Individuums mittels einer Nachricht. Wissen ist der Gesamtbestand an verhaltenswirksamen Erkenntnissen eines Individuums.

11 Datenbanksysteme 3 Sommer 2001 Data Mining - 11 Worzyk FH Anhalt Data Mining Prozeßmodell PreprocessingValidierungInterpretationAnalyse Data Warehouse OLTP Ext Daten

12 Datenbanksysteme 3 Sommer 2001 Data Mining - 12 Worzyk FH Anhalt Beteiligte am Data Mining Prozeß Management –Vorgabe von Zielen –Wunsch nach hoch verdichteten und aussagekräftigen Ergebnissen Fachabteilung –Aufträge für den Analysten –Fachliche Beratung –Validierung der Ergebnisse –Umsetzung der Ergebnisse Analyst –Erstellen der Ergebnisse –Beurteilen der Analyseverfahren –Anforderungen an das Datenmodell

13 Datenbanksysteme 3 Sommer 2001 Data Mining - 13 Worzyk FH Anhalt Datenschutz EU-Datenschutzrichtlinie besagt, dass die Verarbeitung von Daten, aus denen rassische oder ethnische Herkunft, politische Meinungen, religiöse und philosophische Überzeugungen oder die Gewerkschaftszugehörigkeit hervorgehen, sowie auch die Verarbeitungvon Daten über Gesundheit oder Sexualleben untersagt ist.

14 Datenbanksysteme 3 Sommer 2001 Data Mining - 14 Worzyk FH Anhalt Prozeßmodell Data Warehouse

15 Datenbanksysteme 3 Sommer 2001 Data Mining - 15 Worzyk FH Anhalt Data Warehouse Warum nicht die operationale Datenbank (OnLine Transaction Processing) ? –Zusätzliche Datenquellen Hierarchische, objektorientierte Datenbanken Files –Zusätzliche Indizes –Vergröberung und Verfeinerung –Anwenderfreundliche Abfragesprache

16 Datenbanksysteme 3 Sommer 2001 Data Mining - 16 Worzyk FH Anhalt Antwortzeiten Zeit Antwortzeit sec.

17 Datenbanksysteme 3 Sommer 2001 Data Mining - 17 Worzyk FH Anhalt OLTP - OLAP Trennung von OnLine Transaction Processing tägliche Routinebearbeitung der Daten Buchungen, Bestellungen, Erfassung von Meßergebnissen OnLine Analytical Processing sporadische oder regelmäßige Analyse der Daten Bearbeitung auf unterschiedlichen Rechnern

18 Datenbanksysteme 3 Sommer 2001 Data Mining - 18 Worzyk FH Anhalt Datenübernahme Regelmäßig durch Backup und Restore –OLAP-System kann als Backup genutzt werden –regelmäßiger neuer Aufbau der zusätzlichen Indizes –mittlere Aktualität einmalige Übernahme der OLTP-Daten –einmaliger Aufbau der zusätzlichen Indizes –veraltete Daten einmalige Übernahme aller relevanten Daten, dann Übernahme der Änderungen –automatischer Aufbau der zusätzlichen Indizes –beliebige Aktualität

19 Datenbanksysteme 3 Sommer 2001 Data Mining - 19 Worzyk FH Anhalt Datenübernahme Wenn es irgendwie möglich ist, Datenbankfunktionalitäten für die Datenübernahme einsetzen und keine eigenen Programme erstellen. (kostet nur Zeit und Geld und ist fehleranfällig)

20 Datenbanksysteme 3 Sommer 2001 Data Mining - 20 Worzyk FH Anhalt Datenübernahme Konsistenz: –Die Daten müssen in sich konsistent sein –im Verhältnis zu anderen Daten aus der gleichen Quelle –im Verhältnis zu Daten aus anderen Quellen –im Verhältnis zu den im Data Warehouse vorhandenen Daten

21 Datenbanksysteme 3 Sommer 2001 Data Mining - 21 Worzyk FH Anhalt Datenübernahme Störungsfrei –Überwachung der regelmäßigen Datenübertragung –Überwachung des vorhandenen Speicherplatzes –performanter Aufbau der Indizes und der neuen Strukturen

22 Datenbanksysteme 3 Sommer 2001 Data Mining - 22 Worzyk FH Anhalt Data Warehouse Extrem große Datenmengen -> neue Verfahren für Backup und Recovery -> riesige Tabellen (über mehrere Platten) -> Probleme beim Sortieren, Indizieren, Verbinden (Join)

23 Datenbanksysteme 3 Sommer 2001 Data Mining - 23 Worzyk FH Anhalt Datenstruktur Star - Schema Snowflake - Schema Starflake - Schema

24 Datenbanksysteme 3 Sommer 2001 Data Mining - 24 Worzyk FH Anhalt Star Schema Verkaufs- transaktionen Zeit Produkte Lieferanten Kunde Ort FaktenDimensionsdaten

25 Datenbanksysteme 3 Sommer 2001 Data Mining - 25 Worzyk FH Anhalt Snowflake Schema Verkaufs- transaktionen Zeit ProdukteOrt FaktenSnowflake Dimensionsdaten Woche Monat SSV Oster- verkauf Region Art Farbe

26 Datenbanksysteme 3 Sommer 2001 Data Mining - 26 Worzyk FH Anhalt Starflake Schema Verkaufs- transaktionen Zeit ProdukteOrt FaktenSnowflake Dimensionsdaten Woche Monat SSV Oster- verkauf Region Art Farbe Dimensionsdaten Kunde Ort Zeit Produkte Lieferanten

27 Datenbanksysteme 3 Sommer 2001 Data Mining - 27 Worzyk FH Anhalt Mathetest Wie sehen die zeitlichen Verläufe aus Wie lange braucht der einzelnen Probant pro Frage Welche Einträge sind plausibel Welche Daten der Eltern sind plausibel? Wie korrelieren die Antworten auf die Testfragen?

28 Datenbanksysteme 3 Sommer 2001 Data Mining - 28 Worzyk FH Anhalt Tabellen ta_probant probant aufgaben_nr ergebnis_1 ergebnis_2 ergebnis_3 ergebnis_4 richtig datum ip_adresse ta_aufgaben aufgaben_nr augfaben_text loesung_1 loesung_2 loesung_3 loesung_4 kommentar_1 kommentar_2 kommentar_3 kommentar_4 richtige_loesung ta_mathetest_historie datum text ta_seite1 datum ip_adresse

29 Datenbanksysteme 3 Sommer 2001 Data Mining - 29 Worzyk FH Anhalt Rohdaten Apr :28PM deeeeeeeee5 17Apr :29PM Apr :29PM Apr :07PM Apr :41PM Jul :34PM 29.7´5429.9´523 54Sep :20AM Sep :05PM Oct :54PM Oct :29PM ab0 3Jan :46PM ab0 54Jan :57PM

30 Datenbanksysteme 3 Sommer 2001 Data Mining - 30 Worzyk FH Anhalt Aufgaben Datenübernahme Analyse der Zeiten zwischen zwei Einträgen der gleichen Probanten Kippen der Tabelle (eine Zeile pro Probant) Validierung der Einträge (wer ist ein ernsthafter Teilnehmer) Bearbeiten der Geburtsdaten

31 Datenbanksysteme 3 Sommer 2001 Data Mining - 31 Worzyk FH Anhalt Datenübertragung In der Sybase-Datenbank anmelden select auf die Tabellen Ausgabe so formatieren, dass sie insert für die Zieldatenbank ergibt Ausgabe in eine Datei speichern In der Oracle-Datenbank anmelden insert, dabei fortlaufende Nummer vergeben


Herunterladen ppt "Datenbanksysteme 3 Sommer 2001 Data Mining - 1 Worzyk FH Anhalt Datenquellen, Datensenken und die Wüste vorhandene Daten benötigte Daten gewünschte Daten."

Ähnliche Präsentationen


Google-Anzeigen