Datenquellen, Datensenken und die Wüste

Datenquellen, Datensenken und die Wüste
vorhandene Daten benötigte Daten Nachfrage Vorhanden, benötigt und gewünscht: das ist der Idealzustand. Eine Aufgabe des Informationmanagements ist es, diesen Durchschnitt zu maximieren. Vorhanden und benötigt, aber nicht gewünscht: Dieser Bereich kann durch Aufbereitung der Informationen nutzbargemacht werden. Hier kann das Data Mining ansetzen und die Inforamtionen dem Bedarfsträger erschliessen. Vorhanden und gewünscht, aber nicht benötigt: Hier ist die Gefahr sehr groß, dass Geld, Personal und Zeit verschwendet werden. Benötigt und gewünscht, aber nicht vorhanden: Dieser Zustand sollte so schnell wie möglich abgestellt werden. Vorhanden und weder benötigt noch gewünscht: Hier werden Daten erhoben oder erzeugt und gespeichert, die von niemandem benötigt werden. Dieser Zustand tritt häufig ein, wenn sich die Organisationsform ändert und der alte Datenfluß beibehalten wird. Gewünscht aber weder benötigt noch vorhanden: Auch hier ist die Gefahr sehr groß, dass Geld, Personal und Zeit verschwendet werden. Benötigt, aber weder vorhanden noch gewünscht: Ein objektiver Informationsbedarf ist schwer zu definieren. Information hängt immer von der Person ab, die informiert werden möchte. Nachgefragt: Der Bedarfsträger kann oder will in der Regel nicht seinen Bedarf decken. Er hat Vorbehalte bezüglich der Möglichkeit, die Information in vorgegebener Zeit mit vertretbarem Aufwand und in der notwendigen Qualität zu bekommen. gewünschte Daten

Informationsbedarf abhängig von der Aufgabe
Veränderlichkeit Strukturiertheit Der Informationsbedarf für hoch strukturierte, stabile Aufgaben kann vorab ermittelt werden

Definition Data Mining
„ is the nontrivial extraction of implicit, previous unknown and potentially useful information from data“ William J. Frawley Gregory Piatetsky-Shapiro, Diese Definition stammt aus dem Jahr 1991 als der Begriff Data Mining noch nicht geboren war. Es wurde von „Knowledge discovery“ gesprochen. Weitere Synonyme sind: Knowledge Extraction, Database Exploration, Information Harvesting, Datenmustererkennung.

Leistungsmerkmale Hypothesenfreiheit
Automatisierte Vorhersage von Trends, Verhalten und Mustern Automatisierte Aufdeckung unbekannter Strukturen Zusatzkomponenten für Preprocessing und Ergebnisaufbereitung Der methodische Kernaspekt von Data Mining liegt in Verfahren, die selbständig Annahmen generieren (maschinelles Lernen), diese prüfen und dem Anwender relevante Ergebnisse in verständlicher Form präsentieren. Automatisierte Vorhersage von Trends, Verhalten und Mustern auf der Basis von bekannten Verhaltensschemata aus der Vergangenheit (überwachtes Lernen) Automatisierte Aufdeckung unbekannter Strukturen aus bisher ungeordneten Datenhalden (unüberwachtes Lernen) Zusatzkomponenten für Preprocessing : Datenübernahme, Datenbereinigungsmaßnahmen, analytische Grundfunktionalitäten wie z.B. das Erkennen von Ausreißern und Ergebnisaufbereitung (Visualisierung).

Anwendungsbeispiele

Anwendungsbeispiele Astronomie Erdwissenschaften Marketing Investment
Betrugserkennung Individualisierte Werbeanzeigen Electronic Commerce Datenschutz Astronomie: Solar Wind Electron Moments Erdwissenschaften: Satellitenaufnahmen Marketing: Preisfindung, Warenkorbanalysen Investment: Betrugserkennung: Ist diese Buchung mit dieser Kreditkarte ein Betrugsversuch Individualisierte Werbeanzeigen Electronic Commerce: Reihenfolge und Verweildauer auf den Internetseiten Datenschutz: Ist diese Folge von Signalen ein Einbruchsversuch?

Ansatz Tradi- tionell Hypothesen festlegen Methode entwickeln
Datenbasis analysieren Ergebnisse verdichten Ergebnisse interpretieren Anwender Computer Experte Computer System Statistiker Anwender Data Mining Datenbasis analysieren Interessante Muster finden Ergebnisse interpretieren Anwender Data Mining System

Data Mining Methoden Neuronale Netze: Analog zu den Nervenzellen im Gehirn werden mehrere Eingänge an einen Ausgang angeschlossen, der wiederum ein ein Eingang in einer weiteren Zelle sein kann. Für jede einzelne Zelle werden die Regeln für das Ausgangssignal in Abhängigkeit der Eingangssignale beschrieben. Für eine bestimmte Konstellation von Eingangssignalen wird dann das letzte Ausgangssignal errechnet. Das Erstellen der Regeln wird maschinelles Lernen genannt. Entscheidungsbäume: Die Gesamtmenge wird durch einen Knoten in zwei (oder mehr) Gruppen geteilt. Jede Gruppe wird weiter in Untergruppen geteilt bis aussagefähige Blattknoten erreicht sind. Entscheidungsregeln: Mit Hilfe von logischen Operatoren (Und, oder, nicht) Implikationen werden Aussagen formuliert. Eine Eingangsmenge von Voraussetzungen kann dann auf ihren Wahrheitsgehalt überprüft werden. Clusteranalyse: Aus den Eingabedaten werden Mengen von Tupeln gebildet, deren Elemente innerhalb einer Menge besonders ähnlich sind, die Mengen untereinander aber möglichst unähnlich sind. Die Analyse kann statistisch oder heuristisch erfolgen. Fallbasiertes Schliessen: Probleme werden auf der Grundlage analoger Fälle aus der Vergangenheit gelöst. Aus einer Falldatenbank werden analoge Fälle gesucht und mit dem gegebenen Problem abgeglichen. Automatisches Navigieren: Controlling - Leitstand; Die stärksten Abweichungen werden hervorgehoben und der Benutzer kann innerhalb der Ursachenräume navigieren. Assoziativregeln: Mit Hilfe von Regeln werden Zusammenhänge zwischen Merkmalen beschrieben und mit einer Wahrscheinlichkeit bewertet. Im Gegensatz zum maschinellen Lernen wird die Datenmenge nicht vollständig beschrieben. Die Suche wird auf statistisch auffällige Muster beschränkt. Beispiel: Warenkorbanalyse. Gruppenvergleich: Der Benutzer formuliert seine Hypothesen und das System überprüft sie an Hand des Datenbestandes Grobe Mengen: Die Vergröberung der einzelnen Dimensionen kann die Identifikation von Auffälligkeiten vereinfachen. Z.B. kann ein Intervall das Kaufverhalten eventuell besser beschreiben als das exakte Alter der Kunden. Visualisierungstechniken: Dem Menschen kommt die Aufgabe zu, Auffälligkeiten zu entdecken. Die Daten oder einzelne Dimensionen werden auf den zweidimensionalen Bildschirm abgebildet. Die Art der Abbildung ist entscheidend für das Erkennen von Auffälligkeiten.

Definition Data Mining
„in databases is the non-trivial process of identifying valid, novel, potential useful, and ultimately understandable patterns in data“ William J. Frawley Gregory Piatetsky-Shapiro, An die Stelle von „extraction“ ist „process“ getreten, weil verwertbare Ergebnisse in der Regel noch nicht mit einer einmaligen Analyse zu erhalten sind. „non-trivial“ meint, dass es sich um enen neuartigen Analyseansatz handelt. „valid“ soll andeuten, dass eine statistische Sicherheit für die gefundene Aussage gegeben sein muss. Die Neuigkeit „novel“ tritt an sie Stelle von „previous unknown“: die Fokussierung auf neue Erkenntnisse Die nur möglicherweise vorhandene Nützlichkeit „potential useful“ sagt, dass große Schwierigkeiten bestehen, die Nützlichkeit durch eine Rechenmaschine bewerten zu lassen. Die Verständlichkeit „ultimately understandable“ ist ein neuer Bestandteil in der Definition. Erste Systeme hatten häufig große Defizite bei der Darstellung der Ergebnisse. Statt nach Informationen wird jetzt nach Mustern „pattern“ gesucht. Die Bewertung, ob es sich um eine Information handelt, kann ein System nicht leisten.

Information Daten (Semantik) sind aus Zeichen (Syntaktik) bestehende Abbilder der Wirklichkeit. Eine Nachricht (Semantik) ist eine Menge von Daten, die für ein Individuum eine inhaltliche Bedeutung hat. Information (Pragmatik) ist die Veränderung der verhaltenswirksamen Erkenntnis eines Individuums mittels einer Nachricht. Wissen ist der Gesamtbestand an verhaltenswirksamen Erkenntnissen eines Individuums.

Data Mining Prozeßmodell
Ext Daten OLTP Data Warehouse Preprocessing Validierung Interpretation Analyse Datenbereitstellung: Es muß geklärt werden, welche Daten in welchem Umfang benötigt werden. Weiterhin muß geklärt werden, ob und in welchem Umfang aktuellen Daten in den aktuelle Daten in den Prozeß eingebunden werden sollen. Preprocessing: Die Daten müssen so aufbereitet werden, dass das Analysewerkzeug die Daten verarbeiten kann. Häufig müssen normalisierte Tabellen wieder denormalisiert werden und in eine flache Tabelle überführt werden. Analyse, Verfahrenswahl: Die Wahl des Verfahrens und des Analysewerkzeuges kann sich abhängig von den Ergebnissen und deren Interpretation ändern. Ebenso kann eine veränderte Fragestellung das Verfahren ändern. Interpretation: Die Ergebnisse müssen vom Methoden- und vom Fachspezialisten interpretiert werden. Validierung: Die gewonnen Erkenntnisse müssen validiert werden, bevor sie freigegeben werden. Häufig ist eine statistisch gesicherte Validierung nicht möglich. Ergebnisverwertung: Die Ergebnisse können einen Einfluß auf die Struktur des Datawarehous haben. Insbesondere dann, wenn eine anschliessende Auswertung zusätzliche oder anders strukturierte Daten benötigt.

Beteiligte am Data Mining Prozeß
Management Vorgabe von Zielen Wunsch nach hoch verdichteten und aussagekräftigen Ergebnissen Fachabteilung Aufträge für den Analysten Fachliche Beratung Validierung der Ergebnisse Umsetzung der Ergebnisse Analyst Erstellen der Ergebnisse Beurteilen der Analyseverfahren Anforderungen an das Datenmodell

Datenschutz EU-Datenschutzrichtlinie besagt, dass die
Verarbeitung von Daten, aus denen rassische oder ethnische Herkunft, politische Meinungen, religiöse und philosophische Überzeugungen oder die Gewerkschaftszugehörigkeit hervorgehen, sowie auch die Verarbeitungvon Daten über Gesundheit oder Sexualleben untersagt ist. Weiterhin ist es problematisch, Daten von ehemaligen Kunden, die das Vertragsverhältnis gekündigt haben, zu verarbeiten, obwohl diese Daten in Bezug auf das Migrationsverhalten sehr interessant sind.

Prozeßmodell Data Warehouse

Data Warehouse Warum nicht die operationale Datenbank (OnLine Transaction Processing) ? Zusätzliche Datenquellen Hierarchische, objektorientierte Datenbanken Files Zusätzliche Indizes Vergröberung und Verfeinerung Anwenderfreundliche Abfragesprache Das Data Warehouse vereinigt Inhalte unterschiedlicher Datenquellen. In der Regel werden die Daten in ein einheitliches Schema transformiert, in das der relationalen Datenbank. Hierbei muß auf die Konsistenz der übernommenen Daten geachtet werden. Die Übernahme und Integration geschieht in der Regel in größeren zeitlichen Abständen. Um eine performante Abfrage zu unterstützen, werden zusätzliche Indizes angelegt und die Tabellen denormalisiert. Beide Aktionen widersprechen einem performanten Transaktionsbetrieb (OLTP), in dem die Antwortzeiten sehr kurz sein müssen und in dem das Einfügen und das Löschen von Daten häufigen Transaktionen sind. Einzelne Dimensionen können verfeinert und vergröbert werden, um feinere und gröbere Sichten zu ermöglichen. Zu der Zeitangabe einer Kauftransaktion kann der Monat, Wochentag und die Stunde gespeichert werden. Ein gekaufter Gegenstand kann um die Produktgruppe und die Sparte ergänzt werden. Die Abfragesprache SQL besticht zwar durch ihre Eleganz und einfache Syntax; für ihre Beherrschung ist aber ein hohes Abstraktionsvermögen und logisches Denken notwendig, das nicht bei jedem Anwender in ausreichendem Maß geübt ist. Für die Auswertung durch den Ungeübten ist eine fehlertolerante Abfragesprache notwendig.

Antwortzeiten Antwortzeit sec. Zeit
Start der neuen Anwendung mit einer Antwortzeit von 30 Sekunden (später geforderte Antwortzeit von 10 Sekunden) 1. Verbesserung: Optimierung der Programme und Arbeitsabläufe 2. Verbesserung: Trennung von OLTP (Online Transaction Processing = Tagesgeschäft) und OLAP (Online Analysis Processing = Datenbankabfrage) 3. Verbesserung: Netzwerk (zusätzliche Leitung für remote Zugriff) 4. Verbesserung: größerer Rechner Zeit: ca. 3 Jahre Zur Messung der Antwortzeiten wurden Aktionen ausgesucht, die sowohl den Client, als auch das Netz und die Datenbank belasten (Aufbau der Startseite der Anwendung=Prüfung der Berechtigungen für den Benutzer und aktivieren der erlaubten Menüpunkte)

OLTP - OLAP Trennung von Bearbeitung auf unterschiedlichen Rechnern
OnLine Transaction Processing tägliche Routinebearbeitung der Daten Buchungen, Bestellungen, Erfassung von Meßergebnissen OnLine Analytical Processing sporadische oder regelmäßige Analyse der Daten Bearbeitung auf unterschiedlichen Rechnern

Datenübernahme Regelmäßig durch Backup und Restore
OLAP-System kann als Backup genutzt werden regelmäßiger neuer Aufbau der zusätzlichen Indizes mittlere Aktualität einmalige Übernahme der OLTP-Daten einmaliger Aufbau der zusätzlichen Indizes veraltete Daten einmalige Übernahme aller relevanten Daten, dann Übernahme der Änderungen automatischer Aufbau der zusätzlichen Indizes beliebige Aktualität

Datenübernahme Wenn es irgendwie möglich ist, Datenbankfunktionalitäten für die Datenübernahme einsetzen und keine eigenen Programme erstellen. (kostet nur Zeit und Geld und ist fehleranfällig)

Datenübernahme Konsistenz: Die Daten müssen in sich konsistent sein
im Verhältnis zu anderen Daten aus der gleichen Quelle im Verhältnis zu Daten aus anderen Quellen im Verhältnis zu den im Data Warehouse vorhandenen Daten Die Daten müssen in sich konsistent sein: Verdichtete Daten oder Snapshots müssen nach der Datenübernahme neu erstellt werden. im Verhältnis zu anderen Daten aus der gleichen Quelle: Daten aus Tabellen, die Fremdschlüssel besitzen, müssen gleichzeitig übertragen werden. im Verhältnis zu Daten aus anderen Quellen: Die Schlüssel der unterschiedlichen daten müssen zueinander passen im Verhältnis zu den im Data Warehouse vorhandenen Daten: Formal identische Daten müssen auch semantisch unverändert sein.

Datenübernahme Störungsfrei
Überwachung der regelmäßigen Datenübertragung Überwachung des vorhandenen Speicherplatzes performanter Aufbau der Indizes und der neuen Strukturen

Data Warehouse Extrem große Datenmengen
-> neue Verfahren für Backup und Recovery -> riesige Tabellen (über mehrere Platten) -> Probleme beim Sortieren, Indizieren, Verbinden (Join) Die Datenbestände können sehr leicht mehrere Terabytes groß werden. Diese Datenbestände können mit herkömmlichen Mitteln nur schwer gesichert und im Fall eines Datenverlustes restauriert werden. Tabellen können mehrere Millionen Einträge enthalten und unter Umständen die Kapazität einer einzelnen Platte übersteigen. Änderungen an so großen Tabellen können sehr große Transaktionen verursachen und sehr große Rollback-Segmente benötigen. Sortieralgorithmen und das Anlegen von Indizes können lange dauern. Bestimmte Join-Techniken haben eine Verarbeitungszeit, die mit O(n2) wächst.

Datenstruktur Star - Schema Snowflake - Schema Starflake - Schema

Star Schema Kunde Lieferanten Verkaufs- transaktionen Ort Produkte
Zeit Die Basisinformationen werden Fakten genannt. Die Daten, die die Ausprägungen der einzelnen Attribute beschreiben, werden Dimensionsdaten genannt. Fakten Dimensionsdaten

Snowflake Schema Fakten Snowflake Dimensionsdaten Verkaufs-
transaktionen Ort Produkte Art Zeit Region Die einzelnen Dimensionsdaten werden weiter unterteilt. Woche Farbe Oster- verkauf SSV Monat

Starflake Schema Fakten Dimensionsdaten Snowflake Dimensionsdaten
Lieferanten Kunde Verkaufs- transaktionen Ort Produkte Ort Art Zeit Region Produkte Die einzelnen Dimensionsdaten werden weiter unterteilt. Zeit Farbe Woche Oster- verkauf SSV Monat

Mathetest Wie sehen die zeitlichen Verläufe aus
Wie lange braucht der einzelnen Probant pro Frage Welche Einträge sind plausibel Welche Daten der Eltern sind plausibel? Wie korrelieren die Antworten auf die Testfragen? Wie sehen die zeitlichen Verläufe aus, gibt es Zeiten, an denen viel gearbeitet wird, wie lange braucht der einzelnen Probant pro Frage, komm er öfter wieder, oder macht er alle Fragen am Stück? Welche Einträge sind plausibel und können für eine Bewertung der Testfragen herangezogen werden? Welche Daten der Eltern sind plausibel? (in den neuen Bundesländern sind Eltern sehr jung; es gab damals nur eine eigene Wohnung, wenn man mindestens ein Kind hatte) Wie korrelieren die Antworten auf die Testfragen?

Tabellen ta_probant probant aufgaben_nr ergebnis_1 ergebnis_2
richtig datum ip_adresse ta_aufgaben aufgaben_nr augfaben_text loesung_1 loesung_2 loesung_3 loesung_4 kommentar_1 kommentar_2 kommentar_3 kommentar_4 richtige_loesung ta_mathetest_historie datum text ta_seite1 datum ip_adresse

Rohdaten Apr :28PM deeeeeeeee Apr :29PM Apr :29PM Apr :07PM Apr :41PM Jul :34PM 29.7´5429.9´ Sep :20AM Sep :05PM Oct :54PM Oct :29PM ab Jan :46PM ab Jan :57PM

Aufgaben Datenübernahme
Analyse der Zeiten zwischen zwei Einträgen der gleichen Probanten Kippen der Tabelle (eine Zeile pro Probant) Validierung der Einträge (wer ist ein ernsthafter Teilnehmer) Bearbeiten der Geburtsdaten

Datenübertragung In der Sybase-Datenbank anmelden
select auf die Tabellen Ausgabe so formatieren, dass sie insert für die Zieldatenbank ergibt Ausgabe in eine Datei speichern In der Oracle-Datenbank anmelden insert, dabei fortlaufende Nummer vergeben

Datenquellen, Datensenken und die Wüste

Ähnliche Präsentationen

Präsentation zum Thema: "Datenquellen, Datensenken und die Wüste"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Datenquellen, Datensenken und die Wüste

Ähnliche Präsentationen

Präsentation zum Thema: "Datenquellen, Datensenken und die Wüste"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback