DOAG DWH-SIG/Ralf BrüggemannFolie 1/ Data Mining-Verfahren: Theorie und Anwendungsgebiete Ralf Brüggemann PROMATIS AG
DOAG DWH-SIG/Ralf BrüggemannFolie 2/ Agenda Warum Data-Mining Vorgehen beim Data-Mining Data-Mining-Verfahren Data-Mining-Methoden Anwendungsgebiete Zusammenfassung
DOAG DWH-SIG/Ralf BrüggemannFolie 3/ Warum Data-Mining Analyse des Datenbestands ohne exakte Fragestellung um bislang unentdeckte Zusammenhänge aus den Daten zu extrahieren Vorhersage unbekannter oder zukünftiger Werte
DOAG DWH-SIG/Ralf BrüggemannFolie 4/ Warum Data-Mining Kurzes Beispiel zum Nutzen von Data-Mining: Bonitätsprüfung bei Banken Gesamtkreditvolumen: DM Bisher 17% Kreditausfall = DM Nach DM: 16% Kreditausfall = DM Gewinn: DM
DOAG DWH-SIG/Ralf BrüggemannFolie 5/ Vorgehen beim Data-Mining Selektion der Daten Bereinigung der Daten Transformation der Daten Wahl des Analyseverfahrens und der Analysemethode Interpretation des Ergebnisses
DOAG DWH-SIG/Ralf BrüggemannFolie 6/ Data-Mining-Verfahren Klassifizierung: Entscheidungsbäume, Neuronale Netze, statistische Methoden(Regression, etc.) Assoziierung: Regeln Segmentierung: Clusteranalyse und Neuronale Netze
DOAG DWH-SIG/Ralf BrüggemannFolie 7/ Data-Mining-Methoden Attribute haben Namen und Wertebereich Wertebereich ist diskret oder kontinuierlich Jeder Satz wird durch dieselben Attribute beschrieben Die Menge der Klassen ist vordefiniert Training mit Testdaten Entscheidungsbäume
DOAG DWH-SIG/Ralf BrüggemannFolie 8/ Data-Mining-Methoden Gefahr des Overfittings Entscheidungsbäume Hohe Fehlerrate bei neuen Daten Entscheidungsbaum vereinfachen solange sich die Fehlerrate für neue Beispiele verringert: ersetze Teilbaum durch Blattknoten ersetze Teilbaum durch den besten Teilbaum
DOAG DWH-SIG/Ralf BrüggemannFolie 9/ Data-Mining-Methoden Abschätzung der Fehlerrate: Teile Testmenge in k gleiche Teile Trainiere mit k-1 Teilmengen, Teste mit verbleibender Menge Für alle Teilmengen durchführen (Cross-Validation) Entscheidungsbäume
DOAG DWH-SIG/Ralf BrüggemannFolie 10/ Data-Mining-Methoden Vorteile: Baumstruktur leicht zu verstehen Numerische und textuelle Attribute „Schnelle“ Generierung Nachteile: Keine Zeitreihenanalyse Keine kontinuierlichen numerische Attribute Entscheidungsbäume
DOAG DWH-SIG/Ralf BrüggemannFolie 11/ Data-Mining-Methoden Neuronale Netze werden in Schichten organisiert: Eingabeschicht: Knoten für die Eingabewerte Ausgabeschicht: Knoten für die Ausgabewerte Interne Schicht(en): Bearbeitung der Eingabe und Generierung der Ausgabe Neuronale Netze
DOAG DWH-SIG/Ralf BrüggemannFolie 12/ Data-Mining-Methoden Neuronale Netze W 13 W14W14 W 15 W 23 W 24 W 25 W 36 W 46 W 56 EingabeInternAusgabe
DOAG DWH-SIG/Ralf BrüggemannFolie 13/ Data-Mining-Methoden Jeder Knoten berechnet auf Grund seiner gewichteten Eingabewerte und seines Schwellwertes einen reellwertigen Ausgabewert Lernen besteht in der Bestimmung der Gewichte und Schwellwerte der einzelnen Verbindungen Neuronale Netze
DOAG DWH-SIG/Ralf BrüggemannFolie 14/ Data-Mining-Methoden Gefahr des Overfittings Neuronale Netze Kreuzvalidierung legt Ende der Trainingsphase fest
DOAG DWH-SIG/Ralf BrüggemannFolie 15/ Data-Mining-Methoden Neuronale Netze (Trainingsverhalten)
DOAG DWH-SIG/Ralf BrüggemannFolie 16/ Data-Mining-Methoden Eingabecodierung: Welche Repräsentation der Trainingsbeispiele ist günstig? Repräsentation muß fixe Anzahl von Attributen ermöglichen Ausgabecodierung: Welche Repräsentation ist günstig (Anzahl Erg.-Attribute)? Jedes Erg.-Attribut wird durch einen eigenen Ausgabeknoten repräsentiert Interne Schicht: Wieviele interne Elemente? Problem: keine allgemeine Lösung verfügbar Neuronale Netze
DOAG DWH-SIG/Ralf BrüggemannFolie 17/ Data-Mining-Methoden Vorteile: Trainingswerte können reellwertig sein Generierte Fkt. kann reellwertig, diskret oder Vektor sein Trainingsdaten dürfen fehlerhaft sein Zeitreihen möglich Netz berechnet schnell das Ergebnis Nachteile: Lange Trainingszeiten Black Box Nur numerische Werte Neuronale Netze
DOAG DWH-SIG/Ralf BrüggemannFolie 18/ Data-Mining-Methoden Relevante Parameter: Konfidenz: Stärke der Korrelation („in 45% der Fälle) Support: Häufigkeit des gemeinsamen Auftretens Algorithmen sind so konzipiert, daß sie alle Regeln mit gewünschter Mindestkonfidenz und Mindestsupport finden Assoziationsregeln
DOAG DWH-SIG/Ralf BrüggemannFolie 19/ Data-Mining-Methoden Gegeben: Menge D von Transaktionen t Eine Transaktion besteht aus einer Menge von Items X i support(X i,X k ) = (Anzahl der t die X i und X k enthalten) / D confidence(X i,X k ) = support(X i,X k )/support(X i ) Vorgehen: Bilde Support aller Items Bilde aus diesen Items Itemgruppen mit 2,3,4,... Items, die Mindestsupport und Mindestkonfidenz erfüllen Assoziationsregeln
DOAG DWH-SIG/Ralf BrüggemannFolie 20/ Data-Mining-Methoden Assoziationsregeln (Beispiel)
DOAG DWH-SIG/Ralf BrüggemannFolie 21/ Data-Mining-Methoden Assoziationsregeln (Beispiel) Mindestsupport/ -konfidenz 50%
DOAG DWH-SIG/Ralf BrüggemannFolie 22/ Data-Mining-Methoden Vorteile: Zeitliche Abfolge von Aktionen darstellbar Nachteile: Keine kontinuierlichen numerischen Werte darstellbar Assoziationsregeln
DOAG DWH-SIG/Ralf BrüggemannFolie 23/ Data-Mining-Methoden Zusammenfassung von Objekten in homogene Gruppen Möglichst große Homogenität im Cluster Möglichst große Heterogenität zwischen den Clustern Cluster-Analyse
DOAG DWH-SIG/Ralf BrüggemannFolie 24/ Data-Mining-Methoden Eine Menge kann sich für Cluster-Analyse eignen, muß aber nicht: Cluster-Analyse X Y X Y Keine Cluster-Struktur 3 Cluster
DOAG DWH-SIG/Ralf BrüggemannFolie 25/ Data-Mining-Methoden Zuordnungsprinzipien: exakte Zuordnung: Objekte werden mit Wahrscheinlichkeit 1 einem oder mehreren Clustern zugeordnet probabilistische Zuordnung Objekte werden mit einer zwischen 0 und 1 liegenden W. einem oder mehreren Cluster(n) zugeordnet possibilistische Zuordnung Objekte werden mittels W‘funktion allen Clustern zugeordnet Cluster-Analyse
DOAG DWH-SIG/Ralf BrüggemannFolie 26/ Data-Mining-Methoden Beispiel k-Means Methode: 1. Lege Cluster-Anzahl fest 2. Wahl von Startwerten für die einzelnen Cluster, z.B. zufällig gewählte Werte 3. Zuordnung der Objekte zu dem Cluster-Zentrum, zu dem die „Distanz“ minimal ist 4. Cluster-Zentrum neu berechnen als Mittelwert aller zugeordneten Objekte 5. Falls sich die Zuordnung im 3. Schritt nicht geändert hat, beenden. Ansonsten weiter bei Schritt 3 Cluster-Analyse
DOAG DWH-SIG/Ralf BrüggemannFolie 27/ Data-Mining-Methoden Vorteile: Transparente Analyse Schnelle Analyse Nachteile: Große Anforderungen an den Benutzer, da Skalenniveau, Gewichtung und Berechnungsvorschrift zur Distanzmessung vorgegeben werden müssen Cluster-Analyse
DOAG DWH-SIG/Ralf BrüggemannFolie 28/ Anwendungsgebiete Klassifizierung: Direkt-Werbung Sortimentsgestaltung Entdeckung von Kreditkartenbetrug Ausfallrisiko bei Krediten
DOAG DWH-SIG/Ralf BrüggemannFolie 29/ Anwendungsgebiete Assoziierung: Warenkorbanalyse, um das Kaufverhalten der Kunden zu analysieren, z: B. wer Kaviar kauft, kauft auch Sekt
DOAG DWH-SIG/Ralf BrüggemannFolie 30/ Anwendungsgebiete Segmentierung: Betriebswirtschaftlicher Bereich. Z.B. Charakteristika potentieller Kunden anhand der jetzigen Kunden, dadurch Verbesserung des Produktangebotes
DOAG DWH-SIG/Ralf BrüggemannFolie 31/ Anwendungsgebiete
DOAG DWH-SIG/Ralf BrüggemannFolie 32/ Zusammenfassung Datenqualität und Auswahl von Trainingsdaten von entscheidender Bedeutung Richtige Auswahl der Methode wichtig Interpretation der Daten erfordert großes Knowhow
DOAG DWH-SIG/Ralf BrüggemannFolie 33/ Kontakt Ralf Brüggemann Senior Berater Business Intelligence PROMATIS AG Stolberger Str Köln Mail: