Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Marielies Waldfogel Geändert vor über 8 Jahren
1
DOAG DWH-SIG/Ralf BrüggemannFolie 1/04.07.2000 Data Mining-Verfahren: Theorie und Anwendungsgebiete Ralf Brüggemann PROMATIS AG
2
DOAG DWH-SIG/Ralf BrüggemannFolie 2/04.07.2000 Agenda Warum Data-Mining Vorgehen beim Data-Mining Data-Mining-Verfahren Data-Mining-Methoden Anwendungsgebiete Zusammenfassung
3
DOAG DWH-SIG/Ralf BrüggemannFolie 3/04.07.2000 Warum Data-Mining Analyse des Datenbestands ohne exakte Fragestellung um bislang unentdeckte Zusammenhänge aus den Daten zu extrahieren Vorhersage unbekannter oder zukünftiger Werte
4
DOAG DWH-SIG/Ralf BrüggemannFolie 4/04.07.2000 Warum Data-Mining Kurzes Beispiel zum Nutzen von Data-Mining: Bonitätsprüfung bei Banken Gesamtkreditvolumen: 100.000.000 DM Bisher 17% Kreditausfall = 17.000.000 DM Nach DM: 16% Kreditausfall = 16.000.000.DM Gewinn: 1.000.000 DM
5
DOAG DWH-SIG/Ralf BrüggemannFolie 5/04.07.2000 Vorgehen beim Data-Mining Selektion der Daten Bereinigung der Daten Transformation der Daten Wahl des Analyseverfahrens und der Analysemethode Interpretation des Ergebnisses
6
DOAG DWH-SIG/Ralf BrüggemannFolie 6/04.07.2000 Data-Mining-Verfahren Klassifizierung: Entscheidungsbäume, Neuronale Netze, statistische Methoden(Regression, etc.) Assoziierung: Regeln Segmentierung: Clusteranalyse und Neuronale Netze
7
DOAG DWH-SIG/Ralf BrüggemannFolie 7/04.07.2000 Data-Mining-Methoden Attribute haben Namen und Wertebereich Wertebereich ist diskret oder kontinuierlich Jeder Satz wird durch dieselben Attribute beschrieben Die Menge der Klassen ist vordefiniert Training mit Testdaten Entscheidungsbäume
8
DOAG DWH-SIG/Ralf BrüggemannFolie 8/04.07.2000 Data-Mining-Methoden Gefahr des Overfittings Entscheidungsbäume Hohe Fehlerrate bei neuen Daten Entscheidungsbaum vereinfachen solange sich die Fehlerrate für neue Beispiele verringert: ersetze Teilbaum durch Blattknoten ersetze Teilbaum durch den besten Teilbaum
9
DOAG DWH-SIG/Ralf BrüggemannFolie 9/04.07.2000 Data-Mining-Methoden Abschätzung der Fehlerrate: Teile Testmenge in k gleiche Teile Trainiere mit k-1 Teilmengen, Teste mit verbleibender Menge Für alle Teilmengen durchführen (Cross-Validation) Entscheidungsbäume
10
DOAG DWH-SIG/Ralf BrüggemannFolie 10/04.07.2000 Data-Mining-Methoden Vorteile: Baumstruktur leicht zu verstehen Numerische und textuelle Attribute „Schnelle“ Generierung Nachteile: Keine Zeitreihenanalyse Keine kontinuierlichen numerische Attribute Entscheidungsbäume
11
DOAG DWH-SIG/Ralf BrüggemannFolie 11/04.07.2000 Data-Mining-Methoden Neuronale Netze werden in Schichten organisiert: Eingabeschicht: Knoten für die Eingabewerte Ausgabeschicht: Knoten für die Ausgabewerte Interne Schicht(en): Bearbeitung der Eingabe und Generierung der Ausgabe Neuronale Netze
12
DOAG DWH-SIG/Ralf BrüggemannFolie 12/04.07.2000 Data-Mining-Methoden Neuronale Netze 5 6 1 4 3 2 W 13 W14W14 W 15 W 23 W 24 W 25 W 36 W 46 W 56 EingabeInternAusgabe
13
DOAG DWH-SIG/Ralf BrüggemannFolie 13/04.07.2000 Data-Mining-Methoden Jeder Knoten berechnet auf Grund seiner gewichteten Eingabewerte und seines Schwellwertes einen reellwertigen Ausgabewert Lernen besteht in der Bestimmung der Gewichte und Schwellwerte der einzelnen Verbindungen Neuronale Netze
14
DOAG DWH-SIG/Ralf BrüggemannFolie 14/04.07.2000 Data-Mining-Methoden Gefahr des Overfittings Neuronale Netze Kreuzvalidierung legt Ende der Trainingsphase fest
15
DOAG DWH-SIG/Ralf BrüggemannFolie 15/04.07.2000 Data-Mining-Methoden Neuronale Netze (Trainingsverhalten)
16
DOAG DWH-SIG/Ralf BrüggemannFolie 16/04.07.2000 Data-Mining-Methoden Eingabecodierung: Welche Repräsentation der Trainingsbeispiele ist günstig? Repräsentation muß fixe Anzahl von Attributen ermöglichen Ausgabecodierung: Welche Repräsentation ist günstig (Anzahl Erg.-Attribute)? Jedes Erg.-Attribut wird durch einen eigenen Ausgabeknoten repräsentiert Interne Schicht: Wieviele interne Elemente? Problem: keine allgemeine Lösung verfügbar Neuronale Netze
17
DOAG DWH-SIG/Ralf BrüggemannFolie 17/04.07.2000 Data-Mining-Methoden Vorteile: Trainingswerte können reellwertig sein Generierte Fkt. kann reellwertig, diskret oder Vektor sein Trainingsdaten dürfen fehlerhaft sein Zeitreihen möglich Netz berechnet schnell das Ergebnis Nachteile: Lange Trainingszeiten Black Box Nur numerische Werte Neuronale Netze
18
DOAG DWH-SIG/Ralf BrüggemannFolie 18/04.07.2000 Data-Mining-Methoden Relevante Parameter: Konfidenz: Stärke der Korrelation („in 45% der Fälle) Support: Häufigkeit des gemeinsamen Auftretens Algorithmen sind so konzipiert, daß sie alle Regeln mit gewünschter Mindestkonfidenz und Mindestsupport finden Assoziationsregeln
19
DOAG DWH-SIG/Ralf BrüggemannFolie 19/04.07.2000 Data-Mining-Methoden Gegeben: Menge D von Transaktionen t Eine Transaktion besteht aus einer Menge von Items X i support(X i,X k ) = (Anzahl der t die X i und X k enthalten) / D confidence(X i,X k ) = support(X i,X k )/support(X i ) Vorgehen: Bilde Support aller Items Bilde aus diesen Items Itemgruppen mit 2,3,4,... Items, die Mindestsupport und Mindestkonfidenz erfüllen Assoziationsregeln
20
DOAG DWH-SIG/Ralf BrüggemannFolie 20/04.07.2000 Data-Mining-Methoden Assoziationsregeln (Beispiel)
21
DOAG DWH-SIG/Ralf BrüggemannFolie 21/04.07.2000 Data-Mining-Methoden Assoziationsregeln (Beispiel) Mindestsupport/ -konfidenz 50%
22
DOAG DWH-SIG/Ralf BrüggemannFolie 22/04.07.2000 Data-Mining-Methoden Vorteile: Zeitliche Abfolge von Aktionen darstellbar Nachteile: Keine kontinuierlichen numerischen Werte darstellbar Assoziationsregeln
23
DOAG DWH-SIG/Ralf BrüggemannFolie 23/04.07.2000 Data-Mining-Methoden Zusammenfassung von Objekten in homogene Gruppen Möglichst große Homogenität im Cluster Möglichst große Heterogenität zwischen den Clustern Cluster-Analyse
24
DOAG DWH-SIG/Ralf BrüggemannFolie 24/04.07.2000 Data-Mining-Methoden Eine Menge kann sich für Cluster-Analyse eignen, muß aber nicht: Cluster-Analyse X Y X Y Keine Cluster-Struktur 3 Cluster
25
DOAG DWH-SIG/Ralf BrüggemannFolie 25/04.07.2000 Data-Mining-Methoden Zuordnungsprinzipien: exakte Zuordnung: Objekte werden mit Wahrscheinlichkeit 1 einem oder mehreren Clustern zugeordnet probabilistische Zuordnung Objekte werden mit einer zwischen 0 und 1 liegenden W. einem oder mehreren Cluster(n) zugeordnet possibilistische Zuordnung Objekte werden mittels W‘funktion allen Clustern zugeordnet Cluster-Analyse
26
DOAG DWH-SIG/Ralf BrüggemannFolie 26/04.07.2000 Data-Mining-Methoden Beispiel k-Means Methode: 1. Lege Cluster-Anzahl fest 2. Wahl von Startwerten für die einzelnen Cluster, z.B. zufällig gewählte Werte 3. Zuordnung der Objekte zu dem Cluster-Zentrum, zu dem die „Distanz“ minimal ist 4. Cluster-Zentrum neu berechnen als Mittelwert aller zugeordneten Objekte 5. Falls sich die Zuordnung im 3. Schritt nicht geändert hat, beenden. Ansonsten weiter bei Schritt 3 Cluster-Analyse
27
DOAG DWH-SIG/Ralf BrüggemannFolie 27/04.07.2000 Data-Mining-Methoden Vorteile: Transparente Analyse Schnelle Analyse Nachteile: Große Anforderungen an den Benutzer, da Skalenniveau, Gewichtung und Berechnungsvorschrift zur Distanzmessung vorgegeben werden müssen Cluster-Analyse
28
DOAG DWH-SIG/Ralf BrüggemannFolie 28/04.07.2000 Anwendungsgebiete Klassifizierung: Direkt-Werbung Sortimentsgestaltung Entdeckung von Kreditkartenbetrug Ausfallrisiko bei Krediten
29
DOAG DWH-SIG/Ralf BrüggemannFolie 29/04.07.2000 Anwendungsgebiete Assoziierung: Warenkorbanalyse, um das Kaufverhalten der Kunden zu analysieren, z: B. wer Kaviar kauft, kauft auch Sekt
30
DOAG DWH-SIG/Ralf BrüggemannFolie 30/04.07.2000 Anwendungsgebiete Segmentierung: Betriebswirtschaftlicher Bereich. Z.B. Charakteristika potentieller Kunden anhand der jetzigen Kunden, dadurch Verbesserung des Produktangebotes
31
DOAG DWH-SIG/Ralf BrüggemannFolie 31/04.07.2000 Anwendungsgebiete
32
DOAG DWH-SIG/Ralf BrüggemannFolie 32/04.07.2000 Zusammenfassung Datenqualität und Auswahl von Trainingsdaten von entscheidender Bedeutung Richtige Auswahl der Methode wichtig Interpretation der Daten erfordert großes Knowhow
33
DOAG DWH-SIG/Ralf BrüggemannFolie 33/04.07.2000 Kontakt Ralf Brüggemann Senior Berater Business Intelligence PROMATIS AG Stolberger Str. 200 50933 Köln http://www.promatis.de Mail: Ralf.Brueggemann@promatis.de
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.