Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

DOAG DWH-SIG/Ralf BrüggemannFolie 1/04.07.2000 Data Mining-Verfahren: Theorie und Anwendungsgebiete Ralf Brüggemann PROMATIS AG.

Ähnliche Präsentationen


Präsentation zum Thema: "DOAG DWH-SIG/Ralf BrüggemannFolie 1/04.07.2000 Data Mining-Verfahren: Theorie und Anwendungsgebiete Ralf Brüggemann PROMATIS AG."—  Präsentation transkript:

1 DOAG DWH-SIG/Ralf BrüggemannFolie 1/ Data Mining-Verfahren: Theorie und Anwendungsgebiete Ralf Brüggemann PROMATIS AG

2 DOAG DWH-SIG/Ralf BrüggemannFolie 2/ Agenda  Warum Data-Mining  Vorgehen beim Data-Mining  Data-Mining-Verfahren  Data-Mining-Methoden  Anwendungsgebiete  Zusammenfassung

3 DOAG DWH-SIG/Ralf BrüggemannFolie 3/ Warum Data-Mining  Analyse des Datenbestands ohne exakte Fragestellung um bislang unentdeckte Zusammenhänge aus den Daten zu extrahieren  Vorhersage unbekannter oder zukünftiger Werte

4 DOAG DWH-SIG/Ralf BrüggemannFolie 4/ Warum Data-Mining Kurzes Beispiel zum Nutzen von Data-Mining: Bonitätsprüfung bei Banken Gesamtkreditvolumen: DM Bisher 17% Kreditausfall = DM Nach DM: 16% Kreditausfall = DM Gewinn: DM

5 DOAG DWH-SIG/Ralf BrüggemannFolie 5/ Vorgehen beim Data-Mining  Selektion der Daten  Bereinigung der Daten  Transformation der Daten  Wahl des Analyseverfahrens und der Analysemethode  Interpretation des Ergebnisses

6 DOAG DWH-SIG/Ralf BrüggemannFolie 6/ Data-Mining-Verfahren  Klassifizierung: Entscheidungsbäume, Neuronale Netze, statistische Methoden(Regression, etc.)  Assoziierung: Regeln  Segmentierung: Clusteranalyse und Neuronale Netze

7 DOAG DWH-SIG/Ralf BrüggemannFolie 7/ Data-Mining-Methoden  Attribute haben Namen und Wertebereich  Wertebereich ist diskret oder kontinuierlich  Jeder Satz wird durch dieselben Attribute beschrieben  Die Menge der Klassen ist vordefiniert  Training mit Testdaten Entscheidungsbäume

8 DOAG DWH-SIG/Ralf BrüggemannFolie 8/ Data-Mining-Methoden Gefahr des Overfittings Entscheidungsbäume Hohe Fehlerrate bei neuen Daten Entscheidungsbaum vereinfachen solange sich die Fehlerrate für neue Beispiele verringert:  ersetze Teilbaum durch Blattknoten  ersetze Teilbaum durch den besten Teilbaum

9 DOAG DWH-SIG/Ralf BrüggemannFolie 9/ Data-Mining-Methoden Abschätzung der Fehlerrate:  Teile Testmenge in k gleiche Teile  Trainiere mit k-1 Teilmengen, Teste mit verbleibender Menge  Für alle Teilmengen durchführen (Cross-Validation) Entscheidungsbäume

10 DOAG DWH-SIG/Ralf BrüggemannFolie 10/ Data-Mining-Methoden Vorteile:  Baumstruktur leicht zu verstehen  Numerische und textuelle Attribute  „Schnelle“ Generierung Nachteile:  Keine Zeitreihenanalyse  Keine kontinuierlichen numerische Attribute Entscheidungsbäume

11 DOAG DWH-SIG/Ralf BrüggemannFolie 11/ Data-Mining-Methoden Neuronale Netze werden in Schichten organisiert:  Eingabeschicht: Knoten für die Eingabewerte  Ausgabeschicht: Knoten für die Ausgabewerte  Interne Schicht(en): Bearbeitung der Eingabe und Generierung der Ausgabe Neuronale Netze

12 DOAG DWH-SIG/Ralf BrüggemannFolie 12/ Data-Mining-Methoden Neuronale Netze W 13 W14W14 W 15 W 23 W 24 W 25 W 36 W 46 W 56 EingabeInternAusgabe

13 DOAG DWH-SIG/Ralf BrüggemannFolie 13/ Data-Mining-Methoden  Jeder Knoten berechnet auf Grund seiner gewichteten Eingabewerte und seines Schwellwertes einen reellwertigen Ausgabewert  Lernen besteht in der Bestimmung der Gewichte und Schwellwerte der einzelnen Verbindungen Neuronale Netze

14 DOAG DWH-SIG/Ralf BrüggemannFolie 14/ Data-Mining-Methoden Gefahr des Overfittings Neuronale Netze Kreuzvalidierung legt Ende der Trainingsphase fest

15 DOAG DWH-SIG/Ralf BrüggemannFolie 15/ Data-Mining-Methoden Neuronale Netze (Trainingsverhalten)

16 DOAG DWH-SIG/Ralf BrüggemannFolie 16/ Data-Mining-Methoden  Eingabecodierung:  Welche Repräsentation der Trainingsbeispiele ist günstig?  Repräsentation muß fixe Anzahl von Attributen ermöglichen  Ausgabecodierung:  Welche Repräsentation ist günstig (Anzahl Erg.-Attribute)?  Jedes Erg.-Attribut wird durch einen eigenen Ausgabeknoten repräsentiert  Interne Schicht:  Wieviele interne Elemente?  Problem: keine allgemeine Lösung verfügbar Neuronale Netze

17 DOAG DWH-SIG/Ralf BrüggemannFolie 17/ Data-Mining-Methoden  Vorteile:  Trainingswerte können reellwertig sein  Generierte Fkt. kann reellwertig, diskret oder Vektor sein  Trainingsdaten dürfen fehlerhaft sein  Zeitreihen möglich  Netz berechnet schnell das Ergebnis  Nachteile:  Lange Trainingszeiten  Black Box  Nur numerische Werte Neuronale Netze

18 DOAG DWH-SIG/Ralf BrüggemannFolie 18/ Data-Mining-Methoden  Relevante Parameter:  Konfidenz: Stärke der Korrelation („in 45% der Fälle)  Support: Häufigkeit des gemeinsamen Auftretens  Algorithmen sind so konzipiert, daß sie alle Regeln mit gewünschter Mindestkonfidenz und Mindestsupport finden Assoziationsregeln

19 DOAG DWH-SIG/Ralf BrüggemannFolie 19/ Data-Mining-Methoden  Gegeben: Menge D von Transaktionen t  Eine Transaktion besteht aus einer Menge von Items X i  support(X i,X k ) = (Anzahl der t die X i und X k enthalten) / D  confidence(X i,X k ) = support(X i,X k )/support(X i ) Vorgehen:  Bilde Support aller Items  Bilde aus diesen Items Itemgruppen mit 2,3,4,... Items, die Mindestsupport und Mindestkonfidenz erfüllen Assoziationsregeln

20 DOAG DWH-SIG/Ralf BrüggemannFolie 20/ Data-Mining-Methoden Assoziationsregeln (Beispiel)

21 DOAG DWH-SIG/Ralf BrüggemannFolie 21/ Data-Mining-Methoden Assoziationsregeln (Beispiel) Mindestsupport/ -konfidenz 50%

22 DOAG DWH-SIG/Ralf BrüggemannFolie 22/ Data-Mining-Methoden  Vorteile:  Zeitliche Abfolge von Aktionen darstellbar  Nachteile:  Keine kontinuierlichen numerischen Werte darstellbar Assoziationsregeln

23 DOAG DWH-SIG/Ralf BrüggemannFolie 23/ Data-Mining-Methoden  Zusammenfassung von Objekten in homogene Gruppen  Möglichst große Homogenität im Cluster  Möglichst große Heterogenität zwischen den Clustern Cluster-Analyse

24 DOAG DWH-SIG/Ralf BrüggemannFolie 24/ Data-Mining-Methoden Eine Menge kann sich für Cluster-Analyse eignen, muß aber nicht: Cluster-Analyse X Y X Y Keine Cluster-Struktur 3 Cluster

25 DOAG DWH-SIG/Ralf BrüggemannFolie 25/ Data-Mining-Methoden Zuordnungsprinzipien:  exakte Zuordnung:  Objekte werden mit Wahrscheinlichkeit 1 einem oder mehreren Clustern zugeordnet  probabilistische Zuordnung  Objekte werden mit einer zwischen 0 und 1 liegenden W. einem oder mehreren Cluster(n) zugeordnet  possibilistische Zuordnung  Objekte werden mittels W‘funktion allen Clustern zugeordnet Cluster-Analyse

26 DOAG DWH-SIG/Ralf BrüggemannFolie 26/ Data-Mining-Methoden Beispiel k-Means Methode: 1. Lege Cluster-Anzahl fest 2. Wahl von Startwerten für die einzelnen Cluster, z.B. zufällig gewählte Werte 3. Zuordnung der Objekte zu dem Cluster-Zentrum, zu dem die „Distanz“ minimal ist 4. Cluster-Zentrum neu berechnen als Mittelwert aller zugeordneten Objekte 5. Falls sich die Zuordnung im 3. Schritt nicht geändert hat, beenden. Ansonsten weiter bei Schritt 3 Cluster-Analyse

27 DOAG DWH-SIG/Ralf BrüggemannFolie 27/ Data-Mining-Methoden Vorteile:  Transparente Analyse  Schnelle Analyse Nachteile:  Große Anforderungen an den Benutzer, da Skalenniveau, Gewichtung und Berechnungsvorschrift zur Distanzmessung vorgegeben werden müssen Cluster-Analyse

28 DOAG DWH-SIG/Ralf BrüggemannFolie 28/ Anwendungsgebiete Klassifizierung:  Direkt-Werbung  Sortimentsgestaltung  Entdeckung von Kreditkartenbetrug  Ausfallrisiko bei Krediten

29 DOAG DWH-SIG/Ralf BrüggemannFolie 29/ Anwendungsgebiete Assoziierung:  Warenkorbanalyse, um das Kaufverhalten der Kunden zu analysieren, z: B. wer Kaviar kauft, kauft auch Sekt

30 DOAG DWH-SIG/Ralf BrüggemannFolie 30/ Anwendungsgebiete Segmentierung:  Betriebswirtschaftlicher Bereich. Z.B. Charakteristika potentieller Kunden anhand der jetzigen Kunden, dadurch Verbesserung des Produktangebotes

31 DOAG DWH-SIG/Ralf BrüggemannFolie 31/ Anwendungsgebiete

32 DOAG DWH-SIG/Ralf BrüggemannFolie 32/ Zusammenfassung  Datenqualität und Auswahl von Trainingsdaten von entscheidender Bedeutung  Richtige Auswahl der Methode wichtig  Interpretation der Daten erfordert großes Knowhow

33 DOAG DWH-SIG/Ralf BrüggemannFolie 33/ Kontakt  Ralf Brüggemann Senior Berater Business Intelligence  PROMATIS AG Stolberger Str Köln   Mail:


Herunterladen ppt "DOAG DWH-SIG/Ralf BrüggemannFolie 1/04.07.2000 Data Mining-Verfahren: Theorie und Anwendungsgebiete Ralf Brüggemann PROMATIS AG."

Ähnliche Präsentationen


Google-Anzeigen