DOAG DWH-SIG/Ralf BrüggemannFolie 1/04.07.2000 Data Mining-Verfahren: Theorie und Anwendungsgebiete Ralf Brüggemann PROMATIS AG.

Slides:



Advertisements
Ähnliche Präsentationen
Apriori-Algorithmus zur Entdeckung von Assoziationsregeln
Advertisements

Data Mining Anwendungen und Techniken
Die vorgeschlagene adaptive Methode filtriert die TCP/IP Verkehr auf der Basis von dem adaptiven Lernen einer KNN mit Paketen-Headers, die verschiedenen.
Genetische Algorithmen für die Variogrammanpassung
Universität Stuttgart Institut für Kernenergetik und Energiesysteme Was ist Refactoring? Bevor man die Integration angeht, mag es angebracht sein, den.
es gibt (fast) nichts, was nicht anders gemacht werden könnte
Oberseminar Datenbanken Carsten Severin Tobias Sorgatz
Überwachte Klassifizierung - Kartierschlüssel
Herzlich willkommen beim 1. Workshop der AG Methodik
High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.
Minimum Spanning Tree: MST
Classification of Credit Applicants Using Data Mining. Thema.
Tutorium
Neuronale Netzwerke am Beispiel eines MLP
ABC-Analyse von Michael Getzinger.
Neuronale Netze (Mitchell Kap. 4)
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Machine Learning Decision Trees (2).
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Betrügern auf der Spur WIN-Treffen 2010 Falko Meyer 04 BW.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Histogramm/empirische Verteilung Verteilungen
Effiziente Algorithmen
Effiziente Algorithmen
DataMining Von Daten zu Informationen und Wissen
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Hartmut Klauck Universität Frankfurt SS
Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten
Marktübersicht Die Linusbank Problembeschreibung Projektplan
Statistische Methoden in der Wirtschafts- und Sozialgeographie
SOTA Andrej Gisbrecht
Lernen durch Vergleiche
Klassifikation und Regression mittels neuronaler Netze
Analyse der Laufzeit von Algorithmen
Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.
Empirische Sozialforschung am Beispiel der Limburger Nordstadt
Computer Algebra für Brüche --- angepasst an Ausbildungszwecke
Erhalt der Privatsphäre beim Data Mining Ulrich Graf Betreuer: Frank Eichinger Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger FernUniversität in Hagen.
Induktion von Entscheidungsbäumen Seminar Data Mining am Fachgebiet Datenbanken und Informationssysteme Sommersemester 2007 Betreuer: Hendrik Warneke.
c-means clustering (FCM)
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
SEMINARVORTRAG, AACHEN, RUBEN SCHWARZWALD Grundlagen der Kameragestützten Objekterkennung in Echtzeit Betreuer: Prof. Dr. Walter Hillen Dipl.-Ing.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.
Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.
WISSENSREPRÄSENTATION IN ACTIVEMATH Theoretische Grundlagen – Teil 1.
SE Virtualisierung von Universitäten Zwischenbericht Liebe KollegInnen, Anbei finden Sie eine PowerPoint-Vorlage zur Erarbeitung eines kurzen Zwischenberichts.
Computernutzung im Mathematikunterricht Taschencomputer in Abschlussprüfungen Dozent: Michael Ebelshäuser Referentin: Jessica Spies
Musterlösung zur Klausur "Diskrete Mathematik" vom
WS 2001/2002 Mehrbenutzerzugriff auf GIS-Daten
Das Problem des Handlungsreisenden
Hadoco.
KI in Computerspielen Tactical and Strategic AI
Gemeinsames Lernen von Kindern mit und ohne Beeinträchtigung
5S – Zahlenspiel Dr.-Ing. Ralf Gerke-Cantow
Wieviel Daten für welchen Zweck: Offline-Lernen zur Online-Datenanalyse als Grundlage für Connected-Health Prof. Dr. Ralf Möller Institut für Informationssysteme.
DESIGN THINKING.
Genetische Algorithmen
Von Diana Braun und Daria Bures
 Präsentation transkript:

DOAG DWH-SIG/Ralf BrüggemannFolie 1/ Data Mining-Verfahren: Theorie und Anwendungsgebiete Ralf Brüggemann PROMATIS AG

DOAG DWH-SIG/Ralf BrüggemannFolie 2/ Agenda  Warum Data-Mining  Vorgehen beim Data-Mining  Data-Mining-Verfahren  Data-Mining-Methoden  Anwendungsgebiete  Zusammenfassung

DOAG DWH-SIG/Ralf BrüggemannFolie 3/ Warum Data-Mining  Analyse des Datenbestands ohne exakte Fragestellung um bislang unentdeckte Zusammenhänge aus den Daten zu extrahieren  Vorhersage unbekannter oder zukünftiger Werte

DOAG DWH-SIG/Ralf BrüggemannFolie 4/ Warum Data-Mining Kurzes Beispiel zum Nutzen von Data-Mining: Bonitätsprüfung bei Banken Gesamtkreditvolumen: DM Bisher 17% Kreditausfall = DM Nach DM: 16% Kreditausfall = DM Gewinn: DM

DOAG DWH-SIG/Ralf BrüggemannFolie 5/ Vorgehen beim Data-Mining  Selektion der Daten  Bereinigung der Daten  Transformation der Daten  Wahl des Analyseverfahrens und der Analysemethode  Interpretation des Ergebnisses

DOAG DWH-SIG/Ralf BrüggemannFolie 6/ Data-Mining-Verfahren  Klassifizierung: Entscheidungsbäume, Neuronale Netze, statistische Methoden(Regression, etc.)  Assoziierung: Regeln  Segmentierung: Clusteranalyse und Neuronale Netze

DOAG DWH-SIG/Ralf BrüggemannFolie 7/ Data-Mining-Methoden  Attribute haben Namen und Wertebereich  Wertebereich ist diskret oder kontinuierlich  Jeder Satz wird durch dieselben Attribute beschrieben  Die Menge der Klassen ist vordefiniert  Training mit Testdaten Entscheidungsbäume

DOAG DWH-SIG/Ralf BrüggemannFolie 8/ Data-Mining-Methoden Gefahr des Overfittings Entscheidungsbäume Hohe Fehlerrate bei neuen Daten Entscheidungsbaum vereinfachen solange sich die Fehlerrate für neue Beispiele verringert:  ersetze Teilbaum durch Blattknoten  ersetze Teilbaum durch den besten Teilbaum

DOAG DWH-SIG/Ralf BrüggemannFolie 9/ Data-Mining-Methoden Abschätzung der Fehlerrate:  Teile Testmenge in k gleiche Teile  Trainiere mit k-1 Teilmengen, Teste mit verbleibender Menge  Für alle Teilmengen durchführen (Cross-Validation) Entscheidungsbäume

DOAG DWH-SIG/Ralf BrüggemannFolie 10/ Data-Mining-Methoden Vorteile:  Baumstruktur leicht zu verstehen  Numerische und textuelle Attribute  „Schnelle“ Generierung Nachteile:  Keine Zeitreihenanalyse  Keine kontinuierlichen numerische Attribute Entscheidungsbäume

DOAG DWH-SIG/Ralf BrüggemannFolie 11/ Data-Mining-Methoden Neuronale Netze werden in Schichten organisiert:  Eingabeschicht: Knoten für die Eingabewerte  Ausgabeschicht: Knoten für die Ausgabewerte  Interne Schicht(en): Bearbeitung der Eingabe und Generierung der Ausgabe Neuronale Netze

DOAG DWH-SIG/Ralf BrüggemannFolie 12/ Data-Mining-Methoden Neuronale Netze W 13 W14W14 W 15 W 23 W 24 W 25 W 36 W 46 W 56 EingabeInternAusgabe

DOAG DWH-SIG/Ralf BrüggemannFolie 13/ Data-Mining-Methoden  Jeder Knoten berechnet auf Grund seiner gewichteten Eingabewerte und seines Schwellwertes einen reellwertigen Ausgabewert  Lernen besteht in der Bestimmung der Gewichte und Schwellwerte der einzelnen Verbindungen Neuronale Netze

DOAG DWH-SIG/Ralf BrüggemannFolie 14/ Data-Mining-Methoden Gefahr des Overfittings Neuronale Netze Kreuzvalidierung legt Ende der Trainingsphase fest

DOAG DWH-SIG/Ralf BrüggemannFolie 15/ Data-Mining-Methoden Neuronale Netze (Trainingsverhalten)

DOAG DWH-SIG/Ralf BrüggemannFolie 16/ Data-Mining-Methoden  Eingabecodierung:  Welche Repräsentation der Trainingsbeispiele ist günstig?  Repräsentation muß fixe Anzahl von Attributen ermöglichen  Ausgabecodierung:  Welche Repräsentation ist günstig (Anzahl Erg.-Attribute)?  Jedes Erg.-Attribut wird durch einen eigenen Ausgabeknoten repräsentiert  Interne Schicht:  Wieviele interne Elemente?  Problem: keine allgemeine Lösung verfügbar Neuronale Netze

DOAG DWH-SIG/Ralf BrüggemannFolie 17/ Data-Mining-Methoden  Vorteile:  Trainingswerte können reellwertig sein  Generierte Fkt. kann reellwertig, diskret oder Vektor sein  Trainingsdaten dürfen fehlerhaft sein  Zeitreihen möglich  Netz berechnet schnell das Ergebnis  Nachteile:  Lange Trainingszeiten  Black Box  Nur numerische Werte Neuronale Netze

DOAG DWH-SIG/Ralf BrüggemannFolie 18/ Data-Mining-Methoden  Relevante Parameter:  Konfidenz: Stärke der Korrelation („in 45% der Fälle)  Support: Häufigkeit des gemeinsamen Auftretens  Algorithmen sind so konzipiert, daß sie alle Regeln mit gewünschter Mindestkonfidenz und Mindestsupport finden Assoziationsregeln

DOAG DWH-SIG/Ralf BrüggemannFolie 19/ Data-Mining-Methoden  Gegeben: Menge D von Transaktionen t  Eine Transaktion besteht aus einer Menge von Items X i  support(X i,X k ) = (Anzahl der t die X i und X k enthalten) / D  confidence(X i,X k ) = support(X i,X k )/support(X i ) Vorgehen:  Bilde Support aller Items  Bilde aus diesen Items Itemgruppen mit 2,3,4,... Items, die Mindestsupport und Mindestkonfidenz erfüllen Assoziationsregeln

DOAG DWH-SIG/Ralf BrüggemannFolie 20/ Data-Mining-Methoden Assoziationsregeln (Beispiel)

DOAG DWH-SIG/Ralf BrüggemannFolie 21/ Data-Mining-Methoden Assoziationsregeln (Beispiel) Mindestsupport/ -konfidenz 50%

DOAG DWH-SIG/Ralf BrüggemannFolie 22/ Data-Mining-Methoden  Vorteile:  Zeitliche Abfolge von Aktionen darstellbar  Nachteile:  Keine kontinuierlichen numerischen Werte darstellbar Assoziationsregeln

DOAG DWH-SIG/Ralf BrüggemannFolie 23/ Data-Mining-Methoden  Zusammenfassung von Objekten in homogene Gruppen  Möglichst große Homogenität im Cluster  Möglichst große Heterogenität zwischen den Clustern Cluster-Analyse

DOAG DWH-SIG/Ralf BrüggemannFolie 24/ Data-Mining-Methoden Eine Menge kann sich für Cluster-Analyse eignen, muß aber nicht: Cluster-Analyse X Y X Y Keine Cluster-Struktur 3 Cluster

DOAG DWH-SIG/Ralf BrüggemannFolie 25/ Data-Mining-Methoden Zuordnungsprinzipien:  exakte Zuordnung:  Objekte werden mit Wahrscheinlichkeit 1 einem oder mehreren Clustern zugeordnet  probabilistische Zuordnung  Objekte werden mit einer zwischen 0 und 1 liegenden W. einem oder mehreren Cluster(n) zugeordnet  possibilistische Zuordnung  Objekte werden mittels W‘funktion allen Clustern zugeordnet Cluster-Analyse

DOAG DWH-SIG/Ralf BrüggemannFolie 26/ Data-Mining-Methoden Beispiel k-Means Methode: 1. Lege Cluster-Anzahl fest 2. Wahl von Startwerten für die einzelnen Cluster, z.B. zufällig gewählte Werte 3. Zuordnung der Objekte zu dem Cluster-Zentrum, zu dem die „Distanz“ minimal ist 4. Cluster-Zentrum neu berechnen als Mittelwert aller zugeordneten Objekte 5. Falls sich die Zuordnung im 3. Schritt nicht geändert hat, beenden. Ansonsten weiter bei Schritt 3 Cluster-Analyse

DOAG DWH-SIG/Ralf BrüggemannFolie 27/ Data-Mining-Methoden Vorteile:  Transparente Analyse  Schnelle Analyse Nachteile:  Große Anforderungen an den Benutzer, da Skalenniveau, Gewichtung und Berechnungsvorschrift zur Distanzmessung vorgegeben werden müssen Cluster-Analyse

DOAG DWH-SIG/Ralf BrüggemannFolie 28/ Anwendungsgebiete Klassifizierung:  Direkt-Werbung  Sortimentsgestaltung  Entdeckung von Kreditkartenbetrug  Ausfallrisiko bei Krediten

DOAG DWH-SIG/Ralf BrüggemannFolie 29/ Anwendungsgebiete Assoziierung:  Warenkorbanalyse, um das Kaufverhalten der Kunden zu analysieren, z: B. wer Kaviar kauft, kauft auch Sekt

DOAG DWH-SIG/Ralf BrüggemannFolie 30/ Anwendungsgebiete Segmentierung:  Betriebswirtschaftlicher Bereich. Z.B. Charakteristika potentieller Kunden anhand der jetzigen Kunden, dadurch Verbesserung des Produktangebotes

DOAG DWH-SIG/Ralf BrüggemannFolie 31/ Anwendungsgebiete

DOAG DWH-SIG/Ralf BrüggemannFolie 32/ Zusammenfassung  Datenqualität und Auswahl von Trainingsdaten von entscheidender Bedeutung  Richtige Auswahl der Methode wichtig  Interpretation der Daten erfordert großes Knowhow

DOAG DWH-SIG/Ralf BrüggemannFolie 33/ Kontakt  Ralf Brüggemann Senior Berater Business Intelligence  PROMATIS AG Stolberger Str Köln   Mail: