Classification of Credit Applicants Using Data Mining. Thema.

Slides:



Advertisements
Ähnliche Präsentationen
Eine Grundlage zum Unternehmenserfolg? Master-Thesis
Advertisements

Bayes Netze Seminar: Transkription in Sprachsynthese und -erkennung
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Data Mining / Wissensextraktion
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Telefonnummer.
Statistiken und Tabellen
Entscheidungstheorie für Unentschlossene Indecision Theory.
Genetische Algorithmen
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Herzlich willkommen beim 1. Workshop der AG Methodik
Differentielles Paar UIN rds gm UIN
Prof. Dr. Bernhard Wasmayr
Nachholung der Vorlesung vom Freitag
Vorlesung Die Vorlesung Statistische Methoden II nächste Woche vom 6. Juni ( nächste Woche ) wird auf den 4. Juni (Mittwoch) vorverlegt ! 14 – 16 Zeit:
Achtung Vorlesung am nächsten Montag (21. Juni) Zeit: Uhr Ort: Kiste.
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Neuronale Netzwerke am Beispiel eines MLP
Machine Learning Decision Trees (2).
Unfallprävention auf Autobahnen
Masterseminar Robert Neßelrath Lehrstuhl Wahlster 2007 Framework zum Klassifizieren von Gesten basierend auf multiplen Sensoren.
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Self Organizing Tree Algorithm
Zusatzfolien zu B-Bäumen
WARUM IST DAS NEUE ADR PROGRAMM BESSER? 153%Mehrwert 228%Mehrwert Es ist einfach noch RENTABLER für Sie! Wenn Sie derzeit einen ADP Rabatt von 10% erhalten,
Manfred Wahl Gewinnen mit Risiko Mgmt Heidelberger Investoren Runde 11. April 2007 Idee: van Tharp Institute, Technischer Analyse Kongress 2006, Frankfurt.
Zur Veranstaltung Business Intelligence
des Business Intelligence Projekts
Eine Einführung in die CD-ROM
Abfallwirtschaft Mannheim Eigenbetrieb für Abfallwirtschaft und Stadtreinigung Pressekonferenz 1. Dezember 2011, Uhr.
DataMining Von Daten zu Informationen und Wissen
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Dokumentation der Umfrage
Leonardo da Vinci CrediCare Abschlussworkshop 1. Oktober 2013 in Bremen Dagmar Koch-Zadi ibs e.V. 1.
Wir üben die Malsätzchen
GIS - Seminar Wintersemester 2000/2001
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering
Addieren und Subtrahieren von Dezimalzahlen
Prädiktion und Klassifikation mit Random Forest
Bitte F5 drücken.
Identifizierung von Muschelbänken im Schleswig-Holsteinischen Wattenmeer mittels LiDAR-Daten Dr. Gabriele Müller AG GIS-Küste, 29. April 2013.
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Plötzlicher Herztod – Definition (I)
Kamin- und Kachelöfen in Oberösterreich
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Umsatz55,353,63,1 Betriebsgewinn5,04,219,2 Prozent vom Umsatz9,17,9 Gewinn vor außerordentlichen Posten 4,94,314,4 Prozent vom Umsatz8,87,9 Gewinn des.
QUIPS 2011 Qualitätsverbesserung in der postoperativen Schmerztherapie.
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
BLV Ökologie Ökonomie Soziologie Aufgabenstellung Gruppe II (T02a)
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Projekt Messendorferstraße Graz TOP 1-33 /EG Wohnhaus 1 Grundstück 2 Schlafen10,28 m² Wohnen /Kochen 15,35 m² Diele 2,50 m² Bad mit WC 4,40m² Terrasse.
3 8 ! 3 8 Zähler Bruchstrich Nenner.
Orientierung im Zahlenraum 100
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Evolutionärer Entwurf neuronaler Netze
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
 Präsentation transkript:

Classification of Credit Applicants Using Data Mining. Thema

Gruppe E1-116 a Yue Sun Frank Moritz Jasmin Catovic André Bünger Supervisor: Thomas D. Nielson

Aufgabenstellung Klassifizierung von Kreditnehmern mittels Datamining genutzte Techniken: –Entscheidungsbäume –Neuronale Netze –Naive Bayes Klassifizierer

Aufbau der Präsentation verwendete Datenbank Benutze Algorithmen Experimente und Ergebnisse Schlussfolgerung

Die Datenbank Name: –Determining the solidness of borrowers via Credit-Scoring Herkunft: –Statistisches Archiv der Universität München

Datenbank Datensätze 21 Attribute –20 Merkmalsattribute 3 stetige 17 diskrete – 1 Zielattribut (kreditwürdig, nicht kreditwürdig)

Trainings- und Testsets 5 verschiedene Sets Größe der Testsets : 300 Datensätze Größe der Trainingsets : –700 Datensätze –500 Datensätze –300 Datensätze –100 Datensätze

Diskretisierung Naive Bayes benötige diskrete Attribute 2 verschiedene Methoden benutzt –vorgegebener Vorschlag (Expertenmeinung) –recursive minimal entropy partitioning (RMEP)

RMEP teilt stetige Attribute, so dass Intervalle mit gleichem Zielattributwert gebildet werden Realisiert mit Weka DiscretizeFilter (MDL)

Naive Bayes Klassifizierer basiert auf Bayes Theorie der bedingten Wahrscheinlichkeit Annahme das die Attribute unabhängig voneinander sind

Struktur Creditabilit y F Worker Duratio n Balanc e Credit History...

Entscheidungsbäume verwendete Software : Clementine 6.0 –Clementine verwendete den C5 Algorithmus –C5 ist eine Verbesserung von C4.5 –basiert auf ID3

Neuronale Netze Verwendete Software : Clementine 6.0 –Vorwärtsverkettete Netze –eine versteckte Schicht mit 5 Neuronen

Experimente Ziel: den besten Klassifizierer finden Variation von Parametern – Naive Bayes : m-estimate of probability – Entscheidungsbäume : Pruningrate, Kosten – neuronale Netze: Momentum, Lernrate

Entscheidungsbäume Expertenmeinung

Vergleich der Diskretisierungsmethoden bei 700 Datensätzen

Vergleich der Klassifikation in kreditwürdig/nicht kreditwürdig bei 700 DS und Expertenmeinung pruning class label

Probleme bei der Klassifikation Viele nichtkreditwürdige werden als kreditwürdig klassifiziert Mit erhöhtem Pruning werden mehr als kreditwürdig klassifiziert Problemlösungsversuch: –Kosten für Missklasssifikation erhöht –Ergebnis : keine Verbesserung

Neuronale Netze trainiert mit 700 Datensätzen und Momentum = 0.5

Vergleich der Klassifikation Learning rate class label trainiert mit 700 Datensätzen, Expertenmeinung, momentum=0.5

Probleme Viele Nichtkreditwürdige werden als kreditwürdig klassifiziert Stark unterschiedliche Ergebnisse bei Modellen mit den gleichen Parametern und Datensätzen (bis zu 17%)

Naive Bayes Klassifizierer Expertenmeinung

Vergleich von Expertenmeinung und RMEP bei 700 Datensätzen

m Class label Vergleich der Klassifikation bei 700 Datensätzen und Expertenmeinung

Vergleich der besten Ergebnisse Entscheidungsbäume: Original : 72,07% mit pruningrate von 80 RMEP:71,20% mit pruningrate von 80 EM:73,40% mit pruningrate von 60 –Neuronale Netze original:74,07% mit alpha 0.5 und eta 0.5 RMEP:75,34% mit alpha 0.5 und eta 0.2 EM:74,53% mit alpha 0.5 und eta 0.1 –Naive Bayes Klassifizierer RMEP:74,73%mit m=5 EM:74,87%mit m=10

Vergleich insgesamt Entscheidungsbäume : 47% 86%73,40% Neuronale Netze: 46% 87%75,34% Naive Bayes Klassifizierer:53% 84% 74,87%

Zusammenfassung bestes Resultat mit neuronalen Netzen aber keine großen Unterschiede Naive Bayes Klassifizierer klassifiziert nichtkreditwürdige Kreditnehmer am besten gleiche Probleme bei der Klassifikation von nichtkreditwürdigen Kreditnehmern

Fazit bester Klassifizierer ist der Naive Bayes Klassifizierer, da er nichtkreditwürdige Kunden besser klassifiziert als die anderen zwei Methoden. dadurch Reduzierung der Kreditausfälle für die Bank