Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Ökonometrie und Statistik Fraud Detection

Ähnliche Präsentationen


Präsentation zum Thema: "Ökonometrie und Statistik Fraud Detection"—  Präsentation transkript:

1 Ökonometrie und Statistik Fraud Detection
Dr. Bertram Wassermann

2 Fraud: Wirtschaftskriminalität, was ist das?
Ein komplexes Thema: Sehr umfangreich, unterschiedlich und vielfältig. Fraud Systematik Z.B. nach Fraud Examination 4th Edition, ALBRECHT, ALBRECHT, ALBRECHT, ZIMBELMAN Art der Betrugs Betrüger Opfer Erklärung Betrug durch Mitarbeiter Mitarbeiter einer Organisation Organisation Mitarbeiter nutzen ihre Position, um Ressourcen des Unternehmens zweckwidrig zu verwenden. Lieferant Lieferant einer Organisation Lieferant verrechnen zu viel, liefern zu wenig oder schlechte Qualität als vereinbart. Kunde Kunde einer Organisation Kunde zahlen nicht oder zu wenig, oder bekommen zu viel. Management Management eines Unternehmens Shareholders, Gläubiger, Staat, etc. Das Management fälscht oder beschönigt Bilanzen, um das Unternehmen besser aussehen zu lassen. Investment Betrug Unterschiedlich Investoren Via Internet oder persönlich werden Personen zu Zahlungen für letztlich wertlose Investments bewegt. Andere Alles, was nicht zu den anderen Kategorien passt.

3 Fraud: Know the Risk, Fraud Tree
Betrug durch Mitarbeiter: Beispiele für Fraud Trees Occupational Fraud, Nach Seel Christopher ACFE

4 Fraud: Eine gute erste Quelle zum Thema - ACFE
ACFE, Association of Certified Fraud Examiners Who are they? Sitz in Austin, Texas – USA Gegründet 1988 Gegründet von Dr. Joseph T. Wells Nahezu Mitglieder weltweit Ziel: Ausbildung, Zertifizierung Sensibilisierung Betrugsaufdeckung Information, regelmäßige Reports This study contains an analysis of 2,690 cases of occupational fraud that were investigated between January 2016 and October The data presented herein is based on information provided by the Certified Fraud Examiners who investigated those cases. Their firsthand experience with these frauds provides an invaluable resource for helping us understand occupational fraud and the impact it has on organizations.

5 Fraud: ACFE, aus dem Report 2018
Basiert auf 2690 Fällen von Occupational Fraud “Occupational fraud is defined as the use of one’s occupation for personal enrichment through the deliberate misuse or misapplication of the employing organization’s resources or assets.” Im Gegensatz zu Betrug durch Lieferanten, Kunden oder unbekannte Dritte. Zwischen Jänner 2016 bis Oktober 2017 Zusammengetragen von Certified Fraud Examiners, also unter den Mitgliedern des ACFE Daten aus 23 verschiedenen industriellen Kategorien Vom Kleinbetrieb bis multinationalem Unternehmen Weltweit in 125 Länder (Median Loss ist in welchem Land am größten?) Occupational Fraud, Betrug durch Mitarbeiter. Im Gegensatz Lieferanten oder Kunden oder Dritte Occupational fraud is defined as the use of one’s occupation for personal enrichment through the deliberate misuse or misapplication of the employing organization’s resources or assets.

6 Fraud: ACFE, aus dem Report 2018

7 Fraud: ACFE, aus dem Report 2018
Occupational Fraud, Betrug durch Mitarbeiter. Im Gegensatz Lieferanten oder Kunden oder Dritte Occupational fraud is defined as the use of one’s occupation for personal enrichment through the deliberate misuse or misapplication of the employing organization’s resources or assets.

8 Fraud: ACFE, aus dem Report 2018

9 Fraud: Prevention – Detection – Documentation
Fraud Detection zwischen Prevention und Documentation Fraud Prevention Oberstes Ziel Fraud Documentation Der Betrug ist geschehen, der Schaden eingetreten Es geht im Wesentlichen nur noch um die Feststellung der Höhe und des Ausmaßes des Schadens, und wie und von wem der Betrug durchgeführt wurde Fraud Detection Spannt einen weiten Bogen zwischen diesen beiden Alleine die Tatsache, dass bekannt ist, dass Maßnahme zur Betrugserkennung eingesetzt werden, wirkt präventiv. Den Betrugsversuch schnell zu erkennen, bedeutet Betrug zu verhindern oder zumindest Schaden zu minimieren. Selbst wenn klar ist, dass ein Betrug durchgeführt wurde, muss das Ausmaß festgestellt, der Umfang quantifiziert werden.

10 Fraud: Analytische Reifegradkurve
Die Analytische Reifegradkurve: ein beliebtes Mittel von Beratern, um einen Kunden analytisch zu „verorten“ also zu diagnostizieren aber auch um die eigenen Leistungen darzustellen und sie gut zu verkaufen. Aber auch didaktisch gut zu gebrauchen. Ein Beispiel nach Gartner (aus Rückblick –Einblick – Vorausblick Grad der menschlichen Beteiligung dabei

11 Fraud: Österreichische Fallbeispiele
Reifegrad 0: Absolutes Vertrauen in die eigenen Mitarbeiter oder Einfach nur Dummheit, Faulheit, Ignoranz Unternehmen produziert und verkauft Badezimmereinrichtung Zwei Standorte, Produktionsstandort in einem Bundesland Verkaufsstandort in Wien Geschäftsführer schaltet Beratungsfirma ein, weil er Betrug vermutet. Untersuchung ergibt: Über 2,5 Jahre hinweg verkaufen Mitarbeiter Produkte (wie Badewannen, Duschtassen, Wasserhähne, etc.) ohne Rechnung, kassieren das Geld für sich selbst. Sie vertuschen die Verkäufe durch Schwund (Produkt durch Transport oder bereits bei der Fertigung beschädigt, so dass es unverkäuflich und zu entsorgen ist.) Beratungsfirma stellt Daten zur Dokumentation des Schadens sicher: Alle Lieferung des betroffenes Zeitraums sind in 50 Aktenordnern gesammelt. Ausgedruckt auf Papier. Gedruckt mittels Nadeldrucker (!). Digital nicht mehr vorhanden -> Scannen von 50 Ordnern. Mittels OCR (Optical Character Recognition) – Erfassung der Daten (Schwierig, wann beginnt Big Data?) Aufgabe war nur noch Schadensfeststellung. Wie kann man eine interne Revision durchführen, wenn die nötigen Daten alle ausgedruckt in Aktenordnern „gespeichert“ sind? Know your Business. Was für einen Menschen leicht in einen Zusammenhang gebracht werden kann, ist für eine Maschine nicht so einfach.

12 Fraud: Österreichische Fallbeispiele (1)
Reifegrad 0: Absolutes Vertrauen in die eignen Mitarbeiter oder Einfach nur Dummheit, Faulheit, Ignoranz Big Data Thema: Selbst ausgedruckte Listen von Lieferscheinen sind nur semistrukturiert. Eigentlich gedacht für menschlichen Leser Unterschiedliche Längen von Produktbezeichnungen (Artikelbezeichnungen, die auf Grund ihrer Länge in die nächste Zeile umgebrochen werden) Schriftarten spielen keine Rolle für Mensch. Verschmutzungen beim Ausdruck für Mensch geringes Problem. Eine Buchung kann aus mehreren Zeilen bestehen. Rechnungen können Zwischensummen enthalten. Druckerwechsel führt zur Änderung des Schriftbildes Alterung des Farbbandes lässt Schrift erblassen. Anderes Papier hat Einfluss auf Erscheinungsbild.

13 Fraud: Österreichische Fallbeispiele (2)
Reifegrad 0: Über 7 Jahre Gesamt Angriffe Das sind € pro Jahr 260 € pro Angriff 150 Angriffe pro Jahr Bei 250 Geschäftstagen sind das 3 von 5 Tagen pro Woche. 260 € pro Angriff bar aus der Kassa?!? Regelmäßige interne Revision? Nach 7 Jahren?!?! Quelle: orf.at

14 Fraud: Österreichische Fallbeispiele (3 + 4)
Salzburger Spekulationsskandal (Quelle Wikipedia) Dezember 2012: Spekulative Finanzveranlagungen des österreichischen Bundeslandes Salzburg durch eine leitende Mitarbeiterin der Finanzabteilung in den vergangenen Jahren sollen einen Schaden in Höhe von 340 Millionen Euro verursacht haben. (Der Standard, 13. Dezember 2012, Seite 1: Spekulationsvolumen in Salzburg viel höher als bisher bekannt.) Burgtheater Skandal (Quelle: 11. November 2013: Im Zuge einer Gebarungsprüfung der von Stantejsky als kaufmännischer Geschäftsführerin verantworteten Geschäftsjahre treten Ungereimtheiten auf, die nicht geklärt werden können. Stantejsky wird suspendiert. 10. Februar 2014: Der forensische Zwischenbericht der Wirtschaftsprüfungsgesellschaft KPMG sieht „deutliche Indizien für gefälschte Belege und die Vorspiegelung falscher Tatsachen“ durch Stantejsky. Laut Aufsichtsrat des Burgtheaters ist daher für das Jahr 2012/13 mit einem Bilanzverlust von „voraussichtlich“ 8,3 Mio. Euro zu rechnen. Dazu könnten fünf Mio. Euro Steuernachzahlungen kommen. 24. Mai 2016: Der Endbericht des Rechnungshofs (RH) zur Causa Burgtheater übt harte Kritik am früheren Direktor Matthias Hartmann und der früheren kaufmännischen Leiterin Silvia Stantejsky. Ein Desaster seien zahlreiche Auszahlungen ohne Belege.

15 Fraud Prevention: Know Your Business
Wichtige Voraussetzungen für Fraud Prevention und Detection: Kenntnis und transparente Definition aller Geschäftsprozesse: Zusammenfassung: Basis für eine effektive Betrugsvermeidung aber auch Betrugsaufdeckung sind transparente vollständige aber auch verständliche und nachvollziehbare Geschäftsprozesse, die den Mitarbeitern bekannt sind und von den Mitarbeitern verstanden und gelebt werden. Geschäftsprozesse sollten so einfach wie möglich definiert sein, aber nicht einfacher!

16 Fraud Detection: Methodensystematik
Hybrider Ansatz, KPMG / Wassermann. Datenbasis zusammengespielt aus internen (z.B. ERP System) und externen (z.B. Firmenbuch) Quellen Datenaufbereitung Daten aus verschiedenen Quellen identifizieren Konsolidieren und verknüpfen Qualität prüfen und validieren Datenauswertung Unternehmensabläufe auf Effizienz und Sicherheit prüfen Unterschiedliche Methodensammlungen stehen dafür zur Verfügung Anwenden von unterschiedlichen Sichten auf die Daten an: Prozesssicht Netzwerksicht Zeitreihensicht Prozesssicht Netzwerksicht Zeitreihensicht Purchase to Pay Order to Cash Journal Entries uvm. Visualisierung Selektion Community Detection uvm. Preisvolatilität Zeitreihen Mining Prognosen uvm.

17 Fraud Detection: Methodensystematik
Hybrider Ansatz, SAS.

18 Fraud Detection: Methodensystematik
Supervised v.s. Unsupervised, Überwachtes v.s. unüberwachtes Lernen Gegeben sei ein Obstkorb: Überwachtes Lernen / Modellieren: Basierend auf Farbe Form Gewicht und einer Kennzeichnung aller Äpfel lernen, welche dieser Früchte sind Äpfel? Unüberwachtes Lernen / Modellieren: lernen, welche dieser Objekt gehören zur selben Obstsorte?

19 Fraud Detection: Methodensystematik
Supervised v.s. Unsupervised, Überwachtes v.s. unüberwachtes Lernen Typische Techniken Überwachtes Lernen / Modellieren: Lineare Regression Zeitreihenanalyse Logistische Regression Chi² - Test Unüberwachtes Lernen / Modellieren: Cluster Analyse Outlier Detection Latent Class Analysis

20 Fraud Detection: Deskriptive, Regelbasiert
Prozesssicht: Regelbasierte Prüfung am Beispiel von Buchungsjournalen in einem ERP System (Enterprise Resource Planning System). 1 Übersicht je Konto Buchungsübersicht je Konto (Summenaufstellung) 2 Anzahl Buchungen Anzahl Buchungen je Konto 3 Übersicht je Periode Buchungsübersicht je Periode (Summenaufstellung) 4 Soll- / Haben Ungleichheit Buchungen bei denen die Soll- und Haben-Beträge nicht übereinstimmen 5 Duplikate Duplikate über die Journalnummern 6 Fehlende Buchungen Fehlende Journalnummern 7 Übersicht je User Buchungsübersicht je User 8 Feiertagsbuchungen Buchungen an Feiertagen (Österreich) 9 Wochenendbuchungen Buchungen an Wochenenden 10 Unplausible Zeiten Buchungen zu unplausiblen Zeiten (zB 22:00 – 05:00) 11 Benford-Analyse Analyse der Zahlenverteilung in einer Datenbasis 12 Seltene Buchungen Seltene Buchungen bzw. selten bebuchte Konten 13 Gerundete Beträge Buchungen mit gerundeten Beträgen (zB 1.000) 14 Große Beträge Buchungen mit großen Beträgen 15 999-Buchungen Buchungen, die mit 999 enden 16 Konto-Kombinationen Überblick über alle Konten-Kombinationen im Hinblick auf unplausible Buchungen

21 Fraud Detection: Deskriptive, Regelbasiert
17 Buchungstexte Buchungen mit besonderen Einträgen im Buchungstext (schlagwortabhängig) 18 Stornos Aufwandsbuchungen und Storno der Buchung Stornos mit identen Buchunen (und umgedrehten Vorzeichen) Stornos allgemein 19 Interne Verrechnungen Verrechnungen zwischen Konzernkonten 20 Periodenbuchungen Buchungen an den letzten Tagen eines Monats 21 Gruppierung Perioden-buchungen Gruppierung der Buchungen an den letzten Tagen eines Monats 22 Besondere Perioden-buchungen Umsatz-, Aufwand (sonstige) und Rückstellungsbuchungen an den letzten Tagen eines Montas 23 Nächste Periode Buchungen in die nächste Periode 24 Nächste Periode (VJ) Buchungen in die nächste Periode (Vorjahr) 25 Vergangene Periode Buchungen in die vergangene Periode 26 Vergangene Periode (VJ) Buchungen in die vergangene Periode (Vorjahr)

22 Fraud Detection: Deskriptive, Regelbasiert
1 Übersicht je Konto Buchungsübersicht je Konto (Summenaufstellung) 2 Anzahl Buchungen Anzahl Buchungen je Konto 3 Übersicht je Periode Buchungsübersicht je Periode (Summenaufstellung) 4 Soll- / Haben Ungleichheit Buchungen bei denen die Soll- und Haben-Beträge nicht übereinstimmen 5 Duplikate Duplikate über die Journalnummern 6 Fehlende Buchungen Fehlende Journalnummern 7 Übersicht je User Buchungsübersicht je User 8 Feiertagsbuchungen Buchungen an Feiertagen (Österreich) 9 Wochenendbuchungen Buchungen an Wochenenden 10 Unplausible Zeiten Buchungen zu unplausiblen Zeiten (zB 22:00 – 05:00) 11 Benford-Analyse Analyse der Zahlenverteilung in einer Datenbasis 12 Seltene Buchungen Seltene Buchungen bzw. selten bebuchte Konten 13 Gerundete Beträge Buchungen mit gerundeten Beträgen (zB 1.000) 14 Große Beträge Buchungen mit großen Beträgen 15 999-Buchungen Buchungen, die mit 999 enden 16 Konto-Kombinationen Überblick über alle Konten-Kombinationen im Hinblick auf unplausible Buchungen 17 Buchungstexte Buchungen mit besonderen Einträgen im Buchungstext (schlagwortabhängig) 18 Stornos Aufwandsbuchungen und Storno der Buchung Stornos mit identen Buchunen (und umgedrehten Vorzeichen) Stornos allgemein 19 Interne Verrechnungen Verrechnungen zwischen Konzernkonten 20 Periodenbuchungen Buchungen an den letzten Tagen eines Monats 21 Gruppierung Perioden-buchungen Gruppierung der Buchungen an den letzten Tagen eines Monats 22 Besondere Perioden-buchungen Umsatz-, Aufwand (sonstige) und Rückstellungsbuchungen an den letzten Tagen eines Montas 23 Nächste Periode Buchungen in die nächste Periode 24 Nächste Periode (VJ) Buchungen in die nächste Periode (Vorjahr) 25 Vergangene Periode Buchungen in die vergangene Periode 26 Vergangene Periode (VJ) Buchungen in die vergangene Periode (Vorjahr) Am Ende erhält man Berichte, die sowohl einen Überblick liefern und andererseits auffällige Buchungen markieren (flaggen) z.B. Red Flag – definitiv problematisch Yellow Flag – verdächtig Green Flag – unauffällig, in Ordnung

23 Fraud Detection: Statistische Tests, Benford
Simon Newcomb (1881) fiel auf, dass die vorderen Seiten von Logarithmentafeln viel abgenutzter waren als die hintern. Er folgerte, dass Logarithmen mit niedriger Anfangsziffer öfter gesucht wurden als mit hoher. Die Ziffern 1 bis 9 sind als Anfangsziffern von Zahlen nicht gleichverteilt. Frank Benford untersuchte das systematisch und sammelte alle möglichen Daten und wertete die Verteilung der Anfangsziffer aus. Siehe Grafik: Probieren Sie es selbst mit Hilfe von Google. Suchen Sie nach der Zahl 1666 und 9666 und beachten sie die Trefferanzahl. Die Benford Verteilung lautet: 𝑙𝑜𝑔 𝑑 𝑖 +1 𝑑 𝑖 𝑓ü𝑟 𝑑 𝑖 ∈ 1,…,9

24 Fraud Detection: Statistische Tests, Benford
Die Benford Verteilung gilt aber nicht für alle Zahlenmengen. Voraussetzungen: Der Datensatz soll entweder dem vollständigen Datenbestand oder einer zufälligen Stichprobe entsprechen. Je größer der Datenbestand oder die Stichprobe ist, desto besser erfolgt eine Annäherung an Benford´s Gesetz. Der Datensatz soll in derselben Maßeinheit (Euro, Kilogramm, Meter, etc.) erfasst worden sein und somit eine einheitliche Größe messen. Bei dem zu untersuchenden Datensatz soll es sich nicht um statistische Größen wie Mittelwerte oder Varianzen handeln, da diese bestimmten Verteilungsgesetzen wie z.B. der Normalverteilung gehorchen und somit das Ergebnis verzerren können. Der Datensatz soll keine festgelegten Unter- oder Obergrenzen (Gebühren, Provisionen, Mindestbestellungen75, etc.) haben und frei von psychologischen Einflüssen (z.B Euro anstatt Euro für einen Gebrauchtwagen) sein. Der Datensatz darf nicht der Identifikation (Telefonnummern, Sozialversicherungsnummern etc.) dienen und muss eine Größenordnung repräsentieren.

25 Fraud Detection: Statistische Tests, Benford
Wie man Benford anwendet. Buchungen auf einem Gehaltskonto, alle Aus- und Eingänge über 10 Jahre Absolut Verteilung Beobachtet Benford 1 565 0,2486 0,3010 684,2 2 375 0,1650 0,1761 99,5 3 274 0,1205 0,1249 46,9 4 153 0,0673 0,0969 26,6 5 125 0,0550 0,0792 12,1 6 82 0,0361 0,0669 8,4 7 61 0,0268 0,0580 4,8 8 53 0,0233 0,0512 3,1 9 585 0,2574 0,0458 2,4 Gesamt 2273 Chi² Test 0,00000 Ausgänge Verteilung Beobachtet Benford 1 477 0,2183 0,3010 657,8 2 375 0,1716 0,1761 84,0 3 274 0,1254 0,1249 46,9 4 153 0,0700 0,0969 26,6 5 125 0,0572 0,0792 12,1 6 82 0,0375 0,0669 8,4 7 61 0,0279 0,0580 4,8 8 53 0,0243 0,0512 3,1 9 585 0,2677 0,0458 2,4 Gesamt 2185 Chi² Test 0,00000 Eingänge Verteilung Beobachtet Benford 1 88 0,4231 0,3010 62,6 2 24 0,1154 0,1761 15,5 3 29 0,1394 0,1249 3,0 4 32 0,1538 0,0969 2,8 5 12 0,0577 0,0792 2,5 6 0,0288 0,0669 0,8 7 0,0337 0,0580 0,3 8 0,0192 0,0512 0,4 9 0,0458 0,2 Gesamt 208 Chi² Test 0,00000 Passt nicht gut zusammen. Zu wenig 1er. Viel zu viele 9er. Die vielen 9er muss man unter den Ausgängen suchen. Viele Bankomat Behebungen von € 90. Hier überwiegen die 1er. Gehaltskonto, regelmäßiger Eingang des selben Betrages.

26 Fraud Detection: Statistische Tests, Benford
Kritik: Ist nur anwendbar, wenn die nicht-dolosen Ausgangsdaten einer Benford Verteilung folgen. Das muss man vorher überprüfen. Je individueller die zu analysierenden Daten sind, desto unwahrscheinlicher wird es, dass die Benford Verteilung zutrifft. Aber gerade Individuen können an bestimmten typischen Muster erkannt werden. Weiterentwicklung: Der Benford Ansatz ist theoriegetrieben: entsprechen die Daten einer Verteilung, die laut einer Theorie vorliegen sollte. Alternativ: Datengetrieben Ist in den Daten ein Muster zu erkennen? Und gibt es individuelle Abweichungen davon, sogenannte Ausreißer? Oder, lerne individuelle Muster und überprüfe Abweichungen davon.

27 Fraud Detection: Statistische Tests, Ausreißer
Beispiel 1: Boxplot mit Ausreißern. Aus dem Fallbeispiel Mietspiegel in München: Boxplot weist einige sehr große Wohnungen als Ausreißer aus. Lassen sich damit Unternehmensdaten auf möglichen Betrug hin analysieren?

28 Fraud Detection: Statistische Tests, LOF
Local Outlier Detection mit LOF (Local Outlier Factor) Und immer wieder die Frage: Was ist ein Ausreißer? Beispiel 2 ist zweidimensional. Zwei Gruppen (Cluster) sind deutlich zu sehen: Eine dichte Punktwolke links unten. Eine dünnere Wolke rechts oben. Zwei Punkte liegen etwas abseits. Der erste wäre durchaus als Ausreißer qualifizierbar. Der zweite liegt zwar nahe an C2, liegt auch so dicht zu C2 wie die Punkte in C1 zueinander, aber in C2 liegen die Punkte viel enger. Methoden der Local Outlier Detection Clustern die Daten Und bewerten jeden Datenpunkt, wie gut er in „sein“ Cluster passt. Je höher der LOF, desto weniger passt der Datenpunkt in sein Cluster.

29 Fraud Detection: Preisvolatilitätsprüfung
Nimmt man zu den Produkten, Verkäufern und Stückpreisen noch die Zeit dazu, kann man das Analysenetz noch feiner machen. Mitarbeiter E05 betreut ein Produkt, das noch von 7 Kollegen über 5 Händler bezogen wird. Ein Preisanstieg ist zu erkennen. Einkäufer E05 tritt in der letzten Phase des Anstiegs in Aktion. Einkäufer E10 stellt gleichzeitig seine Aktivitäten ein Es gibt zwei Preiscluster, E5 liegt im deutlich Teureren. Ein Einkäufer (E01) kauft häufig zu beiden Konditionen ein. Warum? Warum kaufen die anderen nicht manchmal zum günstigeren Preis ein? Fraud? Ineffizienz?

30 Fraud Detection: Preisvolatilitätsprüfung
Nimmt man zu den Produkten, Verkäufern und Stückpreisen noch die Zeit dazu, kann man das Analysenetz noch feiner machen. Das selbe Produkt, der selbe Mitarbeiter, jetzt aber nach Lieferanten. Der günstigere Preis ist nur einem Lieferanten geschuldet. Warum kaufen nicht alle bei diesem Lieferanten ein? Die Liefermengen sind durchaus vergleichbar. Lieferant C10 stellt seine Aktivitäten mit Dez 11 ein. Gleichzeitig beginnt C04, welcher auf dem selben Preisniveau einsteigt.

31 Fraud Detection: Latent Class Regression
Durch die Kombination von Clusteranalyse und Regressionsanalyse bekommt man die sogenannte Latent Class Regression: Sie ist wie eine lineare Regression mit zum Beispiel Kontoumsätzen als Zielvariable der Zeit als erklärende Trendvariable und einer kategoriellen erklärenden Variable, die aber a priori nicht bekannt ist, sondern erst durch das Verfahren gefunden wird. So wie in dem bereits besprochenen Beispiel, können sich bei Kontobewegungen über die Zeit hinweg Cluster ergeben. Manche zeigen dabei einen deutlichen (linearen) Trend. Diese Cluster plus Trend werden mit Latent Class Regression aufgespürt.

32 Fraud Detection: Latent Class Regression
Gruppierung durchführen Clusteranalyse mit Latent Class Regression ergibt Cluster und Trendschätzung Prozess links Prozess Mitte Prozess rechts Anzahl Cluster Auffällig: viele Cluster Maß: Anzahl der Cluster 3, mäßig heterogen 4, heterogen 2, kaum auffällig Einzelbewertung Trends in den Clustern Auffällig: Wachstum, abrupte Änderungen Maß: Wachstumsrate Keine Trends 1 Cluster mit Wachstum 2 Cluster mit Rückgang 1 Cluster mit leichtem Rückgang Ausreißer in Clustern Auffällig: Ihr Vorhandensein Maß: Summe der Abweichungen Keiner Ja, einer Ausreißercluster Auffällig: Existenz Maß: Anzahl der Elemente (je kleiner desto auffälliger) Ja, eines mit einem Element Ja, eines aber relativ viele Elemente Zeitliche Überlappung Auffällig: Wenig Überlappung Maß: zeitlicher Unterschied Kaum auffällig Deutliches Zeitmuster: 2 Cluster enden vorzeitig. Eines (ganz rechts) beginnt spät Nicht auffällig Wertebereich Auffällig: große Werte Maß: Summe, Mittelwert, Varianz 4 bis 5-stellig Niedrig 6-stelltig Hoch 4-stellig Sehr niedrig Abstand der Wertebereiche Auffällig: große Abstände zw. Clustern Maß: Summe der Abstände Die beiden großen Cluster liegen eng Sehr große Unterschiede zwischen den Wertbereichen Klein Gesamtbewertung Score 2 1 3

33 Fraud Detection: Logistische Regression
Typisches Beispiel Kreditkartenbetrug Es ist relativ einfach Daten zu sammeln, da jede Kreditkarte einen „Controller“ hat, nämlich die Kontoinhaber. Überprüfte Daten stehen zur Verfügung: Einerseits, welche Kreditkartentransaktionen sind dolos, welche nicht. Andererseits, potentielle erklärende Variablen. Zielvariable ist dichotom (dolos, nicht dolos) Logistische Regressionsmodell berechnen. Regressionsmodell beschreibt Wahrscheinlichkeit, dass ein Geschäftsfall dolos ist. Anwendung: Bei 500 neuen Geschäftsfällen pro Woche werden die laut Modell 10 gefährdetsten Fälle ausgewählt … und manuell überprüft. Die überprüften Fälle werden in die Trainingsdaten aufgenommen und das Modell neu berechnet.


Herunterladen ppt "Ökonometrie und Statistik Fraud Detection"

Ähnliche Präsentationen


Google-Anzeigen