Ökonometrie und Statistik Fraud Detection

Slides:



Advertisements
Ähnliche Präsentationen
Der Foliensatz ist unter einer Creative Commons-Lizenz lizenziert:
Advertisements

Problemlösen am Beispiel des Rückwärtsarbeitens
? Stichwortverzeichnis … zum Suchen
Stichwortverzeichnis
Heute Mathe, morgen DLR! Dr. Margrit Klitz
Einführung in Web- und Data-Science Grundlagen der Stochastik
gemeinsam.innovativ.nachhaltig.
Wissenschaftliche Methodik
3. Schafft das Internet neue Transaktionsdesign?
Umweltbezogene Entscheidungen - multidimensionale Bewertungsverfahren -
Michael Artin: Geometric Algebra
R What is this R thing, and is it worth some effort?
3 Elektrochemische Wandler
Elektro-Skateboards Teil I Grundlagen
Stichwortverzeichnis
8 Zündung/Motormanagement
Stichwortverzeichnis
2 Elektrische Maschinen in Kraftfahrzeugen
Herstellung von kristallinen Metalloxiden über die Schmelze mit einem Spiegelofen Gruppe 8: Yuki Meier, Vivien Willems, Andrea Scheidegger, Natascha Gray.
Kapitel 4 Traveling Salesman Problem (TSP)
Markus Lips März 2017 ETH-Vorlesung, 6. Sem. Agrarwissenschaft BSc Agrartechnik II.
Einführung in die Wahrscheinlichkeitsrechnung
Motoremissionen mobiler Anlagen – Stand der Technik
Lieber Leser, liebe Leserin,
Inhaltsverzeichnis In der vorliegenden Präsentation finden Sie unter anderem Antworten auf folgende Fragen… warum ist eine Gesetzesinitiative zum Betriebliches.
Einführung in Web- und Data-Science
Algorithmen und Datenstrukturen
Algorithmen und Datenstrukturen
Industrie 4.0 für die Ausbildung 4.0
Entwicklung epistemologischer Überzeugungen
Das Verdauungssystem Präsentiert von Theresa
MasterBAV© Die neue Generation BAV
Algorithmen und Datenstrukturen
Rehwild die richtige Altersbestimmung
PSG II Neuer Pflegebedürftigkeitsbegriff und dessen Begutachtung (NBA)
Medientechnische Infrastrukturen für virtuelle und lokale Lernräume
Wissensmanagement im Zeitalter von Digitaler Transformation
«Wir bereiten uns auf die Deutschlandreise vor»
GABI UND BEN.
Pflege & Finanzierung 01. Juni 2017 Dr. Sonja Unteregger
Das Arbeitgebermodell in Zeiten des
Microsoft® Office PowerPoint® 2007-Schulung
Einführung in Web- und Data-Science
Pensionsrück-stellungen Prof. Dr. Matthias Hendler
Mathematik 10.
Betriebliche Gesundheitsförderung 2
Vorlesung Wasserwirtschaft & Hydrologie I
Liebe BetrachterInnen,
Rosebrock: Geometrische Gruppen
Forschungsmethoden in der Teilchenphysik
Neue Unterrichtsmaterialien zur Teilchenphysik Philipp Lindenau CERN | Herzlich willkommen! Präsentation mit Notizen hinterlegt!
Eröffnungsveranstaltung
Aktuelle Themen aus dem KVJS-Landesjugendamt Referat 44
Roomtour - Podio für Anfänger
175 Jahre UZH Krisenkommunikation
Frauen- Männerriegen KONFERENZ
Schulung für Microsoft® Office SharePoint® 2007
Was ist eigentlich Datenschutz?
Aktuelle Aspekte des Europäischen Zivilprozessrechts
Einführung in die Benutzung des Einkaufportals der Eckelmann AG
Wer wir sind! Ihr S-Campus-Team direkt im Campus Center. Sven Deussing
Non-Standard-Datenbanken
Amand Fäßler 3. Januar 2017; RC Bregenz
Mathematik 11 Analytische Geomerie.
Non-Standard-Datenbanken
Menger-Schwamm Ausgangsfigur in Stufe 0 ist ein Würfel
Sortieren auf Multiprozessorrechnern
Wurzeln und Irrationalität nach U.Wagner, OHG Tuttlingen
Langzeitbelichtung Ein Zugang zur Kinematik in Klassenstufe 7/8
Eine kleine Einführung in das Projekt „Mausefallenauto“
 Präsentation transkript:

Ökonometrie und Statistik Fraud Detection Dr. Bertram Wassermann

Fraud: Wirtschaftskriminalität, was ist das? Ein komplexes Thema: Sehr umfangreich, unterschiedlich und vielfältig. Fraud Systematik Z.B. nach Fraud Examination 4th Edition, ALBRECHT, ALBRECHT, ALBRECHT, ZIMBELMAN Art der Betrugs Betrüger Opfer Erklärung Betrug durch Mitarbeiter Mitarbeiter einer Organisation Organisation Mitarbeiter nutzen ihre Position, um Ressourcen des Unternehmens zweckwidrig zu verwenden. Lieferant Lieferant einer Organisation Lieferant verrechnen zu viel, liefern zu wenig oder schlechte Qualität als vereinbart. Kunde Kunde einer Organisation Kunde zahlen nicht oder zu wenig, oder bekommen zu viel. Management Management eines Unternehmens Shareholders, Gläubiger, Staat, etc. Das Management fälscht oder beschönigt Bilanzen, um das Unternehmen besser aussehen zu lassen. Investment Betrug Unterschiedlich Investoren Via Internet oder persönlich werden Personen zu Zahlungen für letztlich wertlose Investments bewegt. Andere Alles, was nicht zu den anderen Kategorien passt.

Fraud: Know the Risk, Fraud Tree Betrug durch Mitarbeiter: Beispiele für Fraud Trees Occupational Fraud, Nach Seel Christopher 2012 ACFE

Fraud: Eine gute erste Quelle zum Thema - ACFE ACFE, Association of Certified Fraud Examiners www.acfe.com Who are they? Sitz in Austin, Texas – USA Gegründet 1988 Gegründet von Dr. Joseph T. Wells Nahezu 85.000 Mitglieder weltweit Ziel: Ausbildung, Zertifizierung Sensibilisierung Betrugsaufdeckung Information, regelmäßige Reports This study contains an analysis of 2,690 cases of occupational fraud that were investigated between January 2016 and October 2017. The data presented herein is based on information provided by the Certified Fraud Examiners who investigated those cases. Their firsthand experience with these frauds provides an invaluable resource for helping us understand occupational fraud and the impact it has on organizations.

Fraud: ACFE, aus dem Report 2018 Basiert auf 2690 Fällen von Occupational Fraud “Occupational fraud is defined as the use of one’s occupation for personal enrichment through the deliberate misuse or misapplication of the employing organization’s resources or assets.” Im Gegensatz zu Betrug durch Lieferanten, Kunden oder unbekannte Dritte. Zwischen Jänner 2016 bis Oktober 2017 Zusammengetragen von Certified Fraud Examiners, also unter den Mitgliedern des ACFE Daten aus 23 verschiedenen industriellen Kategorien Vom Kleinbetrieb bis multinationalem Unternehmen Weltweit in 125 Länder (Median Loss ist in welchem Land am größten?) Occupational Fraud, Betrug durch Mitarbeiter. Im Gegensatz Lieferanten oder Kunden oder Dritte Occupational fraud is defined as the use of one’s occupation for personal enrichment through the deliberate misuse or misapplication of the employing organization’s resources or assets.

Fraud: ACFE, aus dem Report 2018

Fraud: ACFE, aus dem Report 2018 Occupational Fraud, Betrug durch Mitarbeiter. Im Gegensatz Lieferanten oder Kunden oder Dritte Occupational fraud is defined as the use of one’s occupation for personal enrichment through the deliberate misuse or misapplication of the employing organization’s resources or assets.

Fraud: ACFE, aus dem Report 2018

Fraud: Prevention – Detection – Documentation Fraud Detection zwischen Prevention und Documentation Fraud Prevention Oberstes Ziel Fraud Documentation Der Betrug ist geschehen, der Schaden eingetreten Es geht im Wesentlichen nur noch um die Feststellung der Höhe und des Ausmaßes des Schadens, und wie und von wem der Betrug durchgeführt wurde Fraud Detection Spannt einen weiten Bogen zwischen diesen beiden Alleine die Tatsache, dass bekannt ist, dass Maßnahme zur Betrugserkennung eingesetzt werden, wirkt präventiv. Den Betrugsversuch schnell zu erkennen, bedeutet Betrug zu verhindern oder zumindest Schaden zu minimieren. Selbst wenn klar ist, dass ein Betrug durchgeführt wurde, muss das Ausmaß festgestellt, der Umfang quantifiziert werden.

Fraud: Analytische Reifegradkurve Die Analytische Reifegradkurve: ein beliebtes Mittel von Beratern, um einen Kunden analytisch zu „verorten“ also zu diagnostizieren aber auch um die eigenen Leistungen darzustellen und sie gut zu verkaufen. Aber auch didaktisch gut zu gebrauchen. Ein Beispiel nach Gartner (aus www.ibm.com/developerworks/community/blogs) Rückblick –Einblick – Vorausblick Grad der menschlichen Beteiligung dabei

Fraud: Österreichische Fallbeispiele Reifegrad 0: Absolutes Vertrauen in die eigenen Mitarbeiter oder Einfach nur Dummheit, Faulheit, Ignoranz Unternehmen produziert und verkauft Badezimmereinrichtung Zwei Standorte, Produktionsstandort in einem Bundesland Verkaufsstandort in Wien Geschäftsführer schaltet Beratungsfirma ein, weil er Betrug vermutet. Untersuchung ergibt: Über 2,5 Jahre hinweg verkaufen Mitarbeiter Produkte (wie Badewannen, Duschtassen, Wasserhähne, etc.) ohne Rechnung, kassieren das Geld für sich selbst. Sie vertuschen die Verkäufe durch Schwund (Produkt durch Transport oder bereits bei der Fertigung beschädigt, so dass es unverkäuflich und zu entsorgen ist.) Beratungsfirma stellt Daten zur Dokumentation des Schadens sicher: Alle Lieferung des betroffenes Zeitraums sind in 50 Aktenordnern gesammelt. Ausgedruckt auf Papier. Gedruckt mittels Nadeldrucker (!). Digital nicht mehr vorhanden -> Scannen von 50 Ordnern. Mittels OCR (Optical Character Recognition) – Erfassung der Daten (Schwierig, wann beginnt Big Data?) Aufgabe war nur noch Schadensfeststellung. Wie kann man eine interne Revision durchführen, wenn die nötigen Daten alle ausgedruckt in Aktenordnern „gespeichert“ sind? Know your Business. Was für einen Menschen leicht in einen Zusammenhang gebracht werden kann, ist für eine Maschine nicht so einfach.

Fraud: Österreichische Fallbeispiele (1) Reifegrad 0: Absolutes Vertrauen in die eignen Mitarbeiter oder Einfach nur Dummheit, Faulheit, Ignoranz Big Data Thema: Selbst ausgedruckte Listen von Lieferscheinen sind nur semistrukturiert. Eigentlich gedacht für menschlichen Leser Unterschiedliche Längen von Produktbezeichnungen (Artikelbezeichnungen, die auf Grund ihrer Länge in die nächste Zeile umgebrochen werden) Schriftarten spielen keine Rolle für Mensch. Verschmutzungen beim Ausdruck für Mensch geringes Problem. Eine Buchung kann aus mehreren Zeilen bestehen. Rechnungen können Zwischensummen enthalten. Druckerwechsel führt zur Änderung des Schriftbildes Alterung des Farbbandes lässt Schrift erblassen. Anderes Papier hat Einfluss auf Erscheinungsbild.

Fraud: Österreichische Fallbeispiele (2) Reifegrad 0: 275.000 € Über 7 Jahre Gesamt 1.050 Angriffe Das sind 40.000 € pro Jahr 260 € pro Angriff 150 Angriffe pro Jahr Bei 250 Geschäftstagen sind das 3 von 5 Tagen pro Woche. 260 € pro Angriff bar aus der Kassa?!? Regelmäßige interne Revision? Nach 7 Jahren?!?! Quelle: orf.at 18.5.2018

Fraud: Österreichische Fallbeispiele (3 + 4) Salzburger Spekulationsskandal (Quelle Wikipedia) Dezember 2012: Spekulative Finanzveranlagungen des österreichischen Bundeslandes Salzburg durch eine leitende Mitarbeiterin der Finanzabteilung in den vergangenen Jahren sollen einen Schaden in Höhe von 340 Millionen Euro verursacht haben. (Der Standard, 13. Dezember 2012, Seite 1: Spekulationsvolumen in Salzburg viel höher als bisher bekannt.) Burgtheater Skandal (Quelle: http://wien.orf.at/news/stories/2633443/) 11. November 2013: Im Zuge einer Gebarungsprüfung der von Stantejsky als kaufmännischer Geschäftsführerin verantworteten Geschäftsjahre treten Ungereimtheiten auf, die nicht geklärt werden können. Stantejsky wird suspendiert. 10. Februar 2014: Der forensische Zwischenbericht der Wirtschaftsprüfungsgesellschaft KPMG sieht „deutliche Indizien für gefälschte Belege und die Vorspiegelung falscher Tatsachen“ durch Stantejsky. Laut Aufsichtsrat des Burgtheaters ist daher für das Jahr 2012/13 mit einem Bilanzverlust von „voraussichtlich“ 8,3 Mio. Euro zu rechnen. Dazu könnten fünf Mio. Euro Steuernachzahlungen kommen. 24. Mai 2016: Der Endbericht des Rechnungshofs (RH) zur Causa Burgtheater übt harte Kritik am früheren Direktor Matthias Hartmann und der früheren kaufmännischen Leiterin Silvia Stantejsky. Ein Desaster seien zahlreiche Auszahlungen ohne Belege.

Fraud Prevention: Know Your Business Wichtige Voraussetzungen für Fraud Prevention und Detection: Kenntnis und transparente Definition aller Geschäftsprozesse: Zusammenfassung: Basis für eine effektive Betrugsvermeidung aber auch Betrugsaufdeckung sind transparente vollständige aber auch verständliche und nachvollziehbare Geschäftsprozesse, die den Mitarbeitern bekannt sind und von den Mitarbeitern verstanden und gelebt werden. Geschäftsprozesse sollten so einfach wie möglich definiert sein, aber nicht einfacher!

Fraud Detection: Methodensystematik Hybrider Ansatz, KPMG / Wassermann. Datenbasis zusammengespielt aus internen (z.B. ERP System) und externen (z.B. Firmenbuch) Quellen Datenaufbereitung Daten aus verschiedenen Quellen identifizieren Konsolidieren und verknüpfen Qualität prüfen und validieren Datenauswertung Unternehmensabläufe auf Effizienz und Sicherheit prüfen Unterschiedliche Methodensammlungen stehen dafür zur Verfügung Anwenden von unterschiedlichen Sichten auf die Daten an: Prozesssicht Netzwerksicht Zeitreihensicht Prozesssicht Netzwerksicht Zeitreihensicht Purchase to Pay Order to Cash Journal Entries uvm. Visualisierung Selektion Community Detection uvm. Preisvolatilität Zeitreihen Mining Prognosen uvm.

Fraud Detection: Methodensystematik Hybrider Ansatz, SAS. https://de.slideshare.net/stuartdrose/sas-fraud-framework-for-insurance-16262858

Fraud Detection: Methodensystematik Supervised v.s. Unsupervised, Überwachtes v.s. unüberwachtes Lernen Gegeben sei ein Obstkorb: Überwachtes Lernen / Modellieren: Basierend auf Farbe Form Gewicht … und einer Kennzeichnung aller Äpfel lernen, welche dieser Früchte sind Äpfel? Unüberwachtes Lernen / Modellieren: lernen, welche dieser Objekt gehören zur selben Obstsorte?

Fraud Detection: Methodensystematik Supervised v.s. Unsupervised, Überwachtes v.s. unüberwachtes Lernen Typische Techniken Überwachtes Lernen / Modellieren: Lineare Regression Zeitreihenanalyse Logistische Regression Chi² - Test Unüberwachtes Lernen / Modellieren: Cluster Analyse Outlier Detection Latent Class Analysis

Fraud Detection: Deskriptive, Regelbasiert Prozesssicht: Regelbasierte Prüfung am Beispiel von Buchungsjournalen in einem ERP System (Enterprise Resource Planning System). 1 Übersicht je Konto Buchungsübersicht je Konto (Summenaufstellung) 2 Anzahl Buchungen Anzahl Buchungen je Konto 3 Übersicht je Periode Buchungsübersicht je Periode (Summenaufstellung) 4 Soll- / Haben Ungleichheit Buchungen bei denen die Soll- und Haben-Beträge nicht übereinstimmen 5 Duplikate Duplikate über die Journalnummern 6 Fehlende Buchungen Fehlende Journalnummern 7 Übersicht je User Buchungsübersicht je User 8 Feiertagsbuchungen Buchungen an Feiertagen (Österreich) 9 Wochenendbuchungen Buchungen an Wochenenden 10 Unplausible Zeiten Buchungen zu unplausiblen Zeiten (zB 22:00 – 05:00) 11 Benford-Analyse Analyse der Zahlenverteilung in einer Datenbasis 12 Seltene Buchungen Seltene Buchungen bzw. selten bebuchte Konten 13 Gerundete Beträge Buchungen mit gerundeten Beträgen (zB 1.000) 14 Große Beträge Buchungen mit großen Beträgen 15 999-Buchungen Buchungen, die mit 999 enden 16 Konto-Kombinationen Überblick über alle Konten-Kombinationen im Hinblick auf unplausible Buchungen

Fraud Detection: Deskriptive, Regelbasiert 17 Buchungstexte Buchungen mit besonderen Einträgen im Buchungstext (schlagwortabhängig) 18 Stornos Aufwandsbuchungen und Storno der Buchung Stornos mit identen Buchunen (und umgedrehten Vorzeichen) Stornos allgemein 19 Interne Verrechnungen Verrechnungen zwischen Konzernkonten 20 Periodenbuchungen Buchungen an den letzten Tagen eines Monats 21 Gruppierung Perioden-buchungen Gruppierung der Buchungen an den letzten Tagen eines Monats 22 Besondere Perioden-buchungen Umsatz-, Aufwand (sonstige) und Rückstellungsbuchungen an den letzten Tagen eines Montas 23 Nächste Periode Buchungen in die nächste Periode 24 Nächste Periode (VJ) Buchungen in die nächste Periode (Vorjahr) 25 Vergangene Periode Buchungen in die vergangene Periode 26 Vergangene Periode (VJ) Buchungen in die vergangene Periode (Vorjahr)

Fraud Detection: Deskriptive, Regelbasiert 1 Übersicht je Konto Buchungsübersicht je Konto (Summenaufstellung) 2 Anzahl Buchungen Anzahl Buchungen je Konto 3 Übersicht je Periode Buchungsübersicht je Periode (Summenaufstellung) 4 Soll- / Haben Ungleichheit Buchungen bei denen die Soll- und Haben-Beträge nicht übereinstimmen 5 Duplikate Duplikate über die Journalnummern 6 Fehlende Buchungen Fehlende Journalnummern 7 Übersicht je User Buchungsübersicht je User 8 Feiertagsbuchungen Buchungen an Feiertagen (Österreich) 9 Wochenendbuchungen Buchungen an Wochenenden 10 Unplausible Zeiten Buchungen zu unplausiblen Zeiten (zB 22:00 – 05:00) 11 Benford-Analyse Analyse der Zahlenverteilung in einer Datenbasis 12 Seltene Buchungen Seltene Buchungen bzw. selten bebuchte Konten 13 Gerundete Beträge Buchungen mit gerundeten Beträgen (zB 1.000) 14 Große Beträge Buchungen mit großen Beträgen 15 999-Buchungen Buchungen, die mit 999 enden 16 Konto-Kombinationen Überblick über alle Konten-Kombinationen im Hinblick auf unplausible Buchungen 17 Buchungstexte Buchungen mit besonderen Einträgen im Buchungstext (schlagwortabhängig) 18 Stornos Aufwandsbuchungen und Storno der Buchung Stornos mit identen Buchunen (und umgedrehten Vorzeichen) Stornos allgemein 19 Interne Verrechnungen Verrechnungen zwischen Konzernkonten 20 Periodenbuchungen Buchungen an den letzten Tagen eines Monats 21 Gruppierung Perioden-buchungen Gruppierung der Buchungen an den letzten Tagen eines Monats 22 Besondere Perioden-buchungen Umsatz-, Aufwand (sonstige) und Rückstellungsbuchungen an den letzten Tagen eines Montas 23 Nächste Periode Buchungen in die nächste Periode 24 Nächste Periode (VJ) Buchungen in die nächste Periode (Vorjahr) 25 Vergangene Periode Buchungen in die vergangene Periode 26 Vergangene Periode (VJ) Buchungen in die vergangene Periode (Vorjahr) Am Ende erhält man Berichte, die sowohl einen Überblick liefern und andererseits auffällige Buchungen markieren (flaggen) z.B. Red Flag – definitiv problematisch Yellow Flag – verdächtig Green Flag – unauffällig, in Ordnung

Fraud Detection: Statistische Tests, Benford Simon Newcomb (1881) fiel auf, dass die vorderen Seiten von Logarithmentafeln viel abgenutzter waren als die hintern. Er folgerte, dass Logarithmen mit niedriger Anfangsziffer öfter gesucht wurden als mit hoher. Die Ziffern 1 bis 9 sind als Anfangsziffern von Zahlen nicht gleichverteilt. Frank Benford untersuchte das systematisch und sammelte alle möglichen Daten und wertete die Verteilung der Anfangsziffer aus. Siehe Grafik: Probieren Sie es selbst mit Hilfe von Google. Suchen Sie nach der Zahl 1666 und 9666 und beachten sie die Trefferanzahl. Die Benford Verteilung lautet: 𝑙𝑜𝑔 10 𝑑 𝑖 +1 𝑑 𝑖 𝑓ü𝑟 𝑑 𝑖 ∈ 1,…,9

Fraud Detection: Statistische Tests, Benford Die Benford Verteilung gilt aber nicht für alle Zahlenmengen. Voraussetzungen: Der Datensatz soll entweder dem vollständigen Datenbestand oder einer zufälligen Stichprobe entsprechen. Je größer der Datenbestand oder die Stichprobe ist, desto besser erfolgt eine Annäherung an Benford´s Gesetz. Der Datensatz soll in derselben Maßeinheit (Euro, Kilogramm, Meter, etc.) erfasst worden sein und somit eine einheitliche Größe messen. Bei dem zu untersuchenden Datensatz soll es sich nicht um statistische Größen wie Mittelwerte oder Varianzen handeln, da diese bestimmten Verteilungsgesetzen wie z.B. der Normalverteilung gehorchen und somit das Ergebnis verzerren können. Der Datensatz soll keine festgelegten Unter- oder Obergrenzen (Gebühren, Provisionen, Mindestbestellungen75, etc.) haben und frei von psychologischen Einflüssen (z.B. 4.999 Euro anstatt 5.000 Euro für einen Gebrauchtwagen) sein. Der Datensatz darf nicht der Identifikation (Telefonnummern, Sozialversicherungsnummern etc.) dienen und muss eine Größenordnung repräsentieren.

Fraud Detection: Statistische Tests, Benford Wie man Benford anwendet. Buchungen auf einem Gehaltskonto, alle Aus- und Eingänge über 10 Jahre Absolut Verteilung Beobachtet Benford 1 565 0,2486 0,3010 684,2 2 375 0,1650 0,1761 99,5 3 274 0,1205 0,1249 46,9 4 153 0,0673 0,0969 26,6 5 125 0,0550 0,0792 12,1 6 82 0,0361 0,0669 8,4 7 61 0,0268 0,0580 4,8 8 53 0,0233 0,0512 3,1 9 585 0,2574 0,0458 2,4 Gesamt 2273 Chi² Test 0,00000 Ausgänge Verteilung Beobachtet Benford 1 477 0,2183 0,3010 657,8 2 375 0,1716 0,1761 84,0 3 274 0,1254 0,1249 46,9 4 153 0,0700 0,0969 26,6 5 125 0,0572 0,0792 12,1 6 82 0,0375 0,0669 8,4 7 61 0,0279 0,0580 4,8 8 53 0,0243 0,0512 3,1 9 585 0,2677 0,0458 2,4 Gesamt 2185 Chi² Test 0,00000 Eingänge Verteilung Beobachtet Benford 1 88 0,4231 0,3010 62,6 2 24 0,1154 0,1761 15,5 3 29 0,1394 0,1249 3,0 4 32 0,1538 0,0969 2,8 5 12 0,0577 0,0792 2,5 6 0,0288 0,0669 0,8 7 0,0337 0,0580 0,3 8 0,0192 0,0512 0,4 9 0,0458 0,2 Gesamt 208 Chi² Test 0,00000 Passt nicht gut zusammen. Zu wenig 1er. Viel zu viele 9er. Die vielen 9er muss man unter den Ausgängen suchen. Viele Bankomat Behebungen von € 90. Hier überwiegen die 1er. Gehaltskonto, regelmäßiger Eingang des selben Betrages.

Fraud Detection: Statistische Tests, Benford Kritik: Ist nur anwendbar, wenn die nicht-dolosen Ausgangsdaten einer Benford Verteilung folgen. Das muss man vorher überprüfen. Je individueller die zu analysierenden Daten sind, desto unwahrscheinlicher wird es, dass die Benford Verteilung zutrifft. Aber gerade Individuen können an bestimmten typischen Muster erkannt werden. Weiterentwicklung: Der Benford Ansatz ist theoriegetrieben: entsprechen die Daten einer Verteilung, die laut einer Theorie vorliegen sollte. Alternativ: Datengetrieben Ist in den Daten ein Muster zu erkennen? Und gibt es individuelle Abweichungen davon, sogenannte Ausreißer? Oder, lerne individuelle Muster und überprüfe Abweichungen davon.

Fraud Detection: Statistische Tests, Ausreißer Beispiel 1: Boxplot mit Ausreißern. Aus dem Fallbeispiel Mietspiegel in München: Boxplot weist einige sehr große Wohnungen als Ausreißer aus. Lassen sich damit Unternehmensdaten auf möglichen Betrug hin analysieren?

Fraud Detection: Statistische Tests, LOF Local Outlier Detection mit LOF (Local Outlier Factor) Und immer wieder die Frage: Was ist ein Ausreißer? Beispiel 2 ist zweidimensional. Zwei Gruppen (Cluster) sind deutlich zu sehen: Eine dichte Punktwolke links unten. Eine dünnere Wolke rechts oben. Zwei Punkte liegen etwas abseits. Der erste wäre durchaus als Ausreißer qualifizierbar. Der zweite liegt zwar nahe an C2, liegt auch so dicht zu C2 wie die Punkte in C1 zueinander, aber in C2 liegen die Punkte viel enger. Methoden der Local Outlier Detection Clustern die Daten Und bewerten jeden Datenpunkt, wie gut er in „sein“ Cluster passt. Je höher der LOF, desto weniger passt der Datenpunkt in sein Cluster.

Fraud Detection: Preisvolatilitätsprüfung Nimmt man zu den Produkten, Verkäufern und Stückpreisen noch die Zeit dazu, kann man das Analysenetz noch feiner machen. Mitarbeiter E05 betreut ein Produkt, das noch von 7 Kollegen über 5 Händler bezogen wird. Ein Preisanstieg ist zu erkennen. Einkäufer E05 tritt in der letzten Phase des Anstiegs in Aktion. Einkäufer E10 stellt gleichzeitig seine Aktivitäten ein Es gibt zwei Preiscluster, E5 liegt im deutlich Teureren. Ein Einkäufer (E01) kauft häufig zu beiden Konditionen ein. Warum? Warum kaufen die anderen nicht manchmal zum günstigeren Preis ein? Fraud? Ineffizienz?

Fraud Detection: Preisvolatilitätsprüfung Nimmt man zu den Produkten, Verkäufern und Stückpreisen noch die Zeit dazu, kann man das Analysenetz noch feiner machen. Das selbe Produkt, der selbe Mitarbeiter, jetzt aber nach Lieferanten. Der günstigere Preis ist nur einem Lieferanten geschuldet. Warum kaufen nicht alle bei diesem Lieferanten ein? Die Liefermengen sind durchaus vergleichbar. Lieferant C10 stellt seine Aktivitäten mit Dez 11 ein. Gleichzeitig beginnt C04, welcher auf dem selben Preisniveau einsteigt.

Fraud Detection: Latent Class Regression Durch die Kombination von Clusteranalyse und Regressionsanalyse bekommt man die sogenannte Latent Class Regression: Sie ist wie eine lineare Regression mit zum Beispiel Kontoumsätzen als Zielvariable der Zeit als erklärende Trendvariable und einer kategoriellen erklärenden Variable, die aber a priori nicht bekannt ist, sondern erst durch das Verfahren gefunden wird. So wie in dem bereits besprochenen Beispiel, können sich bei Kontobewegungen über die Zeit hinweg Cluster ergeben. Manche zeigen dabei einen deutlichen (linearen) Trend. Diese Cluster plus Trend werden mit Latent Class Regression aufgespürt.

Fraud Detection: Latent Class Regression Gruppierung durchführen Clusteranalyse mit Latent Class Regression ergibt Cluster und Trendschätzung Prozess links Prozess Mitte Prozess rechts Anzahl Cluster Auffällig: viele Cluster Maß: Anzahl der Cluster 3, mäßig heterogen 4, heterogen 2, kaum auffällig Einzelbewertung Trends in den Clustern Auffällig: Wachstum, abrupte Änderungen Maß: Wachstumsrate Keine Trends 1 Cluster mit Wachstum 2 Cluster mit Rückgang 1 Cluster mit leichtem Rückgang Ausreißer in Clustern Auffällig: Ihr Vorhandensein Maß: Summe der Abweichungen Keiner Ja, einer Ausreißercluster Auffällig: Existenz Maß: Anzahl der Elemente (je kleiner desto auffälliger) Ja, eines mit einem Element Ja, eines aber relativ viele Elemente Zeitliche Überlappung Auffällig: Wenig Überlappung Maß: zeitlicher Unterschied Kaum auffällig Deutliches Zeitmuster: 2 Cluster enden vorzeitig. Eines (ganz rechts) beginnt spät Nicht auffällig Wertebereich Auffällig: große Werte Maß: Summe, Mittelwert, Varianz 4 bis 5-stellig Niedrig 6-stelltig Hoch 4-stellig Sehr niedrig Abstand der Wertebereiche Auffällig: große Abstände zw. Clustern Maß: Summe der Abstände Die beiden großen Cluster liegen eng Sehr große Unterschiede zwischen den Wertbereichen Klein Gesamtbewertung Score 2 1 3

Fraud Detection: Logistische Regression Typisches Beispiel Kreditkartenbetrug Es ist relativ einfach Daten zu sammeln, da jede Kreditkarte einen „Controller“ hat, nämlich die Kontoinhaber. Überprüfte Daten stehen zur Verfügung: Einerseits, welche Kreditkartentransaktionen sind dolos, welche nicht. Andererseits, potentielle erklärende Variablen. Zielvariable ist dichotom (dolos, nicht dolos) Logistische Regressionsmodell berechnen. Regressionsmodell beschreibt Wahrscheinlichkeit, dass ein Geschäftsfall dolos ist. Anwendung: Bei 500 neuen Geschäftsfällen pro Woche werden die laut Modell 10 gefährdetsten Fälle ausgewählt … und manuell überprüft. Die überprüften Fälle werden in die Trainingsdaten aufgenommen und das Modell neu berechnet.