Präsentation herunterladen
1
Anwendbarkeit von Benfords Gesetz
Fälschungsforschung in den Sozialwissenschaften Johannes Bauer
2
Benfordverteilte Daten
3
Benfordverteilung
4
Benfordverteilung Entstehungsfaktoren
Multiplikationen – Richard Hammering (1970) Verteilungen – Theodor Hill (1995)
5
Fälschungen aufdecken
Ansatz: Welche Daten sind benfordverteilt? Abweichungen als Indiz für Fälschungen
6
Was ist Benfordverteilt
1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer Unstand. Regressionen 2180 x χ²-Testwerte 310 Logistische Regressionen 2251 t-Verteilungen 1538 Coxregressionen 599 R² 342 Pseudo-R² 248 - Gesamt 7468 Datenquelle: Kölner Zeitschrift für Soziologie und Sozialpsychologie Februar 1985 bis März 2007 (mit Unterstützung des Lehrstuhl Braun, LMU München)
7
Gleichverteilte Ziffern
Normalverteilung Mittelwert: 3 Standardfehler: 2
8
Gleichverteilte Ziffern
Normalverteilung Mittelwert: 3 Standardfehler: 2
9
Gleichverteilte Ziffern
Normalverteilung Mittelwert: 3 Standardfehler: 2 N 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer Unstand. Regressionen 2180 x χ²-Testwerte 310 Logistische Regressionen 2251 t-Verteilungen 1538 Coxregressionen 599 R² 342 Pseudo-R² 248 - Gesamt 7468
10
Untersuchung des Lehrstuhl Braun
Zu fälschende Hypothese: “Je höher die Bildung einer Person, desto weniger Zigaretten raucht sie pro Tag” 1. Ziffer: Ho abgelehnt (χ ²=103.39,df = 8, p = 0.000) 2. Ziffer: Ho abgelehnt (χ ²=122.59,df = 9,
11
Untersuchung: 3. und 4. Ziffer
Ho abgelehnt Ho abgelehnt (χ² = , df=9, p= 0.000) (χ ² = , df=9, p= 0.000)
12
Untersuchung: Individualdaten
Individuelle Abweichungen von Benfords Gesetz 47 Personen 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer 35 40 absolut 42 41 prozentual 0.744 0.851 0.893 0.872
13
Fälschungen entdecken
Ansatz: Ab wann wird eine Fälschung erkannt? Vorgehensweise: 1. Empirische Verteilung gefälschter Regressionskoeffizienten 2. Ziehen von Zufallszahlen 3. Test der Zufallswerte auf Benfords Gesetz (H0) 4. Wiederholung für höhere Fallzahlen 20 50 100 200 400 500 750 1000 1500 χ2 - Test 1
14
Aggregatdaten Dritte gültige Ziffer Erste gültige Ziffer Zweite gültige Ziffer Vierte gültige Ziffer Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: 989 Fälle 2. Ziffer: 766 Fälle 3. Ziffer: 351 Fälle 4. Ziffer: 138 Fälle
15
Aggregatdaten Erste gültige Ziffer ~ 50 % gefälschte Daten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: Fälle 2. Ziffer: Fälle 3. Ziffer: Fälle 4. Ziffer: Fälle
16
Aggregatdaten Erste gültige Ziffer ~ 10 % gefälschte Daten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: Fälle 2. Ziffer: Fälle 3. Ziffer: Fälle 4. Ziffer: Fälle
17
Aggregatdaten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer
Benötigte Fallzahl (95 Prozent) 6000 4000 2000 0,2 0,4 0,6 0,8 1,0 Anteil gefälschter Daten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer
18
Individualdaten Erste gültige Ziffer ~ 100 % gefälschte Daten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: 136 Fälle 2. Ziffer: 102 Fälle 3. Ziffer: 100 Fälle 4. Ziffer: Fälle
19
Individualdaten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer
Benötigte Fallzahl (95 Prozent) 6000 4000 2000 0,2 0,4 0,6 0,8 1,0 Anteil gefälschter Daten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer
20
Kombination von Ziffern
6 2 1 3 4 1 6 2 3 5 9 2 6 4 8 7 3 9 2 4 5
21
Kombination von Ziffern
22
Zweiter Schritt: Gemeinsame Ziffern
4621 4541 4378 3867 17407 Gewichtung 0,265 0,261 0,252 0,222
23
Zweiter Schritt: Gemeinsame Ziffern
24
Zweiter Schritt: Gemeinsame Ziffern
Benötigte Ziffern (95 Prozent) 6000 4000 2000 0,2 0,4 0,6 0,8 1,0 Anteil gefälschter Daten
25
Anteil gefälschter Daten
Zweiter Schritt: Vergleich Gemeinsame Ziffern 4. gültige Ziffer Anteil gefälschter Daten 100% 174 73 80% 299 116 60% 570 208 50% 843 301 40% 1344 472 20% 5526 1897 Gemeinsame Ziffern 0,265 174 46 299 79 570 151 843 223 1344 356 5526 1464 4. gültige Ziffer 100 / 18,5 = 5,4 73 394 116 626 208 1123 301 1625 472 2549 1897 10243
26
Ergebniszusammenfassung
Fälschungserkennung mit Benfords Gesetz: Untersuchung von Individualdaten Untersuchung gemeinsamer Ziffern Anwendung von Anpassungstests, welche stärker auf die Stichprogengröße reagieren (hier χ²-Anpassungstest) Die Effektivität des Verfahrens ist stark abhängig von der Vorgehensweise des Fälschers.
27
Vorschläge Fälschungserkennung mit Benfords Gesetz:
Erfassen möglichst vieler metrischer Kennwerte Verwenden der Gleichverteilung Fälschertypen bilden Konzentration auf Abweichungen Konzentration auf die Ziffernreihenfolge
28
Literatur Benford, Frank, 1938: The Law of Anomalous Numbers, in: Proceedings of the American Philosophical Society 78(4), Busta, Bruce/Weinberg, Randy, 1998: Using Benford’s law and neural networks as a review procedure, in: Managerial Auditing Journal 13(6), Diekmann, Andreas, 2007: Not the First Digit! Using Benford’s Law to Detect Fraudulent Scientific Data, in: Journal of Applied Statistics 34(3), Hill, Theodore P., 1995: Base-invariance implies Benford’s law, in: Proceedings of the American Philosophical Society 78, Newcomb, Simon, 1881: Note on the Frequency of use of the Different Digits in Natural Numbers, in: American Journal of Mathematics 4(1), Nigrini, Mark, 1999: I’ve Got Your Number. How a Mathematical Phenomenon can Help CPAs uncover Fraud and Other Irregularities, in: Journal of Accountancy: Surowiecki, James, 2004: The Wisdom of Crowds. Why the Many are Smarter than the Few. New York: Doubleday.
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.