Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Anwendbarkeit von Benfords Gesetz

Ähnliche Präsentationen


Präsentation zum Thema: "Anwendbarkeit von Benfords Gesetz"—  Präsentation transkript:

1 Anwendbarkeit von Benfords Gesetz
Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

2 Benfordverteilte Daten

3 Benfordverteilung

4 Benfordverteilung Entstehungsfaktoren
Multiplikationen – Richard Hammering (1970)‏ Verteilungen – Theodor Hill (1995)‏

5 Fälschungen aufdecken
Ansatz: Welche Daten sind benfordverteilt? Abweichungen als Indiz für Fälschungen

6 Was ist Benfordverteilt
1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer Unstand. Regressionen 2180 x χ²-Testwerte 310 Logistische Regressionen 2251 t-Verteilungen 1538 Coxregressionen 599 342 Pseudo-R² 248 - Gesamt 7468 Datenquelle: Kölner Zeitschrift für Soziologie und Sozialpsychologie Februar 1985 bis März 2007 (mit Unterstützung des Lehrstuhl Braun, LMU München)

7 Gleichverteilte Ziffern
Normalverteilung Mittelwert: 3 Standardfehler: 2

8 Gleichverteilte Ziffern
Normalverteilung Mittelwert: 3 Standardfehler: 2

9 Gleichverteilte Ziffern
Normalverteilung Mittelwert: 3 Standardfehler: 2 N 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer Unstand. Regressionen 2180 x χ²-Testwerte 310 Logistische Regressionen 2251 t-Verteilungen 1538 Coxregressionen 599 342 Pseudo-R² 248 - Gesamt 7468

10 Untersuchung des Lehrstuhl Braun
Zu fälschende Hypothese: “Je höher die Bildung einer Person, desto weniger Zigaretten raucht sie pro Tag” 1. Ziffer: Ho abgelehnt (χ ²=103.39,df = 8, p = 0.000)‏ 2. Ziffer: Ho abgelehnt (χ ²=122.59,df = 9,

11 Untersuchung: 3. und 4. Ziffer
Ho abgelehnt Ho abgelehnt (χ² = , df=9, p= 0.000)‏ (χ ² = , df=9, p= 0.000)‏

12 Untersuchung: Individualdaten
Individuelle Abweichungen von Benfords Gesetz 47 Personen 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer 35 40 absolut 42 41 prozentual 0.744 0.851 0.893 0.872

13 Fälschungen entdecken
Ansatz: Ab wann wird eine Fälschung erkannt? Vorgehensweise: 1. Empirische Verteilung gefälschter Regressionskoeffizienten 2. Ziehen von Zufallszahlen 3. Test der Zufallswerte auf Benfords Gesetz (H0) 4. Wiederholung für höhere Fallzahlen 20 50 100 200 400 500 750 1000 1500 χ2 - Test 1

14 Aggregatdaten Dritte gültige Ziffer Erste gültige Ziffer Zweite gültige Ziffer Vierte gültige Ziffer Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: 989 Fälle 2. Ziffer: 766 Fälle 3. Ziffer: 351 Fälle 4. Ziffer: 138 Fälle

15 Aggregatdaten Erste gültige Ziffer ~ 50 % gefälschte Daten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: Fälle 2. Ziffer: Fälle 3. Ziffer: Fälle 4. Ziffer: Fälle

16 Aggregatdaten Erste gültige Ziffer ~ 10 % gefälschte Daten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: Fälle 2. Ziffer: Fälle 3. Ziffer: Fälle 4. Ziffer: Fälle

17 Aggregatdaten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer
Benötigte Fallzahl (95 Prozent) 6000 4000 2000 0,2 0,4 0,6 0,8 1,0 Anteil gefälschter Daten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer

18 Individualdaten Erste gültige Ziffer ~ 100 % gefälschte Daten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: 136 Fälle 2. Ziffer: 102 Fälle 3. Ziffer: 100 Fälle 4. Ziffer: Fälle

19 Individualdaten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer
Benötigte Fallzahl (95 Prozent) 6000 4000 2000 0,2 0,4 0,6 0,8 1,0 Anteil gefälschter Daten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer

20 Kombination von Ziffern
6 2 1 3 4 1 6 2 3 5 9 2 6 4 8 7 3 9 2 4 5

21 Kombination von Ziffern

22 Zweiter Schritt: Gemeinsame Ziffern
4621 4541 4378 3867 17407 Gewichtung 0,265 0,261 0,252 0,222

23 Zweiter Schritt: Gemeinsame Ziffern

24 Zweiter Schritt: Gemeinsame Ziffern
Benötigte Ziffern (95 Prozent) 6000 4000 2000 0,2 0,4 0,6 0,8 1,0 Anteil gefälschter Daten

25 Anteil gefälschter Daten
Zweiter Schritt: Vergleich Gemeinsame Ziffern 4. gültige Ziffer Anteil gefälschter Daten 100% 174 73 80% 299 116 60% 570 208 50% 843 301 40% 1344 472 20% 5526 1897 Gemeinsame Ziffern 0,265 174 46 299 79 570 151 843 223 1344 356 5526 1464 4. gültige Ziffer 100 / 18,5 = 5,4 73 394 116 626 208 1123 301 1625 472 2549 1897 10243

26 Ergebniszusammenfassung
Fälschungserkennung mit Benfords Gesetz: Untersuchung von Individualdaten Untersuchung gemeinsamer Ziffern Anwendung von Anpassungstests, welche stärker auf die Stichprogengröße reagieren (hier χ²-Anpassungstest)‏ Die Effektivität des Verfahrens ist stark abhängig von der Vorgehensweise des Fälschers.

27 Vorschläge Fälschungserkennung mit Benfords Gesetz:
Erfassen möglichst vieler metrischer Kennwerte Verwenden der Gleichverteilung Fälschertypen bilden Konzentration auf Abweichungen Konzentration auf die Ziffernreihenfolge

28 Literatur Benford, Frank, 1938: The Law of Anomalous Numbers, in: Proceedings of the American Philosophical Society 78(4), Busta, Bruce/Weinberg, Randy, 1998: Using Benford’s law and neural networks as a review procedure, in: Managerial Auditing Journal 13(6), Diekmann, Andreas, 2007: Not the First Digit! Using Benford’s Law to Detect Fraudulent Scientific Data, in: Journal of Applied Statistics 34(3), Hill, Theodore P., 1995: Base-invariance implies Benford’s law, in: Proceedings of the American Philosophical Society 78, Newcomb, Simon, 1881: Note on the Frequency of use of the Different Digits in Natural Numbers, in: American Journal of Mathematics 4(1), Nigrini, Mark, 1999: I’ve Got Your Number. How a Mathematical Phenomenon can Help CPAs uncover Fraud and Other Irregularities, in: Journal of Accountancy: Surowiecki, James, 2004: The Wisdom of Crowds. Why the Many are Smarter than the Few. New York: Doubleday.


Herunterladen ppt "Anwendbarkeit von Benfords Gesetz"

Ähnliche Präsentationen


Google-Anzeigen