Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer
Benfordverteilte Daten
Benfordverteilung
Benfordverteilung Entstehungsfaktoren Multiplikationen – Richard Hammering (1970) Verteilungen – Theodor Hill (1995)
Fälschungen aufdecken Ansatz: Welche Daten sind benfordverteilt? Abweichungen als Indiz für Fälschungen
Was ist Benfordverteilt 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer Unstand. Regressionen 2180 x χ²-Testwerte 310 Logistische Regressionen 2251 t-Verteilungen 1538 Coxregressionen 599 R² 342 Pseudo-R² 248 - Gesamt 7468 Datenquelle: Kölner Zeitschrift für Soziologie und Sozialpsychologie Februar 1985 bis März 2007 (mit Unterstützung des Lehrstuhl Braun, LMU München)
Gleichverteilte Ziffern Normalverteilung Mittelwert: 3 Standardfehler: 2
Gleichverteilte Ziffern Normalverteilung Mittelwert: 3 Standardfehler: 2
Gleichverteilte Ziffern Normalverteilung Mittelwert: 3 Standardfehler: 2 N 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer Unstand. Regressionen 2180 x χ²-Testwerte 310 Logistische Regressionen 2251 t-Verteilungen 1538 Coxregressionen 599 R² 342 Pseudo-R² 248 - Gesamt 7468
Untersuchung des Lehrstuhl Braun Zu fälschende Hypothese: “Je höher die Bildung einer Person, desto weniger Zigaretten raucht sie pro Tag” 1. Ziffer: Ho abgelehnt (χ ²=103.39,df = 8, p = 0.000) 2. Ziffer: Ho abgelehnt (χ ²=122.59,df = 9,
Untersuchung: 3. und 4. Ziffer Ho abgelehnt Ho abgelehnt (χ² = 304.89, df=9, p= 0.000) (χ ² = 622.20, df=9, p= 0.000)
Untersuchung: Individualdaten Individuelle Abweichungen von Benfords Gesetz 47 Personen 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer 35 40 absolut 42 41 prozentual 0.744 0.851 0.893 0.872
Fälschungen entdecken Ansatz: Ab wann wird eine Fälschung erkannt? Vorgehensweise: 1. Empirische Verteilung gefälschter Regressionskoeffizienten 2. Ziehen von Zufallszahlen 3. Test der Zufallswerte auf Benfords Gesetz (H0) 4. Wiederholung für höhere Fallzahlen 20 50 100 200 400 500 750 1000 1500 χ2 - Test 1
Aggregatdaten Dritte gültige Ziffer Erste gültige Ziffer Zweite gültige Ziffer Vierte gültige Ziffer Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: 989 Fälle 2. Ziffer: 766 Fälle 3. Ziffer: 351 Fälle 4. Ziffer: 138 Fälle
Aggregatdaten Erste gültige Ziffer ~ 50 % gefälschte Daten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: 4001 Fälle 2. Ziffer: 3308 Fälle 3. Ziffer: 1351 Fälle 4. Ziffer: 585 Fälle
Aggregatdaten Erste gültige Ziffer ~ 10 % gefälschte Daten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: 94439 Fälle 2. Ziffer: 78883 Fälle 3. Ziffer: 31266 Fälle 4. Ziffer: 12592 Fälle
Aggregatdaten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer Benötigte Fallzahl (95 Prozent) 6000 4000 2000 0,2 0,4 0,6 0,8 1,0 Anteil gefälschter Daten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer
Individualdaten Erste gültige Ziffer ~ 100 % gefälschte Daten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: 136 Fälle 2. Ziffer: 102 Fälle 3. Ziffer: 100 Fälle 4. Ziffer: 69 Fälle
Individualdaten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer Benötigte Fallzahl (95 Prozent) 6000 4000 2000 0,2 0,4 0,6 0,8 1,0 Anteil gefälschter Daten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer
Kombination von Ziffern 6 2 1 3 4 1 6 2 3 5 9 2 6 4 8 7 3 9 2 4 5
Kombination von Ziffern
Zweiter Schritt: Gemeinsame Ziffern 4621 4541 4378 3867 17407 Gewichtung 0,265 0,261 0,252 0,222
Zweiter Schritt: Gemeinsame Ziffern
Zweiter Schritt: Gemeinsame Ziffern Benötigte Ziffern (95 Prozent) 6000 4000 2000 0,2 0,4 0,6 0,8 1,0 Anteil gefälschter Daten
Anteil gefälschter Daten Zweiter Schritt: Vergleich Gemeinsame Ziffern 4. gültige Ziffer Anteil gefälschter Daten 100% 174 73 80% 299 116 60% 570 208 50% 843 301 40% 1344 472 20% 5526 1897 Gemeinsame Ziffern 0,265 174 46 299 79 570 151 843 223 1344 356 5526 1464 4. gültige Ziffer 100 / 18,5 = 5,4 73 394 116 626 208 1123 301 1625 472 2549 1897 10243
Ergebniszusammenfassung Fälschungserkennung mit Benfords Gesetz: Untersuchung von Individualdaten Untersuchung gemeinsamer Ziffern Anwendung von Anpassungstests, welche stärker auf die Stichprogengröße reagieren (hier χ²-Anpassungstest) Die Effektivität des Verfahrens ist stark abhängig von der Vorgehensweise des Fälschers.
Vorschläge Fälschungserkennung mit Benfords Gesetz: Erfassen möglichst vieler metrischer Kennwerte Verwenden der Gleichverteilung Fälschertypen bilden Konzentration auf Abweichungen Konzentration auf die Ziffernreihenfolge
Literatur Benford, Frank, 1938: The Law of Anomalous Numbers, in: Proceedings of the American Philosophical Society 78(4), 551-572. Busta, Bruce/Weinberg, Randy, 1998: Using Benford’s law and neural networks as a review procedure, in: Managerial Auditing Journal 13(6), 356-366. Diekmann, Andreas, 2007: Not the First Digit! Using Benford’s Law to Detect Fraudulent Scientific Data, in: Journal of Applied Statistics 34(3), 321-329. Hill, Theodore P., 1995: Base-invariance implies Benford’s law, in: Proceedings of the American Philosophical Society 78, 551-572. Newcomb, Simon, 1881: Note on the Frequency of use of the Different Digits in Natural Numbers, in: American Journal of Mathematics 4(1), 39-40. Nigrini, Mark, 1999: I’ve Got Your Number. How a Mathematical Phenomenon can Help CPAs uncover Fraud and Other Irregularities, in: Journal of Accountancy: 79-83. Surowiecki, James, 2004: The Wisdom of Crowds. Why the Many are Smarter than the Few. New York: Doubleday.