Anwendbarkeit von Benfords Gesetz

Slides:

Advertisements

Ähnliche Präsentationen

BAU 2011 Europas Bauwirtschaft nach der Krise – wie geht es weiter?

Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211

Mathematik hat Geschichte

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.

Normalverteilte Zufallsvariablen

CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.

Trimino zum Kopf- oder halbschriftlichen Rechnen

Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.

Die Rolle der betrieblichen beruflichen Weiterbildung und der externen Anbieter im europäischen Kontext Vortrag im Rahmen der Tagung „Berufliche Weiterbildung.

Workshop zur Medienarbeit der katholischen Kirche Aspekte des Religionsmonitors Berlin, 02. April 2008.

1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.

= = = = 47 = 47 = 48 = =

-17 Konjunkturerwartung Europa September 2013 Indikator > +20 Indikator 0 a +20 Indikator 0 a -20 Indikator < -20 Europäische Union gesamt: +6 Indikator.

Die t-Verteilung Jonathan Harrington.

Die t-Verteilung (fortgesetzt)

Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.

Internet facts 2006-I Graphiken zu dem Berichtsband AGOF e.V. September 2006.

Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.

Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.

Differentielles Paar UIN rds gm UIN

Prof. Dr. Bernhard Wasmayr

Studienverlauf im Ausländerstudium

Der Spendenmarkt in Deutschland

Prof. Dr. Bernhard Wasmayr VWL 2. Semester

Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.

AWA 2007 Natur und Umwelt Natürlich Leben

Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.

Sind Sie Herr /Frau …. Are you Mr / Mrs …

Herzlich Willkommen zur Pressekonferenz anlässlich der

Die Geschichte von Rudi

Zusatzfolien zu B-Bäumen

Leistungsbeschreibung Brückenplanung RVS RVS

Eine Einführung in die CD-ROM

Logistische Regression

GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.

Dokumentation der Umfrage

...ich seh´es kommen !.

Wir üben die Malsätzchen

Die t-Verteilung Jonathan Harrington. Standard error of the mean (SE) ist die Standardabweichung von Mittelwerten Ich werfe 5 Würfel und berechne den.

Die Zahlen (the numbers)

What is todays date and when is your birthday Ask someone what star sign they are and answer Say and ask for the time Say what you do for your birthday.

Präsentation läuft auch vollautomatisch ab … wie du möchtest

Auslegung eines Vorschubantriebes

Titelmasterformat durch Klicken bearbeiten Textmasterformate durch Klicken bearbeiten Zweite Ebene Dritte Ebene Vierte Ebene Fünfte Ebene 1 Development.

Elementarteilchen + Abstossung Anziehung + – – + –

Sprechen – 2 Minutes to review your notes

PROCAM Score Alter (Jahre)

Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.

MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO

1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.

Analyseprodukte numerischer Modelle

2014 Januar 2014 So Mo Di Mi Do Fr Sa So

Plötzlicher Herztod – Definition (I)

Sachbezugswerte 2007 (SV-Entgeltverordnung) Sachbezugswerte für freie Verpflegung FrühstückMittagessenAbendessen 1,50 2,67 Monatlicher Wert Verpflegung.

Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.

Zusammengestellt von OE3DSB

Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)

Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.

Titelmasterformat durch Klicken bearbeiten Textmasterformate durch Klicken bearbeiten Zweite Ebene Dritte Ebene Vierte Ebene Fünfte Ebene 1 Rising energy.

Der Erotik Kalender 2005.

Bürgermeister Absolute Stimmen Gesamt. Bürgermeister Prozentuale Aufteilung Gesamt.

Folie Einzelauswertung der Gemeindedaten

Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.

1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.

1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.

Monatsbericht Ausgleichsenergiemarkt Gas – Oktober

Monatsbericht Ausgleichsenergiemarkt Gas – November

Präsentation transkript:

Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

Benfordverteilte Daten

Benfordverteilung

Benfordverteilung Entstehungsfaktoren Multiplikationen – Richard Hammering (1970)‏ Verteilungen – Theodor Hill (1995)‏

Fälschungen aufdecken Ansatz: Welche Daten sind benfordverteilt? Abweichungen als Indiz für Fälschungen

Was ist Benfordverteilt 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer Unstand. Regressionen 2180 x χ²-Testwerte 310 Logistische Regressionen 2251 t-Verteilungen 1538 Coxregressionen 599 R² 342 Pseudo-R² 248 - Gesamt 7468 Datenquelle: Kölner Zeitschrift für Soziologie und Sozialpsychologie Februar 1985 bis März 2007 (mit Unterstützung des Lehrstuhl Braun, LMU München)

Gleichverteilte Ziffern Normalverteilung Mittelwert: 3 Standardfehler: 2

Gleichverteilte Ziffern Normalverteilung Mittelwert: 3 Standardfehler: 2

Gleichverteilte Ziffern Normalverteilung Mittelwert: 3 Standardfehler: 2 N 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer Unstand. Regressionen 2180 x χ²-Testwerte 310 Logistische Regressionen 2251 t-Verteilungen 1538 Coxregressionen 599 R² 342 Pseudo-R² 248 - Gesamt 7468

Untersuchung des Lehrstuhl Braun Zu fälschende Hypothese: “Je höher die Bildung einer Person, desto weniger Zigaretten raucht sie pro Tag” 1. Ziffer: Ho abgelehnt (χ ²=103.39,df = 8, p = 0.000)‏ 2. Ziffer: Ho abgelehnt (χ ²=122.59,df = 9,

Untersuchung: 3. und 4. Ziffer Ho abgelehnt Ho abgelehnt (χ² = 304.89, df=9, p= 0.000)‏ (χ ² = 622.20, df=9, p= 0.000)‏

Untersuchung: Individualdaten Individuelle Abweichungen von Benfords Gesetz 47 Personen 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer 35 40 absolut 42 41 prozentual 0.744 0.851 0.893 0.872

Fälschungen entdecken Ansatz: Ab wann wird eine Fälschung erkannt? Vorgehensweise: 1. Empirische Verteilung gefälschter Regressionskoeffizienten 2. Ziehen von Zufallszahlen 3. Test der Zufallswerte auf Benfords Gesetz (H0) 4. Wiederholung für höhere Fallzahlen 20 50 100 200 400 500 750 1000 1500 χ2 - Test 1

Aggregatdaten Dritte gültige Ziffer Erste gültige Ziffer Zweite gültige Ziffer Vierte gültige Ziffer Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: 989 Fälle 2. Ziffer: 766 Fälle 3. Ziffer: 351 Fälle 4. Ziffer: 138 Fälle

Aggregatdaten Erste gültige Ziffer ~ 50 % gefälschte Daten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: 4001 Fälle 2. Ziffer: 3308 Fälle 3. Ziffer: 1351 Fälle 4. Ziffer: 585 Fälle

Aggregatdaten Erste gültige Ziffer ~ 10 % gefälschte Daten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: 94439 Fälle 2. Ziffer: 78883 Fälle 3. Ziffer: 31266 Fälle 4. Ziffer: 12592 Fälle

Aggregatdaten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer Benötigte Fallzahl (95 Prozent) 6000 4000 2000 0,2 0,4 0,6 0,8 1,0 Anteil gefälschter Daten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer

Individualdaten Erste gültige Ziffer ~ 100 % gefälschte Daten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich- keit von 95 % abzulehnen: 1. Ziffer: 136 Fälle 2. Ziffer: 102 Fälle 3. Ziffer: 100 Fälle 4. Ziffer: 69 Fälle

Individualdaten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer Benötigte Fallzahl (95 Prozent) 6000 4000 2000 0,2 0,4 0,6 0,8 1,0 Anteil gefälschter Daten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer

Kombination von Ziffern 6 2 1 3 4 1 6 2 3 5 9 2 6 4 8 7 3 9 2 4 5

Kombination von Ziffern

Zweiter Schritt: Gemeinsame Ziffern 4621 4541 4378 3867 17407 Gewichtung 0,265 0,261 0,252 0,222

Zweiter Schritt: Gemeinsame Ziffern

Zweiter Schritt: Gemeinsame Ziffern Benötigte Ziffern (95 Prozent) 6000 4000 2000 0,2 0,4 0,6 0,8 1,0 Anteil gefälschter Daten

Anteil gefälschter Daten Zweiter Schritt: Vergleich Gemeinsame Ziffern 4. gültige Ziffer Anteil gefälschter Daten 100% 174 73 80% 299 116 60% 570 208 50% 843 301 40% 1344 472 20% 5526 1897 Gemeinsame Ziffern 0,265 174 46 299 79 570 151 843 223 1344 356 5526 1464 4. gültige Ziffer 100 / 18,5 = 5,4 73 394 116 626 208 1123 301 1625 472 2549 1897 10243

Ergebniszusammenfassung Fälschungserkennung mit Benfords Gesetz: Untersuchung von Individualdaten Untersuchung gemeinsamer Ziffern Anwendung von Anpassungstests, welche stärker auf die Stichprogengröße reagieren (hier χ²-Anpassungstest)‏ Die Effektivität des Verfahrens ist stark abhängig von der Vorgehensweise des Fälschers.

Vorschläge Fälschungserkennung mit Benfords Gesetz: Erfassen möglichst vieler metrischer Kennwerte Verwenden der Gleichverteilung Fälschertypen bilden Konzentration auf Abweichungen Konzentration auf die Ziffernreihenfolge

Literatur Benford, Frank, 1938: The Law of Anomalous Numbers, in: Proceedings of the American Philosophical Society 78(4), 551-572. Busta, Bruce/Weinberg, Randy, 1998: Using Benford’s law and neural networks as a review procedure, in: Managerial Auditing Journal 13(6), 356-366. Diekmann, Andreas, 2007: Not the First Digit! Using Benford’s Law to Detect Fraudulent Scientific Data, in: Journal of Applied Statistics 34(3), 321-329. Hill, Theodore P., 1995: Base-invariance implies Benford’s law, in: Proceedings of the American Philosophical Society 78, 551-572. Newcomb, Simon, 1881: Note on the Frequency of use of the Different Digits in Natural Numbers, in: American Journal of Mathematics 4(1), 39-40. Nigrini, Mark, 1999: I’ve Got Your Number. How a Mathematical Phenomenon can Help CPAs uncover Fraud and Other Irregularities, in: Journal of Accountancy: 79-83. Surowiecki, James, 2004: The Wisdom of Crowds. Why the Many are Smarter than the Few. New York: Doubleday.