PDF File - Department of Information Systems - Universität Münster

wiunimuenster

PDF File - Department of Information Systems - Universität Münster

Arbeitsberichte des Instituts für Wirtschaftsinformatik

Herausgeber: Prof. Dr. J. Becker, Prof. Dr. H. L. Grob, Prof. Dr. S. Klein,

Prof. Dr. H. Kuchen, Prof. Dr. U. Müller-Funk, Prof. Dr. G. Vossen

Arbeitsbericht Nr. 133

ISSN 1438-3985

Ziffernanalyse zur Betrugserkennung in

Finanzverwaltungen – Prüfung von

Kassenbelegen

Stephan Dlugosz (ZEW Mannheim), Ulrich Müller-Funk


Inhaltsverzeichnis

- 1 -

Tabellenverzeichnis 3

Abbildungsverzeichnis 4

Symbolverzeichnis 5

I Einleitung 6

1 Ziffernanalyse 7

1.1 Grundlagen der Ziffernanalyse 8

1.2 Aktuelle Praxis der Ziffernanalyse 10

1.3 Forschungsziel 12

2 Manuell erzeugte Zufallszahlen 14

2.1 Determinanten der menschlichen (Un-)Fähigkeit zur Generierung von Zufallszahlenfolgen

14

2.2 Eigenschaften manuell erzeugter Zufallszahlenfolgen: Typische Strukturen und Abweichungen

vom Zufall 16

2.3 Potentiale für die Betrugserkennung mittels Ziffernanalyse 17

II Ziffernverteilungen 19

3 Erste Ziffern 20

3.1 Benford’s-Law als Verteilung 20

3.2 Theoretische Herleitung für Benford’s-Law 24

3.3 Simulationen 27

3.4 Empirische Befunde für Benford’s-Law 30

3.5 Eignung der Ziffernanalyse auf Basis der ersten Ziffern für die Betrugsaufdeckung

in Daten der Finanzbehörden 31

4 Letzte Ziffern 32

4.1 Gleichverteilung der letzten Ziffern von reellen Zahlen 32

4.2 Gleichverteilung der letzten Ziffer für Summen von natürlichen Zufallsvariablen 35

III Abweichungsanalyse 39

5 Chi-Quadrat Verteilungstest 40

5.1 Optimalität der Chi-Quadrat-Teststatistik 40

5.2 Bestimmung der Verteilung der Chi-Quadrat Statistik 41


- 2 -

6 Tests auf Unabhängigkeit der letzten Ziffern 44

6.1 Stochastische Unabhängigkeit der letzten Ziffer von Zufallsvariablen 44

6.2 Tests zur Prüfung der stochastischen Unabhängigkeit 45

IV Empirie 48

7 Praktischer Einsatz der Ziffernprüfung bei der Finanzverwaltung 49

7.1 Datengrundlage 49

7.2 Ein kombinierter Test auf Gleichverteilung und Zufälligkeit 50

7.3 Technische Umsetzung für die Anwendung in der Außenprüfung 52

8 Erste empirische Resultate 56

8.1 Einige Einzelfälle 56

8.2 Resultate und Anwendungsempfehlungen 59

9 Fazit 62

Literaturverzeichnis 64

Anhang 70

A Beweise 70

B Weitere Ergebnisse auf Basis vorhandener Datenreihen 70

B.1 Beispielsfall C 70

B.2 Beispielsfall D 71

B.3 Beispielsfall E 73

B.4 Beispielsfall F 73

B.5 Beispielsfall G 74

B.6 Beispielsfall H 76

B.7 Beispielsfall I 81

B.8 Beispielsfall J 82

B.9 Beispielsfall K 86

B.10 Beispielsfall L 89


Tabellenverzeichnis

- 3 -

Tab. 1.1 Häufigkeiten der ersten vier Ziffern nach Benford’s-Law . . . . . . . . . . . . 10

Tab. 3.1 Wahrscheinlichkeiten der Ziffermengen {k − 1,k,k + 1} . . . . . . . . . . . . 29

Tab. 8.1 Ergebnisse des Tests für korrekte Daten . . . . . . . . . . . . . . . . . . . . . 57

Tab. 8.3 Minimale Anzahl Verkäufe pro Tag (n) und Korrekturen . . . . . . . . . . . . 58

Tab. 8.2 Häufigkeiten bestimmter Preise auf der Speisekarte . . . . . . . . . . . . . . . 58

Tab. 8.4 Ergebnisse aus dem Beispielfall B . . . . . . . . . . . . . . . . . . . . . . . . 59

Tab. 8.5 Erkennungsraten der einzelnen Testverfahren in der Übersicht . . . . . . . . . 60

Tab. 8.6 Erkennungsraten der nach Westberg kombinierten Testverfahren in der Übersicht

(kombinierter Test) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Tab. 8.7 Erkennungsraten der integrierten, kombinierten Testverfahren in der Übersicht

(kombinierte Hypothese) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61


Abbildungsverzeichnis

- 4 -

Abb. 3.1 Verteilung der Häufigkeiten der ersten Ziffern einer Zahl im Zehnersystem nach

Benford’s-Law . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Abb. 3.2 Stetige Dichte nach Benford’s-Law . . . . . . . . . . . . . . . . . . . . . . . 21

Abb. 3.3 Erste signifikante Ziffern einer Paretoverteilung mit Erwartungswert 10 und Varianz

3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

Abb. 3.4 Erste signifikante Ziffern einer Lognormalverteilung mit Erwartungswert 6 und

Varianz 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

Abb. 3.5 Erste signifikante Ziffern einer Gammaverteilung mit Erwartungswert 8 und Varianz

9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Abb. 4.1 Normalverteilung und ihre Bereiche mit Gleichverteilung auf der letzten Ziffer

vor dem Dezimaltrennzeichen . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Abb. 4.2 Lognormalverteilung und ihre Bereiche mit Gleichverteilung auf der letzten Ziffer

vor dem Dezimaltrennzeichen . . . . . . . . . . . . . . . . . . . . . . . . 34

Abb. 4.3 Gammaverteilung und ihre Bereiche mit Gleichverteilung auf der letzten Ziffer

vor dem Dezimaltrennzeichen . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Abb. 5.1 Korrektur der χ 2 -Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43


Symbolverzeichnis

- 5 -

d (n)

b (x) n-te interessante (erste bzw. letzte) Ziffer zur Basis b von x

d(X,i) absolute Häufigkeit der Zahl i im Datensatz X

Lb(x|ℓ) ℓ-te Abschittsmantisse zur Basis b der Zahl x

mb(x) Mantisse zur Basis b der Zahl x

Mb

Mantissen-σ-Algebra zur Basis b

∃ es gibt (min.) ein

sgn(·) signum (Vorzeichen)

Bin(p) Binomialverteilung mit Erfolgswahrscheinlichkeit p

Z Menge der ganzen Zahlen

N Menge der natürlichen Zahlen

R Menge der reellen Zahlen

∞ unendlich

⋃︀ni=1 mi Vereinigungsmenge aus den Mengen mi

x mod y Rest von x bei Teilung durch y

∑︀ni=1 xi Summe über die Zahlenfolge xi

∫︀ b

a

f (x)dx Integral der Funktion f über x im Intervall a bis b

∀ für alle

E(X) Erwartungswert der Zufallsvariable X

Var(X) Varianz der Zufallsvariable X

1x(y) Indikatorfunktion: =1 falls y ∈ x, 0 sonst

ggt größter gemeinsamer Teiler

⌊⌋ abrunden

log b (·) Logarithmus zur Basis b

ln(·) natürlicher Logarithmus

B(I) Borelmengen für das Interval I

f ◦ g(·) Verknüpfung der Funktionen f und g, d. h. g( f (·))

f −1 (·) Umkehrfunktion der Funktion f

O(·) Größenordnung eine Einflusses, z. B. O(n) lineares Wachstum in n

℘(M) Potenzmenge zur Menge M

σ(M) σ-Algebra zur Menge M


- 6 -

Teil I

Einleitung


1 Ziffernanalyse

- 7 -

Statistische Datenanalyse hat primär die Zielsetzung, allgemeine Muster aufzudecken oder

Eingabe-Ausgabe-Beziehungen zu erklären bzw. zu prognostizieren. Daneben sind aber auch

Fragestellungen von Interesse, in denen individuelle Auffälligkeiten ausgemacht werden sollen,

d. h. Abweichungen von einem (zu präzisierenden) „Normalfall“. Beispiele hierzu bilden

die Identifikation von „Hochbegabten“ oder diejenige von „Außersinnlicher Wahrnehmung“.

Ökonomisch interessanter ist die Aufdeckung von Betrugsfällen in der Finanzverwaltung oder

in der Versicherungswirtschaft. Solche Abweichungen vom Normalfall sind nicht durch die erhobenen

Attribute erklärbar, sondern resultieren aus nicht erfassbaren latenten Variablen, wie

etwa „mangelndem Rechtsbewusstsein“. Der wichtigste Anknüpfungspunkt zur Entwicklung

von Aufdeckungsverfahren besteht darin, nach Verletzungen an sich plausibler Grundannahmen

zu suchen. Hierzu eignen sich speziell Abweichungen von Symmetrien oder allgemeineren

Invarianzen. Die Einzelabweichungen werden dann zu Größen verdichtet, deren Verteilung

weitgehend verteilungsfrei ist. Beispielsweise wird man Betrugsverhalten in einem iterierten

fairen Zwei-Personen-Nullsummen-Spiel über die jeweiligen Anzahlen an Gewinnen („1“) und

Verlusten („-1“) aufzudecken versuchen. Die Fairness des Spieles würde sich im Modell in der

Symmetrieannahme an die Verteilung der Auszahlungen an Spieler 1 niederschlagen. Auffällig

könnten dann sein:

• Abhängigkeiten und Inhomogenitäten unter den Werten sgn(Xn)

• Abweichungen zwischen der Verteilung von 1 2

∑︀ (︀

n 1 + sgn(Xn) )︀ und Bin(n, 1 2 ).

Der Benford-Ansatz zur Überprüfung von Finanzdaten basiert auf einer Analyse der Ziffernverteilung.

Als Normalfall unterstellt wird hierbei eine „Gleichverteilung“. Diese lässt sich nun

etwa für die erste (nicht-verschwindende) Ziffer fordern oder aber für die gesamte Mantisse.

Bei der zweiten Alternative ist zu präzisieren, was unter der Gleichverteilung einer unendlichen

Zahlengesamtheit zu verstehen ist. Dies erfolgt mathematisch dadurch, dass die Größe einer

solchen Menge bei Bewegung invariant sein soll. „Bewegung“ kann dabei entweder als eine

additive Operation (Translation) verstanden werden oder aber als eine multiplikative (Dilatation).

Auszuzeichnen ist daher — abstrakter gesehen — eine algebraische Verknüpfung sowie —

aus technischen Gründen — eine topologische Struktur. Ihre Fundierung erfährt die Benford-

Analyse im Rahmen invarianter Maße auf (kompakten, kommutativen) Gruppen, angewandt

auf die Mantissengruppe. Mantissen leiten sich nun von der multiplikativen Struktur reeller

Zahlen ab und erweisen sich als recht spröde gegenüber der additiven. Dies wird schon daran

deutlich, dass das additive Analogon zu (1.1) unten leider nicht gilt. Daraus ergeben sich für den

Benford-Ansatz recht unmittelbar Schwierigkeiten bei dessen Rechtfertigung, da sich die untersuchten

Zahlenbestände oft durch eine additive Zusammenfassung (über Zeiteinheiten, Einzelumsätze

etc.) ergeben. Falls die Zahlen zuvor weiterverarbeitet wurden, dann reichen schon

Rundungsfehler um die als Normalfall unterstellte Verteilung eventuell zu zerstören (Mochty,

2002).

Das Einsatzspektrum der Ziffernanalyse auf Basis der ersten Ziffern ist aus theoretischer (vgl.

Abschnitt 3.2) und auch empirischer Sicht (vgl. Abschnitt 3.4) sehr beschränkt. Schon seit län-


- 8 -

gerem wurde daher die Verwendung der letzten Ziffern postuliert, deren Eignung als Referenzverteilung

für die Betrugserkennung in Kapitel 4 in zweierlei Weise nachgewiesen wird.

Auch wenn eine plausible Referenzverteilung gegeben ist, so bleibt doch die Frage, in welcher

Weise Menschen mit „mangelndem Rechtsbewusstsein“ von genau dieser Referenz abweichen,

zumal diese — im Gegensatz zum bereits beschriebenen Nullsummenspiel — nicht unmittelbar

mit einem Vorteil für die betreffende Person verbunden ist. Daher wird in Kapitel 2 kurz auf

die Fähigkeit des Menschen, sich „zufällig“ — also „natürlich“ — zu verhalten eingegangen. Je

größer dieser Unterschied zwischen unveränderten und veränderten Zahlenfolgen ist, desto eindeutiger

sind problematische Folgen zu identifizieren. Dies beeinflusst direkt die Erkennungsbzw.

Aufdeckungsraten, welche die Einsatzfähigkeit der Ziffernanalyse in der Betrugserkennung

bestimmen. Daher wird in Kapitel 8 auf einige empirische Resultate aus der Praxis der

Steuerprüfung eingegangen.

1.1 Grundlagen der Ziffernanalyse

Unter dem Begriff der Ziffernanalyse wird üblicherweise ein Ansatz zur Betrugserkennung verstanden,

bei dem aus den zu untersuchenden Daten Statistiken über die Ziffern gebildet werden.

Die Zahl als ganzes – also ihr Wert – wird dabei ignoriert.

Es werden üblicherweise die ersten oder die letzten Ziffern von Zahlen betrachtet. In ihrer Bedeutung

für die Größenordnung der Zahl stellt die erste Ziffer ein interessantes Untersuchungsobjekt

dar. Für die letzte Ziffer spricht die strukturelle Vergleichbarkeit von Zahlenfolgen aus

unterschiedlichen Quellen. Es wird später gezeigt, dass die letzten Ziffern in einem Datensatz

unabhängig und identisch gleichverteilt sind, sofern diese einem Summationsprozess von unabhängigen

Summanden entstammt (vgl. Abschnitt 4.2 bzw. Abschnitt 6.1).

Die ersten Ziffern werden mit Hilfe der Mantisse bestimmt:

Definition 1.1 (Mantisse)

Für x ∈ R + , b ∈ N ≥2 heißt die eindeutig bestimmte Zahl mb(x) ∈ M = [1,b), für die gilt:

∃p ∈ Z : x = mb(x) · b eb(x) ,

die Mantisse von x (zur Basis b), wobei eb(x) ∈ Z den Exponenten bezeichnet.

In b-Entwicklung ergibt sich:

mb(x) = d1(x),d2(x)d3(x)...

mit der führenden Ziffer d1(x) ∈ {1,...,b−1} und den weiteren Ziffern (digits) d j(x) ∈ {0,...,b−

1}. Offensichtlich gilt:

mb(xy) = mb(x)mb(y) mod b (1.1)


- 9 -

Zwei Mantissen mb(x),m ′ b (x) ∈ M können folgendermaßen verknüpft werden:

{︃

mbm ′ b mbm ′ b < b

mb ◦ m ′ b =

mbm ′ b

b

sonst

(1.2)

Mit dieser Festlegung bildet (M,◦) eine kommutative Gruppe. Versieht man diese noch mit

der Quotiententopologie, dann ist (M,◦) kompakt und ermöglicht eine (eindeutige) invariante

Längenmessung in Form einer Wahrscheinlichkeitsverteilung µ(·) : 1 ≤ c < d < b (Müller-

Funk, Dlugosz, 2008)

µ([c,d[) := log b (d) − log b (c) (1.3)

Tabelle 1.1 zeigt diese nach Benford benannte Verteilung für die Basis b = 10.

Die letzten Ziffern werden hingegen folgendermaßen bestimmt:

Definition 1.2 (Letzte Ziffern)

Für x ∈ (0,∞), b ∈ N >1 und l ∈ Z bildet d (b)

k (x) ∈ B = {0,b − 1} mit

d (b)

k : N0 → B

die k-letzten Ziffern von x (zur Basis b) ab.

x ↦→ ⌊ x x

⌋ − b⌊ ⌋

bk−1 bk Die folgenden Beispiele verdeutlichen diese Definitionen:

Beispiel 1.3

1. m10(12345) = 1,2345

2. d (10)

1 (12345) = 5, d (10)

2 (12345) = 4, d (10)

3 (12345) = 3

Üblicherweise wird für die Basis b der Wert 10 gewählt.

Um nun auf Basis dieser Ziffernverteilungen Analysen durchführen zu können, welche die Identifikation

von in sich unplausiblen Datensätzen ermöglichen, sind drei Dinge erforderlich:

1. Existenz einer eindeutigen Referenzverteilung.

2. Begründete Erwartbarkeit von Abweichungen von der Referenzverteilung im Falle von Datenveränderungen.

3. Ein effizienter statistischer Test auf signifikante Abweichungen von der Referenz.

Diese drei Punkte sind zu klären, bevor eine Analyse durchgeführt werden kann.


Ziffer

Position in der Zahl

Erste Zweite Dritte Vierte

0 0,1197 0,1018 0,1002

1 0,3010 0,1139 0,1014 0,1001

2 0,1761 0,1088 0,1010 0,1001

3 0,1249 0,1043 0,1006 0,1000

4 0,0969 0,1003 0,1002 0,1000

- 10 -

Ziffer

Position in der Zahl

Erste Zweite Dritte Vierte

5 0,0792 0,0967 0,0998 0,1000

6 0,0669 0,0934 0,0994 0,0999

7 0,0580 0,0904 0,0990 0,0999

8 0,0512 0,0876 0,0986 0,0999

9 0,0458 0,0850 0,0983 0,0998

Tab. 1.1: Häufigkeiten der ersten vier Ziffern nach Benford’s-Law

1.2 Aktuelle Praxis der Ziffernanalyse

Basierend auf den Arbeiten von NIGRINI (1996, 1997), NIGRINI, MITTERMAIER (1997)

wurde die Ziffernanalyse insbesondere von BLENKERS (2003) und SOSNA (2004, 2005) in

das deutsche Finanzbehördensystem eingeführt. Derzeit wird die intern als „Chi-Quadrat-Test“

benannte Methodik insbesondere bei der Analyse von Tagesendsalden verwendet. Die wichtigste

Kennzahl ist dabei (im Gegensatz zu den Arbeiten von NIGRINI) der Test auf Gleichverteilung

der Endziffer bzw. der letzten ganzen Euroziffer (letzte Ziffer vor dem Dezimaltrennzeichen).

Die Annahme der Gleichverteilung wird mit Benford’s-Law (Benford, 1938) begründet (vgl. Tabelle

1.1). Es lässt sich dann leicht nachweisen, dass sich die Verteilung der weiter ‚„hinten“

liegenden Ziffern der Gleichverteilung annähert. Damit handelt es sich hierbei also nicht wirklich

um die „letzte“ Ziffer der Zahl, sondern um die „letzte“ Ziffer ihrer Mantisse. 1 Wie in

Tabelle 1.1 dargestellt, kann bereits ab der 5ten Stelle in der Mantisse eine Gleichverteilung

unterstellt werden.

Die Gültigkeit von Benford’s-Law wurde bisher nur in wenigen Einzelfällen empirisch erbracht

(vgl. Abschnitt 3.4). Eine befriedigende theoretische Erklärung für das Auftreten von

Benford’s-Law und die notwendigen Voraussetzungen sind bisher nur für sehr spezielle Fälle

erbracht worden wie beispielsweise lange Multiplikationsketten (vgl. Abschnitt 3.2). Somit

stellt sich die Frage, ob die Gleichverteilung auch für andere Mantissenverteilungen im Limes

gegeben ist (vgl. dazu Abschnitt 4.1).

Anwendung der Ziffernanalyse bei der Überprüfung von Tagesendsalden

Die in der Finanzverwaltung verwendete Methodik „Chi-Quadrat-Test“ basiert auf der Gleichverteilungsannahme

der letzten Euro-Ziffer. Da die betrachteten Zahlen nicht immer die gleiche

Stelligkeit aufweisen, handelt es sich also nicht immer um dieselbe Stelle in der Mantisse,

weshalb das oft als Begründung zitierte Benford’s-Law gar nicht direkt greift. Es ergibt sich

vielmehr eine Mischverteilung aus Ziffern der Mantisse, wobei — wie bereits angemerkt — für

Zahlen größer als zehntausend die Gleichverteilungsannahme für die letzten Ziffern gerechtfertigt

ist.

1 Auch hier kommt eine asymptotische Betrachtung zum Tragen, so dass unter „letzter“ Ziffer der Limes ver-

standen wird.


- 11 -

Neben dem Test auf Gleichverteilung der letzten Ziffer vor dem Dezimaltrennzeichen werden

auch Tests auf Gleichverteilung auf der vorletzten und der ersten Ziffer hinter dem Dezimaltrennzeichen

verwendet. Die in den Arbeiten von NIGRINI vorgestellten Tests auf Verteilung

der ersten Ziffern werden hingegen nicht bei der Prüfung von Kassenbelegen eingesetzt (Nigrini,

1996; Nigrini, Mittermaier, 1997).

Bei sämtlichen Tests wird der χ2-Anpassungstest genutzt, um die Signifikanz von Abweichungen

nachzuweisen.

χ 2 ∑︀10 [︀

i=1 d(X,i) −

=

n

]︀ 2

10

, (1.4)

wobei d(X,i) die Anzahl der Ziffer i als Endziffer im Datensatz X beschreibt. Da es sich bei diesem

Test um einen asymptotischen Test handelt, sind ausreichende Besetzungen der einzelnen

Zellen notwendig, welche bei maximal 365 Tagesendsalden innerhalb eines Jahres nur knapp

erreicht werden können.

Ein weiteres Problem bei dieser Vorgehensweise sind geringe Zahlenwerte (z. B. lediglich zweiund

dreistellige Zahlen) im Datensatz. Diese werden entweder in die Untersuchung einbezogen

(obwohl nach Benford’s-Law dann die letzten Ziffern nicht gleichverteilt sein können) oder

ignoriert, was die Problematik hinsichtlich der Asymptotik des χ 2 -Tests verschärft.

Juristische Anmerkungen

Die Methodik des „Chi-Quadrat-Test“ wurde nicht nur für interne Zwecke bei der Steuerung

der Prüfungsintensität verwendet, sondern auch als Begründung für die Ablehnung der Ordnungsmäßigkeit

der Buchführung. Die Zahlung der damit verbundenen Zuschätzungen wurden

nachfolgend von den betroffenen Steuerpflichtigen zur Aussetzung vor Gericht getragen. Urteile

zu diesem Thema ergaben sich daher in den Jahren 2003 bis 2005 (Blenkers, 2003; Wähnert,

2007).

Grundsätzlich wird dabei die Anwendbarkeit des vorliegenden „Chi-Quadrat-Test“ akzeptiert

(FG Münster v. 10.11.2003 – 6 V 4562/03 E,U und FG Hamburg v. 24.06.2005 I 153/04),

allerdings nicht ausschließlich, sondern nur in Kombination mit anderen Verfahren. Dies könnte

beispielsweise ein „Zeitreihenvergleich“ sein (FG Münster v. 10.11.2003 – 6 V 4562/03 E,U).

Des weiteren werden für die Anwendung der Methodik mindestens 5 Datenpunkte pro Klasse

(FG Münster v. 10.11.2003 – 6 V 4562/03), bzw. insgesamt mindestens 500 Werte (FG Münster

v. 14.08.2003 – 8 V 2651/03) verlangt.

Bei der Überprüfung von Tagesumsätzen ist dies also bei 365 Tagen im Jahr unmöglich. Außerdem

wird noch eine gewisse Größe des Betriebes, also vermutlich der Anzahl der Transaktionen,

und eine gewisse Vielzahl der Produkte verlangt (FG Münster v. 10.11.2003 – 6 V

4562/03), wobei eine genaue Festlegung dort nicht erfolgt ist.

Eine detailliertere Betrachtung der aktuellen Rechtsprechung im Zusammenhang mit der Ziffernanalyse

geben unter anderen TREDE U. A. (2009).

n

10


1.3 Forschungsziel

- 12 -

Folgende Punkte sind zu klären, um die Gültigkeit dieses Ansatzes nachweisen zu können:

1. Die Annahme der Gleichverteilung auf den letzten Ziffern in einem unmanipulierten Datensatz

ist zu überprüfen, bzw. es sind Kriterien anzugeben, unter denen die Gleichverteilung

der letzten Ziffern berechtigterweise angenommen werden kann.

2. Die Annahme der Nicht-Gleichverteilung der letzten Ziffern in einem manuell generierten

Datensatz ist zu überprüfen.

3. Eignung des χ 2 -Tests für den Vergleich der erhobenen Verteilung (Empirie) mit der erwarteten

Verteilung (Theorie) im Rahmen des vorliegenden Multinomialmodells.

Damit ergeben sich (nicht zuletzt aus den Urteilen der Finanzgerichte) die folgenden Problemfelder:

1. Konkretisierung der „ausreichenden Produktvielfalt“

2. Bestimmung der „ausreichenden Anzahl Transaktionen“

3. Auswahl eines geeigneten Tests auf Gleichverteilung

Während die beiden ersten Problemfelder die Gültigkeit der Gleichverteilungsannahme umschreiben

und zwei mögliche Kriterien für diese enthalten, wird beim dritten Problemfeld auf

den häufig recht geringen Datenumfang eingegangen, welcher zu berücksichtigen ist.

Gliederung der Arbeit

Die Arbeit gliedert sich in vier große Bereiche: Der erste Bereich gibt einen Überblick über

den Ansatz der Ziffernanalyse zur Betrugserkennung. Neben notwendigen Definitionen wird

auch die menschliche (Un-)Fähigkeit, Zufallszahlenfolgen zu erzeugen, diskutiert. Im zweiten

Bereich werden verschiedene Ansätze vorgestellt, um „echte“, d. h. unveränderte Ziffernverteilungen

zu beschreiben. Diese bilden die Referenz, mit der die empirisch beobachteten

Verteilungen verglichen werden können. Für diesen Vergleich muss auf Statistiken zurückgegriffen

werden — hier vor allem die χ 2 -Statistik — um Abweichungen zwischen der erwarteten

(Referenz-)Verteilung und der beobachteten Verteilung zu bestimmen und beurteilen zu können.

Diese werden im dritten Teil behandelt. Im vierten Teil schlussendlich, werden einige Kennziffern

ermittelt, um die Effektivität der Ziffernanalyse bei der Prüfung von Kassenbelegen in der

Kleingastronomie abschätzen zu können.

Dem ersten, oben genannten, Problemfeld wird im Kapitel 4 dieser Arbeit nachgegangen. Der

Nachweis basiert im Abschnitt 4.2 auf der Konstruktion von homogenen Markoffketten zur

Beschreibung der Verteilung der letzten Ziffern. Es wird die Gleichverteilung der letzten Ziffern

bei Summen von Zufallsvariablen jeweils zunächst asymptotisch bewiesen und eine Schätzung

der Konvergenzgeschwindigkeit vorgestellt. Dabei wird ein — insbesondere für die Praxis

— relevanter Kriteriensatz erarbeitet. Zuvor wird im Abschnitt 4.1 kurz ein zweiter Ansatz


- 13 -

vorgestellt, mit dem über in der Finanzwirtschaft häufig verwendete stetige Verteilungen eine

Schätzung der „richtigen“ Verteilung der letzten Mantissenziffer vorgenommen werden kann.

Außerdem wird in Abschnitt 4.1 die Verteilung der letzten Ziffer vor dem Dezimaltrennzeichen

bei einigen — in der Modellbildung beliebten — stetigen Verteilungen durch Simulationen untersucht.

Auf das zweite und dritte Problemfeld wird in Kapitel 5 eingegangen und verschiedene denkbare

Alternativen theoretisch auf ihre Eignung für den vorliegenden Zweck überprüft.

Einen vollkommen anderen Ansatz, der nicht auf einer Hypothese über die (Rand-)Verteilung

der letzten Ziffern beruht, wird in Kapitel 6 untersucht. Insbesondere aus Kapitel 2 wird ersichtlich,

dass der Mensch keinen perfekten Zufall generieren kann; selbst wenn eine exakte

Gleichverteilung entsteht, sind die einzelnen Zufallszahlen zumeist assoziiert. Daher kann man

auch den Grad an Assoziation in der Folge der Zufallszahlen, genau genommen, deren letzter

Ziffer, überprüfen. Dies führt zu Tests auf stochastische Unabhängigkeit von Ziffernfolgen.

In Kapitel 7 wird die benötigte Software für den praktischen Einsatz der Ziffernanalyse bei der

Prüfung von Kassenbelegen vorgestellt. Weiterhin wird die Ermittlung der erforderlichen Daten

diskutiert. Die Effizienz der Ziffernanalyse kann mit den empirischen Resultaten abgeschätzt

werden, die in Kapitel 8 vorgestellt werden.

Abschließend werden in Kapitel 9 ein (sehr grobes) Vorgehensmodell für die Ziffernanalyse als

Entscheidungshilfe vorgestellt und Kritik geäußert; es werden die Einschränkungen des Verfahrens

erläutert, sowie weiterer Forschungsbedarf festgehalten.


- 14 -

2 Manuell erzeugte Zufallszahlen

In der psychologischen Literatur sind verschiedenste Studien zum Thema Mensch und Zufall

dokumentiert (bspw. Bar-Hillel, Wagenaar, 1991; Brugger, 1997). Dabei sind neben der Zufälligkeit

auch verschiedene Faktoren untersucht worden, welche die Qualität generierter Zufallszahlenfolgen

bzw. die Wahrnehmung von Zufall beeinflussen.

Es wurden dabei die beiden Aspekte „Beurteilung von Zufälligkeit“ und „Erzeugung von Zufallsereignissen“

untersucht und jeweils ähnliche Abweichungen vom wahren Zufall festgestellt

(Bar-Hillel, Wagenaar, 1991). Da für die Arbeit nur die Erzeugung von Zufallszahlenfolgen

von Interesse ist, sollen nur Arbeiten mit dem Fokus auf Erzeugung von Zufallszahlenfolgen —

insbesondere Folgen über den Bereich 0 bis 9 — betrachtet werden.

Im Rahmen der Forschung zu Benford’s-Law wurde auch die Verteilung der ersten Ziffern von

durch Menschen erzeugten Zufallszahlen untersucht und sowohl eine signifikante Abweichung

von der nach Benford’s-Law erwarteten Verteilung 2 als auch von der Gleichverteilung festgestellt

(Hill, 1988). Allerdings scheinen die Mantissenverteilungen der von den Probanden erzeugten

Zahlen irgendwo zwischen der Gleichverteilung und Benford’s-Law zu liegen und sich

manchmal auch nicht wirklich allein auf der ersten Ziffer zu unterscheiden (Diekmann, 2007).

Ähnliche Resultate ergeben sich auch für die letzten Ziffern (Mosimann u. a., 1995).

Im Folgenden soll der Fokus auf einstelligen Ziffern liegen, auch wenn zu erwarten ist, dass

bei mehrstelligen Zahlen die Ziffern anders erzeugt werden. Dabei sollen — nach einer kurzen

Einführung in die psychologische Theorie zur menschlichen Fähigkeit, Zufallszahlenfolgen zu

erzeugen — die beiden statistisch interessierenden Eigenschaften Gleichverteilung und Unabhängigkeit

betrachtet werden, auf welche die — an späterer Stelle dieser Arbeit vorgestellten —

beiden wichtigsten statistischen Tests auf „Natürlichkeit“ von Ziffernfolgen basieren.

2.1 Determinanten der menschlichen (Un-)Fähigkeit zur Generierung von Zufallszahlenfolgen

Manuell erzeugte Zufallszahlenfolgen unterscheiden sich nicht generell in einer vorbestimmten

Weise von echten Zufallsfolgen. Neben individuellen Einflüssen spielen Faktoren wie Zeitdruck,

statistische Ausbildung und Alter eine entscheidende Rolle.

Zeit

Gibt man einem Probanden die Rate vor, mit der er Zufallsereignisse produzieren soll, so kann

beobachtet werden, dass mit der Steigerung der Produktionsrate die Fähigkeit zufällige Ergebnisse

zu produzieren abnimmt.

BADDELEY hat gezeigt, dass Probanden bei 4, 2, 1 und 1 2 Sekunden Zeit für die rein zufällige

Nennung eines der 26 Buchstaben des Alphabets einen mit der Geschwindigkeit fallenden

2 Im Zusammenhang mit Finanzdaten und vor allem auch mit dem bewussten Versuch der Manipulation unter

Bekanntheit von Benford’s-Law (Watrin u. a., 2008).


- 15 -

Informationsgehalt 3 der Zufallsfolge generieren. Weiterhin wurde festgestellt, dass die Probanden

mit steigendem Zeitdruck eine höhere Rate an Stereotypen, also Digrammen mit im Alphabet

aufeinander folgenden Buchstaben, erzeugten. Ebenfalls steigt mit der Generationsrate

die Anzahl der wiederholten Digramme (Baddeley, 1966). Ähnliche Resultate wurden auch von

anderen Forschern erzielt (Rabinowitz u. a., 1989; Towse, 1998).

Alter der Person

VAN DER LINDEN U. A. haben in einem Versuchsaufbau, welcher dem von BADDELEY (1966)

entspricht, den Einfluss des Alters auf die Fähigkeit, gute Zufallsfolgen erzeugen zu können,

untersucht. Dabei war auffällig, dass für Ältere mit steigernder Geschwindigkeit eine größere

Abweichung von der erwarteten Zufälligkeit eintrat. Dieser Effekt war schon bei der relativ

geringen Rate von 4 Sekunden zwischen den einzelnen Anforderungen signifikant (Van der

Linden u. a., 1998).

Auch RABINOWITZ U. A. haben versucht, abhängig vom Alter, unterschiedliche Algorithmen

bei der Zufallszahlengenerierung zu identifizieren. Dazu wurden a-priori verschiedene Regeln

erstellt und anschließend überprüft, inwiefern diese Regeln genutzt werden konnten, um die

Antworten der Probanden (Kinder, Jugendliche und junge Erwachsene) vorauszusagen. In ihren

Untersuchungen erreichten College-Studenten maximal einen Anteil reinen Zufalls von etwa

75% (Rabinowitz u. a., 1989), bei den jüngeren Teilnehmern lag der Anteil signifikant darunter.

Statistische Bildung

NEURINGER hat gezeigt, dass die Qualität der Zufallsfolgen, die ein Mensch erzeugt, durch

Erlernen von Eigenschaften stochastischer Folgen stark verbessert werden kann (Neuringer,

1986).

CHAPANIS kommt zu einem ähnlichen Ergebnis: In einer Vergleichsstudie zwischen sechs Studenten

aus „statistikfernen“ Studiengängen und fünf Studenten mit mindestens einjähriger Statistikbildung

und gewisser Erfahrung auf dem Gebiet des Zufalls sowie dem Verfasser der Studie.

Es konnte gezeigt werden, dass insbesondere bei der Unabhängigkeit der Ziffern (gemessen

an Stereotypen in Ziffernpärchen und Zifferntriplets) statistisch gebildete Personen eine zufälligere,

d. h. weniger abhängige Folge generiert haben (Chapanis, 1995).

Weitere Einflussfaktoren

Ebenfalls spielt es eine Rolle, ob ungeordnete (den Probanden unbekannte) Symbole oder geordnete

Elemente (wie Zahlen oder Buchstaben) gewählt werden sollen. Auch die Art der Wiedergabe

(mündlich, Tastendruck, schriftlich) spielt eine Rolle, insbesondere im Zusammenhang

mit der Zeit. Die besten Ergebnisse lassen sich per Tastendruck mit unbekannten Symbolen erzielen,

da der gesamte Bereich der Möglichkeiten quasi vor dem Probanden ausgebreitet liegt

aber keinerlei Ordnung aufweist (Towse, 1998).

3 Die Information beschreibt den nicht-komprimierbaren und damit musterfreien Anteil einer Nachricht. Der

Informationsgehalt wird üblicherweise mit der Formel log2 n − 1 ∑︀

n

ni log2 ni bestimmt.


- 16 -

Auch die Anzahl der Möglichkeiten spielt eine Rolle (Towse, 1998) und ob die Probanden

parallel andere Aufgaben zu erledigen hatten (Wolitzky, Spence, 1968).

2.2 Eigenschaften manuell erzeugter Zufallszahlenfolgen: Typische Strukturen und

Abweichungen vom Zufall

In der Psychologie wird seit über 50 Jahren die menschliche Fähigkeit zur Erzeugung von Zufallszahlen

diskutiert. Ein Modell geht davon aus, dass es zwischen echten und manuell generierten

Zufallsfolgen drei Merkmale gibt, die sich besonders unterscheiden (Rabinowitz, 1970;

Ginsburg, Karpiuk, 1994; Rabinowitz u. a., 1989):

• Zyklen

Menschen tendieren dazu, alle Zahlen durch zu wechseln, was zu verringerter empirischer

Varianz bei der Schätzung der Anteile der einzelnen Ziffern führt, da die Ziffern relativ

exakt gleich häufig erscheinen. Dies wird häufig mit Hilfe der Lückenanalyse, also der

Betrachtung der Abstände zwischen zwei Auftreten derselben Zahl, gemessen.

• Serien

Serien sind scheinbare Muster in den generierten Daten wie bspw. aufsteigende, absteigende

Folgen oder Wiederholungen von Digrammen (zwei nebeneinander stehende Ziffern).

Auch hier unterschätzt der Mensch üblicherweise die Häufigkeit derartiger Muster.

• Wiederholungen

Unter Wiederholungen werden Pärchen von nebeneinander stehenden Zahlen verstanden.

Überprüft wird die Anzahl der Wiederholungen mit Hilfe der Digrammanalyse oder auch

mit dem Poker-Test.

Alle diese Effekte erzeugen je eine charakteristische Abhängigkeitsstruktur auf den Daten, welche

generell als Abweichung von der Unabhängigkeit statistisch nachgewiesen werden kann.

Spezifische Tests für jede dieser Abweichungen können allerdings höhere Erkennungsraten bei

gegebenem Fehlalarmrisiko erreichen.

Ziffernpräferenzen

RATH hat in einer Studie gezeigt, dass bei der Aufgabe, eine Folge von 2500 zufälligen 4 Zahlen

zwischen 0 und 9 zu generieren, kleinere Zahlen gegenüber Größeren bevorzugt werden, wobei

die Null allerdings ebenfalls vermieden wurde. Die Hypothese der Gleichverteilung der Ziffern

konnte für den Großteil der Probanden auf dem 5%-Niveau verworfen werden. Alle Probanden

scheiterten bei dem Test auf Gleichverteilung der Differenzen aufeinander folgender Ziffern

(Rath, 1966).

CHAPANIS hat in einem Experiment demonstriert, dass es keine globalen, für alle Menschen

gültigen Präferenzen hinsichtlich der Wahl bestimmter Ziffern bei der Generierung von Zufallszahlen

gibt. Übereinstimmungen zwischen den Menschen gibt es wohl nur bei der Darstellung

4 Unter „zufällig“ soll hier unabhängig und gleichverteilt verstanden werden.


- 17 -

von zwei- und dreifachen Ziffernwiederholungen, welche im Vergleich zu einer rein zufälligen

Zufallszahlenfolge zu selten auftreten (Chapanis, 1995).

Abhängigkeiten innerhalb der generierten Zufallszahlenfolge

In einem psychologischen Experiment haben sowohl WADDELL U. A. als auch CHAPANIS festgestellt,

dass der beste Prädiktor für die nächste Zahl in einer von einem Menschen generierten

Zufallszahlenfolge die aktuelle Zahl ist (Waddell u. a., 1985; Chapanis, 1995). Der Mensch erzeugt

seine Zufallszahlenfolge also nicht gedächtnislos, was zu einer stochastischen Abhängigkeit

der Zahlen in der Folge führt. Häufig wird dabei das Auftreten von auf- bzw. absteigenden

Folgen unter den Ziffern (nach numerischen oder lexikographischen Ordnungen) entweder weit

über- oder unterschätzt (Teraoka, 1963; Chapanis, 1995).

Sogar bei nur zwei Möglichkeiten konnte gezeigt werden, dass Menschen dazu tendieren, eher

die Alternative zu wählen als eine Wiederholung desselben Symbols zu notieren (Bakan, 1960).

2.3 Potentiale für die Betrugserkennung mittels Ziffernanalyse

Die menschliche Fähigkeit gute Zufallszahlen zu erzeugen schwankt stark mit den Einflussfaktoren

Alter, Zeit und statistische Bildung, wobei allerdings lediglich die Intensität der grundlegenden

Abweichungen durch diese beeinflusst wird.

Für die Entwicklung von Tests zur Unterscheidung von rein natürlichen Prozessen und manuell

Beeinflussten können folgende Eigenschaften von manuell erzeugten Zufallzahlen festgehalten

werden:

a) Trotz des Auftrags, eine möglichst gute Gleichverteilung auf den Daten zu generieren, besitzen

Menschen eine gewisse Tendenz bestimmte Zahlen über- bzw. unterrepräsentiert oft zu

wählen. Dabei spielen persönliche Faktoren eine große Rolle, so dass weder global gültige

Präferenzen noch Abneigungen gegenüber bestimmten Zahlen auszumachen sind. Damit

sollte ein Test auf gleiche Wahrscheinlichkeit für alle Ziffern für alle denkbaren Abweichungen

geeignet sein.

b) Menschen sind nicht in der Lage, stochastisch unabhängige Folgen von Zahlen zu bilden.

Dabei lässt das „Gedächtnis“ allerdings mit dem Abstand der Zahlen in der Folge ab, so

dass auch die Intensität der Abhängigkeit der Zahlen in der Folge ebenfalls abnimmt. Es

wird damit ausreichend sein, bei der Überprüfung der Unabhängigkeit die jeweils direkt

vorangegangenen Zahlen zu einer bestimmten Zahl in der Folge zu betrachten.

Diese Resultate sind insofern kritisch zu sehen, als dass weder die Methodik ausgereift noch die

Anzahl der Versuchsteilnehmer an den einzelnen Studien besonders groß gewesen wäre. Weiterhin

wurden auch keine Untersuchungen durchgeführt, bei denen Menschen Zufallszahlenfolgen

mit einer bestimmten Zielsetzung (wie bspw. Fehlangaben in Steuererklärungen) erstellen

sollten. Die grundlegende Problematik der Messbarkeit von „Zufall“ ist insofern bekannt, als

dass es keine einfache, mathematisch prüfbare Definition von Zufall gibt (Wagenaar, 1972).


- 18 -

Dennoch kann durch die große Vielzahl verschiedener methodischer Ansätze und Studien festgehalten

werden, dass von Menschen erzeugte Zufallszahlen in den zwei genannten Aspekten

von echtem Zufall signifikant abweichen.


- 19 -

Teil II

Ziffernverteilungen


3 Erste Ziffern

- 20 -

Die Ziffernanalyse versucht mit Hilfe ungewöhnlichen Ziffernverteilungen in den Zahlen auf

Unregelmäßigkeiten in der zugrunde liegenden Datenbasis zu schließen. Daher ist es notwendig,

den „Normalfall“ für die betrachteten Ziffern der zu analysierenden Datensätze zu definieren.

Im Rahmen der Betrugserkennung haben – insbesondere auf Grund ihres Wertes – zunächst die

ersten Ziffern Interesse geweckt. Diesen wurde Benford’s-Law als „naturgegebene“ Verteilung

unterstellt, welche im folgenden Abschnitt genauer betrachtet wird. In späteren Arbeiten wurde

Benford’s-Law dann als Spezialfall einer einparametrigen Power-Law-Familie identifiziert und

diese als flexible Alternative für die Ziffernanalyse vorgeschlagen (Rodriguez, 2004a). Dass

auch diese Familie mit ihren monoton fallenden Ziffernverteilungen noch nicht ausreichend

ist um allgemeingültige Referenzverteilungen beschreiben zu können, wird in den restlichen

Abschnitten dieses Kapitels demonstriert.

3.1 Benford’s-Law als Verteilung

Das nach Benford benannte Gesetz wurde von NEWCOMB 1881 zum ersten Mal formuliert

(Newcomb, 1881), geriet aber wieder in Vergessenheit bis es als Benford’s-Law 1938 wiederentdeckt

wurde (Benford, 1938, 554):

P(erste signifik. Ziffer = d) = log b (1 + d −1 ) d = 1,...,b − 1

b−1

∑︁ (︀ −1

P(zweite signifik. Ziffer = d) = logb 1 + (i · 10 + d) )︀ d = 0,1,...,b − 1

i=1

Unter einer signifikanten Ziffer werden dabei die entsprechenden Ziffern der Mantisse zur Basis

b verstanden (vgl. auch Definition 1.1):

Definition 3.1 (Signifikante Ziffern)

Die n-te Ziffer der Darstellung von mb(x), symbolisiert durch d (n)

b (x), wird n-te signifikante

Ziffer von x (zur Basis b) genannt.

Die Verteilung der Mantisse im Zehnersystem ist in der Abbildung 3.1 grafisch dargestellt. Es

ergeben sich für das Zehnersystem die bereits in der Tabelle 1.1 dargestellten Wahrscheinlichkeiten

für die ersten Ziffern. Auffällig ist die mit der Ziffernposition in der Mantisse zunehmende

Gleichverteilung.

Auf Basis der Mantisse kann auch eine stetige Version von Benford’s-Law definiert werden:

fb(t) = 1

t lnb

t ∈ [1,b), (3.1)


0,3

0,25

0,2

0,15

0,1

0,05

0,0


1 2 3 4 5 6 7 8 9

- 21 -

Abb. 3.1: Verteilung der Häufigkeiten der ersten Ziffern einer Zahl im Zehnersystem nach

Benford’s-Law

0,5

0,4

0,3

0,2

0,1


0,0


0 1 2 3 4 5 6 7 8 9 10

Abb. 3.2: Stetige Dichte nach Benford’s-Law

wobei t über die Mantissenfunktion aus der Zahl gewonnen wird. Die Mantissendichte nach

diesem stetigen Benford’s-Law ist in der Abbildung 3.2 für die Basis b = 10 dargestellt. 5

Eigenschaften und Charakteristika von Benford’s-Law

Sei X eine Zufallsvariable mit Dichtefunktion (3.1), dann sind mit

b − 1

E(X) =

lnb

Var(X) = b2

2 −

(︂ )︂ 2

b

lnb

(3.2)

5 Für die nachfolgende Betrachtung von Benford’s-Law ist es notwendig, für die Wahrscheinlichkeitsverteilung

über die Ziffern eine Algebra zu formulieren, welche die Mantissen beschreibt:

Definition 3.2 (Mantissen-σ-Algebra)

Die von der Signifikante-Ziffer-Funktion erzeugte σ-Algebra

(︁ )︁

(︃

⋃︁ (︁

Mb := σ ,i ∈ N := σ

d (i)

b

wird Mantissen-σ-Algebra genannt.

i∈N

d (i)

b

)︁ −1 (︀℘({0,...,b}) )︀ )︃


Erwartungswert und Varianz gegeben.

- 22 -

Das Besondere an Benford’s-Law sind die speziellen, charakteristischen Eigenschaften „Skaleninvarianz“

und „Summeninvarianz“. Die dritte Eigenschaft „Basisinvarianz“ wird zwar häufig

auch als eine typische Eigenschaft von Benford’s-Law erwähnt, sie ist aber im Gegensatz zu

den beiden anderen nicht charakteristisch, d. h. auch andere Verteilungen sind (unter bestimmten

Voraussetzungen) basisinvariant.

Bevor jedoch diese Eigenschaften beschrieben werden, sei Benford’s-Law als Haar-Maß auf

dem Einheitskreis charakterisiert, was die Beweise zu den genannten charakteristischen Eigenschaften

erleichtert.

Lemma 3.3 (Mantissen-Transformation)

Sei b ∈ N \ {1} eine Basis. Die Abbildung zwischen den Maßräumen, welche durch den Übergang

zur Betrachtung der Mantissen führt

(R + ,M) → (︀ [1,b),B[1,b) )︀

P ↦→ P Mb := P ◦ m −1

b

ist epimorph (homomorph und surjektiv) und messbar.

(3.3)

Dieses projizierte Wahrscheinlichkeitsmaß auf diesem Restklassenring der Mantissen kann reskaliert

werden:

Lemma 3.4 (Logarithmische Reskalierung)

Sei b ∈ N \ {1} wieder eine Basis. Die Abbildung zwischen den Maßräumen

(︀ [1,b),B[1,b) )︀ → (︀ [0,1),B[0,1) )︀

ist isomorph und messbar.

P Mb ↦→ P Mb ◦ log −1

b

Beweis. Ergibt sich automatisch aus den Eigenschaften des Logarithmus.

Damit ergibt sich für den Wahrscheinlichkeitsraum (︀ [0,1),B[0,1), ˆP )︀ die Verteilung

(3.4)

ˆP (︀ [0,c) )︀ (︀ −1

= logb logb (c))︀ = c (3.5)

und damit eine einfache Längenmessung, womit es sich hierbei um ein Lebesque-Maß handelt.

Durch diese bijektive Reskalierung mit dem Logarithmus können Skalierungsoperationen (Multiplikation)

auf Mengen aus M mit Hilfe von Translationen (Addition) modulo eins von Mengen

aus B[0,1) beschrieben werden. Hier bildet (︀ [0,1),+ )︀ offensichtlich eine algebraische Gruppe.

Dies impliziert:


- 23 -

Satz 3.5

Benford’s-Law ist die Gleichverteilung über [0,1) bezüglich dem Haar-Maß.

Beweis. Sei [a,b) ∈ [0,1) ein beliebiges Intervall und µ(x) = 1 x das Haar-Maß auf diesem Intervall.

Dann gilt:

∫︁ b 1

µ([a,b)) = dt = log(b) − log(a)

t

Unter der Skaleninvarianz wird Folgendes verstanden (Hill, 1995b, S. 892):

Definition 3.6 (Skaleninvarianz)

Ein Wahrscheinlichkeitsmaß P auf (R,Mb) heißt skaleninvariant, falls

a

∀α > 0,S ∈ Mb : P(αS) = P(S).

HILL hat gezeigt, dass diese Eigenschaft charakteristisch ist (Hill, 1995b):

Satz 3.7

Ein Wahrscheinlichkeitsmaß P auf (R,Mb) ist genau dann skaleninvariant, wenn P die logarithmische

Verteilung ist.

Der etwas ungewöhnliche Begriff der Summeninvarianz ist wie folgt definiert (Allaart, 1995,

S. 4):

Definition 3.8 (Summeninvarianz)

Ein Wahrscheinlichkeitsmaß P auf (R,Mb) heißt summeninvariant, falls

∀k ∈ N ∃c(k) ∈ R ∀z1 ∈ {1,...,9},z2,...,zk ∈ {0,...,9} :

E [︀ mb(x) · 1 {d1=z1,...,dk=zk} (x) ]︀ ∫︁

= mb(x) · 1 {d1=z1,...,dk=zk} (x) dP(x) = c(k).

R +

Bemerkung 3.9

Anschaulich lässt sich die Summeninvarianz folgendermaßen beschreiben:

Nimmt man die Zahlen eines kleinen Ausschnitts und addiert diese mit ihren Wahrscheinlichkeiten

gewichtet auf, so erhält man für jedes gleich große Teilintervall des Intervalls [1,b) denselben

Wert.

ALLAART hat gezeigt, dass auch diese Eigenschaft charakteristisch ist (Allaart, 1995):

Satz 3.10

Ein Wahrscheinlichkeitsmaß P auf (R,Mb) ist genau dann summeninvariant, wenn P die logarithmische

Verteilung ist.

Unter Basisinvarianz wird in diesem Zusammenhang verstanden (Hill, 1995a, S. 891):


- 24 -

Definition 3.11 (Basisinvarianz)

Ein Wahrscheinlichkeitsmaß P auf (R,Mb) heißt basisinvariant, falls

∀m ∈ N,S ∈ Mb : P(S 1/m ) = P(S).

Bemerkung 3.12

Diese Definition von Basisinvarianz ist recht speziell, denn normalerweise würde man erwarten,

dass die Basisinvarianz gegenüber jeder Basis und nicht nur bei durch Potenzen verbundene

Basen gilt.

Satz 3.13

Ein Wahrscheinlichkeitsmaß P auf (R,Mb) ist genau dann basisinvariant, wenn es ein q ∈ [0,1]

gibt, so dass

P = qP ∗ + (1 − q)Pb

mit P ∗ ein Wahrscheinlichkeitsmaß auf (R,Mb) und

P ∗ (m −1

b (E)) =

und Pb die logarithmische Verteilung ist.

{︃

1 1 ∈ E

0 sonst

∀E ∈ B[1,b]

Damit ist Benford’s-Law zwar basisinvariant, aber jede Mischung von Benford’s-Law mit der

Dirac-Verteilung in 1 ist ebenfalls basisinvariant.

Zusammenfassend kann man diese drei Eigenschaften mit folgendem Implikationsschema darstellen:

Skaleninvarianz ⇔ Benford’s-Law ⇔ Summeninvarianz


Basisinvarianz

Insbesondere die direkt eingebaute, charakterisierende Skaleninvarianz lässt Benford’s-Law als

ideale Verteilung geeignet erscheinen, da so unabhängig von der Skalierung (insbes. Wahl der

Währung) eine Untersuchung vorgenommen werden kann (Nigrini, Mittermaier, 1997). Dabei

muss angemerkt werden, dass zwar das Verfahren (also die gebildeten Statistiken oder zumindest

die darauf aufsetzenden Tests), nicht aber die Verteilung der Zahlen skaleninvariant sein

muss. Somit ist diese Eigenschaft zwar praktisch, aber nicht zwingend notwendig, um die Ziffernanalyse

zur Betrugserkennung einsetzen zu können.

3.2 Theoretische Herleitung für Benford’s-Law

Für die Betrugsaufdeckung ist nun entscheidend, wann die Mantissenverteilung (1.1) bzw. (3.1)

denn nun — zumindest approximativ — zugrunde gelegt werden kann. Hierzu existieren sowohl

zahlentheoretische Dichteaussagen (Diaconis, 1977) wie auch wahrscheinlichkeitstheoretische

Grenzwertsätze (Schatte, 1988; Boyle, 1994).

Die meisten Dichteaussagen bemühen dabei die recht unhandliche H∞-Summation. Diese hat


- 25 -

sich schon früh in der Literatur eingebürgert (Flehinger, 1966), kanonischer scheint jedoch die

Riesz-Summation zu sein. Der Grund hierfür wird nach dem folgenden Dichtesatz deutlich

werden, der an eine Arbeit von STIGLER anknüpft (Stigler, 1945; Raimi, 1976). Für dessen

Formulierung benötigen wir noch folgende Bezeichnungen:

Nun kann gezeigt werden:

R(d) = {x ∈]0,∞[: m(x) ≤ m} (m ≤ b)

= ⋃︁

[b k ,(m + 1)b k [

1m(x) =

k

{︃

1 x ∈ R(d)

0 sonst

Satz 3.14 (Müller-Funk, Dlugosz 2008)

In den obigen Bezeichnungen gilt für x → ∞:

a)

1

lnx

∫︁ x

b) − 1

lnx

1

∫︁ 1

1m(y) 1

y dy → logb (m + 1)

1 x

1m(y) 1

y dy → logb (m + 1)

Die Aussage a) besagt nun etwa, dass die relative Anzahl der Zahlen y in [1,x[, deren führende

Ziffer m nicht übersteigen, approximativ durch die Ziffernverteilung (3.1) beschrieben wird,

d. h. für die Dichte von R(d) gilt

Länge(R(d) ∩ [1,x[)

Länge([1,x[)

→ logb (m + 1) .

Wesentlich hierbei ist, dass auf R + jeweils das bzgl. der Multiplikation invariante Maß dy

y gewählt

wird und nicht — wie in der Arbeit von STIGLER — einfach das translationsinvariante

Maß dy. Auch für diskrete Zahlenmengen (Zufallsfolgen) führt dieser Ansatz zu vernünftigen

Resultaten. Hier ergibt dies gerade das Riesz’sche Limitierungsverfahren

(an)n≥1 ↦→ 1

logn

n∑︁

k=1

ak

k .

Folgende Größe hat sich als hilfreich erwiesen, um zu entscheiden, welche stetigen Verteilungen

Benford’sche Erste-Ziffer-Verteilungen aufweisen:

U := Y − ⌊Y ⌋ mit Y := log b (X)

Solle U über [0,1) eine Gleichverteilung aufweisen, wären die ersten Ziffern von X nach Benford’s-Law

verteilt (Dümbgen, Leuenberger, 2008).

Für exponential-verteilte Zufallsvariablen konnte gezeigt werden, dass deren Erste-Ziffer-Ver-


- 26 -

teilung Benford’s-Law zwar sehr nah kommt, aber unter keiner Parameterwahl exakt erreicht

wird (Engel, Leuenberger, 2003; Miller, Nigrini, 2006). Weitere Verteilungen wurden bislang

nur in Simulationen überprüft (vgl. Abschnitt 3.3).

Da einzelne (klassische) Verteilungen eher keine Benford’sche Erste-Ziffer-Verteilungen besitzen,

muss eine geschickte Mischung von Verteilungen zum Ziel führen, wie auch BENFORD

sie darstellte (Benford, 1938). Somit geht ein häufig angeführtes Argument auf einen Satz von

HILL zurück, in dem er zeigt, dass gewisse Konstruktionen von Wahrscheinlichkeitsmaßen zu

Benford’s-Law führen (Hill, 1995b). Dazu wird die Vorstellung einer Mischung von Daten aus

verschiedenen Quellen verwendet, welche als M-zufällige k-Stichprobe bezeichnet wird: Ziehe

unabhängig k Elemente aus einer zufällig ausgewählten Verteilung aus einer Menge von Wahrscheinlichkeitsverteilungen

M. Sei E(M) die erwartete Verteilung zur Wahrscheinlichkeitsverteilung

M ((EM)(B) = E(M(B)) für alle Borel-Mengen B ⊂ R).

Satz 3.15 (Hill 1995b)

Sei M ein Wahrscheinlichkeitsmaß über (R + ,M ). Dann sind äquivalent:

(i) Der Erwartungswert von M ist basisinvariant und EM ist frei von Gitterpunkten 6 ,

(ii) E[M(t)] = log b t für alle t ∈ [1,b) für ein beliebiges b ≥ 2,

(iii) jede M-zufällige k-Stichprobe hat eine skaleninvariante Mantissenverteilung

(iv) EM ist frei von Gitterpunkten, und jede M-zufällige k-Stichprobe hat eine basisinvariante

Mantissenverteilung,

(v) für jede M-zufällige k-Stichprobe X1,X2,... gilt

für ein beliebiges b ≥ 2.

n −1 #{i ≤ n : mb(Xi) ∈ [1/b,t/b)} → log b

∀t[1,b)

Dieses Resultat ist wahrscheinlichkeitstheoretisch von Bedeutung — nicht aber statistisch, da

die Voraussetzungen für eine derartige Mischung empirisch nicht zugänglich sind.

Das wichtigste wahrscheinlichkeitstheoretische Resultat, welches auf die log-Verteilung führt,

ist (Schatte, 1988):

Satz 3.16

Seien X1,X2,... unabhängig identisch verteilte positive Zufallsvariablen, dann gilt für

• TN = mb

• SN = mb

(︃ ∏︁

i

(︃ ∑︁

i

Xi

Xi

)︃

)︃

: P(TN < t) → log b (t)

: P(SN < t) → log b (t) in H∞

6 Für alle Punkte x ∈ X gilt: P(X = x) = 0.


- 27 -

Wesentlich ist die erste Aussage in Satz 3.16, da diese nicht auf das H∞ Konstrukt zurückgreifen

muss und somit eine direkte und intuitive Anwendung ermöglicht: Produkte langer Multiplikationsketten

weisen eine nach Benford’s-Law verteilte Erste-Ziffern Verteilung auf.

Mit Ausnahme dieser Erklärungen zum Auftreten von Benford’s-Law als Grenzverteilung nach

Rechenoperationen (Satz 3.16) ist keiner der vorgestellten Ansätze geeignet, um ein Auftreten

von Benford’s-Law in einem speziellen Anwendungsfall begründen zu können.

3.3 Simulationen

In diesem Abschnitt soll auf die (nicht unbedingt mit Benford’s-Law konforme) Verteilung der

Mantissen bzw. der ersten signifikanten Ziffern eingegangen werden. Ziel ist dabei eine Erklärung

für das (Nicht-)Auftreten von Benford’s-Law zu geben. Vergleichbare Analysen wurden

schon von LEEMIS U. A. durchgeführt, wobei für einige Verteilungen bei bestimmten Parameterkonstellationen

eine sehr gute Anpassung an Benford’s-Law nachgewiesen werden konnten

(Leemis u. a., 2000). Aber auch dort wurde schon darauf hingewiesen, dass die Anpassung stark

von der Wahl der Parameter abhängt.

Folgende Vermutungen sind dazu zu überprüfen:

1. Nicht jede Verteilung hat eine mit Benford’s-Law konforme Mantissenverteilung.

2. Nicht jede Verteilung besitzt eine monoton fallende Mantissenverteilung.

3. Die höchste Wahrscheinlichkeit weist zumeist diejenige erste Ziffer auf, welche mit der

ersten signifikanten Ziffer des Modalwerts identisch ist.

4. Mit steigender Varianz werden die Mantissenverteilungen der Benford’schen optisch ähnlicher.

5. Linksschiefe Verteilungen haben eine linksschiefe Mantissenverteilung und rechtsschiefe

Verteilungen haben eine eher rechtsschiefe Mantissenverteilung der ersten signifikanten

Ziffern.

Dazu werden Simulationen durchgeführt, welche zunächst den Einfluss der Parameter auf die

Mantissenverteilung untersuchen. Um sinnvolle Ergebnisse bei der auf Simulationen basierten

Untersuchung der Mantissenverteilungen erhalten zu können, muss die Anzahl der simulierten

Zahlen n ausreichend groß gewählt werden. Mit n = 20000 ist dieser Wert derart gegeben, dass

eine Abweichung von mindestens 0,1 Prozentpunkten an einer Stelle der Erste-Ziffer-Verteilung

höchstens mit einer Wahrscheinlichkeit von 0,6% auftreten kann.

Da der Umfang der gemachten Simulationen den Rahmen dieses Berichts sprengen würde,

sollen nur einige der Ergebnisse hier dargestellt werden.

In Abbildung 3.3 erkennt man deutlich, dass die Abweichungen von der Benford’schen Verteilung

unter bestimmten Bedingungen sehr groß sein können. Aus der in Abbildung 3.4 dargestellten

Verteilung der ersten signifikanten Ziffern der Lognormalverteilung kann man leicht


0,35

0,3

0,25

0,2

0,15

0,1

0,05

0,0


1 2 3 4 5 6 7 8 9

- 28 -

Abb. 3.3: Erste signifikante Ziffern einer Paretoverteilung mit Erwartungswert 10 und Varianz

3

die dritte Hypothese generieren, denn der Modalwert der Lognormalverteilung mit dem Erwartungswert

6 und der Varianz 2 beträgt ungefähr 5,5. Auch bei der Gammaverteilung ergibt sich

ein ähnliches Bild, wobei hier auf Grund der größeren Varianz der genannte Effekt nicht so

ausgeprägt ist (vgl. Abbildung 3.5).

0,3

0,25

0,2

0,15

0,1

0,05

0,0


1 2 3 4 5 6 7 8 9

Abb. 3.4: Erste signifikante Ziffern einer Lognormalverteilung mit Erwartungswert 6 und

Varianz 2

Insgesamt konnten in den gemachten Simulationen alle genannten Hypothesen unterstützt werden

Dlugosz (2004).

Generell scheint mit wachsender Variabilität der Zufallsvariablen auch die Ähnlichkeit zu Benford’s-Law

bei der Verteilung der ersten Ziffer zu steigen (vgl. dazu auch Leemis u. a., 2000). 7

Diese Ergebnisse motivieren die Formulierung des Satzes 3.17. 8

Satz 3.17 (Beweis siehe Anhang A)

Sei X eine Zufallsvariable mit einer stetigen Wahrscheinlichkeitsdichte mit existierender Varianz

σ 2 ≤ E(X) > 10. Weiter sei k die erste Ziffer von E(X). Dann gilt:

Die Wahrscheinlichkeit der Ziffernmenge {k − 1,k,k + 1} der zugehörigen Erste-Ziffer-Verteilung

beträgt mindestens 1−k ·10 −1 . (Die Mengen {k −1,k,k +1} sind dabei als Abschnitte auf

7 Für die Lognormalverteilung kann man zeigen, dass mit σ 2 → ∞ Benford’s-Law gilt (Rodriguez, 2004b).

8 Beweise zu den Sätzen dieser Arbeit befinden sich im Anhang A.


0,3

0,25

0,2

0,15

0,1

0,05

0,0


1 2 3 4 5 6 7 8 9

- 29 -

Abb. 3.5: Erste signifikante Ziffern einer Gammaverteilung mit Erwartungswert 8 und Varianz

9

Ziffern- Wahrscheinlichkeit min. Wert nach Sätzen 3.17 und 3.19

menge nach BL FSD(E(X)) E(X) < 100 10 < E(X) < 100 σX < E(X)

10

{9,1,2} 0,523 1 0,9 0,99 0,99

{1,2,3} 0,602 2 0,8 0,98 0,96

{2,3,4} 0,398 3 0,7 0,97 0,91

{3,4,5} 0,289 4 0,6 0,96 0,84

{4,5,6} 0,243 5 0,5 0,95 0,75

{5,6,7} 0,204 6 0,4 0,94 0,64

{6,7,8} 0,176 7 0,3 0,93 0,51

{7,8,9} 0,155 8 0,2 0,92 0,36

{8,9,1} 0,398 9 0,1 0,91 0,19

Tab. 3.1: Wahrscheinlichkeiten der Ziffernmengen {k − 1,k,k + 1} nach Benford’s-Law

im Vergleich zu den im Satz 3.17 bzw. Satz 3.19 ermittelten

einem geschlossenen Ring zu betrachten, d. h. im Fall k = 1 gilt k − 1 = 9 und im Fall k = 9 ist

k + 1 = 1.)

Bemerkung 3.18

Insbesondere folgt aus Satz 3.17, dass Verteilungen mit einem Variationskoeffizienten kleiner 1

(d. h. die Varianz ist kleiner als der Erwartungswert) nicht Benford’s-Law folgen können, denn

für die Mengen {k − 1,k,k + 1} gilt die Tabelle 3.1.

Diese Aussage lässt sich mit folgendem Satz für große Werte von E(X) noch verfeinern:

Satz 3.19 (Beweis siehe Anhang A)

Sei X eine Zufallsvariable mit einer stetigen Wahrscheinlichkeitsdichte mit existierender Standardabweichung

σ · 10 ≤ E(X). Weiter sei k die erste Ziffer von E(X). Dann gilt:

Die Wahrscheinlichkeit der Ziffernmenge {k − 1,k,k + 1} der zugehörigen Erste-Ziffer-Verteilungen

beträgt mindestens 1 − (︀ )︀

k 2.

10 (Die Mengen {k − 1,k,k + 1} sind dabei als Abschnitte

auf einem geschlossenen Ring zu betrachten, das heißt im Fall k = 1 gilt k − 1 = 9 und im Fall

k = 9 ist k + 1 = 1.)


- 30 -

3.4 Empirische Befunde für Benford’s-Law

Prinzipiell können alle Beispiele für die Anwendung von Benford’s-Law (vgl. Abschnitt 3.5)

auch als empirische Untersuchungen der Gültigkeit desselben gelten. Allerdings würde dies

voraussetzen, dass die Daten unverfälscht sind, was bei den meisten Anwendungsfällen nicht

sichergestellt werden kann.

Eine dieser Ausnahmen ist die Arbeit von DE CEUSTER U. A., in der sie zeigen, dass es keine

der von vielen anderen Autoren vermuteten psychologischen Barrieren auf den Aktienmärkten

gibt (Scott, Fasli, 2001). Dazu müssen sie lediglich die Annahme der Gleichverteilung der

ersten Ziffern durch Benford’s-Law ersetzen. Den Änderungen an den Aktienkursen liegt auf

Grund der Renditeüberlegungen der Marktteilnehmer eher ein multiplikativer als ein additiver

Prozess zugrunde. Benford’s-Law kann daher gerechtfertigterweise als Referenzverteilung

angenommen werden.

Ohne theoretische Fundierung hat BENFORD eine empirische Untersuchung vorgestellt, welche

zu seinem Gesetz geführt hat (Benford, 1938). Der „Datensalat“, den er zusammengetragen

hat, ist von SCOTT, FASLI ein weiteres Mal untersucht worden. Diese zerlegten den Datensatz

nach seinen Quellen und fanden teilweise stark von Benford’s-Law abweichende Erste-Ziffer-

Verteilungen (Scott, Fasli, 2001). Sie untersuchten darüber hinaus verschiedene weitere Datenquellen

(Fließmengen in Flüssen, Einwohnerzahl und Fläche der Länder der Erde, Klimatische

Daten, Pro-Kopf-Kriminalfälle in Boston u. a.). Dabei wiesen landwirtschaftliche Kennzahlen

wie Ackergröße, Erntemenge etc. die größte Nähe zu Benford’s-Law auf. Sie untersuchten ebenfalls

Finanzdaten in Form des Dow-Jones, Privatkrediten und Konsumaufwendungen. Von den

insgesamt 230 untersuchten Datensätzen erfüllten allerdings nur 29 das 5% Signifikanzniveau

für Konformität mit Benford’s-Law (Scott, Fasli, 2001, S. 7).

BUSTA, SUNDHEIM führten als erste Untersuchungen zur Konformität von Angaben in amerikanischen

Steuererklärungen der Jahre 1982/83 mit Benford’s-Law durch (Busta, Sundheim,

1992b). Sie fanden auf der ersten Ziffer eine recht gute Konformität mit Benford’s-Law, auf der

zweiten und dritten Ziffer allerdings eine relative Überrepräsentanz der Ziffern 0 und 5, was

vermutlich auf Rundungen zurückzuführen ist (Busta, Sundheim, 1992b, S. 15).

NIGRINI betrachtete analoge Daten für die Jahre 1985/88; allerdings nur die gezahlten und

empfangenen Zinszahlungen (Nigrini, 1996). Bei diesen Angaben konnte in einer Studie aus

Holland 9 eine hohe Konformität mit Benford’s-Law auf den ersten beiden Ziffern festgestellt

werden, wobei die Angaben mit Hilfe direkter Mitteilungen der beteiligten Banken an die Finanzbehörden

überprüfbar waren (Nigrini, 1996, S. 75). Nach NIGRINI folgen die entsprechenden

Angaben auf den US-Steuererklärungen jedoch nicht Benford’s-Law. Er führt dies auf fehlerhafte

Angaben der Steuerpflichtigen zurück, was auf Grund fehlender (Steuer-)Mitteilungen

der Banken jedoch nicht nachprüfbar ist.

POSCH hat Steuererklärungen eines Finanzamts aus Nordrhein-Westfalen für das Jahr 2001

sachbereichsweise auf Benford’s-Law untersucht und dabei unterschiedliche Ergebnisse erhalten.

Übereinstimmungen mit Benford’s-Law ergaben sich dabei nur im Sachbereich 18 (Mantelbogen).

Insbesondere der Sachbereich 47/48 (Einkünfte aus nicht-selbständiger Arbeit) ist

9 Leider findet sich in der Studie Nigrini (1996) keine exakte Quellenangabe.


- 31 -

nicht logarithmisch verteilt, obwohl hier aus sachlichen Gründen (Arbeitgebermeldungen) keine

Manipulationen zu erwarten sind (Posch, 2004a,b).

Keine der bisher publizierten Studien analysiert die spezielle Datenstruktur, welche die Tagesumsatzmeldungen

beschreibt. Durch die additive Struktur der Daten ist jedoch anzunehmen,

dass sie nicht Benford’s-Law genügen. Die empirischen Untersuchungen deuten durchaus darauf

hin, dass es ein (vom konkreten Fall abhängiges) Erste-Ziffer-Gesetz gibt, welches stetig und

streng monoton fallend ist. Daher wurde in der Literatur versucht, Benford’s-Law mit (mindestens)

einem Parameter zu versehen (Rodriguez, 2003; Hürlimann, 2003, 2006). Die gewonnene

Flexibilität bei der Wahl der Hypothese scheint empirisch zwar gerechtfertigt, eine theoretische

Begründung ist jedoch weder für die zugrunde liegende Annahme der Monotonie noch der

Unimodalität möglich; im Gegenteil, sie lassen sich sogar widerlegen (vgl. Abschnitt 3.3).

3.5 Eignung der Ziffernanalyse auf Basis der ersten Ziffern für die Betrugsaufdeckung

in Daten der Finanzbehörden

Auch wenn Benford’s-Law als eine Art „Naturgesetz für Zahlen“ nur in speziellen Situationen

theoretisch zu rechtfertigen ist, gibt es in der wissenschaftlichen Literatur viele Anwendungsbeispiele,

in denen Benford’s-Law eingesetzt wurde.

Im betriebswirtschaftlichen Kontext gibt es zahlreiche Arbeiten im Bereich der Wirtschaftsprüfung

(Albrecht u. a., 2000; Albrecht, Albrecht, 2002; Amershi, 2000; Busta, Weinberg, 1998;

Ettredge, Srivastava, 1999; Green, Choi, 1997; Knechel, 1986, 1988; Kumar, Bhattacharya,

2002; McKee, 2006; Nigrini, Mittermaier, 1997), der internen Revision (Nigrini, 2000; Quick,

Wolz, 2003) und der Finanzierung (insbesondere Aktienmarktanalysen) (Burke, 2001; De Ceuster

u. a., 1998; Doucouliagos, 2004). Ein Großteil der Arbeiten sind jedoch dem Gebiet der

Steuerprüfung zuzurechnen (Busta, Sundheim, 1992a; van Caneghem, 2004; Carslaw, 1988;

Cleary, Thibodeau, 2005; Christian, Gupta, 1993; Durtschi u. a., 2004; Nigrini, 1996; Niskanen,

Keloharju, 2000; Skousen u. a., 2004; Thomas, 1989; Watrin u. a., 2008).

Weitere Anwendungen finden sich in der Psychologie, Numerik, bei der Sicherstellung der

Sicherheit von Computer- und Telekommunikationsnetzwerken, den Naturwissenschaften, der

Theologie und bei der Überprüfung von Forschungsergebnissen (siehe Schäfer u. a., 2004; Hürlimann,

2006; Diekmann, 2007; Tödter, 2009, etc.).

Benford’s-Law ist nicht die einzige Möglichkeit, wie die ersten Ziffern von Zahlen verteilt sein

können. Weitere Möglichkeiten ergeben sich prinzipiell durch die Verwendung von allgemeineren

Erste-Ziffer-Gesetzen. Simulationen zeigen jedoch, dass es keine allgemeinen Prinzipien

für die Verteilung der ersten Ziffern gibt. Dies gestaltet eine Überprüfung von Datensätzen im

Rahmen der Ziffernanalyse auf Basis der ersten Ziffern. Der Einsatz von Benford’s-Law zur

Betrugserkennung in Tagesumsätzen mit Hilfe der ersten Ziffern ist derzeit nicht zu rechtfertigen.


4 Letzte Ziffern

- 32 -

Da es — wie gesehen — schwer fällt, eine verbindliche Erste-Ziffer-Verteilung zu bestimmen,

sind andere als die ersten Ziffern als Basis für die Analyse vorgeschlagen worden (Mosimann

u. a., 1995; Nigrini, Mittermaier, 1997; Nigrini, 2000; Mosimann u. a., 2002). Insbesondere

wurden weitere Ziffern der Mantisse — inklusive ihrer Kombinationen — als auch bestimmte

(Ziffern-)Positionen relativ zum Dezimaltrennzeichen vorgeschlagen. Hierbei hat sich (aus

Anwendersicht) insbesondere die letzte Ziffer vor dem Dezimaltrennzeichen als robust erwiesen.

10

Während die „letzte“ Ziffer für natürliche Zahlen intuitiv definiert ist, ist dies für reelle Zahlen

a-priori unklar. Zwei verschiedene Konzepte sind denkbar: 1) Betrachtung der k-ten Stelle der

Mantisse mit k → ∞ und 2) Betrachtung einer bestimmten, festen Position innerhalb der Zahl;

z. B. die Stelle direkt vor dem Dezimaltrennzeichen.

4.1 Gleichverteilung der letzten Ziffern von reellen Zahlen

Zunächst sei eine Mantissen betrachtet. In diesem Rahmen werden die Ziffern im Limes der

Mantisse als „letzte“ Ziffern verstanden; konkret also die Verteilung von limn→∞ mn(X). Es

kann gezeigt werden, dass diese letzten Ziffern asymptotisch unabhängig und identisch gleichverteilt

sind (Hill, Schürger, 2005). Dieses Resultat kann auf Abschnitte der Mantisse verallgemeinert

werden:

Satz 4.1 (Dlugosz, Müller-Funk 2009, Theorem 1)

Sei X > 0 eine Zufallsvariable mit Verteilung F und stetiger Dichte f = F ′ . Dann gilt für alle

ℓ > 1 und 1 ≤ kr < b (1 ≤ r ≤ ℓ):

P (︀ )︀

mn(X) = k1,...,mm+ℓ−1 = kℓ →n→∞ b −l

Die Aussage kann auf verschiedenste Weise ergänzt werden. Beispielsweise kann man auch

zeigen, dass unter der Lipschitz-Annahme für f die Konvergenzgeschwindigkeit in der Größenordnung

O(n −1 ) liegt.

Verteilung der letzten Ziffer vor dem Dezimaltrennzeichen von ausgewählten klassischen

Verteilungen

In der Anwendung wird man sich eher für bestimmte, „in der Mitte“ der Mantisse liegende

Positionen interessieren, da reale Zahlenmengen keine sehr langen nicht-trivialen Mantissen

aufweisen. Als erstes Beispiel dient die letzte Ziffer vor dem Dezimaltrennzeichen.

10 Diese Ziffernposition wird bei der Steuerprüfung durch die Finanzbehörden unter dem Namen „Chi-Quadrat-

Test“ eingesetzt. Sie ist seltener als die Cent-Ziffern von Rundungen betroffen und daher vergleichsweise

robust.


- 33 -

Sei F also eine beliebige positive Verteilungsfunktion. Zu bestimmen sind dann die Abschnitte

∑︁

k∈N0

∫︁ 1+d+k·10

k·10+d

F(x)dx ∀d ∈ {0,...,9} (4.1)

Leider ist diese unendliche Summe nicht immer einfach algebraisch zu bestimmen. Daher müssen

diese alternativ mit Hilfe von Simulationen approximiert werden.

Simulationen

Dazu werden n = 5.000 unabhängig identisch verteilte Zufallsvariablen der Verteilung F mit

einem Erwartungswert im Intervall µ ∈ (−100,100) (F positiv für ganz R) bzw. µ ∈ (1,200)

(F positiv nur für R >0 ) und Standardabweichungen im Intervall σ ∈ (1,21) simuliert und deren

letzte Ziffer bestimmt. Anschließend wird ein Plot angefertigt, in dem auf der Parameterebene

mit Grauabstufungen die Wahrscheinlichkeit (p-value) einer Abweichung von der unterstellten

Gleichverteilung dargestellt wird. Als Test auf Gleichverteilung wird der bereits erwähnte χ 2 -

Anpassungstest verwendet. 11

Die Idee dazu ist ziemlich einfach:

1. Wahl der stetigen Verteilung für die Umsätze.

2. Prüfen der Gleichverteilung auf der letzten Ziffer für plausible Parameterkombinationen.

Leider ist die Auswahl interessanter stetiger Verteilungen nicht trivial. Allein die Frage, ob die

Verteilung unimodal ist oder nicht, wird schon problematisch, denn Unimodalität scheint praxisfern.

Beispielsweise ist eine Unterscheidung der Umsätze in Arbeits- und Feiertagsumsätze

plausibel, was durch die Mischung zu einer bimodalen Verteilung führen würde. Generell ist

die Identität der Parameter über die Tage hinweg allerdings nicht erforderlich. Denn solange für

alle Komponenten der Mischverteilung die Gleichverteilung auf der letzten Ziffer gegeben ist,

gilt diese auch für deren Mischverteilung.

Im folgenden wird nun demonstriert, dass bei drei wichtigen zweiparametrigen Verteilungen

((Log-)Normalverteilung, Gammaverteilung) in dem praxisnahen Parameterbereich (d. h. für

ausreichend große Erwartungswert und Varianz) eine Gleichverteilung der letzen Ziffer vorliegt.

Bei den rechten Grafiken sind jeweils auf der x-Achse die Varianz und auf der y-Achse der Erwartungswert

der Verteilung abgetragen. Eingetragen sind dann die p-values des χ 2 -Anpassungstests

auf Gleichverteilung für die letzte Ziffer vor dem Dezimaltrennzeichen, wobei eine dunkle

Färbung Ablehnung der Hypothese hindeutet (kleine p-values).

11 Vergleiche Kapitel 5 zur besonderen Eignung dieses Tests in diesem Fall.


f (x)

1

8

1

16

E = 50, Var = 16

E = 25, Var = 25

E = 50, Var = 25

- 34 -

E = 50, Var = 64

0 25 50 75

x

100

Abb. 4.1: Normalverteilung und ihre Bereiche mit Gleichverteilung auf der letzten Ziffer

vor dem Dezimaltrennzeichen

f (x)

1

8

1

16

E = 50, Var = 16

E = 25, Var = 25

E = 50, Var = 25

E = 50, Var = 64

0 25 50 75

x

100

Abb. 4.2: Lognormalverteilung und ihre Bereiche mit Gleichverteilung auf der letzten Ziffer

vor dem Dezimaltrennzeichen

f (x)

1

8

1

16

E = 50, Var = 16

E = 25, Var = 25

E = 50, Var = 25

E = 50, Var = 64

0 25 50 75

x

100

Abb. 4.3: Gammaverteilung und ihre Bereiche mit Gleichverteilung auf der letzten Ziffer

vor dem Dezimaltrennzeichen

In den aufgeführten Beispiele erkennt man deutlich, dass Wahrscheinlichkeit für eine Gleich-


- 35 -

verteilung auf der letzten Ziffer vor dem Dezimaltrennzeichen sowohl mit der Streuung als auch

dem Erwartungswert ansteigt.

Diese Resultate besitzen lediglich eine begrenzte Aussagekraft, da ein allgemeiner Beweis für

die Gleichverteilung der letzten Ziffern für Verteilungen mit bestimmten (plausiblen und dennoch

praxisrelevanten) Annahmen ein weitaus besseres Resultat darstellen würde. Die Gleichverteilung

auf der letzten Ziffern kann also, wie die Simulationen gezeigt haben, nicht generell

für alle Parameterkombinationen einer Verteilung erreicht werden. Dies bedeutet, dass zumindest

einige Anforderungen an die ersten Momente zu stellen sind, was deren Größe bzw. Verhältnisse

zueinander betrifft.

4.2 Gleichverteilung der letzten Ziffer für Summen von natürlichen Zufallsvariablen

In diesem Abschnitt wird nun die letzte Stelle von natürlichen Zahlen betrachtet. Im Gegensatz

zu der unhandlichen Limes-Definition ist die Definition der „letzten“ Ziffer für ganze Zahlen

weitaus intuitiver.

Entstamme die zu untersuchende Zahlenfolge Xi ∈ N folgendem Bildungsschema: Seien Xi j ∈

N unabhängig identisch verteilte Zufallsvariablen (z. B. einzelne Umsätze j im Laufe eines

Tages i). Die Folge Xi ∈ N ergibt sich nun als Rand dieser Zahlenfolge,

Xi = ∑︁

Xi j , (4.2)

j

kann also z. B. als Tagesumsatz interpretiert werden. Die Beschränkung auf ganzzahlige Werte

stellt für die praktische Anwendung, da Geldwerte auch in der kleinsten Einheit der Währung

(z. B. Euro-Cent) angegeben werden können, keine Einschränkung dar.

Für eine derartige Zahlenfolge gilt:

Satz 4.2 (Dlugosz, Müller-Funk 2009, Theorem 2)

Seien Xi unabhängig identisch verteilte Zufallsvariablen über N und i ∈ {0,...,n} mit n ∈ N.

Weiter beschreibe d (|Z|)

1 (Xi) die letzte Ziffer der Zufallsvariable Xi bezüglich der Darstellung in

einem Zahlensystem mit |Z| Ziffern.

Falls

1. zunächst

• P(d (|Z|)

1 (Xi) = z) = 0 für ein z ∈ Z mit ggt(z,|Z|) = 1 oder

• P(d (|Z|)

1 (Xi) = z1) = 0 = P(d (|Z|)

1 (Xi) = z2) für z1,z2 ∈ Z und z1 = z2 mit ggt(z1 + z2

mod |Z|,|Z|) = 1

2. und dann noch

so gilt:

• P(d (|Z|)

1 (Xi) = 0) = 0 oder

• P(d (|Z|)

1 (Xi) = z1) = 0 und P(d (|Z|)

1 (Xi) = z2) = 0 für z1,z2 ∈ Z mit z1 = z2 und ggt(|z1 −

z2|,|Z|) = 1,

lim

n→∞ P

(︃

d (|Z|)

1

(︃ n∑︁

i=0

Xi

)︃

= z

)︃

= 1

|Z|

(4.3)


- 36 -

Konkreter kann man im Fall |Z| = 10 leicht sehen, dass dieses Resultat die gesuchte Referenzverteilung

für die letzten Ziffern liefert:

Korollar 4.3 (Beweis siehe Anhang A)

Seien Xi unabhängig identisch verteilte Zufallsvariablen über N und i ∈ {0,...,n} mit n ∈ N.

Weiter beschreibe d1(Xi) die letzte Ziffer der Zufallsvariable Xi bezüglich der Darstellung in

einem Zahlensystem mit 10 Ziffern (Z = {0,...,9}).

Falls

1. zunächst

• P(d1(Xi) = z) = 0 für z ∈ {1,3,7,9} oder

• P(d1(Xi) = z1) = 0 und P(d1(Xi) = z2) = 0 für z1,z2 ∈ Z mit z1 = z2 für z1, z2 mit

z1 2 4 5 5

z2 5 5 6 8

2. und dann noch

so gilt:

• P(d1(Xi) = 0) = 0 oder

• falls es z1, z2 mit P(d1(Xi) = z1) = 0 = P(d1(Xi) = z2) und z1 = z2 mit

z1 1 1 1 2 2 2 3 3 4 4 5 5 6 6 7 8

z2 2 4 8 3 5 9 4 6 5 7 6 8 7 9 8 9 ,

lim

n→∞ P

(︃

d1

(︃ n∑︁

i=0

Xi

)︃

= z

)︃

= 1

10

(4.4)

Damit ergibt sich ein klarer Kriteriensatz für die asymptotische Gleichverteilung der letzten

Ziffern. Dazu ist lediglich eine Liste mit den möglichen Endziffern von Einzelumsätzen (z. B.

eine Preisliste) notwendig.

Der Beweis zu Satz 4.2 ergibt sich über die stationäre Verteilung einer homogenen Markoffkette.

Unter den genannten Voraussetzungen bleibt nur noch die Frage offen, nach wie vielen Übergängen,

d. h. für die Praxis nach wie vielen Transaktionen von einer Gleichverteilung der letzten

Ziffer ausgegangen werden kann. Dies hängt von den Wahrscheinlichkeiten der verschiedenen

Endziffern ab (Dlugosz, Müller-Funk, 2009).

Generalisierung der Resultate auf weitere „letzte“ Ziffern

In der Realität werden Preislisten häufig in der letzten Ziffer von der 8, 9 oder der 0 und der 5

dominiert. Die Praxis reagiert darauf mit der Betrachtung der letzten ganzen Euro (DM) Ziffer

(Drüen, 2004; Blenkers, 2003). Offensichtlich sind die Ergebnisse des vorangegangenen Kapitels

auf die letzte „echte“ Ziffer beschränkt. Unter der letzten echten Ziffer sei die Ziffer an der

letzten Stelle in den Zahlen verstanden, an der auch mindestens einmal eine Ziffer ungleich null

auftritt. Sollte an dieser letzten echten Position keine Ergodizität für die Ziffernfolgen gegeben

sein, so können die Ergebnisse aus dem vorangegangenen Kapitel nur durch Erweiterung der

Betrachtung auf die letzten beiden Ziffern genutzt werden. Es ist zu erwarten, dass in diesem

Fall (bei der Betrachtung der letzten beiden echten Ziffern) im Allgemeinen die Ergodizität

und damit die asymptotische Gleichverteilung sichergestellt werden können, allerdings zu dem

Preis einer quadratisch schlechteren Konvergenzgeschwindigkeit (Dlugosz, Müller-Funk, 2009,

Theorem 7).


- 37 -

Dieses heuristische Vorgehen soll nun mit Hilfe der vorgestellten Resultate präzisiert und

gleichzeitig verallgemeinert werden. Dazu ist wiederum zunächst die Ergodizität herzuleiten

und anschließend die Konvergenzgeschwindigkeit zu betrachten.

Zunächst sei noch einmal angemerkt, dass die Betrachtung weiterer „letzter“ Ziffern nur möglich

ist, falls diese auch sinnvoll und nicht-trivial definiert sind 12 ; entweder schon bei den einzelnen

Xi j oder zumindest bei den Xi. Im folgenden gehen wir davon aus, dass die entsprechenden

Ziffern berechnet werden können.

Der erste Satz ist eigentlich eine Trivialität und soll nur der Vollständigkeit halber erwähnt

sein.

Satz 4.4 (Dlugosz, Müller-Funk 2009, Theorem 4)

Unter den Voraussetzungen aus Satz 4.2 bei der Betrachtung der letzten Ziffer über Z, so gilt

auch über Z × Z, also über die letzten beiden Ziffern:

lim

n→∞ P

(︃

d (|Z|)

21

(︃ n∑︁

i=0

Xi

)︃

= z

)︃

= 1

|Z| 2

Damit ergibt sich direkt (da dann jeder Zehnerblock gleich häufig ist):

(4.5)

Korollar 4.5

Unter den Voraussetzungen von Satz 4.4 sind auch die vorletzten Ziffern asymptotisch gleichverteilt.

Die vorletzten Ziffern werden üblicherweise erst dann berücksichtigt, wenn die Voraussetzungen

von Satz 4.3 nicht erfüllt sind; falls also beispielsweise nicht alle möglichen Ziffern erreicht

werden können (z. B. falls Einzelpreise nur auf 0 oder 5 enden, was Irreduzibilität der

Übergangsmatrix impliziert).

Bemerkung 4.6

Falls ein z ∈ Z \0 gibt, so dass P(d |Z|

1 (X) = z) > 0, so tragen alle vorletzten Ziffern eine positive

Wahrscheinlichkeit.

Dazu stellt sich die Frage, welche Formen die reduzible Matrix annehmen kann, ohne dass die

letzte Stelle vollständig gestrichen werden kann, es also ein z ∈ Z \ {0}, so dass P(d (|Z|)

1 (X) =

z) > 0.

Bemerkung 4.7

Sei A die quadratische Übergangsmatrix für die letzten Ziffern bei Addition für |Z| = 10. Weiter

sei I = {i ∈ {0,...9} : vi > 0}.

Falls

• I ⊂ {0,2,4,6,8} oder

• I ⊂ {0,5}

so ist A reduzibel.

Nun lässt sich zeigen, dass auch bei einer auf der letzten Ziffer reduzible Übergangsmatrix für

die vorletzte Ziffer die Gleichverteilung ergibt:

12 Das heißt die Zahlen müssen ausreichend groß sein, damit die k-letzte Ziffer auch in jeder Zahl enthalten ist.


- 38 -

Korollar 4.8 (zu Dlugosz, Müller-Funk 2009, Theorem 5)

Sei A die quadratische Übergangsmatrix für die letzten Ziffern bei Addition. Falls A wie in Bemerkung

4.7 reduzibel ist, es ein z ∈ Z \{0} gibt, so dass P(d (|Z|)

1 (X) = z) > 0 und A aperiodisch

ist, so gilt für die vorletzte Ziffer der Summe ∑︀

i Xi

(︃

P d |Z|

(︁∑︁ )︁ )︂

2

Xi = z = 1

. (4.6)

10

i

In Satz 4.8 wird noch immer die Aperiodizität der Übergangsmatrix gefordert, was insbesondere

auf den letzen Ziffern nicht unbedingt gegeben ist (z. B. wenn es ausschließlich 9er-Preise gibt).

Dieser Fall soll in Satz 4.10 betrachtet werden. Zunächst ist allerdings anzumerken:

Bemerkung 4.9

Wenn es nur 9er-Preise gibt, werden auf der letzen Ziffer in dem rekursiven Prozess der Addition

alle Ziffern durchlaufen (in der Reihenfolge 9, 8, 7 etc.); aber dieselbe Ziffer kann immer erst

wieder nach exakt 10 Schritten erreicht werden. Dies nennt man periodisch mit Periode 10.

Falls neben der 9 auch 5er Schritte möglich sind, ergibt sich eine Periode von 2, denn nach

zwei 5er Schritten ist man wieder bei derselben Endziffer angelangt.

Korollar 4.10 (zu Dlugosz, Müller-Funk 2009, Theorem 6)

Sei A1 die quadratische Übergangsmatrix über die letzte Ziffer und A2 eine entsprechende Matrix

über die letzten beiden Ziffern. Falls A1 periodisch ist mit Periode p ∈ P = {2,5,10} und

falls A2 irreduzibel ist, so gilt:

P (︀ d |Z|

2 (

n∑︁

i=1

Xi) = z )︀ → 1

10

(4.7)

Kombiniert man Korollare 4.8 und 4.10, erhält man dasselbe Resultat auch für weitere vorletzte

Ziffern (Dlugosz, Müller-Funk, 2009). Auch dies sind wieder nur asymptotische Aussagen,

welche um Abschätzungen der Konvergenzgeschwindigkeit ergänzt werden müssen. Allerdings

bleibt festzuhalten, dass die Konvergenzgeschwindigkeit in der Größenordnung von einer Potenz

langsamer ist und somit die Betrachtung der „letzten“ Ziffern gegenüber den „vorletzten“

generell zu bevorzugen ist (vgl. dazu Theoreme 3 und 7 aus Dlugosz, Müller-Funk 2009).


- 39 -

Teil III

Abweichungsanalyse


5 Chi-Quadrat Verteilungstest

- 40 -

In den beiden vorangegangenen Kapiteln wurde dargestellt, in welchen Fällen für die ersten

bzw. letzten Ziffern bestimmte, vorgegebene Verteilungen angenommen werden können. In

diesen beiden Ansätzen zur Ziffernanalyse kann zum Vergleich von erwarteter und im konkreten

Fall beobachteter Verteilung der Ziffern derselbe statistische Test angewendet werden:

der χ 2 -Test.

Jeder mathematische Test besteht in seinem Kern aus einer Teststatistik, welche den Abstand

zwischen Erwartung und Beobachtung quantifiziert. Im Fall des χ 2 -Tests ist es die χ 2 -Statistik.

Es gibt allerdings mehr als eine Art, Distanzen zwischen Verteilungen zu berechnen. Damit

stellt sich automatisch die Frage, welche Art der Distanzmessung das beste (sicherste) Urteil

ermöglicht. Diese Frage lässt sich leider nur für den Fall der letzten Ziffern eindeutig klären

(vgl. Abschnitt 5.1).

Wir haben in Abschnitt 4.2 gesehen, dass die Gleichverteilung der letzten Ziffern nur asymptotisch

gegeben ist. Damit stellt sich die Frage, wie ggf. vorgegangen werden sollte, falls

dieser Fall nicht angenommen werden kann. Es ergibt sich eine relativ leichte Möglichkeit,

die Teststatistik zu korrigieren, welche allerdings zusätzliche Informationen benötigt

(vgl. Abschnitt 5.2).

Seien nun p = (p1,..., pK) die absoluten Häufigkeiten bestimmter Ziffern auf Basis einer Stichprobe,

welche durch unabhängiges Ziehen mit Zurücklegen aus den Ziffern x = (x1,...,xK)

hervorgegangen ist. Unter Annahme der Stabilität der Wahrscheinlichkeiten für die einzelnen

Ziffern erhält man die Realisierungen von unabhängig identisch multinomialverteilten Zufallsvariablen

mit der Wahrscheinlichkeitsfunktion

fp(x) =

N!

∏︀ Kk=1 nk!

K∏︁

k=1

p xk

k . (5.1)

Sei nun die Hypothese einer bestimmten Verteilung p0 für die Ziffern zu prüfen. Die χ 2 Statistik

χ 2 =

K∑︁ (Ek − Ok) 2

=

k=1

Ek

K∑︁

k=1

( N pk

− xk) 2

N

pk

(5.2)

bestimmt dabei die Summe der (normierten) quadratischen Abweichungen der beobachteten

(O) von den erwarteten (E) absoluten Häufigkeiten. Die Normierung ist notwendig, damit sich

(unabhängig von der konkreten Hypothese) die χ 2 -Verteilung als approximative Verteilung von

χ 2 mit K − 1 Freiheitsgraden für N → ∞ ergibt.

5.1 Optimalität der Chi-Quadrat-Teststatistik

Asymptotisch ist der χ 2 -Test unter der Annahme unabhängig identisch verteilter Zufallsvariabler

effizient. Weitere, in der Literatur diskutierte, Teststatistiken sind asymptotisch äquivalent

zur klassischen χ 2 -Teststatistik (Witting, Müller-Funk, 1995).

Bei endlichem Stichprobenumfang ist der χ 2 -Test der Beste, d. h. er besitzt die maximin Eigenschaft

13 für den Fall gleicher Zellwahrscheinlichkeiten (Cohen, Sackrowitz, 1975). Dies ist bei

einer anderen Referenzverteilung, wie beispielsweise Benford’s-Law, nicht gegeben.

13 D. h. er hat den minimalen Fehler zweiter Art unter allen Tests mit gleichem Fehler erster Art.


- 41 -

Für die Bestimmung des p-Wertes des χ 2 -Tests ist die folgende Wahrscheinlichkeit in Bezug

auf die empirisch ermittelte χ 2 x -Statistik zu bestimmen (Cai, Krishnamoorthy, 2006, S. 153):

p(χ 2 x ) = P(X ≥ χ 2 x ) =

N∑︁

N−x1 ∑︁

x1=0 x2=0

···

N− ∑︀ m−2

i=1 xi

∑︁

xK−1

fp(x|H0)1 X≥χ 2 x

(5.3)

Üblicherweise wird dafür die χ 2 -Verteilung mit K − 1 Freiheitsgraden gewählt. Da diese aber

nur asymptotisch für N → ∞ gilt, sollte bei kleinerem N eine andere Technik verwendet werden.

5.2 Bestimmung der Verteilung der Chi-Quadrat Statistik

Der größte Kritikpunkt am χ 2 -Test auf Verteilung ist die Bestimmung des kritischen Bereichs

über diese nur approximativ gültige χ 2 -Verteilung. Approximative Techniken benötigen für

valide Ergebnisse große Datenmengen, welche in diesem Fall nicht immer vorliegen (solange

nur ein einzelnes Jahr betrachtet wird). 14 Daher sollen Alternativen vorgestellt werden, mit

denen auch bei geringer Stichprobengröße exakte Werte ermittelt werden können.

Es existieren zwei grundlegende Ansätze, um die exakte Verteilung der χ 2 -Statistik zu bestimmen:

1. Vollständige Enumeration aller Kombinationen und Addition der zugehörigen Wahrscheinlichkeiten

2. Approximative Berechnung (mit beliebiger, wählbarer Genauigkeit) durch Simulationen

Beim ersten Ansatz wächst die Zahl der aufzusummierenden möglichen Aufteilungen der N

Elemente der Stichprobe auf die K Klassen exponentiell an. GOOD U. A. haben für eine Stichprobengröße

von N < 50 rund 10 √ N+2−2 mögliche Partitionen von N bestimmt (Good u. a.,

1970). Bei genauerer Betrachtung verringert sich diese Zahl jedoch, insbesondere da unter der

Nullhypothese für alle Klassen die Wahrscheinlichkeit 1/K gilt. Sie kann nun mit folgender

Formel, welche auf Euler zurückgeht, bestimmt werden (Berry u. a., 2004):

p(n) ≈ 1

4n √ 3 exp

[︃

π

√︂ 2n

3

]︃

(5.4)

Dennoch gibt es für den erwarteten Wert von n ≈ 300 nach dieser Gleichung etwa 9,5 Milliarden

Möglichkeiten, deren exakter Berechnung leider mit aktueller Hardware zu langwierig

wäre. Daher sollte auf Verfahren zur Approximation der exakten Wahrscheinlichkeiten zurückgegriffen

werden.

Monte-Carlo Test

Eine gut Alternative zur exakten Berechnung bietet ein Monte-Carlo Test, welcher auf der Simulation

von Zufallszahlen basiert (Hope, 1968). Bevor dieses Verfahren im Zusammenhang mit

14 Der einfachste Ansatz, um insbesondere das Problem der zu frühen Ablehnung bei geringer Klassenbelegung

der Nullhypothese zu korrigieren, ist die so genannte Yates-Korrektur (Yates, 1934):

χ 2 =

K∑︁

k=1

(|Ek − Ok| − 1 2 )2

Ek

=

K∑︁

k=1

(| N p k − xk| − 1 2 )2

N

p k


- 42 -

dem χ 2 -Test auf Verteilungshomogenität dargestellt wird, sei das Verfahren des Monte-Carlo

Tests kurz vorgestellt.

Gegeben sei ein Testproblem mit Hypothese H und Teststatistik T . Weiter sei eine Stichprobe

vom Umfang n gegeben und die Teststatistik nehme für diese den Wert t an.

Nun werden bei einem zu prüfenden Datensatz vom Umfang n insgesamt k Stichproben mit je n

Datenpunkten unter Beachtung der Nullhypothese simuliert. Für jede dieser k Stichproben wird

die Teststatistik (ti) bestimmt und die Anzahl (A) derjenigen Stichproben mit ti ≥ t bestimmt.

Das Signifikanzniveau, d. h. der p-value ergibt sich dann aus

p =

1 + A

k + 1

Mit der Anzahl der simulierten Stichproben steigt monoton auch die Güte des Tests (Hope,

1968). Offensichtlich ist diese Technik nicht auf die χ 2 -Statistik beschränkt sondern kann auch

zusammen mit anderen Teststatistiken angewandt werden.

Vorteil dieser Technik ist die gute Eignung für geringe Stichprobenumfänge, bei denen eine

Approximation der Verteilung der Teststatistik durch die χ 2 -Statistik nicht geeignet ist. Auf der

anderen Seite hält sich aber im Gegensatz zu den exakten Methoden der Rechenaufwand in

Grenzen, so dass auch relativ große Stichprobenumfänge geprüft werden können.

Korrektur der Chi-Quadrat-Teststatistik bei geringem Stichprobenumfang

In Abschnitt 4.2 haben wir gesehen, dass die Gleichverteilung auf der letzten Ziffer nur asymptotisch

erreicht werden kann. Damit ist die χ 2 -Statistik für ein gegebenes n (Anzahl Transaktionen

pro Tag) gegebenenfalls verzerrt. Den Einfluss der Konvergenz auf die χ 2 -Statistik kann

folgendermaßen abgeschätzt werden:

Satz 5.1 (Beweis siehe Anhang A)

Sei n die minimal zu erwartende Anzahl der Übergänge und λ∗ beschreibe den zweitgrößten

Eigenwert der Übergangsmatrix bei Addition der letzten Ziffern. Dann gilt:

|Z| ∑︁

z

(︂

p n (z) − 1

)︂ 2 |Z|−1 ∑︁


|Z|

m=1

(λ∗) 2n

und sei X1,...,Xℓ eine unabhängig identisch verteilte Stichprobe mit den empirischen Häufigkeiten

˜p, dann gilt:

χ 2 ≥ |Z| ∑︁

(︂

˜p(z) − 1

)︂ 2

− (|Z| − 1)(λ∗)

|Z|

2n

z

Sollten zusätzlich zu der Preisliste auch Information über die relativen Verkaufshäufigkeiten der

Produkte (bspw. aus Warengruppenberichten oder plausiblen Annahmen über Branchenkenntnisse)

verfügbar sein, kann der Wert der χ 2 -Statistik korrigiert werden.

Mit dem Resultat aus Satz 5.1 ergibt sich allerdings auch ein Hinweis auf eine mögliche Korrektur

der χ 2 -Statistik:

∆χ 2 = 10 ∑︁

z

(︂

p n (z) − 1

)︂ 2

=

10

9∑︁

m=1

|λm| 2n

mit λm m-ter Eigenwert der Übergangsmatrix. Dieser lässt sich mit Hilfe zusätzlicher Informa-


- 43 -

tionen aus bspw. einem Warengruppenbericht oder Übertragungen der relativen Verkaufshäufigkeiten

für alle Produkte aus vergleichbaren Unternehmen erzielen (vgl. Abschnitt 7.1).

Als Korrektur ergibt sich damit:

χ 2 wahr

(︂

≥ 10∑︁

z

ˆp(z) − 1

)︂ 2

− ∆χ

10

2 = χ 2 korr

Dieser Umstand lässt sich folgendermaßen veranschaulichen:

χ 2 wahr

χ 2 b

gleiche WS erwartbare WS gemessene WS

∆χ 2

✛ ✲ χ2 ✛ ✲

r

χ2 ✛ ✲

b

die wahre Abweichung von der Erwartung

die berechnete Abweichung

∆χ 2 die notwendige Korrektur (abhängig von n)


(5.5)

Abb. 5.1: Korrektur der χ 2 -Statistik

Offensichtlich gilt für n → ∞: ∆χ 2 → 0. Auch für die vorletzte Ziffer lässt sich (analog) eine

Korrektur herleiten (Dlugosz, Müller-Funk, 2009, Theorem 7).

Sollten die für die Korrektur notwendigen Informationen nicht vorliegen, kann immer noch bei

„gleichmäßiger“ Verteilung der Entziffern der Preise der häufigsten Produkte eine ausreichend

schnelle Konvergenz unterstellt werden.

Unabhängigkeit und Gleichheit der Verteilungen

Wesentliche Voraussetzungen für die Anwendung des χ 2 -Test sind sowohl die Gleichartigkeit

der Ziffernverteilungen über die Tage als auch die Unabhängigkeit zwischen Tagen.

Diese Voraussetzungen sind für die letzten Ziffern (bei ausreichend vielen Transaktionen pro

Tag) — die Sätze, bzw. Argumentationen aus Kapitel 4 zeigen dies — erfüllt.

Die ersten Ziffern indes, zeigen sowohl starke Abhängigkeitsstrukturen als auch variierende

Verteilungen, beispielsweise aufgrund wochentagsbedingter Schwankungen der Umsätze. Ein

erster Ansatz zur Lösung dieses Problems wurde zwar diskutiert aber nicht zufriedenstellend

gelöst (Trede u. a., 2009). Die Anwendung des χ 2 -Tests im Rahmen einer Ziffernanalyse auf

den ersten Ziffern ist daher — neben dem Problem der Rechtfertigung der Vergleichsverteilung

(siehe Kapitel 3) — auch aus diesem Grund fragwürdig.


- 44 -

6 Tests auf Unabhängigkeit der letzten Ziffern

Aus der Betrachtung der psychologischen Literatur zur Fähigkeit des Menschen zufällige Zahlenfolgen

zu generieren (vgl. Abschnitt 2.2) wird ersichtlich, dass manuell erzeugte Zahlenfolgen

nicht unabhängig voneinander sind, d. h. aus den bereits aufgezeichneten Zahlen lässt

sich eine Prognose für die Auftretenswahrscheinlichkeit der nächsten Ziffer bestimmen, welche

nicht der gemeinsamen Verteilung entspricht. Mathematisch formuliert gilt also:

E(Xn+1|X1,...Xn) = E(Xn+1) (6.1)

Um diesen Effekt für die Betrugserkennung nutzbar zu machen, müssen natürlich erzeugte Zufallsfolgen

eine andere Abhängigkeitsstruktur aufweisen als durch Menschen erzeugte. Idealerweise

sind die natürlichen Zufallsfolgen unabhängig. 15

Daher wird im folgenden Abschnitt die Unabhängigkeit der betrachteten Zufallsfolge der letzten

ganzen Ziffern begründet um im zweiten Teil verschiedene Testansätze zu vergleichen. 16

6.1 Stochastische Unabhängigkeit der letzten Ziffer von Zufallsvariablen

Offensichtlich ist die Folge der Tagesumsätze im Jahresverlauf nicht unabhängig. Allein durch

Wochenenden und jahreszeitliche Schwankungen ergeben sich variierende Erwartungen in Abhängigkeit

von den vorangegangenen Umsätzen. Die geforderte stochastische Unabhängigkeit

der letzten ganzen Ziffern lässt sich somit nicht aus der Unabhängigkeit der Tagesumsätze folgern,

sondern muss sogar von dieser Abhängigkeitsstruktur losgelöst sein.

Dazu seien die Tagesumsätze Xn aufgefasst als stochastische Summen von Bn stochastisch unabhängigen

Einzelbestellungen Xn1,...,XnBn . Die Bn sind dabei (nicht notwendig unabhängige)

Zufallsvariablen mit beliebiger Verteilung über den natürlichen Zahlen:

Bn ∑︁

Xn = Xni

i=1

(6.2)

Diese Modellierung erfordert lediglich stochastisch unabhängige Bestellungen von Personen,

welche das Geschäft betreten Xni, nicht aber die Unabhängigkeit der Anzahl dieser Personen.

Damit wird die Abhängigkeitsstruktur der Tagesumsätze im Jahresverlauf auf die Anzahl

der Kunden reduziert. Die einzelnen Bestellungen jedoch sind durchaus stochastisch unabhängig.

17

Betrachtet man nun die letzte ganze Euro Ziffer der Tagesumsätze, so ist klar, dass ihre Verteilung

zum einen durch die Verteilung der letzten ganzen Ziffern der stochastisch unabhängigen

(insbesondere über Tage hinweg) Einzelbestellungen und der konkreten Ausprägung Bn abhängt.

Da aber (wie im vorherigen Kapitel gezeigt), der Einfluss von Bn ab einer bestimmten

Größe vernachlässigt werden kann, darf man annehmen, dass die Folge der letzten Ziffern der

Tagesumsätze stochastisch unabhängig ist. 18

15 Tests auf Unabhängigkeit sind leichter realisierbar als Tests auf bestimmte Abhängigkeitsstrukturen.

16

TREDE U. A. (2009) deuten Ansätze zur Überprüfung stochastisch abhängiger Beobachtungen in diesem

Zusammenhang an.

17 Man könnte argumentieren, dass die Positionen einer Bestellung nicht unabhängig voneinander sind (z. B.

„Currywurst mit Pommes“). Dies ist zwar korrekt, aber für die hier verfolgte Argumentation irrelevant, solange

Kunden unabhängig voneinander bestellen.

18 Eine gegebenenfalls vorhandene Abhängigkeitsstruktur verliert sich mit wachsendem Bn.


- 45 -

6.2 Tests zur Prüfung der stochastischen Unabhängigkeit

Neben der klassischen statistischen Literatur zum Testen der Unabhängigkeit von Zufallsvariablen

(Agresti, 1992; Freeman, Halton, 1951) finden sich auch Ansätze bei der Überprüfung zu

Zufallsgeneratoren (Knuth, 1998; Marsaglia, Tsang, 2002).

Viele der in der Literatur vorgeschlagenen Tests auf Zufälligkeit haben das Ziel, Gleichverteilung

und Unabhängigkeit gleichzeitig zu prüfen. Dies ist insbesondere bei der Überprüfung

von Zufallsgeneratoren der Fall. Für die Ziffernanalyse, bei der — ggf. in Form von Benford’s-

Law — eine nicht gleichverteilte Stichprobe unterstellt werden muss, wird daher neben dem

bereits in Kapitel 5 behandelte χ 2 -Verteilungstest ein Test auf Unabhängigkeit benötigt.

Weiterhin muss festgelegt werden, bei welchen Ziffernfolgen die Unabhängigkeit geprüft werden

soll. Zwei Ansätze bieten sich hier an: Zunächst kann man die (vor-)letzten Ziffern verschiedener

Zahlen auf Unabhängigkeit testen (vertikaler Test). Dieser Ansatz würde unterstellen,

dass der manipulierte Datensatz in Listenform entstanden ist. In diesem Fall wäre zu erwarten,

dass die (subjektive) Zufälligkeit der (vor-)letzten Ziffern, welche direkt untereinander stehen,

vom Manipulator gesichert werden sollte. Alternativ kann man auch zwei nebeneinander stehende

Ziffern innerhalb einer Zahl betrachten und deren Unabhängigkeit prüfen (horizontaler

Test). Beide Varianten wurden in der Software umgesetzt.

Generelle Ansätze für Tests auf Unabhängigkeit in Zufallszahlenfolgen mit beliebiger

Randverteilung

Auch hier gibt es mit dem χ 2 -Unabhängigkeitstest einen weit verbreiteten Test mit approximativer

χ 2 -Verteilung der Teststatistik (Agresti, 1990), welcher ebenfalls auf der in Gleichung (5.2)

beschriebenen Idee basiert. Hier werden nun für die erwarteten und die beobachteten Häufigkeiten

jeweils zweidimensionale Kontingenztafeln erstellt, welche die Häufigkeiten benachbarter

Ziffernkombinationen in der Zahlenreihe beschreiben. 19 Im Zehnersystem ergeben sich damit

100 mögliche Kombinationen von benachbarten Letzte-Ziffer Pärchen.

Unter der Unabhängigkeitsannahme müsste sich die relative Häufigkeit jeder einzelnen Kombination

multiplikativ aus den Randverteilungen ergeben:

P (︀ Ziffernpärchen = (a,b) )︀ = P(1. Ziffer = a) · P(2. Ziffer = b)

Damit wären im Falle der Gleichverteilung auf der letzten Ziffer auch die Kombinationen

gleichverteilt. Im Fall von Benford’s-Law hingegen wäre die 1-1 Kombination weitaus häufiger

zu erwarten als die 9-9 Kombination.

Da die χ 2 -Verteilung der Teststatistik erst für große Beobachtungsmengen n ≫ k erreicht wird

und die Kontingenztafeln k = 100 Zellen enthalten, kann die Anwendung dieser Approximation

zu großen Verzerrungen führen (vgl. auch Abschnitt 5.2).

Beim Test auf Unabhängigkeit tritt dieses Problem verstärkt auf, da sich die Beobachtungen

nun nicht mehr auf 10 Kategorien sondern auf 100 verteilen. Damit entfallen von den maximal

365 Beobachtungen eines Jahres im Schnitt weniger als vier Beobachtungen auf eine bestimmte

Kategorie. In Lehrbüchern werden üblicherweise mindestens 5 bis 10 Beobachtungen pro

Kategorie gefordert.

FISHER schlug auch hier einen exakten Test vor (Fisher, 1970): Es kann gezeigt werden, dass

unabhängig von Erhebungsschema (Poisson, multinomial oder unabhängig multinomial) die

19 Es sei zu beachten, dass nicht zwei benachbarte Ziffern innerhalb einer Zahl, sondern die entsprechenden

Ziffern benachbarter Zahlen betrachtet werden.


- 46 -

Verteilung über den möglichen 2 × 2 Kontingenztafeln bedingt an ihren Randverteilungen hypergeometrisch

ist (Agresti, 1992, S. 60 ):

)︀

(︀ )︀(︀ n1· n2·

n11 n·1−n11 (︀ n )︀

n·1

Man erkennt leicht, dass diese Statistik bei festen Randverteilungen nur vom Eintrag in der

ersten Zelle n11 abhängt. Für den p-value des Unabhängigkeitstest müssen nun alle hypergeometrischen

Wahrscheinlichkeiten für Ergebnisse, die mindestens genauso für die Abhängigkeit

sprechen wie die empirisch gegebene Tafel, aufsummiert werden.

Wird dieser (diskrete) Test durch Randomisierung verstetigt, ist er der gleichmäßig beste unverzerrte

Test (Tocher, 1950).

Für größere Tafeln, allgemein der Größe I ×J ergibt sich die Statistik (Agresti, 1992, S. 63):

( ∏︀

i ni·!)

(︁ ∏︀

j n·

)︁

j!

n! ∏︀ ∏︀

i j ni

(6.3)

j!

Der p-value ist analog zum 2 × 2 Fall zu bestimmen.

Die Zahl der möglichen, verschiedenen Kontingenztafeln mit festen Randhäufigkeiten steigt

neben der Zahl der Elemente auch mit der Zahl der Dimensionen der Zeilen und Spalten der

Tabelle. Daher werden die Berechnungen mit steigendem n und auch mit steigenden I und J

exponentiell aufwändiger. Dies kann schon bei recht kleinen Werten zu einem nicht vertretbaren

Rechenaufwand führen. Um diesen so gering wie möglich zu halten, wurden eine Reihe

Algorithmen entwickelt, um die Wahrscheinlichkeiten der Tafeln möglichst effizient bestimmen

zu können (Mehta, Patel, 1983, 1986; Clarkson u. a., 1993). Auch kann kann auf die MC-

Simulation zurückgegriffen werden.

Alternative Hypothesen für kleine Stichproben

Häufig reicht die Datenmenge (trotz der exakten Berechnung der Ablehnungswahrscheinlichkeiten)

nicht aus, die vorgestellten Tests in ihrer Reinform zu verwenden. 20 Alternativ können

auch folgende, abgeleitete Hypothesen getestet werden:

• Blöcke zweier aufeinander folgender Ziffern, d. h. 0-1, 2-3, 4-5, 6-7, 8-9

Menschen könnten beim Erzeugen von Zufallszahlenfolgen geneigt sein, bei aufeinander

folgenden Zahlen Ziffern gleicher Höhe zu vermeiden. In diesem Fall werden nicht alle

Ziffern einbezogen, sondern Ziffern zusammengefasst. Damit ergeben sich lediglich 5

mögliche Gruppen und somit eine Kontingenztafel mit nur 25 Feldern. Umsetzung in der

Software als 2block.

• Große (5–9) und kleine (0–4) Ziffern

Bei nur zwei Gruppen fällt die Anzahl der Zellen in der Kontingenztafel auf nur noch 4,

was sogar weniger sind, als beim Test auf Gleichverteilung, wo ja 10 Zellen zur Verfügung

stehen. Umsetzung in der Software als lowhigh.

• Gerade und ungerade Ziffern

20 Exakten Tests ermöglicht zwar, den p-value unverzerrt zu bestimmen, aber sie erhöhen nicht den Informationsgehalt

der Daten. Daher können die Tests häufig die Nullhypothese nicht fundiert ablehnen, was in der

Anwendung bei der Betrugserkennung in zu niedrige Erkennungsraten resultiert.


- 47 -

Menschen können auch geneigt sein, gerade und ungerade Zahlen zu mischen und somit

hier unwillkürlich Strukturen einzubauen. Umsetzung in der Software als even.

• Differenzen (nach Rath, 1966)

RATH hatte gezeigt, dass Menschen bei geordneten Möglichkeiten (unbewusst) auf die Abstände

benachbarter Ziffern achten und damit eine Abhängigkeitsstruktur erzeugen. Umsetzung

in der Software als differences.

Der Erfolg dieser Einschränkungen auf Zifferngruppen ist von der Wahrnehmung der Menschen

bzw. ihrem Verhalten beim Erzeugen von Zufallszahlenfolgen abhängig. Unter ungünstigen

Umständen könnten die in der vollen Folge vorhandenen Abhängigkeiten durch die Gruppenbildung

verloren gehen und somit die Aufdeckung von Strukturen und damit Unregelmäßigkeiten

in den Daten verhindert werden.

Leider scheint es bislang keine Untersuchungen des menschlichen Verhaltens im Allgemeinen

zu geben, so dass (weder auf Basis theoretischer Überlegungen noch mit bereits bekannten empirischen

Zusammenhängen) eine Empfehlung für einen der alternativen Tests gegeben werden

kann. Weitere Gruppierungen von Ziffern sind ebenfalls denkbar, beispielsweise auf Basis des

optischen Erscheinungsbilds (0/8, 6/9, 1/7 etc.).

Im Rahmen der empirischen Untersuchungen werden Anhaltspunkte für die Eignung dieser

(vereinfachten) Unabhängigkeitstests bei der Anwendung in der Ziffernanalyse gegeben

(vgl. Kapitel 8).


- 48 -

Teil IV

Empirie


- 49 -

7 Praktischer Einsatz der Ziffernprüfung bei der Finanzverwaltung

Für den Einsatz der hier vorgestellten Tests auf Gleichverteilung bzw. Unabhängigkeit der letzten

Ziffern bestimmter Daten in der Prüfungspraxis sind zwei Dinge erforderlich: geeignete

Daten (vgl. 7.1) und praktikable Software (vgl. Abschnitt 7.3). Weiterhin sollten die Resultate

des Tests auf Gleichverteilung und eines Tests auf Unabhängigkeit kombiniert werden, so dass

eine gemeinsame Kennzahl als Entscheidungsgrundlage dienen kann (vgl. Abschnitt 7.2).

7.1 Datengrundlage

Die Anforderungen an die Daten wurden ja bereits im Zusammenhang mit den statistischen

Testmethoden in den vorangegangenen Kapiteln dargestellt. An dieser Stelle soll nun einmal

auf die Verfügbarkeit bzw. Schätzbarkeit der notwendigen Daten eingegangen werden. Neben

den essentiellen Tagesendsalden und den Produktpreislisten, welche beide relativ leicht verfügbar

sind und u. U. bereits eine ausreichende Datengrundlage bilden, kann diese um Information

aus Warengruppenberichten ergänzt werden. Dies stellt einen gewissen Mehraufwand dar, welcher

nur unter bestimmten Voraussetzungen gerechtfertigt ist, so bspw. falls eine geringe Zahl

Einzeltransaktionen zu vermuten ist oder eine extreme Ungleichverteilung der Endziffernhäufigkeiten

in der Einzeltransaktionsliste. Beide Umstände könnten nahelegen, dass die Tagesendsalden

(noch) nicht gleichverteilt sind, da entweder das rekursive Schema zu kurz ist oder zu

langsam konvergiert. In diesen Fällen sollten diese Zusatzinformation besorgt werden. Leider

sind sie nicht in jedem Fall verfügbar, weshalb im folgenden Methoden zu deren Schätzung

vorgestellt werden.

Schätzung zusätzlicher Informationen

Die (zu analysierende) Folge der Tageseinnahmen ist (durch Meldung des Steuerpflichtigen)

bekannt. Mit einer Speisekarte können zudem die möglichen Endziffern und Übergänge festgelegt

werden. Dagegen ist die Bestimmung der Übergangswahrscheinlichkeiten kaum möglich,

da zumeist keine vollständige Auflistung der verkauften Produkt(-mengen) bzw. der Einzelpreise

(z. B. in Form von Kassenzetteln) zur Verfügung stehen.

Bei einigen Betrieben können mit Hilfe einzelner Warengruppenauflistungen die fehlenden Informationen

geschätzt werden. Für zukünftige Prüfungen dürfte es interessant sein, diese Warengruppenauflistungen

branchenspezifisch zu sammeln, um auch bei den Betrieben, die keine

Warengruppenauflistungen zur Verfügung stellen, ein Schätzung durchführen zu können.

Sollten absolut keine Werte mit Hilfe der beiden obigen Ansätze gewonnen werden können,

kann auf folgende, heuristische Schätzmethode zurückgegriffen werden.

Für jeden Tag j lassen sich problemlos Grenzen für die Anzahl der Einzelpositionen Nj (und

damit die Länge des rekursiven Schemas) aus dem Tagesumsatz S j abschätzen:

S j

maxi Xi

≤ Nj ≤ S j

mini Xi

(7.1)

Die Schätzung der benötigten Anzahl von Einzelpositionen (Anzahl von Transaktionen pro

Tag) bei der gerechtfertigterweise die Gleichverteilung der letzten Ziffern angenommen werden

kann, ist jedoch schwierig. Denn diese hängt direkt von den Übergangswahrscheinlichkeiten

des rekursiven Schemas, also den Häufigkeiten der einzelnen Endziffern, ab (Dlugosz,

Müller-Funk, 2009, Theorem 7).

Eine Möglichkeit dazu ist, die Produkte nach den Endziffern ihres jeweiligen Preises zu klassifizieren

und anschließend die Verhältnisse der Klassen untereinander abzuschätzen. Beispielsweise

könnte man dazu das Verhältnis der Waren in der Endziffergruppe k Wk zu der Gesamtzahl


- 50 -

der Waren auf dem Speisezettel W setzen. Dies entspräche einer Gleichverteilung bei den Verkäufen

der einzelnen Waren.

Da dies üblicherweise nicht der Fall ist, könnte man auch ein gewichtetes Mittel nutzen, indem

man die Waren nach der Häufigkeit ihres Verkaufs sortiert und in drei Kategorien A, B und C

derart einteilt, dass in jeder Gruppe ein Drittel aller Verkäufe stehen (aber nicht ein Drittel der

Produkte). Dann ließen sich die entsprechenden Wahrscheinlichkeiten über

pk = 1

3

(︂ Ak

A

+ Bk

B

+ Ck

C

)︂

(7.2)

bestimmten. Dabei beschreiben Ak, Bk, Ck jeweils die Anzahl der Produkte mit der Endziffer k in

der entsprechenden Kategorie. A < B < C beschreibe die Anzahl der Produkte in der jeweiligen

Kategorie insgesamt.

Diese Einteilung ist natürlich stark subjektiv und sicherlich nicht trivial. Um den Einfluss, den

diese Subjektivität bedingt, abschätzen zu können, sollten Sensitivitätsanalysen durchgeführt

werden.

7.2 Ein kombinierter Test auf Gleichverteilung und Zufälligkeit

Von rein zufällig entstandenen Daten (letzte Ziffern) können im Gegensatz zu manuell generierten

Daten zwei mathematisch erfassbare Phänomene erwartet werden:

• Die Daten sind stochastisch unabhängig.

• Die Daten sind (unter bestimmten Voraussetzungen) multinomialverteilt über 0 bis 10 mit

gleichen Klassenwahrscheinlichkeiten.

Da beide Bedingungen erfüllt sein müssen, um von natürlichen Daten ausgehen zu können,

wird folgende Hypothese aufgestellt: Sei mit (X1,X2,...,Xn) eine Stichprobe aus der Multinomialverteilung

∏︀ n i=1 M(θ) über dem Grundraum {0,...,9} gegeben. Die Matrix A ∈ R 100

beschreibe die Matrix der Ziffernkombinationen mit den Einträgen ai j. Seien ai. und a. j die

jeweiligen Randverteilungen von A.

H : ∀i : θi = 1

10 ∧ ∀i∀ jai j = ai.a. j

K : ∃i : θi = 1

10 ∨ ∃ (i, j),i, j∈0,...,9 : ai j = ai.a. j

Hier handelt es sich bei der Stichprobe (Xi)i um die Folge der letzten ganzen Euro Ziffern,

welche im Rahmen der Buchführung als Tageseinnahmen aufgezeichnet wurden.

Diese Kombination kann mit Hilfe eines Tests auf Unabhängigkeit mit fixierten Marginalverteilungen

durchgeführt werden (im folgenden verkürzt als „kombinierte Hypothese“ bezeichnet

21 ). Durch die t. w. allerdings nur unzureichende Füllung der Zellen ist zu erwarten, dass

dieser Test nur eine geringe Kraft aufweisen würde. Um die gute Diskriminationsfähigkeit des

Verteilungstests mit seinen gut gefüllten Zellen zu erhalten und den Test auf Unabhängigkeit als

zusätzliches Indiz einfließen zu lassen, wird die Hypothese in zwei unabhängige Teilhypothesen

zerlegt:

21 Bei einem gleichzeitigen Test ist für beiden Teilhypothesen derselbe Grundraum anzuwenden, d. h. falls (wie

in Abschnitt 6.2 vorgeschlagen) ein verkleinerter Ereignisraum für den integrierten Unabhängigkeitstest definiert

wird, so gilt dieser auch für den impliziten Verteilungstest. Dies kann zu einer schlechteren Erkennungsraten

führen.


- 51 -

1. Test auf gleiche Klassenwahrscheinlichkeiten (vgl. Kapitel 5):

2. Test auf Unabhängigkeit (vgl. Kapitel 6):

H (2) : ∀i∈0,...,9θi = 1

10

K (2) : ∃iθi = 1

10

H (1) : ai j = a. j∀ j ∈ 0,...,9

K (1) : ∃ jai j = a. j

Nach getrennter Durchführung der Tests müssen die p-values für eine eindeutige Entscheidung

zusammengefügt werden. Dazu ist ein Verfahren zur Kombination der p-values von unabhängigen

Tests erforderlich. In der Literatur finden sich zwei klassische Ansätze: Der Ansatz von

FISHER (Fisher, 1970) und der von TIPPETT (Tippet, 1931). WESTBERG hat beide Verfahren

hinsichtlich ihrer Power untersucht und ein adaptives Verfahren vorgeschlagen, welches die

Vorteile beider Ansätze verbindet (Westberg, 1985). Dieser Ansatz wird hier verwendet.

Dieses Verfahren basiert darauf, die Wahrscheinlichkeit eines fälschlichen Ablehnens der Nullhypothese

so gering wie möglich zu halten. Dazu wird eine Reihe von (gleichzeitig zu erfüllenden)

Nullhypothesen H (1) ,...,H (h) gebildet und diese einzeln geprüft. Die erhaltenen p-values

werden absteigend sortiert, so dass man eine Folge von h p-values mit p [1] ≤ p [2] ≤ ... ≤ p [h]

erhält. Es wird eine Folge von h Werten 1 > a1 > a1 > ... > ah > 0 gewählt. Für diese wird

vorgeschlagen, sie nach der Formel

ai = a1

(︁

1 −

i − 1

)︁

h

zu bestimmen, wobei der Startwert a1 als Lösung der Gleichung

a h 1 = a1(1

(︁

− a1) 1 − a1

h

)︁ h−2

zu wählen ist.

Anschließend wird der Wert m so bestimmt, dass ph−m+1 < ah−m+1 und damit die Statistik

Z =

{︃ ∏︀hi=h−m+1

p [i]

ah−m+1

m > 0

1 m = 0

bestimmt. Der kritische Bereich des Gesamttests ergibt ist dann aus −2ln(|Z|) > χ2 2m,α/a1 .

Im hier vorliegenden Fall h = 2 ergibt sich also mit a1 = 0,5 für den p-value die Funktion:


⎪⎨ 1

p = a1(χ

⎪⎩

max{p1, p2} ≥ 0,5

2 1 )−1(︀ − 2log(4min{p1, p2}) )︀ a1(χ

max{p1, p2} < 0,5 ∧ min{p1, p2} ≥ 0,25

2 2 )−1(︀ − 2log(4p1p2) )︀

min{p1, p2} < 0,25

(7.3)

Diese Vorgehen wird im Weiteren als „kombinierte Tests“ bezeichnet. Im Gegensatz zur „kombinierten

Hypothese“ sind hierbei auch unterschiedliche Aggregationslevel bei den Ausprägungen

der letzten Ziffern in den beiden getrennten Teiltests möglich.


- 52 -

Bei der Wahl der Ziffern kann zwischem horizontaler und vertikaler Auswahl unterschieden

werden. Bei der vertikalen Auswahl wird nur eine Ziffernposition betrachtet und für die Tests

auf Unabhängigkeit über Zahlen benachbarter Tage hinweg geprüft. Beim horizontalen Test

hingegen werden zwei benachbarte Ziffernpositionen genutzt, um sowohl Gleichverteilung auf

beiden Ziffernpositionen sowie deren Unabhängigkeit zu testen.

7.3 Technische Umsetzung für die Anwendung in der Außenprüfung

Eine softwaretechnische Unterstützung der vorgestellten Verfahren sollte mit der bereits in der

Außenprüfung verfügbaren Softwareinfrastruktur realisierbar sein. Als Software-Basis dient

Microsoft Excel, welches auch schon im Rahmen von Benford’s-Law erfolgreich eingesetzt

wurde (Rose, Rose, 2003). Alternative Tabellenkalkulationsprogramme, welche ebenfalls durch

frei programmierbare Makrofunktionen ergänzbar sind, können diese Aufgaben gleichwertig

durchführen.

Auf den mobilen Rechnern der Außenprüfer ist standardmäßig ein Microsoft Windows Betriebssystem

und eine Version des Tabellenkalulationsprogramms Microsoft Excel verfügbar.

Für dieses wurden in der Vergangenheit bereits verschiedene spezielle Makros erstellt, weshalb

eine längerfristige Bindung an das Produkt zu erwarten ist.

Eine Vorlage für das Tabellenkalkulationsprogramm ist speziell für die Prüfung von Tagesendsalden

auf Basis des χ 2 -Tests auf Gleichverteilung der letzten Euro Ziffer vorhanden und sollte

daher lediglich um die zusätzlich zu behandelnden Aspekte erweitert werden.

Damit sind bei der Realisierung der Software folgende Punkte zu beachten:

• Integration in die existierenden Makros und Vorlagen sollte möglich sein.

• Rechenzeit sollte nicht merklich über der derzeitigen liegen.

Um diese zu erfüllen, wird die Verwendung von VisualBasic for Applications auf Basis von Microsoft

Excel so weit als möglich genutzt. Visual Basic Script wurde von Microsoft in das Tabellenkalkulationsprogramm

Excel integriert und ermöglicht es dem Benutzer fehlende Funktionalität

zu ergänzen.

Da es sich allerdings um eine interpretierte Programmiersprache handelt, können keine größeren

Berechnungen mit vertretbarem Aufwand realisiert werden. Auch fehlen Funktionen um eine

Monte-Carlo Simulation in akzeptabler Zeit durchführen zu können. Daher wird zusätzlich die

Statistiksoftware R benötigt.

R und RExcel

Die Programmiersprache R ist eine quell-offene Software unter der GNU (General Public License)

Lizenz. Dies bedeutet, dass die Software frei verwendet werden darf, d. h. kostenlos für

jegliche Verwendung (auch kommerziell) zur Verfügung steht. Sie wurde als freie Implementierung

der Programmiersprache und -umgebung S für die statistische Datenanalyse und Erstellung

von Grafiken realisiert. Die Programmiersprache S ihrerseits wurde in den Bell Laboratories bei

AT&T entwickelt (Becker, 1984; Becker u. a., 1988; Chambers, Hastie, 1991; Chambers, 1998)

und ist seit 1988 auch als kommerzielle Software „S-PLUS“ (Insightful Corporation, 2007)

verfügbar.

R wurde ursprünglich allein für Lehrzwecke entwickelt (Ihaka, Gentleman, 1996), aber auch

die starke Beteiligung der Väter von S demonstriert, dass R inzwischen weit über die reine Vermittlung

von Statistikwissen hinaus angewendet wird (Hornik, Leisch, 2002). Für die weitere


- 53 -

Entwicklung von R ist der Verein „R Foundation for Statistical Computing“ 22 verantwortlich,

welcher sich der Unterstützung des „R Project for Statistical Computing“ 23 verschrieben hat.

Die Vor- und Nachteile von R sind in LIGGES aufgeführt. Die Wichtigsten (insbesondere mit

Bezug auf dieses Projekt) seien hier nochmals zusammengefasst (Ligges, 2005): Als quelloffene

Software ist es jederzeit (teilweise sogar direkt von R aus) möglich, auf die Implementierungen

der Funktionen in R zuzugreifen, so dass die Rechenwege jedem zugänglich und

nachprüfbar sind. Damit verbunden ist auch eine äußerst geringe Fehlerrate in den bereits vorgefertigten

Programmpaketen. Nachteilig ist die Konzeption als interpretierte Sprache, was in

teilweise recht lange Laufzeiten von R-Programmen resultiert.

Häufig wird es als nachteilig empfunden, dass R keine eigene komfortable grafische Oberfläche

zu bieten hat. Auf der anderen Seite hat dieser Umstand dazu geführt, dass es eine Reihe

verschiedener Schnittstellen von R zu anderen Programmen mit besseren Benutzeroberflächen

entwickelt wurden. Eine solche Schnittstelle wurde unter dem Namen „R-(D)COM“ an der Universität

Wien entwickelt und in der Form eines Satzes von Makros in VisualBasic for Applications

für Microsoft Excel angewandt (Baier, Neuwirth, 2007). Diese Schnittstelle darf entgeltfrei

von jedermann genutzt werden. 24

R und RExcel als Basis für die Softwarerealisierung

Da neben der Schnittstelle zu Microsoft Excel ebenfalls eine Schnittstelle zum Tabellenkalkulationsprogramm

Calc aus der quell-offenen und frei verwendbaren Bürosoftware OpenOffice

verfügbar ist, kann davon ausgegangen werden, dass eine Einbindung von R-Skripten mittelfristig

für die Finanzbehörden sichergestellt werden kann. Weiterhin existieren sowohl R als

auch „RExcel“ seit einigen Jahren und für beide Projekte ist eine Einstellung der Entwicklung

derzeitig unwahrscheinlich. Ein dauerhafter Einsatz ist somit möglich.

Technische Realisierung

Die technische Realisierung besteht nun also aus zwei Teilkomponenten. Aufwändigere Berechnungen

sind in der Sprache R realisiert 25 , da insbesondere die Monte Carlo Simulation für die

Berechnung der p-values dort bereits implementiert und auch über eine eingebundene Bibliothek

sehr schnell ausgeführt werden kann. Weniger aufwändige Berechnungen wurden direkt

in VBA (VisualBasic for Applications), d. h. in der Microsoft Excel eigenen Makrosprache verfasst.

26 Teilweise wurden Funktionen aus der Komponente für R mit Hilfe eines Makros in

Excel abgebildet, so dass diese direkt als Tabellenblatt-Funktionen zur Verfügung stehen. Diese

Implementierungen basieren allerdings auf der approximativen Berechnung der p-values, so

dass sie nur in Notfällen zum Einsatz kommen sollten. Sie sind daran zu erkennen, dass ihrem

Namen kein „R“ vorangestellt ist.

Für den Endanwender stehen die folgenden Makros zur Verfügung:

• isConvergent(Daten As Range) As Boolean

22 http://www.r-project.org/foundation

23 http://www.r-project.org

24 Zu Details der Lizensierung bitte die Informationen unter http://rcom.univie.ac.at/ (Stand: 24.5.2011) beachten.

25 Der Quelltext in der Programmiersprache R kann über die Webseite der Arbeitsberichte des Instituts

für Wirtschaftsinformatik an der Universität Münster (http://www.wi.uni-muenster.de/institut/forschen/

arbeitsberichte.php) bezogen werden.

26 Der Quelltext in der Programmiersprache VBA kann ebenfalls über die Webseite der Arbeitsberichte

des Instituts für Wirtschaftsinformatik an der Universität Münster (http://www.wi.uni-muenster.de/institut/

forschen/arbeitsberichte.php) bezogen werden.


- 54 -

Dieses Makro prüft, ob für die Reihe der möglichen (letzten) Ziffern 27 Daten die Bedingungen

nach Korollar 4.3 erfüllt sind.

• DistributionTest(Daten As Range) As Double

Dieses Makro bestimmt den p-value für den Test auf Gleichverteilung für die Reihe der

(letzten) Ziffern Daten. Es ist ein reines VBA-Makro und benutzt die χ 2 -Approximation

für die Berechnung des p-value.

• RDistributionTest(Daten As Range, Optional chi2Korrektur,

Optional Genauigkeit) As Double

Dieses Makro bestimmt den p-value für den Test auf Gleichverteilung für die Reihe der

(letzten) Ziffern Daten. Optional kann die Korrektur der χ 2 -Statistik angegeben werden

und auch die Anzahl der Replikationen der MC-Simulation.

• RIndependencyTest(Daten As Range, strType As String,

Optional uniformDistribution, Optional Genauigkeit) As Double

Dieses Makro bestimmt den p-value für den Test auf Unabhängigkeit für die Reihe der

(letzten) Ziffern Daten („vertikal“). Falls Daten aus zwei Spalten besteht, wird statt der

Abhängigkeit zwischen den letzten Ziffern zweier benachbarter Zahlen die Unabhängigkeit

dieser benachbarter Ziffern der Zahl bestimmt („horizontal“). Optional können gleichverteilte

Marginalien unterstellt werden, was dem integrierten Test von Unabhängigkeit und

Gleichverteilung entspricht („kombinierte Hypothese“). Als Typen kann eine folgenden

vereinfachten Hypothesen (Aggregationen) gewählt werden: „normal“, „2block“, „even“,

„lowhigh“ (vgl. Abschnitt 6.2). Auch hier wird die MC-Simulation für die Bestimmung

des p-value genutzt.

• IndependencyTest(Daten As Range) As Double

Dieses Makro bestimmt den p-value für den (direkten) Test auf Unabhängigkeit für die

Reihe der (letzten) Ziffern Daten. Es ist ein reines VBA-Makro und benutzt die χ 2 -

Approximation für die Berechnung des p-value. Es ist eine vereinfachte Version der Funktion

RIndependencyTest, welche ausschließlich den direkten Test auf Unabhängigkeit

ausführen kann. Dieser hat sich bei der empirischen Untersuchung als der aufdeckungsstärkste

Test auf Unabhängigkeit erwiesen (vgl. Kapitel 8).

• RDifferencesTest(Daten As Range,

Optional uniformDistribution, Optional Genauigkeit) As Double

Test auf Abweichungen von den bei Unabhängigkeit zu erwartenden Differenzen in Daten.

Auch hier wird der p-value über eine MC-Simulation bestimmt und bei zweispaltigen

Daten die Differenz zwischen den benachbarten Ziffern genommen. Optional können

die Marginalien auf eine (bei Gleichverteilung) zu erwartende Dreiecksverteilung gesetzt

werden.

• RcalculateCorrection(Daten As Range, n As Integer) As Double

Berechnung des Korrekturterms nach der Formel (5.5).

• calculateWestbergPvalue(p1 As Double, p2 As Double) As Double

Kombination der p-values nach dem Ansatz von Westberg (vgl. Abschnitt 7.2).

27 bspw. entnommen aus einer Speisekarte


- 55 -

Mit diesen Funktionen können die Einzeltests auf Gleichverteilung bzw. Unabhängigkeit durchgeführt

werden. Die Tests zur „kombinierten Hypothese“ werden mit der Funktion

RIndependencyTest bzw. RDifferencesTest bei gesetzter Binäroption

uniformDistribution durchgeführt. Die p-values der Einzeltests können mit Hilfe der

Funktion calculateWestbergPvalue kombiniert werden.


8 Erste empirische Resultate

- 56 -

Auch wenn die in dieser Arbeit entwickelte Methodik theoretisch durchaus vielversprechend

ist, können die gemachten Annahmen nur im Rahmen einer größeren empirischen Studie auf

ihre Plausibilität und Realitätsnähe untersucht werden. Im Idealfall sollte es möglich sein nicht

nur die Wahrscheinlichkeit für eine fehlerhafte Verdächtigung einer Datenreihe (α-Fehler des

Tests) anzugeben, sondern auch dessen Kraft, d. h. die Wahrscheinlichkeit, dass eine manipulierte

Reihe übersehen wird (β-Fehler).

Dazu werden Datenreihen benötigt, bei denen bekannt ist, ob diese einem natürlichen Prozess

entstammen oder manipuliert wurden. Eine mögliche Quelle für derartige Datenreihen sind die

bei einer Durchsuchung durch die Steuerfahndung beschlagnahmten Unterlagen. Manchmal haben

die Finanzbehörden bei einer Durchsuchung das besondere Glück, eine zweite unverfälschte

Buchführung vorzufinden, in welcher ein „Steuervermeider“ seine tatsächlichen Einnahmen

(und ggf. auch Ausgaben) festgehalten hat. In diesem Fall lassen sich die realen und die gemeldeten

Datenreihen direkt vergleichen.

Die folgenden Beispiele dienen eher der Illustration der Technik als der Verifizierung der Methodik.

Auch wenn Kennzahlen zur Aufdeckungsquote auf Basis der Beispiele präsentiert werden,

können diese doch nur vorläufig sein. Weitere empirische Belege sind erforderlich, um die

Tauglichkeit dieser Form der Ziffernanalyse für die Steuerprüfungspraxis zu bestätigen.

8.1 Einige Einzelfälle

Einige der zur Verfügung gestellten Einzelfälle 28 sollen nun näher betrachtet werden. Sie zeichnen

sich durch die Tatsache „doppelte Doppik“ bzw. andere zusätzliche Details aus, die einer

gesonderten Betrachtung lohnen. In den meisten Fällen liegen leider keine Informationen zu

den Preislisten vor, so dass eine direkte Überprüfung der erwartbaren Verteilung für die letzten

zählenden Ziffern nicht durchgeführt werden kann. In diesen Fällen wird üblicherweise (mit

Blick auf Satz 4.10) die vorletzte Ziffer getestet.

Beispielsfall A: Korrekte Daten

Der Datensatz besteht aus den Tagesumsätzen eines Subunternehmens, bei dem das Hauptunternehmen

sowohl einziger Hauptlieferant als auch direkt umsatzbeteiligt ist. Daher kann davon

ausgegangen werden, dass die gemeldeten Daten insoweit korrekt sind, als dass neben der externen

Prüfung auch eine intensive „interne“ Prüfung der Daten durch das Hauptunternehmen

stattfindet. Zudem werden wichtige Rohstoffe direkt vom Hauptunternehmen bezogen. Der Datensatz

ist unterteilt in zwei Datenreihen, jeweils eine für den Verkauf innerhalb des Hauses als

auch außer Haus, mit jeweils 365 Einzeldaten. Die Daten sind auf den einzelnen Cent genau

angegeben.

Die Tests wurden allein mit Hilfe der Funktionen RDistributionTest,

RIndependencyTest und RDifferencesTest durchgeführt, da keine Informationen

über die Speisenkarte vorlagen (vgl. Tabelle 8.1).

Die relevanten Ziffern auf der letzten (d. h. der ein-Cent) Stelle und auch der vorletzten (d. h.

der 10-Cent) Stelle weisen beim Gesamttest einen p-value von 0,5 bei den nach Westberg kombinierten

Tests auf. Auch bei der kombinierten Hypothese ergeben sich hohe Wahrscheinlichkeitswerte.

Damit kann die Hypothese der „korrekten“ Daten eindeutig nicht verworfen werden.

Dieses Ergebnis war, da es sich vermutlich um unveränderte Daten handelt, zu erwarten.

28 Aufgrund des allgemeinen Datenschutzes — hier durch das Steuergeheimnis verstärkt — können die in dieser

Arbeit eingesetzten Datensätze nur nach Rücksprache und Vertrag mit den betroffenen Finanzbehörden (insb.

OFD Münster) übermittelt werden.


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 57 -

Test vertikal horizontal

Ziffer 1Euro 10cent 1cent 1Euro/10cent 10cent/1cent

Verteilung 0,51689662 0,75724855 0,76224755 0,95560888 0,87122575

normal 0,25294941 0,85882823 0,68506299 0,99880024 0,24195161

2block 0,22455509 0,11837632 0,54269146 0,55128974 0,07778444

even 0,9144573 0,40744442 0,30614172 0,55182 0,1903197

lowhigh 1 0,29346694 0,14309796 0,37505398 0,94107908

normal 0,5 0,5 0,5 0,5 0,48390322

2block 0,44911018 0,23675265 0,5 0,5 0,15556889

even 0,5 0,5 0,5 0,5 0,3806394

lowhigh 0,5 0,5 0,28619592 0,5 0,5

differences 0,99920016 0,80403919 0,59288142 0,96080784 0,57788442

normal 0,22575485 0,93481304 0,86722655 1 0,68346331

2block 0,27054589 0,24815037 0,89562088 0,81143771 0,38692262

even 0,20275945 0,66966607 0,56688662 0,67106579 0,56928614

lowhigh 0,34013197 0,25514897 0,22455509 0,84623075 0,99960008

differences 0,9820036 0,43771246 0,46130774 0,92221556 0,43991202

(a) Umsatz „im Hause“

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 1Euro 10cent 1cent 1Euro/10cent 10cent/1cent

Verteilung 0,13737253 0,70185963 0,82003599 0,68266347 0,75844831

normal 0,95440912 0,91261748 0,4385123 0,97180564 0,78764247

2block 0,87422515 0,75204959 0,9780044 0,77004599 0,77144571

even 0,13427387 0,47694087 0,40052047 0,55624588 0,27188925

lowhigh 0,40324424 1 1 0,55323467 0,94093979

normal 0,27474505 0,5 0,5 0,5 0,5

2block 0,27474505 0,5 0,5 0,5 0,5

even 0,13305278 0,5 0,5 0,5 0,5

lowhigh 0,27774642 0,5 0,5 0,5 0,5

differences 0,62067586 0,80563887 0,35272945 0,85922815 0,53129374

normal 0,77544491 0,95020996 0,78564287 0,99040192 0,94961008

2block 0,23355329 0,77384523 0,9940012 0,75804839 0,94861028

even 0,24115177 0,59128174 0,62207558 0,88462308 0,64627075

lowhigh 0,55488902 0,33653269 0,85002999 0,16356729 0,28954209

differences 0,39372126 0,78064387 0,38032394 0,64927015 0,59428114

(b) Umsatz „außer Haus“

Tab. 8.1: Ergebnisse des Tests für korrekte Daten

Beispielsfall B: Preisliste

Hier handelt es ich um eine Eisdiele, für die eine Preisliste über 126 Artikel vorliegt, mit deren

Hilfe geprüft werden kann, ob grundsätzlich die Konvergenz gegen gleiche Klassenwahrscheinlichkeiten

zu erwarten ist:

Die Preise liegen im Bereich von 1,00 C bis 15,00 C, wobei einzelne Cent nicht notiert sind

und auch auf der ersten Stelle nach dem Dezimaltrennzeichen ausschließlich 0 und 5 erscheinen.

Damit ergeben sich für die beiden Stellen um das Dezimaltrennzeichen die in Tabelle 8.2

dargestellte Häufigkeitsverteilung.


- 58 -

1997 1998

außer Haus im Haus gesamt gesamt

n 5 3 8 17

Korrektur 0.02410 0.05431 0.01778 0.01597

Tab. 8.3: Minimale Anzahl Verkäufe pro Tag (n) und Korrekturen

Häufigkeit Häufigkeit

Endziffer absolut relativ Endziffer absolut relativ

00 22 0,1746 45 1 0,0080

10 1 0,0080 50 6 0,0476

20 2 0,0159 60 10 0,0794

25 12 0,0952 70 26 0,2063

30 4 0,0317 75 1 0,0080

35 7 0,0556 80 10 0,0794

40 13 0,1032 90 11 0,0873

Tab. 8.2: Häufigkeiten bestimmter Preise auf der Speisekarte

Es liegen Datenreihen für zwei Jahre vor (1997 und 1999). Für das Jahr 1997 wurde die Datenreihe

zusätzlich in Verkäufe außer Haus und im Haus aufgeteilt. Für jede der vier Datenreihen

(3 aus dem Jahr 1997 und 1 aus dem Jahr 1999) wurde jeweils der minimale Umsatz bestimmt

und daraus die minimale Anzahl verkaufter Artikel (vgl. Abschnitt 7.1) bestimmt.

Da in diesem Fall auch eine Speisekarte bekannt ist, kann die Gültigkeit der asymptotischen

Gleichverteilung für die Ziffer vor dem Dezimaltrennzeichen (letzte Euro Ziffer) überprüft und

bestätigt werden. Dabei wird die Gültigkeit dieser Speisekarte für beide Jahre angenommen.

Leider gibt es keine Informationen über die Anteile der Produkte an den Umsätzen. Somit können

die Wahrscheinlichkeiten für das Auftreten bestimmter Endziffern in den Rechnungspositionen

nicht bestimmt werden. Unter der Annahme, dass sämtliche Artikel der Speisekarte

gleich häufig verkauft werden, wurden die notwendigen Korrekturen für die χ 2 -Statistik ermittelt

(siehe Tabelle 8.3).

Dazu ist die minimale Anzahl der Umsatzpositionen pro Tag zu bestimmen, welche sich für

den außer-Haus- und den im-Haus-Verkauf jeweils aus dem (aufgerundeten) minimalen Umsatz

dividiert durch den maximalen Einzelpreis ergeben. Für die Gesamtumsätze lässt sich diese Zahl

dann als Summe der beiden einzelnen Minima ermitteln, was oberhalb der (aufgerundeten) Zahl

liegt, welche sich aus der Division des minimalen Umsatzes mit dem maximalen Preis ergeben

würde (vgl. Tabelle 8.3).

Als Korrekturen der χ 2 -Statistik werden nun die Werte 0,02409516 bzw. 0,01599306 für 1997

und 0,01597 für 1999 ermittelt. Diese sind somit ausreichend klein, um mit der unkorrigierten

Statistik rechnen zu können. 29

Bemerkenswert ist, dass für das Jahr 1997 die Gesamttagesumsätze beim Verteilungstest (und

damit auch in den verschiedenen kombinierten Verfahren) Auffälligkeiten aufweisen, während

dies bei den im-Haus- und auch außer-Haus-Umsätzen nicht der Fall ist (vgl. Tab. 8.4). Dies

ließe sich beispielsweise damit erklären, dass der Gesamtumsatz festgelegt und die jeweiligen

Teilumsätze anschließend daraus „berechnet“ wurden.

29 Der simuliert bestimmte p-value ist bis auf 8 Nachkommastellen identisch.


Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10E/1E

Verteilung 0,0429914 0,06178764 0,01159768

normal 0,30213957 0,58228354 0,41611678

2block 0,23375325 0,54489102 0,14817037

even 0,35410497 0,23798712 0,93410793

lowhigh 0,00546155 0,22459953 0,00358332

normal 0,10280664 0,12357528 0,04775264

2block 0,08469517 0,12357528 0,02055262

even 0,11565643 0,11273466 0,02319536

lowhigh 0,00374293 0,1079999 0,0008064

differences 0,31953609 0,77184563 0,62747451

normal 0,05418916 0,15756849 0,03579284

2block 0,0279944 0,07218556 0,00039992

even 0,34813037 0,5374925 0,65966807

lowhigh 0,0009998 0,00059988 0,00019996

differences 0,25794841 0,86502699 0,53929214

(a) Umsatz „außer Haus“ 1997

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10E/1E

Verteilung 0,00019996 0,00019996 0,00019996

normal 0,65346931 0,87862428 0,5694861

2block 0,15996801 0,82143571 0,80763847

even 0,81849594 0,807037 0,86830834

lowhigh 0,89735585 0,81307948 0,49286961

normal 0,00039992 0,00039992 0,00039992

2block 0,00063743 0,00039992 0,00039992

even 0,00039992 0,00039992 0,00039992

lowhigh 0,00039992 0,00039992 0,00174216

differences 0,27294541 0,75164967 0,104979

normal 0,00019996 0,00019996 0,00019996

2block 0,00019996 0,0569886 0,00019996

even 0,35272945 0,0359928 0,69026195

lowhigh 0,00019996 0,970006 0,00019996

differences 0,00019996 0,59168166 0,00019996

(c) Umsatz „gesamt"1997’

- 59 -

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10E/1E

Verteilung 0,0439912 0,19656069 0,09018196

normal 0,00019996 0,42231554 0,01239752

2block 0,00019996 0,62947411 0,0029994

even 0,48174625 0,55468844 0,40706796

lowhigh 0,02372742 0,14751704 0,40238171

normal 0,00019801 0,34905842 0,01433293

2block 0,00019801 0,39312138 0,00423535

even 0,14698375 0,39312138 0,21427052

lowhigh 0,01352469 0,18292456 0,21264414

differences 0,00019996 0,94321136 0,00039992

normal 0,00019996 0,34633073 0,00119976

2block 0,00079984 0,94841032 0,00039992

even 1 0,92781444 0,5564887

lowhigh 0,14957009 0,5214957 0,55488902

differences 0,00019996 0,9320136 0,00039992

(b) Umsatz „im Haus“ 1997

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Tab. 8.4: Ergebnisse aus dem Beispielfall B

Test vertikal horizontal

Ziffer 10Euro 1Euro 10E/1E

Verteilung 0,00019996 0,00019996 0,00019996

normal 0,39312138 0,10877824 0,00339932

2block 0,43191362 0,29334133 0,07578484

even 1 0,16670394 0,50353211

lowhigh 0,55244713 0,05639395 0,09102157

normal 0,00142513 0,00045023 0,00001878

2block 0,0015495 0,00109776 0,00032463

even 0,00039992 0,00066152 0,00039992

lowhigh 0,00039992 0,00024823 0,00038322

differences 0,90781844 0,32053589 0,51689662

normal 0,00019996 0,00019996 0,00019996

2block 0,00019996 0,00019996 0,00019996

even 0,0179964 0,01659668 0,915017

lowhigh 0,72105579 0,069986 0,05678864

differences 0,00059988 0,07178564 0,00039992

(d) Umsatz „gesamt"1998’

8.2 Resultate und Anwendungsempfehlungen

Im Anhang B finden sich weitere Resultate auf deren Basis Qualitätskennzahlen für die Tests

berechnet werden können (vgl. Tabelle 8.5).

Die vorgegebene akzeptable Fehlerrate der α-Fehler von 0,05 bzw. 0,1 wird von sämtlichen

Tests eingehalten 30 ; Gegenteiliges wäre auch nur bei Verletzung der grundlegenden Annahmen

der Tests zu erwarten gewesen. Somit sind die Tests in dieser Hinsicht zulässig. Die dargestellten

Erkennungsraten 31 zeigen deutlich, dass der Verteilungstest auf der geeignet gewählten

letzten Ziffer immerhin in 40%–50% der Betrugsfälle anschlägt.

Allerdings sollte man diese Ergebnisse nicht überbewerten, da bei insgesamt nur 18 unmanipulierten

und 24 manipulierten Datenreihen bereits eine korrekt klassifizierte Zahlenreihe die

Ergebnisse stark verändern kann.

Die Ergebnisse aus Tabelle 8.5 ergeben sich aus der Betrachtung eines einzelnen Tests. Wie in

Abschnitt 7.2 dargestellt, können bestimmte Tests auch kombiniert werden. Aus diesem Grund

30 Abweichungen ergeben sich auf Grund des recht kleinen Stichprobenumfangs.

31 Die Erkennungsrate ist das Komplement zum Fehler 2. Art (β-Fehler), also 1 − β.


- 60 -

vertikal horizontal

Fehlerkennungsrate Erkennungsrate Fehlerkennungsrate Erkennungsrate

5% 10% 5% 10% 5% 10% 5% 10%

Verteilung 0,0455 0,0909 0,3571 0,3929 0,0909 0,0909 0,3214 0,4286

direkt 0,0455 0,0455 0,1071 0,1429 0,0000 0,1364 0,1786 0,2143

2block 0,0455 0,0909 0,1071 0,1071 0,0000 0,0455 0,2143 0,3214

even 0,0455 0,0909 0,0357 0,1429 0,0000 0,0000 0,1071 0,1786

lowhigh 0,0455 0,1364 0,1071 0,1071 0,0000 0,0455 0,0714 0,1786

Basis 22 28 22 28

Tab. 8.5: Erkennungsraten der einzelnen Testverfahren in der Übersicht

vertikal horizontal

Fehlerkennungsrate Erkennungsrate Fehlerkennungsrate Erkennungsrate

5% 10% 5% 10% 5% 10% 5% 10%

direkt 0,0909 0,0909 0,3929 0,3929 0,0455 0,0455 0,3571 0,3571

2block 0,0455 0,0909 0,3571 0,3929 0,0455 0,0455 0,3929 0,3929

even 0,0455 0,0909 0,2500 0,3214 0,0455 0,0455 0,3929 0,3929

lowhigh 0,0455 0,0455 0,3571 0,3929 0,0455 0,0909 0,3214 0,3929

differences 0,0000 0,0000 0,1071 0,1786 0,0909 0,0909 0,1071 0,1786

Basis 22 28 22 28

Tab. 8.6: Erkennungsraten der nach Westberg kombinierten Testverfahren in der Übersicht

(kombinierter Test)

wurden dieselben Kennzahlen zur Güte des Testverfahrens auch für den kombinierten Test aus

Verteilungs- und Unabhängigkeitstest durchgeführt (vgl. Tabelle 8.6).

Insbesondere die Kombination aus Verteilungstest und klassischem Unabhängigkeitstest („direkt“)

erscheint vielversprechend, da beide Tests einzeln die niedrigsten Fehlerraten aufweisen.

Allerdings gewinnen die Tests in ihrer Kombination kaum an Kraft, d. h. die Erkennungsrate

verbleibt auf etwa demselben Niveau, während die Fehlerkennungsrate sogar leicht zunimmt.

Damit sind die kombinierten Tests nicht besser als der Verteilungstest allein.

In der Tabelle 8.7 sind die (Fehl-)Erkennungsraten bei Verwendung der gemeinsamen Hypothese,

d. h. der Unabhängigkeitstests mit fixierten Rändern aufgeführt. Im Gegensatz zu den

vorhergehenden Tabellen scheinen die Fehlerkennungsraten weitaus höher, was aufgrund der

Fixierung des Fehlers 1. Art eigentlich nicht auftreten dürfte. Dies zeigt einmal mehr, wie stark

die hier aufgeführten Resultate unter der doch recht geringen Fallzahl leiden. Unter diesen Tests

erscheint die Kombination mit der Abhängigkeitsstruktur über die Unterscheidung von geraden

und ungeraden Zahlen am geeignetsten.

Beim Vergleich der Tabellen 8.6 und 8.7 fällt auf, dass trotz der starken Informationsreduktion

bei der kombinierten Hypothese, welche nur gerade und ungerade Ziffern unterscheidet

(„even“), die Erkennungsraten erstaunlich gut sind (bis zu 50% bei 10% Irrtumswahrscheinlichkeit).

Dies ließe sich beispielsweise damit erklären, dass bei manipulierten Datenfolgen

sich die Abweichungen von der Gleichverteilung innerhalb der gerade bzw. ungeraden Ziffern


- 61 -

vertikal horizontal

Fehlerkennungsrate Erkennungsrate Fehlerkennungsrate Erkennungsrate

5% 10% 5% 10% 5% 10% 5% 10%

direkt 0,1364 0,1818 0,3214 0,4286 0,0455 0,0909 0,3214 0,3214

2block 0,0909 0,1818 0,3571 0,3929 0,0909 0,0909 0,3929 0,4286

even 0,0909 0,1364 0,4286 0,5357 0,1364 0,1364 0,3214 0,3214

lowhigh 0,0455 0,0909 0,2143 0,2857 0,0909 0,1364 0,2857 0,3214

differences 0,0000 0,0455 0,2143 0,2857 0,1364 0,1364 0,2143 0,2500

Basis 22 28 22 28

Tab. 8.7: Erkennungsraten der integrierten, kombinierten Testverfahren in der Übersicht

(kombinierte Hypothese)

kumulieren, die Personen also systematisch tendenziell nur gerade oder nur ungerade Zahlen

bevorzugen.

Der Einsatz von horizontalen Tests, d. h. der Verwendung von zwei benachbarten letzten Ziffern

bringt keine Vorteile gegenüber dem vertikalen Test, bei dem nur eine Ziffernposition verwendet

wird. Dies lässt sich zum einen damit erklären, dass der Stichprobenumfang nicht ausreicht, um

zwei Ziffern gleichzeitig zu prüfen. Zum anderen müssen zwei benachtbarte Ziffern eingesetzt

werden, was mehr Transaktionen pro Tag voraussetzt (vgl. 4.4).

Es kann leider nicht endgültig ausgeschlossen werden, dass einige der verwendeten „doppelten“

Buchführungen bei Durchsuchungen gefunden wurden, welche aufgrund einer auffälligen Ziffernverteilung

durchgeführt wurden. Damit sind die Erkennungsraten auf Basis der Ziffernverteilung

möglicherweise überschätzt. Denn sollten die Datensätze durch vorherige Anwendung

der hier untersuchten Methodiken selektiert worden sein 32 , ist natürlich eine weitaus höhere Erkennungsrate

zu erwarten als bei rein zufällig zusammengestellten Fällen. Dies ist jedoch nach

Auskunft der OFD Münster (laut Aktenlage 33 ) nicht der Fall.

Da bisher kein Test auf Unabhängigkeit der Ziffern eingesetzt wurde, können desse Erkennungsraten

als konsistent geschätzt angesehen werden. Mit dem direkten Test auf Unabhängigkeit

ergibt sich immerhin eine Erkennungsrate von 10% bei 5% zulässiger Irrtumswahrscheinlichkeit.

32 Beispielsweise indem die Durchsuchungen aufgrund auffälliger Ziffernverteilungen durchgeführt wurden

oder die Daten deshalb zur Verfügung gestellt worden sind.

33 Es kann natürlich nicht ausgeschlossen werden, dass durch den Prüfer vorab Ziffernanalysen durchgeführt

wurden, welche die Aufmerksamkeit in bestimmten Fällen erhöht hat.


9 Fazit

- 62 -

Die Anwendung der Ziffernanalyse zur Überprüfung von Kassenbelegen ist grundsätzlich möglich.

Im Rahmen dieser Arbeit wurde gezeigt, dass die letzten und nicht die ersten Ziffern einer

Zahl entscheidend sind. Weiterhin wurden die Voraussetzungen für die Anwendung der Ziffernanalyse

auf Basis der letzten Ziffern herausgearbeitet. Der χ 2 -Test mit simulierten Ablehnungswahrscheinlichkeiten

konnte als bester Hypothesentest für diese Anwendung identifiziert werden.

Das Verfahren der Ziffernanalyse, welches bis dato nur die Verteilung der Ziffern betrachtete,

wurde um Überprüfungen der Abhängigkeitsstrukturen der Zahlen bzw. Ziffern erweitert.

Erste empirische Untersuchungen bei (un-)manipulierten Daten haben die Praxistauglichkeit

der Ziffernanalyse wie sie hier vorgestellt wird, bestätigt.

Die wichtigsten Resultate für die Anwendung der Ziffernanalyse lassen sich wie folgt zusammenfassen:

1. Wahl der Ziffernposition

Für alle Zahlen, welchen ein Additionsprozess zugrunde liegt (z. B. Tageseinnahmen), sollte

die letzte nicht-triviale Ziffer verwendet werden; falls diese nicht alle Ausprägungen

aufweist, alternativ die vorletzte.

Bei multiplikativen Prozessen kann auch die erste Ziffer genutzt werden (z. B. Zinsberechnungen).

In beiden Fällen sollte der rekursive Prozess, welcher die zu analysierenden Zahlen generiert,

ausreichend lang sein, d. h. ausreichend viele Summanden bzw. Faktoren aufweisen.

2. Überprüfung der Referenzverteilung

Bei den ersten Ziffern, welche Zahlen mit einer multiplikativen Struktur entnommen wurden,

kann Benford’s-Law eingesetzt werden.

Bei den letzten Ziffern ist die Referenzverteilung immer die Gleichverteilung über alle Ziffern.

Ihre Gültigkeit kann mit Hilfe des Kriteriensatzes aus Korollar 4.3 überprüft werden.

3. Wahl der Tests

In jeden Fall sollte ein Verteilungstest durchgeführt werden. Für große Datenmengen kann

dazu die χ 2 -Statistik eingesetzt werden. Bei kleineren Datenumfängen ist diese für die letzten

Ziffern aufgrund ihrer Optimalitätseigenschaften ebenfalls zu raten, für die ersten Ziffern

nur bedingt.

Unabhängigkeitstests haben in den Beispielen keine keine insgesamt keine große Diskriminanzkraft

gezeigt. Allerdings scheint neben dem direkten Unahbhängigkeitstest vor allem

die Reduktion auf gerade/ungerade Ziffern recht erfolgversprechend.

4. Entscheidungsfindung

Die Entscheidungen können für alle Einzeltests bei großen Datenmengen auf Basis der χ 2 -

Verteilung durchgeführt, bei kleinen Datenmengen sollte mit Hilfe einer MC-Simulation

die Ablehnungswahrscheinlichkeit bestimmt werden. Ein Verteilungstest kann mit einem

der Unabhängigkeitstests kombiniert werden. Die gemeinsame Entscheidung wird dann

über die kombinierte Ablehnungswahrscheinlichkeit bestimmt. Das günstigste Testkonstrukt

scheint die Kombination aus Verteilungstest mit einem vollen exakten Test auf Unabhängigkeit

über eine einzelne Ziffernposition zu sein.

Das Verfahren ist relativ leicht zu implementieren und scheint (in Relation zu der benötigten

Informationsmenge) eine erstaunlich gute Vorselektion bieten zu können.

Die Anwendung ist jedoch (zusätzlich zu den bereits genannten Voraussetzungen) zusätzlich

eingeschränkt, da


- 63 -

• die generelle Gültigkeit der Annahmen über manipulierte Daten, insbesondere dass deren

Verteilung von der natürlichen, unmanipulierten abweicht, unbewiesen ist und

• die Bekanntheit des Verfahrens seitens der „Steuervermeider“ zu „Datendesign“ führen

kann.

In weiterer (insbesondere empirischer) Forschung sollte überprüft werden, inwiefern sich im

Laufe der Zeit bei (auf anderem Wege) als manipuliert bekannten Daten die Tests verhalten und

bei schlechter werdender Erkennungsrate wieder auf das Verfahren verzichtet werden. Zudem

könnten die Hypothesen über die Abhängigkeitsstruktur bei manipulierten Daten verfeinert und

diese anschließend gezielter eingesetzt werden.


Literaturverzeichnis

- 64 -

Agresti, A.: Categorical data analysis. Wiley New York 1990.

Agresti, A.: A survey of exact inference for contingency tables. In: Statistical Science, 7

(1992), feb 1, S. 131–153.

Albrecht, C. C.; Albrecht, W. S.; Dunn, J. G.: Conducting a pro-active fraud audit: a case

study. In: Journal of Forensic Accounting, 2 (2000), S. 203–218.

Albrecht, W. S.; Albrecht, C. C.: Root out financial deception. In: Journal of Accountancy,

(2002), S. 30–34.

Allaart, P. C.: An invariant-sum characterization of Benford’s law. In: Journal of Applied

Probability, 34 (1995), S. 1–5.

Amershi, A. H.: The occurrence of Fibonacci numbers in time series of financial accounting

ratios: anomalies or indicators of firm survival, bankruptcy and fraud? An exploratory

study. In: Managerial Finance, 26 (2000) 11, S. 5–20.

Baddeley, A. D.: The capacity for generating information by randomization. In: Quarterly

Journal of Experimental Psychology, 18 (1966), S. 119–129.

Baier, T.; Neuwirth, E.: Excel :: COM :: R. In: Computational Statistics, 22 (2007) 1,

S. 91–108.

Bakan, P.: Response-tendencies in attempts to generate random binary series. In: The

American Journal of Psychology, 73 (1960) 1, S. 127–131.

Bar-Hillel, M.; Wagenaar, W. A.: The perception of randomness. In: Advances in Applied

Mathematics, 12 (1991), S. 428–454.

Becker, R. A.: S: An Interactive Environment for Data Analysis and Graphics. CRC Press

1984.

Becker, R. A.; Chambers, J. M.; Wilks, A. R.: The new S language. Pacific Grove, Ca.:

Wadsworth & Brooks, 1988 1988.

Benford, F.: The law of anomalous numbers. In: Proceedings of the American Philosophical

Society, 78 (1938), S. 551–572.

Berry, K. J.; Johnston, J. E.; Mielke Jr., P. W.: Exact goodness-of-fit tests for unordered

equiprobable categories. In: Perceptual & Motor Skills, 98 (2004) 3 Pt 1, S. 909–919.

Blenkers, M.: Chi-Test - oder „Jeder Mensch hat seine Lieblingszahl“. In: Die steuerliche

Betriebsprüfung, 9/03 (2003), S. 261–264.

Boyle, J.: An Application of Fourier Series to the Most Significant Digit Problem. In: The

American Mathematical Monthly, 101 (1994) 9, S. 879–886.

Brugger, P.: Variables that influence the generation of random sequences: an update.

In: Perceptual & Motor Skills, 84 (1997), S. 627–661.

Burke, S.: Barriers in US Benchmark Bonds. In: Working Paper, Nr. 55. University of British

Columbia, Vancouver, 2001.

Busta, B.; Sundheim, R.: Detecting Manipulated Tax Returns with the Use of Benford’s Law.

In: Center for Business Research Working Paper, Nr. W95-106-94. St. Cloud State

University, Minnesota, 1992a.

Busta, B.; Sundheim, R.: Tax Return Numbers Tend to Obey Benford’s Law. In: Center for

Business Research Working Paper, Nr. W93-106-94. St. Cloud State University,

Minnesota, 1992b. – 94 S.

Busta, B.; Weinberg, R.: Using Benford’s law and neural networks as a review procedure.

In: Managerial Auditing Journal, 13 (1998) 6, S. 356–366.

Cai, Y.; Krishnamoorthy, K.: Exact Size and Power Properties of Five Tests for Multinomial

Proportions. In: Communications in Statistics: Simulation and Computation, 35

(2006) 1, S. 149–160.


- 65 -

Carslaw, C. A. P. N.: Anomalies in income numbers: evidence of goal oriented behavior.

In: The Accounting Review, 63 (1988), April 2, S. 321–327.

Chambers, J. M.: Programming with Data: A Guide to the S Language. Springer 1998.

Chambers, J. M.; Hastie, T. J.: Statistical Models in S. CRC Press, Inc. Boca Raton, FL, USA

1991.

Chapanis, A.: Human production of „random“ numbers. In: Perceptual & Motor Skills, 81

(1995), S. 1347–1363.

Christian, C. W.; Gupta, S.: New evidence on „secondary evasion“. In: The Journal of the

American Taxation Association, 15 (1993), Frühling 1, S. 72–93.

Clarkson, D. B.; Fan, Y. A. N.; Joe, H.: A Remark on Algorithm 643: FEXACT: An Algorithm

for Performing Fisher’s Exact Test in r × c Contingency Tables. In: ACM

Transactions on Mathematical Software, 19 (1993) 4, S. 484–488.

Cleary, R.; Thibodeau, J. C.: Applying digital analysis using Benford’s law to detect fraud: the

dangers of type I errors. In: Auditing: A Journal of Practice & Theory, 24 (2005) 1,

S. 77–81.

Cohen, A.; Sackrowitz, H. B.: Unbiasedness of the Chi-Square, Likelihood Ratio, and Other

Goodness of Fit Tests for the Equal Cell Case. In: The Annals of Statistics, 3 (1975),

jul 4, S. 959–964.

De Ceuster, M. J. K.; Dhaene, G.; Schatteman, T.: On the hypothesis of psychological barriers

in stock markets and Benford’s law. In: Journal of Empirical Finance, 5 (1998) 3,

S. 263–279.

Diaconis, P.: The distribution of leading digits and uniform distribution mod 1. In: The Annals

of Probability, 5 (1977) 1, S. 72–81.

Diekmann, A.: Not the first digit! Using Benford’s law to detect fraudulent scientific data.

In: Journal of Applied Statistics, 34 (2007), S. 321–329.

Dlugosz, S.: Digitalanalyse als Ansatz zur Betrugserkennung in Finanzdaten.

Diplomhausarbeit, Institut für Wirtschaftsinformatik der

Westfälischen-Wilhelms-Universität Münster, Januar 2004.

Dlugosz, S.; Müller-Funk, U.: The value of the last digit - digit analysis for fraud detection.

In: Advances in Data Analysis and Classification, 3 (2009) 3, S. 281–290.

Doucouliagos, H.: Number preference in Australian stocks. In: Applied Financial Economics,

14 (2004) 1, S. 43–54.

Drüen, K.-D.: Die Kontrolle der Kassenbuchführung mit Hilfe statistischer Testverfahren.

In: Praxis Steuerstrafrecht, (2004) 1, S. 18–22.

Dümbgen, L.; Leuenberger, C.: Explicit bounds for the approximation error in Benford’s law.

In: Electronic Communications in Probability, 18 (2008), S. 99–112.

Durtschi, C.; Hillison, W.; Pacini, C.: The effective use of Benford’s law to assist in detecting

fraud in accounting data. In: Journal of Forensic Accounting, V (2004), S. 17–34.

Engel, H. A.; Leuenberger, C.: Benford’s law for exponential random variables. In: Statistics

and Probability Letters, 63 (2003) 4, S. 361–365.

Ettredge, M. L.; Srivastava, R. P.: Using digital analysis to enhance data integrity. In: Issues in

Accounting Education, 14 (1999) 4, S. 675–690.

Fisher, R.A.: Statistical methods for research workers. Oliver and Boyd 1970.

Flehinger, B. J.: On the probability that a random integer has initial digit A. In: The American

Mathematical Monthly, 73 (1966) 10, S. 1056–1061.

Freeman, G. H.; Halton, J. H.: Note on an Exact Treatment of Contingency, Goodness of Fit

and Other Problems of Significance. In: Biometrika, 38 (1951) 1/2, S. 141–149.


- 66 -

Ginsburg, N.; Karpiuk, P.: Random generation: analysis of the responses. In: Perceptual &

Motor Skills, 79 (1994), S. 1059–1067.

Good, I. J.; Gover, T. N.; Mitchell, G. J.: Exact Distributions for X 2 and for the

Likelihood-Ratio Statistic for the Equiprobable Multinomial Distribution. In: Journal

of the American Statistical Association, 65 (1970), mar 329, S. 267–283.

Green, B. P.; Choi, J. H.: Assessing the risk of management fraud through neural network

technology. In: Auditing: A Journal of Practice & Theory, 16 (1997) 1, S. 14–28.

Hill, T. P.: Random-number guessing and the first digit phenomenon. In: Psychological

Reports, 62 (1988), S. 967–971.

Hill, T. P.: Base-invariance implies Benford’s law. In: Proceedings of the American Journal of

Mathematics, 4 (1995a), S. 887–895.

Hill, T. P.: A statistical derivation of the significant-digit law. In: Statistical Science, 10

(1995b) 4, S. 354–363.

Hill, T. P.; Schürger, K.: Regularity of digits and significant digits of random variables.

In: Stochastic processes and their applications, 115 (2005) 10, S. 1723–1743.

Hope, A. C. A.: A Simplified Monte Carlo Significance Test Procedure. In: Journal of the

Royal Statistical Society. Series B (Methodological), 30 (1968) 3, S. 582–598.

Hornik, K.; Leisch, F.: Vienna and R: Love, Marriage and the Future. In: Festschrift 50 Jahre

Österreichische Statistische Gesellschaft. Hrsg.: Rudolf Dutter. Österreichische

Statistische Gesellschaft 2002, S. 61–70. – ISSN 1026-597X.

Hürlimann, W.: A generalized Benford law and its application. In: Advances and Applications

in Statistics, 3 (2003) 3, S. 217–228.

Hürlimann, W.: Generalizing Benford’s law using power laws: application to integer

sequences. 2006.

Ihaka, R.; Gentleman, R.: R: A Language for Data Analysis and Graphics. In: Journal of

Computational and Graphical Statistics, 5 (1996) 3, S. 299–314.

Insightful Corporation: S-PLUS 8. 2007. http://www.insightful.com/. Insightful Corporation,

Seattle, WA, USA.

Knechel, W. R.: A simulation study of the relative effectiveness of alternative analytical

review procedures. In: Decision Sciences, 17 (1986), S. 376–94.

Knechel, W. R.: The effectiveness of statistical analytical review as a substantive auditing

procedure: a simulation analysis. In: The Accounting Review, 63 (1988) 1, S. 74–95.

Knuth, D.E.: Random numbers. In: The Art of Computer Programming. Reading, MA:

Addison-Wesley 1998, Kap. 3.3.

Kumar, K.; Bhattacharya, S.: Benford’s law and its application in financial fraud detection.

In: Advances in Financial Planning and Forecasting, 11 (2002), S. 57–70.

Leemis, L. M.; Schmeiser, B. W.; Evans, D. L.: Survival distributions satisfying Benford’s law.

In: The American Statistician, 54 (2000) 3, S. 236–241.

Ligges, U.: Programmieren mit R. Springer 2005.

Marsaglia, G.; Tsang, W.W.: Some difficult-to-pass tests of randomness. In: Journal of

Statistical Software, 7 (2002) 3.

McKee, T. E.: Increase your fraud auditing effectiveness by being unpredictable!

In: Managerial Auditing Journal, 21 (2006) 2, S. 224–231.

Mehta, C.R.; Patel, N.R.: A network algorithm for performing Fisher’s exact test in r × c

contingency tables. In: Journal of the American Statistical Association, 78 (1983)

382, S. 427–434.


- 67 -

Mehta, C.R.; Patel, N.R.: ALGORITHM 643: FEXACT: a FORTRAN subroutine for Fisher’s

exact test on unordered r × c contingency tables. In: ACM Transactions on

Mathematical Software, 12 (1986) 2, S. 154–161.

Miller, S. J.; Nigrini, M. J.: Order Statistics and Shifted Almost Benford Behavior. 2006.

http://www.citebase.org/abstract?id=oai:arXiv.org:math/0601344.

Mochty, L.: Die Aufdeckung von Manipulationen im Rechnungswesen-Was leistet das

Benford’s Law. In: Die Wirtschaftsprüfung, 55 (2002) 14, S. 725–736.

Mosimann, J. E.; Dahlberg, J. E.; Davidian, N. M.; Krueger, J. W.: Terminal digits and the

examination of questioned data. In: Accountability in Research, 9 (2002), S. 75–92.

Mosimann, J. E.; Wiseman, C. V.; Edelman, R. E.: Data fabrication: can people generate

random digits? In: Accountability in Research, 4 (1995), S. 31–55.

Müller-Funk, U.; Dlugosz, S.: Benford-Analyse: Einfachheit oder Schlichtheit?

In: Einfachheit in Wirtschaftsinformatik und Controlling. Hrsg.: J. vom Brocke, J.

Becker. München: Verlag Franz Vahlen 2008.

Neuringer, A.: Can people behave „randomly?“: the role of feedback. In: Journal of

Experimental Psychology: General, 115 (1986) 1, S. 62–75.

Newcomb, S.: Note on the frequency of use of the digits in natural numbers. In: American

Journal of Mathematics, 4 (1881), S. 39–40.

Nigrini, M. J.: A taxpayer compliance application of Benford’s law. In: Journal of American

Taxation Association, 18 (1996) 1, S. 72–91.

Nigrini, M. J.: Digital Analysis Tests and Statistics. Allen: The Nigrini Institute 1997.

Nigrini, M. J.: Continuous Auditing. August 2000. http://accounting.rutgers.edu/raw/aaa/

audit/midyear/01midyear/papers/\nigrini_continous_audit.pdf. Ernest & Young

Center for Auditing Research and Advanced Technology, University of Kansas.

Nigrini, M. J.; Mittermaier, L. J.: The use of Benford’s law as an aid in analytical procedures.

In: Auditing: A Journal of Practice & Theory, 16 (1997) 2, S. 52–67.

Niskanen, J.; Keloharju, M.: Earnings cosmetics in a tax-driven accounting environment:

evidence from Finnish public firms. In: European Accounting Review, 9 (2000) 3,

S. 443–452.

Posch, P. N.: A survey on sequences and distribution functions satisfying the First-Digit-Law.

2004a. http://www.posch.net/paper/posch_benforddist.pdf.

Posch, P. N.: Ziffernanalyse in der Fälschungsaufspürung. 2004b.

http://www.posch.net/paper/posch_faelschungenbenford.pdf.

Quick, R.; Wolz, M.: Benford’s Law in deutschen Rechnungslegungsdaten.

In: Betriebswirtschaftliche Forschung und Praxis, (2003), S. 208–224.

Rabinowitz, F. M.: Characteristic sequential dependencies in multiple-choice situations.

In: Psychological Bulletin, 74 (1970), S. 141–148.

Rabinowitz, F. M.; Dunlap, W. P.; Grant, M. J.; Campione, J. C.: The rules used by children

and adults in attempting to generate random numbers. In: Journal of Mathematical

Psychology, 33 (1989), S. 227–287.

Raimi, R. A.: The first digit problem. In: The American Mathematical Monthly, 83 (1976),

S. 521–538.

Rath, G. J.: Randomization by humans. In: American Journal of Psychology, 79 (1966),

S. 97–103.

Rodriguez, R. J.: Beyond Benford’s law: A Family of Proxies for Tests of Behavioral Effects.

2003. http://207.36.165.114/Denver/Papers/BeyondBenfordsLaw.pdf. Department of

Finance, University of Miami.


- 68 -

Rodriguez, R. J.: First significant digit patterns from mixtures of uniform distributions.

In: The American Statistician, 58 (2004a) 1, S. 64–72.

Rodriguez, R. J.: Reducing false alarms in the detection of human influence on data.

In: Journal of Accounting Auditing and Finance, 19 (2004b), S. 141–158.

Rose, A. M.; Rose, J. M.: Turn Excel into a financial sleuth: an easy-to-use digital analysis

tool can red-flag irregularities. In: Journal of Accountancy, 196 (2003) 2, S. 58–61.

Schatte, P.: On mantissa distributions in computing and Benford’s law. In: Journal of

Information Processes and Cybernetics EIK, 24 (1988), S. 443–455.

Schäfer, C.; Schräpler, J.-P.; Müller, K.-R.; Wagner, G. G.: Automatic Identification of Faked

and Fraudulent Interviews in Surveys by Two Different Methods. In:

Diskussionspapier, Nr. 441. DIW Berlin, 2004.

Scott, P. D.; Fasli, M.: Benford’s law: an empirical investigation and a novel

explanationForschungsbericht, Nr. CSM Technical Report 349. Department of

Computer Science, University of Essex„

http://cswww.essex.ac.uk/technical-reports/2001/CSM-349.pdf 2001.

Skousen, C. J.; Guan, L.; Wetzel, T. S.: Anomalies and unusual patterns in reported earnings:

Japanese managers round earnings. In: Journal of International Financial

Management and Accounting, 15 (2004) 3, S. 212–234.

Sosna, C.: Statistische Ziffernanalyse -Teil I-. In: Die steuerliche Betriebsprüfung, 44 (2004)

9, S. 249–253.

Sosna, C.: Statistische Ziffernanalyse -Teil II-. In: Die steuerliche Betriebsprüfung, 45 (2005)

4, S. 97–102.

Stigler, G. J.: The Distribution of Leading Digits in Statistical Tables. 1945. – unveröffentlicht.

Teraoka, T.: Some serial properties of „subjective randomness“. In: Japanese Psychological

Research, 5 (1963) 3, S. 120–128.

Thomas, J. K.: Unusual patterns in reported earnings. In: The Accounting Review, 64 (1989)

4, S. 773–787.

Tippet, L.M.C.: The Methods of Statistics. Williams & Norgate 1931.

Tocher, K. D.: Extension of the Neyman-Pearson theory of tests to discontinuous variates.

In: Biometrika, 37 (1950) 1/2, S. 130–144.

Tödter, K. H.: Benford’s law as an indicator of fraud in economics. In: German Economic

Review, 10 (2009) 3, S. 339–351.

Towse, J. N.: On random generatrion and the central executive of working memory. In: British

Journal of Psychology, 89 (1998), S. 77–101.

Trede, M.; Watrin, C.; Ullmann, R.: Ziffernanalyse und Chi-Quadrat-Anpassungstest in der

steuerlichen Anwendung. In: DBW, 69 (2009) 6, S. 701–716.

van Caneghem, T.: The impact of audit quality on earnings rounding-up behaviour: some UK

evidence. In: European Accounting Review, 13 (2004) 4, S. 771–786.

Van der Linden, M.; Beerten, A.; Pesenti, M.: Age-related differences in random generation.

In: Brain and Cognition, 38 (1998), S. 1–16.

Waddell, P. A.; Benjamin, L.; Kemp, S.: Random number generation by normal subjects.

In: Perceptual & Motor Skills, 61 (1985), S. 710.

Wagenaar, W. A.: Generation of random sequences by human subjects - A critical survey of

literature. In: Psychological Bulletin, 77 (1972) 1, S. 65–72.

Wähnert, A.: Die Anwendung von Wahrscheinlichkeitstests in der Außenprüfung und die

richtige Interpretation der Ergebnisse. In: Die steuerliche Betriebsprüfung, 47 (2007),

März 3, S. 65–70.


- 69 -

Watrin, C.; Struffert, R.; Ullmann, R.: Benford’s law: an instrument for selecting tax audit

targets? In: Review of Managerial Science, 2 (2008), nov 3, S. 219–237.

Westberg, M.: An adaptive method of combining independent statistical tests. In:

Forschungsbericht, Nr. 6. Statistiska Istitutionen, Göteborgs Universitet, Sweden,

1985.

Witting, H.; Müller-Funk, U.: Mathematische Statistik II. Stuttgart: B.G.Teubner 1995.

Wolitzky, D. L.; Spence, D. P.: Individual consistencies in the random generation of choices.

In: Perceptual & Motor Skills, 26 (1968), S. 1211–1214.

Yates, F.: Contingency tables involving small numbers and the χ 2 test. In: Supplement to the

Journal of the Royal Statistical Society, 1 (1934) 2, S. 217–235.


Anhang

- 70 -

A Beweise

zu Satz 3.17. Sei Y = X

10r und r so gewählt dass E(Y ) · 10r = E(X) und E(Y ) ∈ 1,2,...,9. Es

σ 2

ergeben sich damit E(Y ) ≥ k und Var(Y ) =

102r .

Dann gilt mit der Tschebyscheff-Ungleichung:

P(|Y − E(Y )| ≥ 1) ≤

σ 2

102r ⇔ P(|Y − E(Y )| ≤ 1) ≥ 1 −

E(Y ) k

≥ 1 −

10r 10r Aus der Bedingung E(X) > 10 folgt, dass r ≥ 1, womit die Aussage bewiesen ist.

zu Satz 3.19. Sei Y = X

10r und r so gewählt dass E(Y ) · 10r = E(X) und E(Y ) ∈ 1,2,...,9. Es

ergeben sich damit E(Y ) ≥ k und Var(Y ) =

P(|Y − E(Y )| ≥ 1) ≤

σ 2

10 2r . Dann gilt mit der Tschebyscheff-Ungleichung:

σ 2

10 2r

⇔ P(|Y − E(Y )| ≤ 1) ≥ 1 −

(E(Y ))2

100

≥ 1 − k2

100

zu Satz 5.1. Der erste Teil ist klar nach DLUGOSZ, MÜLLER-FUNK (2009)[Theorem 3], der

zweite ergibt sich aus:

χ 2 = |Z| ∑︁(︀

)︀ n 2

˜p(z) − p (z)

z

= |Z| ∑︁

(︂

z

≥ |Z| ∑︁

(︂

z

˜p(z) − 1

)︂ 2

+ 2

|Z|

∑︁

(︂

˜p(z) −

z

1

)︂(︂

1

|Z| |Z| − pn )︂

(z) + ∑︁

(︂

1

|Z|

z

− pn )︂ 2

(z)

˜p(z) − 1

)︂ 2 |Z|−1 ∑︁

− |λm|

|Z|

2n

m=1

B Weitere Ergebnisse auf Basis vorhandener Datenreihen

In diesem Anhang sind die Datensätze, auf denen die empirischen Resultate zur Schätzung des

β-Fehlers aus Kapitel 8 basieren — soweit möglich 34 — dargestellt.

B.1 Beispielsfall C

In diesem Fall handelt es ich um eine Gastwirtschaft mit einfacher Küche. Nach Auskunft der

Behörde sind die Zahlen manipuliert.

34 Der Datenschutz verbietet eine detaillierte Beschreibung der Datensätze.


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 71 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,00019996 0,00019996 0,00019996 0,00019996 0,00019996

normal 0,77244551 0,83083383 0,15016997 0,87582484 0,19556089

2block 0,26634673 0,76684663 0,43191362 0,75844831 0,26974605

even 0,19762531 0,27422135 0,62037135 0,10772268 0,29778313

lowhigh 0,46015743 0,71623413 0,39879105 0,86315218 0,7981531

normal 0,00039992 0,00039992 0,00060219 0,00039992 0,00076355

2block 0,00100702 0,00039992 0,0015495 0,00039992 0,00101851

even 0,00077078 0,0010336 0,00039992 0,00044628 0,00111259

lowhigh 0,00163917 0,00039992 0,0014434 0,00039992 0,00039992

differences 0,51429714 0,99940012 0,62747451 0,95960808 0,83443311

normal 0,00679864 0,01119776 0,00019996 0,00019996 0,00019996

2block 0,00019996 0,0039992 0,00019996 0,00019996 0,00019996

even 0,02239552 0,00279944 0,15876825 0,00019996 0,00039992

lowhigh 0,00019996 0,00919816 0,01279744 0,00019996 0,00039992

differences 0,30373925 0,99820036 0,00179964 0,65446911 0,05738852

Tab. B.1: Fall C

B.2 Beispielsfall D

Zum Testen der Technik wurde u. a. auch die Einnahmen eines Lebensmittelmarktes untersucht.

Es ist zu erwarten, dass aufgrund der Verwendung einer Registrierkasse ohne Z-Zähler

die Daten relativ leicht manipulierbar sind. Nach Aussage der Behörden sind diese Daten auch

tatsächlich manipuliert. In diesen Daten wird auch die Ein-Cent Position nicht-trivial genutzt.


Test vertikal horizontal

Ziffer 100Euro 10Euro 1Euro 10cent 1cent 1Euro/10cent 10cent/1cent

Verteilung 0,00339932 0,01219756 0,00039992 0,86062787 0,14977005 0,00419916 0,31133773

normal 0,05238952 0,27454509 0,00179964 0,74925015 0,29834033 0,09618076 0,76844631

2block 0,77464507 0,13237353 0,00519896 0,38012398 0,08278344 0,019996 0,53589282

even 0,01999148 0,72896993 0,8187271 0,2572402 0,57311315 0,57314577 0,22961469

lowhigh 1 0,05928469 0,0730663 0,81855885 0,3593664 0,21918977 0,62654659

Einzeltests

normal 0,00293737 0,03558323 0,000019804 0,5 0,24324053 0,0060001 0,5

2block 0,00679864 0,01951238 0,000052799 0,5 0,09928423 0,00151119 0,5

even 0,00125182 0,02439512 0,00079984 0,5 0,29954009 0,00839832 0,32197143

lowhigh 0,00679864 0,00990054 0,00058759 0,5 0,27296235 0,01215754 0,5

differences 0,07358528 0,59168166 0,09918016 0,62747451 0,63647271 0,5074985 0,84943011

kombinierte

Hypothese

Tab. B.2: Fall D: Lebensmittelmarkt

- 72 -

normal 0,00039992 0,01439712 0,00019996 0,92281544 0,13537293 0,50009998 0,85162967

2block 0,00519896 0,00019996 0,00019996 0,53589282 0,04999 0,48710258 0,84403119

even 0,03279344 0,23235353 0,12317536 0,57388522 0,44671066 0,49790042 0,85662867

lowhigh 0,00019996 0,00039992 0,00019996 0,98480304 0,46070786 0,50489902 0,87002599

differences 0,00119976 0,41731654 0,11117776 0,48410318 0,68526295 0,69786043 0,80563887

kombinierter

Test


- 73 -

B.3 Beispielsfall E

In einem weiteren Fall zur Überprüfung der Methodik handelt es sich um eine Stehpizzeria.

Auch diese Zahlen sind nach Auskunft der Behörden manipuliert. Die Daten sind frei von Cent-

Beträgen, d. h. erst auf der letzten ganzen Euro-Stelle erscheinen Ziffern ungleich 0.

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10Euro/1Euro

Verteilung 0,46490702 0,33413317 0,78284343

normal 0,24935013 0,67246551 0,4965007

2block 0,3865227 0,08338332 0,5604879

even 0,0380992 0,90873068 0,25848149

lowhigh 0,20392687 0,42356007 0,80791831

normal 0,4100302 0,5 0,5

2block 0,5 0,17798964 0,5

even 0,12920218 0,5 0,5

lowhigh 0,37346715 0,5 0,5

differences 0,16076785 0,52789442 0,33473305

normal 0,41791642 0,72465507 0,68826235

2block 0,23575285 0,19456109 0,83883223

even 0,0529894 0,0869826 0,44731054

lowhigh 0,039992 0,87102579 0,29834033

differences 0,26554689 0,26094781 0,26114777

Tab. B.3: Fall E: Stehpizzeria

B.4 Beispielsfall F

Bei diesem Fall handelt es sich um Zahlenreihen einer nicht näher beschriebenen Eisdiele. Es

liegen Tageseinnahmen für die zwei Jahre 2001 und 2003 vor. Auch hier werden von den Behörden

Manipulationen erwartet. Für das Jahr 2001 sind die Daten auf ganze Euro angegeben,

für 2003 gibt es auch eine nicht-triviale 10-Cent Stelle.


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 74 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10Euro/1Euro

Verteilung 0,28294341 0,96160768 0,41571686

normal 0,11837632 0,23375325 0,07178564

2block 0,97280544 0,30673865 0,90481904

even 0,29630928 0,60171342 0,71218948

lowhigh 0,91526482 0,02060281 0,05302447

normal 0,20163942 0,4675065 0,18654711

2block 0,5 0,5 0,5

even 0,5 0,5 0,5

lowhigh 0,5 0,04120562 0,15114814

differences 0,42191562 0,009998 0,02019596

normal 0,11017796 0,77204559 0,10937812

2block 0,9190162 0,73865227 0,92361528

even 0,42891422 0,80403919 0,63467307

lowhigh 0,02259548 0,10777844 0,019996

differences 0,18516297 0,00639872 0,00239952

Tab. B.4: Fall F: Eisdiele 2001

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,11337732 0,00019996 0,00019996 0,00059988 0,00019996

normal 0,50269946 0,23615277 0,64947011 0,76404719 0,67226555

2block 0,13177365 0,13997201 0,61627674 0,35352929 0,69526095

even 0,67492816 0,91625814 0,62418991 0,88266337 0,47988569

lowhigh 0,91653113 0,24907853 0,38483626 0,33527046 0,70709998

normal 0,22675466 0,00090423 0,00039992 0,00119976 0,00039992

2block 0,11406528 0,00056523 0,00039992 0,00342386 0,00039992

even 0,22675466 0,00039992 0,00039992 0,00119976 0,00170139

lowhigh 0,22675466 0,00094841 0,00139837 0,00326836 0,00039992

differences 0,33073385 0,79044191 0,32513497 0,4295141 0,67306539

normal 0,18796241 0,00019996 0,00019996 0,00279944 0,00019996

2block 0,0059988 0,0079984 0,00019996 0,01619676 0,00019996

even 0,66746651 0,03879224 0,00019996 0,61867626 0,00019996

lowhigh 0,99940012 0,44311138 0,00019996 0,65286943 0,00019996

differences 0,29274145 0,52689462 0,01319736 0,16556689 0,26794641

Tab. B.5: Fall F: Eisdiele 2003

B.5 Beispielsfall G

Hierbei handelt es sich wieder einmal um eine Eisdiele, welche nicht näher bezeichnet ist. Für

diese liegen sowohl die echten als auch die manipulierten Tageseinnahmen des Jahres 2005 vor.


- 75 -

Bei den Originalangaben treten vereinzelte nicht-triviale 10-Cent Stellen auf, die manipulierten

sind auf ganze Euro gerundet.

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Notizbuch Kassenbuch

Daten Lokal Fenster Total Lokal Fenster Total

Verteilung 0,71985603 0,80783843 0,9240152 0,80463907 0,00019996 0,64007199

normal 0,04119176 0,44971006 0,12557489 0,22855429 0,51229754 0,47370526

2block 0,18736253 0,15796841 0,01579684 0,0059988 0,34253149 0,78104379

even 0,59815807 0,91511276 1 0,83144496 0,74253656 0,91406927

lowhigh 0,52319751 1 0,338639 0,1111969 0,91479043 0,24421056

normal 0,08238352 0,5 0,25114977 0,45710858 0,00039992 0,5

2block 0,37472506 0,31593681 0,03159368 0,0119976 0,00126061 0,5

even 0,5 0,5 0,5 0,5 0,00039992 0,5

lowhigh 0,5 0,5 0,5 0,22239381 0,00039992 0,48842113

differences 0,03799240 0,04419116 0,26234753 0,71025795 0,83963207 0,90581884

normal 0,09158168 0,58928214 0,3885223 0,38512298 0,00179964 0,61627674

2block 0,51749650 0,29074185 0,04959008 0,039992 0,05578884 0,81903619

even 0,95640872 0,98560288 0,93661268 0,59828034 0,00119976 0,63087383

lowhigh 0,640471906 0,98120376 0,73645271 0,30553889 0,15676865 0,63587283

differences 0,03479304 0,00779844 0,26274745 0,40391922 0,72945411 0,86002799

Tab. B.6: Fall G: Eisdiele 2005, 1Euro

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Notizbuch Kassenbuch

Test Lokal Fenster Total Lokal Fenster Total

Verteilung 0,294141172 0,00079984 0,35672865 0,03019396 0,00339932 0,6074785

normal 0,215556889 0,40691862 0,01159768 0,96980604 0,04359128 0,01619676

2block 0,060187962 0,21135773 0,28154369 0,80403919 0,0209958 0,1119776

even 0,470342007 0,34368418 0,59400836 0,91762075 0,65477603 0,19987696

lowhigh 0,241866467 0,39501227 0,67054317 0,16703098 1 0,29021354

normal 0,300780631 0,00497575 0,04221157 0,06038792 0,00249856 0,03239352

2block 0,129155428 0,00280593 0,5 0,06038792 0,00130771 0,22395521

even 0,5 0,00429538 0,5 0,06038792 0,00679864 0,39975392

lowhigh 0,32110635 0,00484892 0,5 0,04945885 0,00679864 0,5

differences 0,74585083 0,24275145 0,27734453 0,51729654 0,00359928 0,37412517

normal 0,059988002 0,00179964 0,01119776 0,36572685 0,00019996 0,09278144

2block 0,215756849 0,06738652 0,70765847 0,01319736 0,00019996 0,12717457

even 0,563487303 0,13197361 0,52589482 0,97540492 0,00479904 0,38512298

lowhigh 0,49710058 0,77504499 0,84683063 0,35052989 0,16976605 0,73585283

differences 0,73985203 0,04979004 0,14977005 0,43231354 0,00579884 0,28414317

Tab. B.7: Fall G: Eisdiele 2005, 10Euro


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 76 -

Notizbuch Kassenbuch

Test Lokal Fenster Total Lokal Fenster Total

Verteilung 0,00019996 0,00019996 0,00019996 0,00019996 0,00019996 0,00019996

normal 0,00019996 0,00019996 0,10557888 0,00019996 1 0,00019996

2block 0,00859828 0,00039992 0,14497101 0,00019996 1 0,00019996

even 0,66817092 0,13259283 0,28343288 0,00000001 1 0,00000019

lowhigh 0,39331577 0,05358236 0,39492144 0,00000430 1 0,00000418

normal 0,00000133 0,00000133 0,00043825 0,00000133 0,00039992 0,00000133

2block 0,00004431 0,00000255 0,00058338 0,00000133 0,00039992 0,00000133

even 0,00039992 0,0005383 0,00106457 0 0,00039992 0,00000000

lowhigh 0,00142576 0,00023695 0,00143094 0,00000003 0,00039992 0,00000003

differences 0,47130574 0,00019996 0,0 0,00019996 0,0 0,00019996

normal 0,00019996 0,00019996 0,00019996 0,00019996 0,00019996 0,00019996

2block 0,00019996 0,00019996 0,00019996 0,00019996 0,00019996 0,00019996

even 0,25874825 0,02659468 0,62947411 0,00019996 0,00019996 0,00019996

lowhigh 0,29054189 0,00839832 0,73625275 0,00019996 0,00019996 0,00019996

differences 0,00019996 0,00019996 0,00019996 0,00019996 0,00019996 0,00019996

Tab. B.8: Fall G: Eisdiele 2005, 10cent

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Notizbuch Kassenbuch

Test Lokal Fenster Total Lokal Fenster Total

Verteilung 0,85922815 0,00939812 0,43271346 0,20015997 0,00079984 0,45990802

normal 0,09178164 0,43471306 0,37592482 0,73625275 0,01019796 0,71445711

2block 0,07018596 0,24095181 0,55708858 0,0129974 0,00159968 0,71065787

even 0,9411017 0,54996006 0,76386932 0,94089664 0,93757714 0,40539954

lowhigh 0,15378425 0,49937871 0,29333575 0,03550789 1 0,1148965

normal 0,18356329 0,04178651 0,5 0,40031994 0,00018484 0,5

2block 0,14037193 0,02583384 0,5 0,02895718 0,00003373 0,5

even 0,5 0,01879624 0,5 0,40031994 0,00159968 0,5

lowhigh 0,30756849 0,04670076 0,5 0,06482309 0,00159968 0,26993273

differences 0,21195761 0,00959808 0,59328134 0,71385723 0,13497301 0,47610478

normal 0,18116377 0,0179964 0,3875225 0,4395121 0,00019996 0,85502899

2block 0,29354129 0,36952609 0,76744651 0,00159968 0,00019996 0,63487303

even 0,83883223 0,34473105 0,77764447 0,8980204 0,00019996 0,76224755

lowhigh 0,53829234 0,82303539 0,75184963 0,19216157 0,01459708 0,45410918

differences 0,31653669 0,0009998 0,4945011 0,29494101 0,13877225 0,37352529

Tab. B.9: Fall G: Eisdiele 2005, 10Euro/1Euro

B.6 Beispielsfall H

Zu diesem Fall gibt es keine nähere Beschreibung. Es liegen die gemeldeten und die wahren

Tagesumsätze für die Jahre 1998, 1999 und 2001–2003 vor. Diese sind auf die 10-Cent-Stelle

genau notiert.


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 77 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,4095181 0,98120376 0,15896821 0,87082584 0,85882823

normal 0,17116577 0,52809438 0,80623875 0,32453509 0,95100978

2block 0,34873025 0,27854429 0,45370926 0,29274145 0,74945011

even 0,34348321 0,11900707 0,52591012 0,088544805 0,65790814

lowhigh 0,24555413 0,67647976 0,21048841 0,60338211 0,23600301

normal 0,31845815 0,5 0,31793641 0,5 0,5

2block 0,5 0,5 0,3235623 0,5 0,5

even 0,5 0,23801414 0,31793641 0,17708961 0,5

lowhigh 0,38427919 0,5 0,20150738 0,5 0,47200602

differences 0,02819436 0,60927814 0,09198160 0,24935013 0,41431714

normal 0,13957209 0,93141372 0,50269946 0,554689062 0,97700460

2block 0,19516097 0,73085383 0,77024595 0,331733653 0,96940612

even 0,4445111 0,20835833 0,02979404 0,150569886 0,75804839

lowhigh 0,05038992 0,95600880 0,62407519 0,209558088 0,59388122

differences 0,03059388 0,65106979 0,10497900 0,228554289 0,48050390

Tab. B.10: Fall H: 1998, unverändert

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,00039992 0,02879424 0,00019996 0,00019996 0,00019996

normal 0,60027994 0,14077185 0,00639872 0,24495101 0,01139772

2block 0,23015397 0,13677265 0,00259948 0,38172366 0,0129974

even 0,40487479 0,33585700 0,83548095 0,20502383 0,76937851

lowhigh 0,74223684 1,0 0,01151110 0,65205291 0,39811843

normal 0,00079984 0,04152241 0,00003373 0,00093433 0,00005746

2block 0,00163965 0,04056980 0,00001464 0,0013883 0,00006484

even 0,00270147 0,08224691 0,00039992 0,00079662 0,00039992

lowhigh 0,00079984 0,05758848 0,00005798 0,00039992 0,00144124

differences 0,74305139 0,15696861 0,00719856 0,33553289 0,12277544

normal 0,00239952 0,01959608 0,00019996 0,00019996 0,00019996

2block 0,00019996 0,38172366 0,00019996 0,0009998 0,00019996

even 0,00319936 0,01179764 0,00019996 0,00019996 0,19016197

lowhigh 0,00019996 0,96780644 0,00019996 0,00019996 0,00019996

differences 0,13037393 0,30553889 0,004999 0,31793641 0,0329934

Tab. B.11: Fall H: 1998, manipuliert


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 78 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,97640472 0,67506499 0,30913817 0,94281144 0,23315337

normal 0,32913417 0,86022795 0,69086183 0,59668066 0,64607079

2block 0,09178164 0,62907419 0,69406119 0,49390122 0,76624675

even 1 0,03440255 0,75323295 0,11692488 0,23310959

lowhigh 0,91653113 0,34611589 0,11570795 0,60342888 0,65559447

normal 0,5 0,5 0,5 0,5 0,46630674

2block 0,18356329 0,5 0,5 0,5 0,46630674

even 0,5 0,06880509 0,5 0,23384977 0,27457885

lowhigh 0,5 0,5 0,21063792 0,5 0,46630674

differences 0,72125575 0,40671866 0,5764847 0,3935213 0,53869226

normal 0,61427714 0,92541492 0,63947211 0,83663267 0,5434913

2block 0,40331934 0,68206359 0,76964607 0,6034793 0,74785043

even 0,82523495 0,0339932 0,23535293 0,3845231 0,03439312

lowhigh 0,99940012 0,3845231 0,44811038 0,75804839 0,66686663

differences 0,5424915 0,27234553 0,63227355 0,39992002 0,59028194

Tab. B.12: Fall H: 1999, unverändert

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,16116777 0,11877624 0,00019996 0,06738652 0,00019996

normal 0,8790242 0,28334333 0,43231354 0,72045591 0,21695661

2block 0,29714057 0,17856429 0,14737053 0,22495501 0,04819036

even 0,24429933 0,11741726 0,42362068 0,02198584 0,07460994

lowhigh 0,52619513 0,04509963 0,57247338 0,33189582 0,03250649

normal 0,32233553 0,20228452 0,00155078 0,13477305 0,00083808

2block 0,25405993 0,14706567 0,00059207 0,11529495 0,00021515

even 0,22429924 0,10839799 0,00152304 0,01815897 0,00032006

lowhigh 0,32233553 0,05188671 0,00039992 0,15270807 0,00015025

differences 0,19276145 0,03579284 0,60487902 0,04519096 0,03519296

normal 0,54769046 0,07558488 0,00019996 0,37352529 0,00019996

2block 0,20615877 0,06878624 0,00019996 0,06658668 0,00019996

even 0,45190962 0,0009998 0,00019996 0,024995 0,03019396

lowhigh 0,15356929 0,0489902 0,00019996 0,02439512 0,00019996

differences 0,06318736 0,26194761 0,35632873 0,10617876 0,35332933

Tab. B.13: Fall H: 1999, manipuliert


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 79 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,75264947 0,4115177 0,81683663 0,71985603 0,19576085

normal 0,16576685 0,34033193 0,93061388 0,50469906 0,85642871

2block 0,65186963 0,74965007 0,56628674 0,53569286 0,66726655

even 0,00032076 0,21556486 0,53225082 0,10421005 0,16406203

lowhigh 0,29446252 0,83437416 0,75367561 0,55324322 0,60412805

normal 0,33153369 0,5 0,5 0,5 0,3915217

2block 0,5 0,5 0,5 0,5 0,3915217

even 0,00064152 0,36124021 0,5 0,20842009 0,19604669

lowhigh 0,5 0,5 0,5 0,5 0,3915217

differences 0,03179364 0,16056789 0,65406919 0,0439912 0,17196561

normal 0,52869426 0,36992601 0,92421516 0,75344931 0,59028194

2block 0,81483703 0,64407119 0,80943811 0,71465707 0,53209358

even 0,00079984 0,38512298 0,4455109 0,35752849 0,5054989

lowhigh 0,70725855 0,83623275 0,79524095 0,78344331 0,5234953

differences 0,02939412 0,45110978 0,70825835 0,11677664 0,48190362

Tab. B.14: Fall H: 2001, unverändert

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,48330334 0,67366527 0,95520896 0,83063387 0,74245151

normal 0,67606479 0,52669466 0,9080184 0,43291342 0,92181564

2block 0,55428914 0,16436713 0,74625075 0,36812637 0,37992402

even 0,52441642 0,06288376 0,03739029 0,06379153 0,00511121

lowhigh 0,17122764 0,13847488 0,75320291 0,04485218 0,41440724

normal 0,5 0,5 0,5 0,5 0,5

2block 0,5 0,32873425 0,5 0,5 0,5

even 0,5 0,12576752 0,07478059 0,12758307 0,01022242

lowhigh 0,34849372 0,27694977 0,5 0,08970435 0,5

differences 0,48370326 0,82163567 0,5054989 0,79204159 0,63367327

normal 0,47190562 0,5544891 0,9840032 0,61727654 0,94541092

2block 0,18356329 0,25414917 0,92461508 0,65566887 0,63267347

even 0,71465707 0,23955209 0,14557089 0,26774645 0,0239952

lowhigh 0,29094181 0,0569886 0,98060388 0,21095781 0,4355129

differences 0,54309138 0,78724255 0,50769846 0,75584883 0,5554889

Tab. B.15: Fall H: 2001, manipuliert


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 80 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,33353329 0,21235753 0,62747451 0,10877824 0,63827235

normal 0,5414917 0,25474905 0,09618076 0,36832633 0,36072785

2block 0,21435713 0,04539092 0,22375525 0,09558088 0,10277944

even 0,83638513 0,91758866 0,75272768 0,82613235 0,76776957

lowhigh 0,3434628 0,24276111 0,45918053 0,13428849 0,15410627

normal 0,5 0,27380732 0,19236153 0,22684792 0,5

2block 0,32199026 0,08204097 0,4475105 0,08691852 0,20555889

even 0,5 0,42471506 0,5 0,21755649 0,5

lowhigh 0,5 0,26589228 0,5 0,11218438 0,30821254

differences 0,95380924 0,59388122 0,05438912 0,61307738 0,27834433

normal 0,74245151 0,21575685 0,21135773 0,30473905 0,43691262

2block 0,19356129 0,00939812 0,19916017 0,01039792 0,03819236

even 0,08058388 0,9010198 0,80123975 0,35172965 0,97280544

lowhigh 0,42371526 0,11417716 0,56028794 0,03559288 0,05058988

differences 0,85082983 0,5104979 0,01579684 0,37172565 0,17136573

Tab. B.16: Fall H: 2002, unverändert

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,00019996 0,17696461 0,84263147 0,14197161 0,39532094

normal 0,05618876 0,61987602 0,72765447 0,18756249 0,55368926

2block 0,50369926 0,51409718 0,92641472 0,24675065 0,95140972

even 0,74815923 0,75371199 1 1 0,82479382

lowhigh 0,25706818 0,34375564 0,91604548 0,59792801 0,60191552

normal 0,00024741 0,35392922 0,5 0,17252514 0,5

2block 0,00039992 0,35392922 0,5 0,20775209 0,5

even 0,00039992 0,35392922 0,5 0,28394321 0,5

lowhigh 0,00097559 0,29361885 0,5 0,28394321 0,5

differences 0,30553889 0,27314537 0,99160168 0,21375725 0,81043791

normal 0,00019996 0,45790842 0,80063987 0,14357129 0,4795041

2block 0,00019996 0,79004199 0,94661068 0,02119576 0,96720656

even 0,66806639 0,01739652 0,93981204 0,51209758 0,10557888

lowhigh 0,00019996 0,64607079 0,44931014 0,00039992 0,31473705

differences 0,38612278 0,10577884 0,84363127 0,16596681 0,53909218

Tab. B.17: Fall H: 2003, manipuliert


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 81 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,36152769 0,25934813 0,82783443 0,62847431 0,51709658

normal 0,78364327 0,78564287 0,85822835 0,77584483 0,71265747

2block 0,5204959 0,78924215 0,94541092 0,81103779 0,95840832

even 0,6562927 0,81742632 1 0,75075125 0,9358365

lowhigh 0,0323826 0,21786473 0,17961569 0,52583128 0,05755377

normal 0,5 0,5 0,5 0,5 0,5

2block 0,5 0,5 0,5 0,5 0,5

even 0,5 0,5 0,5 0,5 0,5

lowhigh 0,09509194 0,28106425 0,35923139 0,5 0,11510754

differences 0,34593081 0,46990602 0,86462707 0,34793041 0,51709658

normal 0,65366927 0,51829634 0,93341332 0,76244751 0,57828434

2block 0,06658668 0,68626275 0,93221356 0,6044791 0,9740052

even 0,65066987 0,044991 0,93341332 0,57788442 0,36272745

lowhigh 0,02459508 0,52989402 0,58008398 0,18996201 0,24095181

differences 0,48570286 0,29554089 0,98580284 0,21115777 0,53929214

Tab. B.18: Fall H: 2003, unverändert

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,03019396 0,25694861 0,46070786 0,03979204 0,16156769

normal 0,01279744 0,38532294 0,60167966 0,17276545 0,76624675

2block 0,84963007 0,32413517 0,91781644 0,68386323 0,71565687

even 0,14318296 0,07504611 1 0,82476019 0,16026767

lowhigh 0,4593762 0,75254077 0,59923129 0,76593915 0,45794088

normal 0,0057747 0,5 0,5 0,06315935 0,32313537

2block 0,06038792 0,5 0,5 0,07958408 0,32313537

even 0,04372936 0,1373812 0,5 0,07958408 0,16921503

lowhigh 0,1079589 0,5 0,5 0,07958408 0,32814646

differences 0,03859228 0,32493501 0,67246551 0,11257748 0,81843631

normal 0,0059988 0,33633273 0,63687263 0,05518896 0,69526095

2block 0,23455309 0,34453109 0,85642871 0,0959808 0,75584883

even 0,45510898 0,0009998 0,98640272 0,06658668 0,02539492

lowhigh 0,03239352 0,9840032 0,94641072 0,19676065 0,89082184

differences 0,0609878 0,19936013 0,6064787 0,20515897 0,65366927

Tab. B.19: Fall H: 2003, manipuliert

B.7 Beispielsfall I

Auch in diesem, nicht näher bezeichneten Fall liegen sowohl gemeldete als auch tatsächliche

Tagesumsätze für das Jahr 1997 vor. Diese sind jeweils auf die 10-Cent-Stelle genau notiert.


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 82 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,79664067 0,98160368 0,47530494 0,77724455 0,76144771

normal 0,66586683 0,31773645 0,76324735 0,55788842 0,82043591

2block 0,044991 0,66166767 0,91921616 0,53089382 0,71085783

even 0,67850959 0,09643928 0,83417902 0,4181357 0,33728927

lowhigh 0,83329769 0,75320275 0,20590296 0,65614645 0,50379545

normal 0,5 0,5 0,5 0,5 0,5

2block 0,089982 0,5 0,5 0,5 0,5

even 0,5 0,19287856 0,5 0,5 0,5

lowhigh 0,5 0,5 0,37930286 0,5 0,5

differences 0,99920016 0,5604879 0,9410118 0,875025 0,5844831

normal 0,78764247 0,66406719 0,75184963 0,73105379 0,92141572

2block 0,29754049 0,87002599 0,79084183 0,82643471 0,85002999

even 0,41011798 0,20515897 0,71545691 0,19256149 0,28814237

lowhigh 0,56288742 0,9910018 0,08358328 0,75764847 0,43031394

differences 0,99720056 0,58388322 0,9030194 0,87482503 0,66366727

Tab. B.20: Fall I: unverändert

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,67906419 0,0719856 0,00019996 0,09138172 0,00019996

normal 0,089982 0,06158768 0,02939412 0,36432713 0,07618476

2block 0,28654269 0,17776445 0,00619876 0,16076785 0,10437912

even 0,01629263 0,10171174 1 0,00758865 0,87152456

lowhigh 0,35991875 0,10846092 0,15279279 0,07473723 0,61261325

normal 0,17996401 0,04462056 0,00013704 0,20083031 0,00032618

2block 0,5 0,10166268 0,00003276 0,1126586 0,00043375

even 0,03258525 0,06634423 0,00039992 0,00955249 0,00039992

lowhigh 0,5 0,06974333 0,00061165 0,0628351 0,00039992

differences 0,0159968 0,09338132 0,00119976 0,05758848 0,00239952

normal 0,17536493 0,0379924 0,00019996 0,13117377 0,00019996

2block 0,52469506 0,14277145 0,00019996 0,07318536 0,00019996

even 0,0969806 0,00039992 0,00019996 0,0039992 0,20295941

lowhigh 0,61127774 0,28334333 0,00019996 0,35392921 0,00019996

differences 0,01819636 0,0759848 0,0129974 0,04939012 0,014997

Tab. B.21: Fall I: manipuliert

B.8 Beispielsfall J

Ein weiterer nicht näher beschriebener Fall. Wieder mit in der Buchführung offiziell erfassten

und parallel notierten tatsächlichen Tagesumsätzen. Beide Datenreihen sind für die Jahre

2004–2007 vorhanden. Die Daten sind (in allen Datenreihen) bis auf 10-Cent exakt notiert. In

einzelnen Fällen treten bei der letzten Cent-Ziffer auch Fünfer auf.


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 83 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,29474105 0,08818236 0,59828034 0,27674465 0,14357129

normal 0,55468906 0,5534893 0,49130174 0,980004 0,76304739

2block 0,62667467 0,66086783 0,80063987 0,83703259 0,80443911

even 0,4396019 1 0,19212634 0,64807875 0,361295

lowhigh 0,36901024 0,79538023 0,36553089 0,41225596 0,58471428

normal 0,5 0,17636473 0,5 0,5 0,28714258

2block 0,5 0,17636473 0,5 0,5 0,28714258

even 0,5 0,17636473 0,38425268 0,5 0,26689901

lowhigh 0,5 0,17636473 0,5 0,5 0,28714258

differences 0,30113977 0,22835433 0,80723855 0,4765047 0,33553289

normal 0,39232154 0,24715057 0,36072785 0,94061188 0,46490702

2block 0,5624875 0,09978004 0,94921016 0,47270546 0,74925015

even 0,75404919 0,79064187 0,00619876 0,9120176 0,02559488

lowhigh 0,74865027 0,43011398 0,5984803 0,38892222 0,90081984

differences 0,60587882 0,18256349 0,74365127 0,4655069 0,32873425

Tab. B.22: Fall J: Kasse 2004, unverändert

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,97020596 0,90681864 0,68326335 0,99640072 0,85002999

normal 0,20715857 0,41231754 0,58468306 0,13357329 0,41631674

2block 0,58528294 0,00119976 0,77884423 0,0339932 0,0529894

even 0,60316582 0,52716535 0,35840223 0,36509464 0,23853893

lowhigh 0,15532689 0,43863066 0,51819601 0,10095811 0,23649008

normal 0,41431714 0,5 0,5 0,26714657 0,5

2block 0,5 0,00239952 0,5 0,0679864 0,1059788

even 0,5 0,5 0,5 0,5 0,47707786

lowhigh 0,31065378 0,5 0,5 0,20191622 0,47298016

differences 0,67566487 0,59688062 0,95980804 0,68586283 0,85462907

normal 0,49310138 0,81363727 0,62827435 0,48130374 0,47470506

2block 0,9110178 0,01539692 0,86082783 0,19776045 0,18496301

even 0,58068386 0,81223755 0,09258148 0,72645471 0,30093981

lowhigh 0,46690662 0,84983003 0,27334533 0,40091982 0,39812038

differences 0,61087782 0,30553889 0,97820436 0,5974805 0,65546891

Tab. B.23: Fall J: Kasse 2004, manipulierte


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 84 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,86922615 0,30373925 0,29834033 0,66866627 0,08318336

normal 0,38512298 0,94241152 0,5724855 0,49010198 0,84063187

2block 0,69406119 0,31113777 0,37572486 0,18156369 0,5374925

even 0,17416052 0,89252311 0,78669258 0,33997934 0,92380273

lowhigh 0,34698727 0,785004 0,49771643 0,38880151 0,77438562

normal 0,5 0,5 0,5 0,5 0,16636673

2block 0,5 0,5 0,5 0,36312738 0,16636673

even 0,34832103 0,5 0,5 0,5 0,16636673

lowhigh 0,5 0,5 0,5 0,5 0,16636673

differences 0,77624475 0,89962008 0,77864427 0,86242751 0,85462907

normal 0,65506899 0,87582484 0,47690462 0,69266147 0,52109578

2block 0,80303939 0,46470706 0,17356529 0,20875825 0,4915017

even 0,24115177 0,52169566 0,87962408 0,70505899 0,5694861

lowhigh 0,79744051 0,33393321 0,27754449 0,6124775 0,99040192

differences 0,6204759 0,95720856 0,41411718 0,75344931 0,65006999

Tab. B.24: Fall J: Kasse 2005, unverändert

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,75044991 0,42311538 0,00359928 0,73425315 0,05138972

normal 0,10857828 0,66166767 0,77464507 0,81243751 0,84483103

2block 0,80943811 0,32633473 0,67446511 0,17756449 0,50429914

even 0,25940026 0,8859695 0,2697147 0,6213704 0,48566871

lowhigh 0,68664185 0,59035962 0,22265331 0,5035718 0,24945527

normal 0,21715657 0,5 0,00719856 0,5 0,10277944

2block 0,5 0,5 0,00719856 0,35512898 0,10277944

even 0,5 0,5 0,01271937 0,5 0,16493752

lowhigh 0,5 0,5 0,01080735 0,5 0,10179911

differences 0,4645071 0,0839832 0,88962208 0,52109578 0,34413117

normal 0,39632074 0,70485903 0,05778844 0,82883423 0,30593881

2block 0,94981004 0,67346531 0,69886023 0,49370126 0,73345331

even 0,04379124 0,07478504 0,01219756 0,94921016 0,00119976

lowhigh 0,92421516 0,86802639 0,15756849 0,91841632 0,17336533

differences 0,42711458 0,04719056 0,33153369 0,37972406 0,14957009

Tab. B.25: Fall J: Kasse 2005, manipulierte


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 85 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,21615677 0,32033593 0,80223955 0,44091182 0,88562288

normal 0,19696061 0,72165567 0,04419116 0,95001 0,23095381

2block 0,18756249 0,85242951 0,16236753 0,66726655 0,4805039

even 0,61488315 0,86488425 0,42710306 0,90490795 0,48600171

lowhigh 0,40425667 1 0,1330578 0,48012789 0,34746762

normal 0,23587976 0,5 0,08838232 0,5 0,46190762

2block 0,22858901 0,5 0,32473505 0,5 0,5

even 0,43231354 0,5 0,5 0,5 0,5

lowhigh 0,35847267 0,5 0,26611561 0,5 0,5

differences 0,5264947 0,81463707 0,35352929 0,84443111 0,42211558

normal 0,12177564 0,72925415 0,10877824 0,8940212 0,49910018

2block 0,27494501 0,98280344 0,36412717 0,85502899 0,87762448

even 0,30713857 0,33053389 0,4465107 0,14637073 0,27274545

lowhigh 0,52009598 0,9990002 0,4015197 0,74525095 0,78544291

differences 0,42571486 0,49370126 0,20335933 0,64847031 0,4735053

Tab. B.26: Fall J: Kasse 2006, unverändert

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,54789042 0,86382723 0,64987003 0,5694861 0,86062787

normal 0,03159368 0,41491702 0,63127375 0,00779844 0,31553689

2block 0,70185963 0,25834833 0,3915217 0,5064987 0,25114977

even 0,62464022 0,5134328 0,73923926 0,35584865 0,48473447

lowhigh 1 0,61568007 0,13197611 1 0,41106228

normal 0,06318736 0,5 0,5 0,01559688 0,5

2block 0,5 0,5 0,5 0,5 0,5

even 0,5 0,5 0,5 0,5 0,5

lowhigh 0,5 0,5 0,26395222 0,5 0,5

differences 0,73805239 0,55528894 0,61207758 0,5474905 0,82523495

normal 0,07958408 0,64267147 0,76164767 0,01519696 0,6064787

2block 0,95440912 0,36232753 0,19876025 0,54189162 0,48970206

even 0,77164567 0,5444911 0,57908418 0,5064987 0,45610878

lowhigh 0,9990002 0,21415717 0,18056389 0,62907419 0,80563887

differences 0,76364727 0,63187363 0,52489502 0,76324735 0,82243551

Tab. B.27: Fall J: Kasse 2006, manipulierte


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 86 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,04179164 0,456708658 0,175164967 0,478104379 0,075184963

normal 0,55088982 0,307138572 0,885222955 0,50829834 0,634473105

2block 0,72525495 0,75124975 0,645270946 0,592081584 0,776044791

even 1 0,901084835 0,387335727 1 0,541567105

lowhigh 0,62514512 0,540408341 0,178209969 1 0,141229144

normal 0,08358328 0,5 0,350329934 0,5 0,150369926

2block 0,08358328 0,5 0,350329934 0,5 0,150369926

even 0,08358328 0,5 0,31266859 0,5 0,150369926

lowhigh 0,08358328 0,5 0,192324254 0,5 0,088320564

differences 0,88862228 0,714257149 0,365726855 0,805038992 0,476504699

normal 0,20395921 0,401719656 0,765046991 0,762847431 0,271345731

2block 0,79944011 0,953809238 0,202159568 0,649470106 0,532493501

even 0,00039992 0,691661668 0,104979004 0,113977205 0,636072785

lowhigh 0,94921016 0,473905219 0,120175965 0,814637073 0,044591082

differences 0,89122176 0,517296541 0,409918016 0,708858228 0,454909018

Tab. B.28: Fall J: Kasse 2007, unverändert

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,27554489 0,89482104 0,84243151 0,65226955 0,77784443

normal 0,95640872 0,39412118 0,66266747 0,72425515 0,27774445

2block 0,99880024 0,28854229 0,83083383 0,76404719 0,53389322

even 0,62514685 0,18198335 0,53895702 0,6670893 0,73111069

lowhigh 0,39163733 1 0,71354824 0,54468968 0,79516631

normal 0,5 0,5 0,5 0,5 0,5

2block 0,5 0,5 0,5 0,5 0,5

even 0,5 0,3639667 0,5 0,5 0,5

lowhigh 0,5 0,5 0,5 0,5 0,5

differences 0,70725855 0,91281744 0,66286743 0,71685663 0,59508098

normal 0,91141772 0,5724855 0,85502899 0,83183363 0,4185163

2block 0,67106579 0,57508498 0,94161168 0,85562887 0,69386123

even 0,9370126 0,04239152 0,70365927 0,26534693 0,63827235

lowhigh 0,33393321 0,50529894 0,55068986 0,16836633 0,24555089

differences 0,58868226 0,85322935 0,8760248 0,65046991 0,73185363

Tab. B.29: Fall J: Kasse 2007, manipulierte

B.9 Beispielsfall K

In diesem Fall geht es um ein nicht näher beschriebenes Restaurant, für welches eine parallele

Aufzeichnung der Tagesumsätze für die Jahre 1996–1998 gefunden wurde. Die Datenreihe für

1996 ist leider nur sehr kurz (28 Beobachtungen). Die Zahlen sind bis auf die 10-Cent-Stelle

genau notiert.


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 87 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,39232154 0,4545091 0,4765047 0,65406919 0,27114577

normal 0,69006199 1 0,98220356 0,90381924 0,9640072

2block 0,19196161 0,97580484 0,82323535 0,4465107 0,87782444

even 1 0,71524919 0,69131781 0,7826154 1

lowhigh 0,0542379 1 0,12834612 0,27805107 0,28234193

normal 0,5 0,5 0,5 0,5 0,5

2block 0,33134272 0,5 0,5 0,5 0,5

even 0,5 0,5 0,5 0,5 0,5

lowhigh 0,14740835 0,5 0,29453563 0,5 0,5

differences 0,24215157 1 0,81683663 0,48930214 0,95780844

normal 0,68626275 1 0,97840432 0,935013 0,94161168

2block 0,51229754 0,99620076 0,83763247 0,73045391 0,90341932

even 0,46290742 0,77784443 0,41791642 0,79044191 0,96860628

lowhigh 0,19676065 0,97480504 0,41431714 0,5154969 0,64607079

differences 0,28094381 0,3995201 0,63587283 0,35492901 0,90741852

Tab. B.30: Fall K: Restaurant, 1996 unverändert

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,3895221 0,46070786 0,32413517 0,45890822 0,14517097

normal 0,80663867 0,46770646 0,71985603 0,52109578 0,44471106

2block 0,71945611 0,32373525 0,18036393 0,62547491 0,20835833

even 1 0,18918244 0,25185983 0,06405158 1

lowhigh 0,4475464 1 0,44948176 0,58413062 0,78959254

normal 0,5 0,5 0,5 0,5 0,30392882

2block 0,5 0,5 0,28682524 0,5 0,18826364

even 0,5 0,35799911 0,5 0,18463287 0,29034194

lowhigh 0,5 0,5 0,5 0,5 0,29034194

differences 0,5534893 0,56388722 1 0,9110178 0,970006

normal 0,68266347 0,44811038 0,69026195 0,50329934 0,31933613

2block 0,50189962 0,75084983 0,03379324 0,49810038 0,14177165

even 0,14277145 0,0329934 0,40591882 0,31793641 0,29894021

lowhigh 0,41091782 1 0,77404519 0,54509098 0,99140172

differences 0,98040392 0,45570886 0,5484903 0,92641472 0,98820236

Tab. B.31: Fall K: Restaurant, 1996 manipuliert


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 88 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,69246151 0,13037393 0,99820036 0,31273745 0,39612078

normal 0,18556289 0,13617277 0,29034193 0,08738252 0,77464507

2block 0,23715257 0,11457708 0,05378924 0,12697461 0,25794841

even 0,07144664 1 0,26185328 0,16546031 0,51814783

lowhigh 0,27140815 0,09995849 0,58962769 0,79673775 0,12250682

normal 0,37112578 0,12941805 0,5 0,1756388 0,5

2block 0,47430514 0,11405244 0,10757848 0,22554047 0,5

even 0,14289328 0,26074785 0,5 0,26650253 0,5

lowhigh 0,5 0,10305833 0,5 0,5 0,2561602

differences 0,13277345 0,58968206 0,36572685 0,20615877 0,42631474

normal 0,34413117 0,04419116 0,65186963 0,09938012 0,62027594

2block 0,15876825 0,04639072 0,31713657 0,03239352 0,26874625

even 0,19656069 0,44791042 0,4735053 0,45430914 0,74265147

lowhigh 0,40571886 0,34793041 0,9370126 0,89442112 0,45170966

differences 0,06818636 0,06838632 0,41971606 0,02659468 0,22775445

Tab. B.32: Fall K: Restaurant, 1997 unverändert

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,6164767 0,68186363 0,68306339 0,95160968 0,31133773

normal 0,9740052 0,51569686 0,65266947 0,88482304 0,9180164

2block 0,49170166 0,32153569 0,53869226 0,39992002 0,60427914

even 0,70554326 1 0,85094449 0,69488215 0,7920431

lowhigh 0,58962769 1 0,85519553 0,79653331 0,79714861

normal 0,5 0,5 0,5 0,5 0,5

2block 0,5 0,5 0,5 0,5 0,5

even 0,5 0,5 0,5 0,5 0,5

lowhigh 0,5 0,5 0,5 0,5 0,5

differences 0,4285143 0,66986603 0,63627275 0,46030794 0,61327734

normal 0,98720256 0,66706659 0,74505099 0,9820036 0,76924615

2block 0,33033393 0,76164767 0,62127574 0,5664867 0,71825635

even 0,55568886 0,36312737 0,07938412 0,94541092 0,02059588

lowhigh 0,93741252 0,78984203 0,9870026 0,81443711 0,96440712

differences 0,19816037 0,73385323 0,56228754 0,42911418 0,75644871

Tab. B.33: Fall K: Restaurant, 1997 manipuliert


Einzeltests

kombinierte

Hypothese

kombinierter

Test

- 89 -

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,4875025 0,39732054 0,00019996 0,42491502 0,00019996

normal 0,4515097 0,13277345 1 0,09538092 0,00019996

2block 0,72245551 0,31453709 1 0,74905019 0,00019996

even 0,42686205 0,9068014 1 0,46347141 0,00000000

lowhigh 0,64718354 0,0385643 1 0,22470067 0,00000000

normal 0,5 0,26965841 0,00039992 0,22853765 0,00000133

2block 0,5 0,5 0,00039992 0,5 0,00000133

even 0,5 0,5 0,00039992 0,5 0,00000000

lowhigh 0,5 0,11620947 0,00039992 0,37476491 0,00000000

differences 0,9410118 0,23315337 1 0,79864027 0,00019996

normal 0,44571086 0,13337333 0,00019996 0,15056989 0,00019996

2block 0,43191362 0,33033393 0,00019996 0,72265547 0,00019996

even 0,55428914 0,05878824 0,00019996 0,03719256 0,00019996

lowhigh 0,75144971 0,13817237 0,00019996 0,37372525 0,00019996

differences 0,3855229 0,12757449 0,00019996 0,82843431 0,00019996

Tab. B.34: Fall K: Restaurant, 1998 unverändert

Einzeltests

kombinierte

Hypothese

kombinierter

Test

Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 10Euro/1Euro 1Euro/10cent

Verteilung 0,66926615 0,31973605 0,30973805 0,86762647 0,20895821

normal 0,91681664 0,46770646 0,4645071 0,17236553 0,14917017

2block 0,83523295 0,13697261 0,32873425 0,15176965 0,06558688

even 0,25057107 0,09922341 0,01842254 0,93471549 0,00346966

lowhigh 0,90950808 1 0,42570688 0,93609229 0,51960342

normal 0,5 0,5 0,5 0,34473105 0,19213356

2block 0,5 0,24016692 0,5 0,30353929 0,10699994

even 0,5 0,19443463 0,05454992 0,5 0,00992257

lowhigh 0,5 0,5 0,5 0,5 0,41791642

differences 0,69846031 0,05718856 0,37372525 0,0759848 0,04419116

normal 0,91541692 0,32853429 0,66166767 0,4305139 0,13077385

2block 0,94021196 0,33333333 0,49310138 0,54889022 0,17536493

even 0,37972406 0,19276145 0,014997 0,99860028 0,00639872

lowhigh 0,32393521 0,5114977 0,43891222 0,99620076 0,18696261

differences 0,78364327 0,06318736 0,13897221 0,13937213 0,0319936

Tab. B.35: Fall K: Restaurant, 1998 manipuliert

B.10 Beispielsfall L

Wieder ein Datensatz mit unbestimmtem Unternehmstyp. Aber auch hier sind beide Datenreihen

(manipulierte und tatsächliche Tagesumsätze) für die Jahre 2005–2007 verfügbar. In den

Originaldaten finden sich Cent-genaue Beträge, während die manipulierten Daten häufig auf

die 10Cent-Stelle gerundent zu sein scheinen.


Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 1cent 10Euro/1Euro 1Euro/10cent 10cent/1cent

Verteilung 0,61107778 0,67946411 0,09158168 0,00019996 0,71085783 0,86342731 0,00019996

normal 0,21335733 0,59968006 0,75864827 0,0069986 0,05138972 0,31953609 0,00019996

2block 0,0559888 0,11117776 0,81283743 0,13197361 0,0109978 0,35272945 0,03459308

even 0,25293804 0,59919228 0,51098369 0,14327748 0,20186745 0,92633243 0,00000000

lowhigh 0,24126048 0,1180444 0,79430522 0,10643652 0,05309872 0,35728252 0,20985644

Einzeltests

normal 0,42671466 0,5 0,18316337 0,00003665 0,10277944 0,5 0,00000133

2block 0,1119776 0,22235553 0,18316337 0,00053604 0,0219956 0,5 0,00015903

even 0,5 0,5 0,18316337 0,00057724 0,40373489 0,5 0,00000000

lowhigh 0,48252096 0,23608881 0,18316337 0,00044147 0,10619744 0,5 0,00081344

differences 0,82443511 0,0909818 0,34673065 0,53929214 0,21875625 0,01419716 0,00019996

kombinierte

Hypothese

unverändert

Tab. B.36: Fall L: 2005

normal 0,16176765 0,67446511 0,42091582 0,00019996 0,04279144 0,65706859 0,00019996

2block 0,15696861 0,25534893 0,29254149 0,00019996 0,05218956 0,61227754 0,00019996

even 0,64107179 0,89482104 0,72005599 0,00019996 0,59508098 0,98880224 0,00019996

lowhigh 0,67146571 0,39692062 0,9140172 0,00019996 0,25474905 0,81643671 0,00019996

differences 0,72965407 0,06338732 0,37912418 0,00019996 0,12777445 0,02179564 0,00019996

kombinierter

Test

- 90 -

Verteilung 0,87642472 0,79844031 0,00419916 0,00019996 0,53229354 0,11057788 0,00019996

normal 0,37992402 0,98820236 0,93081384 0,00319936 0,94581084 0,99060188 0,00019996

2block 0,40111978 0,58528294 0,69286143 0,19776045 0,78324335 0,5934813 0,04659068

even 0,05158688 0,7933161 1 0,08398718 0,09729933 0,92756334 0,00000000

lowhigh 0,69396922 1 0,79463349 0,04512985 0,64255813 1 0,00000205

Einzeltests

normal 0,5 0,5 0,00839832 0,00001775 0,5 0,22115577 0,00000133

2block 0,5 0,5 0,00839832 0,00077125 0,5 0,22115577 0,00020864

even 0,10317376 0,5 0,00839832 0,00035631 0,19459865 0,22115577 0,0000000

lowhigh 0,5 0,5 0,00839832 0,00020267 0,5 0,22115577 0,00000000

differences 0,10777844 0,9890022 0,980004 1 0,55088982 0,97620476 0,00019996

kombinierte

Hypothese

manipuliert

normal 0,67686463 0,99240152 0,17056589 0,00019996 0,95340932 0,88722256 0,00019996

2block 0,58288342 0,48110378 0,04219156 0,00019996 0,59068186 0,21715657 0,00019996

even 0,24515097 0,72725455 0,00019996 0,00019996 0,35332933 0,00839832 0,00019996

lowhigh 0,38032394 0,07738452 0,9930014 0,00019996 0,02759448 0,29554089 0,00019996

differences 0,06778644 0,96780644 0,1169766 0,00019996 0,31353729 0,68406319 0,00019996

kombinierter

Test


Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 1cent 10Euro/1Euro 1Euro/10cent 10cent/1cent

Verteilung 0,25254949 0,15436913 0,33113377 0,00019996 0,0469906 0,12377524 0,00019996

normal 0,15796841 0,76384723 0,34373125 0,76084783 0,52709458 0,95040992 0,00019996

2block 0,64007199 0,64047191 0,48010398 0,65606879 0,61607678 0,44271146 0,00019996

even 0,74790495 0,45379092 0,20040231 1 0,44890801 0,70670184 0,00000000

lowhigh 0,91607126 0,6722417 0,75318835 0,58186877 0,82283173 0,60345035 0,00198248

Einzeltests

normal 0,22622082 0,30873825 0,5 0,00039992 0,0939812 0,24755049 0,00000133

2block 0,5 0,30873825 0,5 0,00039992 0,0939812 0,27593772 0,00000133

even 0,5 0,31834579 0,30875529 0,00039992 0,14649892 0,24755049 0,00000000

lowhigh 0,5 0,30873825 0,5 0,00039992 0,0939812 0,24755049 0,00001138

differences 0,71145771 0,60687862 0,63827235 0,94321136 0,72665467 0,72925415 0,00019996

kombinierte

Hypothese

unverändert

Tab. B.37: Fall L: 2006

normal 0,09758048 0,56588682 0,18556289 0,00019996 0,13577285 0,83983203 0,00019996

2block 0,82143571 0,36892621 0,61987602 0,00019996 0,48630274 0,22795441 0,00019996

even 0,02359528 0,18036393 0,51009798 0,00019996 0,00219956 0,64447111 0,00019996

lowhigh 0,27154569 0,124975 0,98480304 0,00019996 0,02539492 0,35812837 0,00019996

differences 0,49790042 0,55028994 0,53529294 0,00019996 0,5584883 0,73105379 0,00019996

kombinierter

Test

- 91 -

Verteilung 0,10557888 0,41591682 0,44931014 0,00019996 0,20015997 0,46090782 0,00019996

normal 0,70985803 0,19996001 0,19616077 0,21135773 0,69906019 0,72485503 0,00019996

2block 0,0289942 0,29014197 0,14317137 0,37052589 0,32493501 0,82883423 0,00019996

even 1 0,0377248 0,4524827 1 0,07701674 0,03101236 0,00000000

lowhigh 0,91466076 0,59952489 0,17287242 1 0,70852963 0,55322034 0,00000000

Einzeltests

normal 0,21115777 0,34940232 0,36005176 0,00081866 0,40031994 0,5 0,00000133

2block 0,03307699 0,5 0,30330308 0,00135199 0,30522457 0,5 0,00000133

even 0,21115777 0,11825567 0,5 0,00039992 0,1167298 0,11039511 0,00000000

lowhigh 0,21115777 0,5 0,33693898 0,00039992 0,40031994 0,5 0,00000000

differences 0,82023595 0,02619476 0,52489502 0,54389122 0,14357129 0,28174365 0,00019996

kombinierte

Hypothese

manipuliert

normal 0,45370926 0,26054789 0,35832833 0,00019996 0,59788042 0,72105579 0,00019996

2block 0,01879624 0,15316937 0,43231354 0,00019996 0,16416717 0,87862428 0,00019996

even 0,11877624 0,12437512 0,09278144 0,00019996 0,25174965 0,13477305 0,00019996

lowhigh 0,0009998 0,78184363 0,56608678 0,00019996 0,00679864 0,84763047 0,00019996

differences 0,77024595 0,00139972 0,19056189 0,00019996 0,09518096 0,17076585 0,00019996

kombinierter

Test


Test vertikal horizontal

Ziffer 10Euro 1Euro 10cent 1cent 10Euro/1Euro 1Euro/10cent 10cent/1cent

Verteilung 0,32593481 0,37212557 0,77164567 0,00019996 0,21695661 0,60407918 0,00019996

normal 0,82623475 0,99520096 0,15736853 0,1029794 0,75004999 0,28154369 0,00019996

2block 0,52809438 0,58868226 0,75544891 0,14417117 0,58988202 0,82463507 0,00019996

even 0,01208987 0,39214903 0,20834724 1 0,01390473 0,11639599 0,00000000

lowhigh 0,83407975 0,40137527 0,17062857 0,4576556 0,71087943 0,71104481 0,00000040

Einzeltests

normal 0,5 0,5 0,31473705 0,00042849 0,43391322 0,5 0,00000133

2block 0,5 0,5 0,5 0,00058048 0,43391322 0,5 0,00000133

even 0,04058843 0,5 0,41669449 0,00039992 0,03268492 0,23279198 0,00000000

lowhigh 0,5 0,5 0,34125714 0,00163126 0,43391322 0,5 0,00000000

differences 0,37512498 0,67686463 0,96960608 1 0,28294341 0,66826635 0,00019996

kombinierte

Hypothese

unverändert

Tab. B.38: Fall L: 2007

normal 0,66626675 0,98260348 0,35532893 0,00019996 0,71505699 0,3905219 0,00019996

2block 0,31633673 0,52009598 0,83923215 0,00019996 0,17456509 0,78684263 0,00019996

even 0,04559088 0,28394321 0,60787842 0,00019996 0,07658468 0,26434713 0,00019996

lowhigh 0,67726455 0,78104379 0,06178764 0,00019996 0,95540892 0,65726855 0,00019996

differences 0,19816037 0,84403119 0,91421716 0,00019996 0,23215357 0,68626275 0,00019996

kombinierter

Test

- 92 -

Verteilung 0,90821836 0,63247351 0,60487902 0,00019996 0,91961608 0,51429714 0,00019996

normal 0,63107379 0,24935013 0,69566087 0,17976405 0,79144171 0,21275745 0,00019996

2block 0,95980804 0,20235953 0,14337133 0,45710858 0,69626075 0,07878424 0,00019996

even 0,02049836 0,74452213 0,34482787 1 0,05891713 0,36643751 0,00000000

lowhigh 0,17273704 1 0,52771358 0,05232417 0,37353749 0,65570854 0,00000000

Einzeltests

normal 0,5 0,49870026 0,5 0,00070793 0,5 0,4255149 0,00000133

2block 0,5 0,40471906 0,28674265 0,00162953 0,5 0,15756849 0,00000133

even 0,04099672 0,5 0,5 0,00039992 0,11783426 0,5 0,00000000

lowhigh 0,34547409 0,5 0,5 0,00023188 0,5 0,5 0,00000000

differences 0,9730054 0,93041392 0,90061988 1 0,87242551 0,87682464 0,00019996

kombinierte

Hypothese

manipuliert

normal 0,9110178 0,36012797 0,77504499 0,00019996 0,96160768 0,30673865 0,00019996

2block 0,9910018 0,08358328 0,13857229 0,00019996 0,81723655 0,039992 0,00019996

even 0,11217756 0,40111978 0,40891822 0,00019996 0,11517696 0,67226555 0,00019996

lowhigh 0,25334933 0,92981404 0,09138172 0,00019996 0,74905019 0,14617077 0,00019996

differences 0,9070186 0,61267746 0,86862627 0,00019996 0,64547091 0,56528694 0,00019996

kombinierter

Test


- 93 -

Arbeitsberichte des Instituts für Wirtschaftsinformatik

Nr. 1 Bolte, C.; Kurbel, K.; Moazzami, M.; Pietsch, W.: Erfahrungen bei der Entwicklung eines

Informationssystems auf RDBMS- und 4GL-Basis; Februar 1991.

Nr. 2 Kurbel, K.: Das technologische Umfeld der Informationsverarbeitung – Ein subjektiver ‘State

of the Art’-Report über Hardware, Software und Paradigmen; März 1991.

Nr. 3 Kurbel, K.: CA-Techniken und CIM; Mai 1991.

Nr. 4 Nietsch, M.; Nietsch, T.; Rautenstrauch, C.; Rinschede, M.; Siedentopf, J.: Anforderungen

mittelständischer Industriebetriebe an einen elektronischen Leitstand – Ergebnisse einer

Untersuchung bei zwölf Unternehmen; Juli 1991.

Nr. 5 Becker, J.; Prischmann, M.: Konnektionistische Modelle – Grundlagen und Konzepte;

September 1991.

Nr. 6 Grob, H. L.: Ein produktivitätsorientierter Ansatz zur Evaluierung von Beratungserfolgen;

September 1991.

Nr. 7 Becker, J.: CIM und Logistik; Oktober 1991.

Nr. 8 Burgholz, M.; Kurbel, K.; Nietsch, T.; Rautenstrauch, C.: Erfahrungen bei der Entwicklung und

Portierung eines elektronischen Leitstands; Januar 1992.

Nr. 9 Becker, J.; Prischmann, M.: Anwendung konnektionistischer Systeme; Februar 1992.

Nr. 10 Becker, J.: Computer Integrated Manufacturing aus Sicht der Betriebswirtschaftslehre und der

Wirtschaftsinformatik; April 1992.

Nr. 11 Kurbel, K.; Dornhoff, P.: A System for Case-Based Effort Estimation for

Software-Development Projects; Juli 1992.

Nr. 12 Dornhoff, P.: Aufwandsplanung zur Unterstützung des Managements von

Softwareentwicklungsprojekten; August 1992.

Nr. 13 Eicker, S.; Schnieder, T.: Reengineering; August 1992.

Nr. 14 Erkelenz, F.: KVD2 – Ein integriertes wissensbasiertes Modul zur Bemessung von

Krankenhausverweildauern – Problemstellung, Konzeption und Realisierung; Dezember 1992.

Nr. 15 Horster, B.; Schneider, B.; Siedentopf, J.: Kriterien zur Auswahl konnektionistischer Verfahren

für betriebliche Probleme; März 1993.

Nr. 16 Jung, R.: Wirtschaftlichkeitsfaktoren beim integrationsorientierten Reengineering:

Verteilungsarchitektur und Integrationsschritte aus ökonomischer Sicht; Juli 1993.

Nr. 17 Miller, C.; Weiland, R.: Der Übergang von proprietären zu offenen Systemen aus Sicht der

Transaktionskostentheorie; Juli 1993.

Nr. 18 Becker, J.; Rosemann, M.: Design for Logistics – Ein Beispiel für die logistikgerechte

Gestaltung des Computer Integrated Manufacturing; Juli 1993.

Nr. 19 Becker, J.; Rosemann, M.: Informationswirtschaftliche Integrationsschwerpunkte innerhalb der

logistischen Subsysteme – Ein Beitrag zu einem produktionsübergreifenden Verständnis von

CIM; Juli 1993.

Nr. 20 Becker, J.: Neue Verfahren der entwurfs- und konstruktionsbegleitenden Kalkulation und ihre

Grenzen in der praktischen Anwendung; Juli 1993.

Nr. 21 Becker, K.; Prischmann, M.: VESKONN – Prototypische Umsetzung eines modularen

Konzepts zur Konstruktionsunterstützung mit konnektionistischen Methoden; November 1993.

Nr. 22 Schneider, B.: Neuronale Netze für betriebliche Anwendungen: Anwendungspotentiale und

existierende Systeme; November 1993.

Nr. 23 Nietsch, T.; Rautenstrauch, C.; Rehfeldt, M.; Rosemann, M.; Turowski, K.: Ansätze für die

Verbesserung von PPS-Systemen durch Fuzzy-Logik; Dezember 1993.

Nr. 24 Nietsch, M.; Rinschede, M.; Rautenstrauch, C.: Werkzeuggestützte Individualisierung des

objektorientierten Leitstands ooL; Dezember 1993.

Nr. 25 Meckenstock, A.; Unland, R.; Zimmer, D.: Flexible Unterstützung kooperativer

Entwurfsumgebungen durch einen Transaktions-Baukasten; Dezember 1993.

Nr. 26 Grob, H. L.: Computer Assisted Learning (CAL) durch Berechnungsexperimente; Januar 1994.


- 94 -

Nr. 27 Kirn, S.; Unland, R. (Hrsg.): Tagungsband zum Workshop „Unterstützung Organisatorischer

Prozesse durch CSCW“. In Kooperation mit GI-Fachausschuß 5.5 „Betriebliche

Kommunikations- und Informationssysteme“ und Arbeitskreis 5.5.1 „Computer Supported

Cooperative Work“, Westfälische Wilhelms-Universität Münster, 4.-5. November 1993

Nr. 28 Kirn, S.; Unland, R.: Zur Verbundintelligenz integrierter Mensch-Computer-Teams: Ein

organisationstheoretischer Ansatz; März 1994.

Nr. 29 Kirn, S.; Unland, R.: Workflow Management mit kooperativen Softwaresystemen: State of the

Art und Problemabriß; März 1994.

Nr. 30 Unland, R.: Optimistic Concurrency Control Revisited; März 1994.

Nr. 31 Unland, R.: Semantics-Based Locking: From Isolation to Cooperation; März 1994.

Nr. 32 Meckenstock, A.; Unland, R.; Zimmer, D.: Controlling Cooperation and Recovery in Nested

Transactions; März 1994.

Nr. 33 Kurbel, K.; Schnieder, T.: Integration Issues of Information Engineering Based I-CASE Tools;

September 1994.

Nr. 34 Unland, R.: TOPAZ: A Tool Kit for the Construction of Application Specific Transaction;

November 1994.

Nr. 35 Unland, R.: Organizational Intelligence and Negotiation Based DAI Systems – Theoretical

Foundations and Experimental Results; November 1994.

Nr. 36 Unland, R.; Kirn, S.; Wanka, U.; O’Hare, G. M. P.; Abbas, S.: AEGIS: Agent Oriented

Organisations; Februar 1995.

Nr. 37 Jung, R.; Rimpler, A.; Schnieder, T.; Teubner, A.: Eine empirische Untersuchung von

Kosteneinflußfaktoren bei integrationsorientierten Reengineering-Projekten; März 1995.

Nr. 38 Kirn, S.: Organisatorische Flexibilität durch Workflow-Management-Systeme?; Juli 1995.

Nr. 39 Kirn, S.: Cooperative Knowledge Processing: The Key Technology for Future Organizations;

Juli 1995.

Nr. 40 Kirn, S.: Organisational Intelligence and Distributed AI; Juli 1995.

Nr. 41 Fischer, K.; Kirn, S.; Weinhard, C. (Hrsg.): Organisationsaspekte in Multiagentensytemen;

September 1995.

Nr. 42 Grob, H. L.; Lange, W.: Zum Wandel des Berufsbildes bei Wirtschaftsinformatikern, Eine

empirische Analyse auf der Basis von Stellenanzeigen; Oktober 1995.

Nr. 43 Abu-Alwan, I.; Schlagheck, B.; Unland, R.: Evaluierung des objektorientierten

Datebankmanagementsystems ObjectStore; Dezember 1995.

Nr. 44 Winter, R.: Using Formalized Invariant Properties of an Extended Conceptual Model to

Generate Reusable Consistency Control for Information Systems; Dezember 1995.

Nr. 45 Winter, R.: Design and Implementation of Derivation Rules in Information Systems; Februar

1996.

Nr. 46 Becker, J.: Eine Architektur für Handelsinformationssysteme; März 1996.

Nr. 47 Becker, J.; Rosemann, M. (Hrsg.): Workflowmanagement – State-of-the-Art aus Sicht von

Theorie und Praxis. Proceedings zum Workshop vom 10. April 1996; April 1996.

Nr. 48 Rosemann, M.; zur Mühlen, M.: Der Lösungsbeitrag von Metadatenmodellen beim Vergleich

von Workflowmanagementsystemen; Juni 1996.

Nr. 49 Rosemann, M.; Denecke, T.; Püttmann, M.: Konzeption und prototypische Realisierung eines

Informationssystems für das Prozeßmonitoring und -controlling; September 1996.

Nr. 50 v. Uthmann, C.; Turowski, K. unter Mitarbeit von Rehfeldt; M., Skall, M.: Workflow-basierte

Geschäftsprozeßregelung als Konzept für das Management industrieller

Produktentwicklungsprozesse; November 1996.

Nr. 51 Eicker, S.; Jung, R.; Nietsch, M.; Winter, R.: Entwicklung eines Data Warehouse für das

Produktionscontrolling: Konzepte und Erfahrungen; November 1996.

Nr. 52 Becker, J.; Rosemann, M.; Schütte, R. (Hrsg.): Entwicklungsstand und

Entwicklungsperspektiven der Referenzmodellierung. Proceedings zur Veranstaltung vom 10.

März 1997; März 1997.

Nr. 53 Loos, P.: Capture More Data Semantic Through The Expanded Entity-Relationship Model

(PERM); Februar 1997.


- 95 -

Nr. 54 Becker, J.; Rosemann, M. (Hrsg.): Organisatorische und technische Aspekte beim Einsatz von

Workflowmanagementsystemen. Proceedings zum Workshop vom 10. April 1997; April 1997.

Nr. 55 Holten, R.; Knackstedt, R.: Führungsinformationssysteme – Historische Entwicklung und

Konzeption; April 1997.

Nr. 56 Holten, R.: Die drei Dimensionen des Inhaltsaspektes von Führungsinformationssystemen;

April 1997.

Nr. 57 Holten, R.; Striemer, R.; Weske, M.: Ansätze zur Entwicklung von Workflow-basierten

Anwendungssystemen – Eine vergleichende Darstellung –; April 1997.

Nr. 58 Kuchen, H.: Arbeitstagung Programmiersprachen, Tagungsband; Juli 1997.

Nr. 59 Vering, O.: Berücksichtigung von Unschärfe in betrieblichen Informationssystemen –

Einsatzfelder und Nutzenpotentiale am Beispiel der PPS; September 1997.

Nr. 60 Schwegmann, A.; Schlagheck, B.: Integration der Prozeßorientierung in das objektorientierte

Paradigma: Klassenzuordnungsansatz vs. Prozeßklassenansatz; Dezember 1997.

Nr. 61 Speck, M.: In Vorbereitung.

Nr. 62 Wiese, J.: Ein Entscheidungsmodell für die Auswahl von Standardanwendungssoftware am

Beispiel von Warenwirtschaftssystemen; März 1998.

Nr. 63 Kuchen, H.: Workshop on Functional and Logic Programming, Proceedings; Juni 1998.

Nr. 64 v. Uthmann, C.; Becker, J.; Brödner, P.; Maucher, I.; Rosemann, M.: PPS meets Workflow.

Proceedings zum Workshop vom 9. Juni 1998; Juni 1998.

Nr. 65 Scheer, A.-W.; Rosemann, M.; Schütte, R. (Hrsg.): Integrationsmanagement; Januar 1999.

Nr. 66 zur Mühlen, M.: Internet – Technologie und Historie; Juni 1999.

Nr. 67 Holten R.: A Framework for Information Warehouse Development Processes; Mai 1999.

Nr. 68 Holten R.; Knackstedt, R.: Fachkonzeption von Führungsinformationssystemen –

Instanziierung eines FIS-Metamodells am Beispiel eines Einzelhandelsunternehmens; Mai

1999.

Nr. 69 Holten, R.: Semantische Spezifikation Dispositiver Informationssysteme; Juli 1999.

Nr. 70 zur Mühlen, M.: In Vorbereitung.

Nr. 71 Klein, S.; Schneider, B.; Vossen, G.; Weske, M.; Projektgruppe PESS: Eine XML-basierte

Systemarchitektur zur Realisierung flexibler Web-Applikationen; Juli 2000.

Nr. 72 Klein, S.; Schneider, B. (Hrsg): Negotiations and Interactions in Electronic Markets,

Proceedings of the Sixth Research Symposium on Emerging Electronic Markets, Muenster,

Germany, September 19 - 21, 1999; August 2000.

Nr. 73 Becker, J.; Bergerfurth, J.; Hansmann, H.; Neumann, S.; Serries, T.: Methoden zur Einführung

Workflow-gestützter Architekturen von PPS-Systemen; November 2000.

Nr. 74 Terveer, I.: Die asymptotische Verteilung der Spannweite bei Zufallsgrößen mit paarweise

identischer Korrelation; Februar 2002.

Nr. 75 Becker, J. (Ed.): Proceedings of the University Alliance Executive Directors Workshop – ECIS

2001; Juni 2001.

Nr. 76 Klein, St. u. a. (Hrsg.): MOVE: Eine flexible Architektur zur Unterstützung des Außendienstes

mit mobile devices. (In Vorbereitung.)

Nr. 77 Becker, J.; Knackstedt, R.; Holten, R.; Hansmann, H.; Neumann, S.: Konstruktion von

Methodiken: Vorschläge für eine begriffliche Grundlegung und domänenspezifische

Anwendungsbeispiele; Juli 2001.

Nr. 78 Holten, R.: Konstruktion domänenspezifischer Modellierungstechniken für die Modellierung

von Fachkonzepten; August 2001.

Nr. 79 Vossen, G.; Hüsemann, B.; Lechtenbörger, J.: XLX – Eine Lernplattform für den universitären

Übungsbetrieb; August 2001.

Nr. 80 Becker, J.; Knackstedt, R.; Serries, Th.: Gestaltung von Führungsinformationssystemen mittels

Informationsportalen: Ansätze zur Integration von Data-Warehouse- und

Content-Management-Systemen; November 2001.

Nr. 81 Holten, R.: Conceptual Models as Basis for Integrated Information Warehouse Development;

Oktober 2001.


- 96 -

Nr. 82 Teubner, R. A.: Informationsmanagement: Disziplinärer Kontext, Historie und Stand der

Wissenschaft; Februar 2002.

Nr. 83 Vossen, G.: Vernetzte Hausinformationssysteme – Stand und Perspektive; Oktober 2001.

Nr. 84 Holten, R.: The MetaMIS Approach for the Specification of Management Views on Business

Processes; November 2001.

Nr. 85 Becker, J.; Neumann, S.; Hansmann, H.: Workflow-integrierte Produktionsplanung und

-steuerung: Ein Architekturmodell für die Koordination von Prozessen der industriellen

Auftragsabwicklung, Januar 2002.

Nr. 86 Teubner, R. A.; Klein, S.: Bestandsaufnahme aktueller deutschsprachiger Lehrbücher zum

Informationsmanagement; März 2002.

Nr. 87 Holten, R.: Specification of Management Views in Information Warehouse Projects; April

2002.

Nr. 88 Holten, R.; Dreiling, A.: Specification of Fact Calculations within the MetaMIS Approach; Juni

2002.

Nr. 89 Holten, R.: Backbone der Anwendungssystemkopplung; Juli 2002.

Nr. 90 Becker, J.; Knackstedt, R. (Hrsg.): Referenzmodellierung 2002. Methoden – Modelle –

Erfahrungen; August 2002.

Nr. 91 Teubner, R. A.: Grundlegung Informationsmanagement; Februar 2003.

Nr. 92 Vossen, G.; Westerkamp, P.: E-Learning as a Web Service; Februar 2003.

Nr. 93 Becker, J.; Holten, R.; Knackstedt, R.; Niehaves, B.: Forschungsmethodische Positionierung in

der Wirtschaftsinformatik – epistemologische, ontologische und linguistische Leitfragen; Mai

2003.

Nr. 94 Algermissen, L.; Niehaves, B.: E-Government – State of the art and development perspectives;

April 2003.

Nr. 95 Teubner, R. A.; with Hübsch, T.: Is Information Management a Global Discipline? Assessing

Anglo-American Teaching and Literature through Web Content Analysis; November 2003.

Nr. 96 Teubner, R. A.: Information Resource Management; Dezember 2003.

Nr. 97 Köhne, F.; Klein, S.: Prosuming in der Telekommunikationsbranche: Konzeptionelle

Grundlagen und Ergebnisse einer Delphi-Studie; Dezember 2003.

Nr. 98 Vossen, G.; Pankratius, V.: Towards E-Learning Grids; 2003.

Nr. 99 Vossen, G.; Paul, H.: Tagungsband EMISA 2003: Auf dem Weg in die E-Gesellschaft; 2003.

Nr. 100 Vossen, G.; Vidyasankar, K.: A Multi-Level Model for Web Service Composition; 2003.

Nr. 101 Becker, J.; Serries, T.; Dreiling, A.; Ribbert, M.: Datenschutz als Rahmen für das Customer

Relationship Management – Einfluss des geltenden Rechts auf die Spezifikation von

Führungsinformationssystemen; November 2003.

Nr. 102 Müller, R.A.; Lembeck, C.; Kuchen, H.: GlassTT – A Symbolic Java Virtual Machine using

Constraint Solving Techniques for Glass-Box Test Case Generation; November 2003.

Nr. 103 Becker, J; Brelage C.; Crisandt J.; Dreiling A.; Holten R.; Ribbert M.; Seidel S.: Methodische

und technische Integration von Daten- und Prozessmodellierungstechniken für Zwecke der

Informationsbedarfsanalyse; März 2004.

Nr. 104 Teubner, R. A.: Information Technology Management; April 2004.

Nr. 105 Teubner, R. A.: Information Systems Management; August 2004.

Nr. 106 Becker, J.; Brelage, C.; Gebhardt, Hj.; Recker, J.; Müller-Wienbergen, F.: Fachkonzeptionelle

Modellierung und Analyse web-basierter Informationssysteme mit der MW-KiD

Modellierungstechnik am Beispiel von ASInfo; Mai 2004.

Nr. 107 Hagemann, S.; Rodewald, G.; Vossen, G.; Westerkamp, P.; Albers, F.; Voigt, H.: BoGSy – ein

Informationssystem für Botanische Gärten; September 2004.

Nr. 108 Schneider, B.; Totz, C.: Web-gestützte Konfiguration komplexer Produkte und

Dienstleistungen; September 2004.

Nr. 109 Algermissen, L; Büchel, N.; Delfmann, P.; Dümmer, S.; Drawe, S.; Falk, T.; Hinzen, M.;

Meesters, S.; Müller, T.; Niehaves, B.; Niemeyer, G.; Pepping, M.; Robert, S.; Rosenkranz, C.;

Stichnote, M.; Wienefoet, T.: Anforderungen an Virtuelle Rathäuser – Ein Leitfaden für die

herstellerunabhängige Softwareauswahl; Oktober 2004 (als Nummer 108).


- 97 -

Nr. 110 Algermissen, L; Büchel, N.; Delfmann, P.; Dümmer, S.; Drawe, S.; Falk, T.; Hinzen, M.;

Meesters, S.; Müller, T.; Niehaves, B.; Niemeyer, G.; Pepping, M.; Robert, S.; Rosenkranz, C.;

Stichnote, M.; Wienefoet, T.: Fachkonzeptionelle Spezifikation von Virtuellen Rathäusern –

Ein Konzept zur Unterstützung der Implementierung; Oktober 2004 (als Nummer 109).

Nr. 111 Becker, J.; Janiesch, C.; Pfeiffer, D.; Rieke, T.; Winkelmann, A.: Studie: Verteilte

Publikationserstellung mit Microsoft Word und den Microsoft SharePoint Services; Dezember

2004.

Nr. 112 Teubner, R. A.; Terwey, J.: Informations-Risiko-Management: Der Beitrag internationaler

Normen und Standards; April 2005.

Nr. 113 Teubner, R. A.: Methodische Integration von Organisations- und

Informationssystemgestaltung: Historie, Stand und zukünftige Herausforderungen an die

Wirtschaftsinformatik-Forschung; Mai 2006.

Nr. 114 Becker, J.; Janiesch, C.; Knackstedt, R.; Kramer, S.; Seidel, S.: Konfigurative

Referenzmodellierung mit dem H2-Toolset; November 2006.

Nr. 115 Becker, J.; Janiesch, C.; Knackstedt, R; Müller-Wienbergen, F.; Seidel, S.: H2 for Reporting –

Analyse, Konzeption und kontinuierliches Metadatenmanagement von

Management-Informationssystemen; Februar 2007.

Nr. 116 Becker, J.; Kramer, S.; Janiesch, C.: Modellierung und Konfiguration elektronischer

Geschäftsdokumente mit dem H2-Toolset; November 2007.

Nr. 117 Becker, J.; Winkelmann, A.; Philipp, M.: Entwicklung eines Referenzvorgehensmodells zur

Auswahl und Einführung von Office Suiten; Dezember 2007.

Nr. 118 Teubner, R. A.; unter Mitarbeit von J. Terwey: IT-Service Management – Ein neues Paradigma

für das Informationsmanagement; Februar 2008.

Nr. 119 Becker, J.; Knackstedt, R.; Beverungen, D. et al.: Ein Plädoyer für die Entwicklung eines

multidimensionalen Ordnungsrahmens zur hybriden Wertschöpfung; Januar 2008.

Nr. 120 Becker, J.; Krcmar, H.; Niehaves, B. (Hrsg.): Wissenschaftstheorie und gestaltungsorientierte

Wirtschaftsinformatik; Februar 2008.

Nr. 121 Becker, J.; Richter, O.; Winkelmann, A.: Analyse von Plattformen und Marktübersichten für

die Auswahl von ERP- und Warenwirtschaftssystemen Februar 2008.

Nr. 122 Vossen, G.: DaaS-Workshop und das Studi-Programm; Februar 2009.

Nr. 123 Becker, J.; Knackstedt, R.; Pöppelbuß, J.: Dokumentationsqualität von

Reifegradmodellentwicklungen; April 2009.

Nr. 124 Winkelmann, A.; Kässens, S.: Fachkonzeptionelle Spezifikation einer

Betriebsdatenerfassungskomponente für ERP-Systeme; Juli 2009.

Nr. 125 Becker, J.; Knackstedt, R.; Beverungen, D.; Bräuer, S.; Bruning, D.; Christoph, D.; Greving, S.;

Jorch, D.; Joßbächer, F.; Jostmeier, H.; Wiethoff, S.; Yeboah, A.: Modellierung der hybriden

Wertschöpfung: Eine Vergleichsstudie zu Modellierungstechniken; November 2009.

Nr. 126 Becker, J.; Beverungen, D.; Knackstedt, R.; Behrens, H.; Glauner, C.; Wakke, P.: Stand der

Normung und Standardisierung der hybriden Wertschöpfung; Januar 2010.

Nr. 127 Majchrzak, Tim; Kuchen, Herbert: Handlungsempfehlungen für erfolgreiches Testen von

Software in Unternehmen; Februar 2010.

Nr. 128 Becker, Jörg; Bergener, Philipp; Eggert, Matthias; Heddier, Marcel; Hofmann, Sara;

Knackstedt, Ralf; Räckers, Michael: IT-Risiken - Ursachen, Methoden,

Forschungsperspektiven; Oktober 2010.

Nr. 129 Becker, Jörg; Knackstedt, Ralf; Steinhorst, Matthias: Referenzmodellierung von

Internetauftritten am Beispiel von Handelsverbundgruppen; Februar 2011.

Nr. 130 Becker, J.; Beverungen, D.; Knackstedt, R.; Matzner, M.; Müller, O.; Pöppelbuß, J.: Flexible

Informationssystem-Architekturen für hybride Wertschöpfungsnetzwerke (FlexNet); Februar

2011.

Nr. 131 Haselmann, Till; Röpke, Christian; Vossen, Gottfried: Empirische Bestandsaufnahme des

Software-as-a-Service-Einsatzes in kleinen und mittleren Unternehmen; Februar 2011.

Nr. 132 Kuchen, H.; Majchrzak, T.;Müller-Olm, M. (Hrsg.): Tagungsband 16. Kolloquium

Programmiersprachen und Grundlagen der Programmierung (KPS’11); September 2011.


- 98 -

Nr. 133 Dlugosz, Stephan; Müller-Funk, Ulrich: Ziffernanalyse zur Betrugserkennung in

Finanzverwaltungen – Prüfung von Kassenbelegen; Juli 2012.

Weitere Magazine dieses Users
Ähnliche Magazine