Erzeugung und Verwendung von Zufallszahlen

Slides:

Advertisements

Ähnliche Präsentationen

Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.

Advertisements

Eine dynamische Menge, die diese Operationen unterstützt,

Algebraische Zahlen: Exaktes Rechnen mit Wurzeln

Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.

Masterstudiengang IE (Industrial Engineering)

Grundlagen der Simulation: Übungsaufgabe

Forschungsstrategien Johannes Gutenberg Universität Mainz

Heute Prüfung der Produkt-Moment Korrelation

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.

Der Binomialtest Man habe einen wahren Anteil P.

Algorithmus. Ein Kochrezept, zum Beispiel: Kartoffelbrei.

1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Tobias Lauer.

K. Desch - Statistik und Datenanalyse SS05

Statistische Methoden I

Statistische Methoden II

Nachholung der Vorlesung vom Freitag

Die Vorlesung Statistische Methoden II findet am (nächste Woche) nicht nicht statt. Diese Vorlesung wird zu einem späteren Termin, der noch bekannt.

Vorlesung Die Vorlesung Statistische Methoden II nächste Woche vom 6. Juni ( nächste Woche ) wird auf den 4. Juni (Mittwoch) vorverlegt ! 14 – 16 Zeit:

Nachholung der Vorlesung vom Freitag

Konfidenzintervalle Intervallschätzung

Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.

Statistische Methoden II SS 2008 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Makarenkostraße (Kiste)

M-L-Schätzer Erwartungswert

Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.

Chi-Quadrat-Test auf Unabhängigkeit I

TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)

Die Student- oder t-Verteilung

Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,

Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.

Statistische Methoden I SS 2005

Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.

Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.

Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.

Achtung Vorlesung am nächsten Montag (21. Juni) Zeit: Uhr Ort: Kiste.

Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!

Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.

III. Induktive Statistik

Statistische Methoden II SS 2003

Extra-SPSS-Kurse Durchführung: Birte Holtfreter Termine Di Mi Mi Ort PC-Pool Loefflerstarße.

Test auf Normalverteilung

Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.

Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.

Univariate Statistik M. Kresken.

Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.

Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:

Wahrscheinlichkeitsrechnung

Histogramm/empirische Verteilung Verteilungen

Ausgleichungsrechnung I

Ausgleichungsrechnung II

Endliche Automaten Informatik JgSt. 13, Abitur 2009

Chi Quadrat Test Tamara Katschnig.

Ausgleichungsrechnung I

Regionalisierte Variablen und Kriging

Die Gaußverteilung.

STATISIK LV Nr.: 1375 SS März 2005.

Wiederholung BSP 2.1.

STATISIK LV Nr.: 0028 SS Mai 2005.

STATISIK LV Nr.: 0028 SS Mai 2005.

STATISIK LV Nr.: 1375 SS März 2005.

Konfidenzintervall und Testen für den Mittelwert und Anteile

Mehr zum Testen von Hypothesen

Grundlagen der Messtechnik

Referat über das Thema STOCHASTIK.

1 Stichprobenverfahren zur Qualitätssicherung Hilfestellung der Statistik in der Wirtschaftsprüfung.

3. Beschreibung von Abläufen durch Algorithmen 3.4 Zufall

Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig

K. Desch - Statistik und Datenanalyse SS05

Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung

Die Binomialverteilung

Präsentation transkript:

Erzeugung und Verwendung von Zufallszahlen Modellierung von zufälligen Prozessen Anforderungen an eine Zufallszahl Zufallszahlengenerator Generierung einer exponentialverteilte Zufallszahl Empfehlungen zur Anwendungen der Zufallszahlenströme Bestimmung der Güte der Simulationsergebnisse durch Konfidenzintervalle Abhängigkeiten zwischen Simulationsergebnissen Literatur zur Simulation und Statistik

Modellierung von zufälligen Prozessen mittels Zufallszahlengeneratoren Zufallszahlengeneratoren erzeugen eine Folge von Zahlen (Zufallszahlenstrom), die möglichst viele Eigenschaften von Zufallszahlen haben. Da die Erzeugung von Zufallszahlen auf deterministischen Algorithmen beruht, ist die entstehende Zahlenfolge nicht wirklich zufällig. Deshalb wird oft von Pseudozufallszahlen gesprochen. In Computerprogrammen werden "Zufallszahlen" nach bestimmten Algorithmen berechnet, d.h. es sind gar keine echten Zufallszahlen, sondern "Pseudozufallszahlen". Von den so bestimmten Pseudozufallszahlen verlangt man eine möglichst gute Annäherung an "echte" Zufallszahlen, z.B. sollten die einzelnen Zahlen mit gleicher Häufigkeit auftreten, Wiederholungen von Zahlen sollten die gleiche Häufigkeit wie bei echten Zufallsziffern haben. Die von dem Zufallszahlengenerator erzeugte Menge von Realisierungen (auch Stichprobe genannt) muß einem vorgegebenen Verteilungsgesetz einer Zufallszahl gehorchen. Es zeigt sich, dass es genügt, eine im Intervall (0,1) gleichverteilte Zufallszahl zu erzeugen. Mittels dieser Zufallszahl kann zum Beispiel eine normalverteilte Zufallszahl mit gegebenen Mittelwert  (Mu) und Standardabweichung  (Sigma) algorithmisch erzeugt werden.

Anforderungen an eine im Intervall (0,1) gleichverteilte Zufallszahl Die Wahrscheinlichkeit, dass eine Realisierung in einem Teilintervall von (0,1) liegt, ist nur von der Länge des Teilintervalls abhängig. Salopp gesagt: jede Zahl in (0,1) ist gleichwahrscheinlich. Die Anordnung der Zufallszahlen hat keine typischen Merkmale, z.B. die Vorzeichen der Differenzen von aufeinanderfolgenden Zufallszahlen lassen keine typischen Muster erkennen. Da es nur endliche viele Zustände eines Rechners gibt, muss ein solcher Algorithmus periodisch werden. Wir fordern deshalb, dass die Periodenlänge möglichst groß ist. Ausgehend von gegebenen Startwerten (sogenannten Seed-Werten) muss eine große Anzahl von stochastisch unabhängigen Zufallszahlen zur Verfügung stehen. Um bestimmte statistischen Methoden (wie z.B. die Varianzreduktion) anwenden zu können, müssen die zufälligen Prozesse einer Simulation reproduzierbar sein.

Der Zufallszahlengenerator Zwei ganzzahligen Zufallszahlengeneratoren ( MLCG: Multiplicative Linear Congruential Generator ) erzeugen zufällige ganze Zahlen, die zu einer gebrochenen Zahl aus dem Intervall (0,1) verschmolzen werden. Die MLCG´en verwenden große Primzahlen p, die mit einem 32-Bit Rechner noch exakt darstellbar sind, d.h.: p < 231 = 2147483648. ·a1 ·a1 Seed1 = 0  a1 MLCG 1 1036797838 1950756402 1341219698 p1 = 2147483563 226382336 1336216557 1763549752 geheim Seed2 = 1  a2 MLCG 2 1724374066 5003141 1420731485 ·a2 ·a2 p2 = 2147483399 Simulation Zufallszahlen- strom (0, 1): 0.5034.. 0.3910.. 0.5661.. Multiplikation mit dem Multiplikator a des Stroms: Differenz der Zufallszahlen:

·a 2 3 6 ·a 4 1 2 1 5 4 Der Zufallszahlengenerator Die ganzzahligen Zufallszahlengeneratoren (MLCG) basieren auf Erkenntnissen aus der Zahlentheorie, insbesondere der Theorie der Primzahlen. Die MLCG en multiplizieren die aktuelle Zahl im Zufallszahlenstrom mit einem Multiplikator a: 0 < a < p und bilden den Rest bei der Division durch p. Der zugehörige Algorithmus muss sicherstellen, dass bei allen Zwischenergebnissen niemals der Bereich der exakt darstellbaren ganzen Zahlen verlassen wird. Um eine maximale Zyklenlänge der MLCG zu erhalten, müssen die Potenzen von a bei der Division durch p alle möglichen Reste 1,..., p-1 erzeugen. Die Zahl a ist dann eine primitive Wurzel der Primzahl p. Die Periodenlänge eines Zufallszahlenstroms ist (p1 - 1) ·(p2 - 1) / 2  2,30584265058394... · 1018. ·a 2 3 6 ·a 4 Primitive Wurzeln für p = 7 a = 2 ist keine primitive Wurzel a = 3 ist primitive Wurzel a = 3 1 2 a = 2 1 5 4

MLCG 1 MLCG 2 Kombination von zwei Zufallszahlengeneratoren Gründe für die Kombination zweier ganzzahligen Zufallszahlengeneratoren und der Spektraltest Ein Punkt entspricht einem Paar aufeinanderfolgender Zufallszahlen. MLCG 1 p1 = 17 a = 14 unerwünschte Gitterstruktur Differenz-bildung Ebenenabstand = 5.38 MLCG 2 Der größere Abstand der Gitterebenen bestimmt die Qualität der Parameter a und p des MLCG. Die Kriterien sind in der Arbeit von Pierre L'Ecuyer beschrieben. p2 = 19 a = 10 Ebenenabstand = 8.50

Transformation von Zufallszahlen Generierung einer Zufallszahl, die einem gegebenen Verteilungsgesetz genügt Beispiel: Exponentialverteilte Zufallszahl ( Mittelwert  = 1 /  ) f(x) F(x) Dichtefunktion f(x) =  exp(-  x) 1 Verteilungsfunktion F(x) = 1 - exp(-  x) F(x) = P( „Zufallszahl  b“ ) u P( „a < Zufallszahl  b“ ) F(x)´= f(x) x x a b x u ist eine im Intervall (0,1) gleichverteilte Zufallszahl u = 1 - exp(-  x)  x = - ln(1-u) /   x ist eine exponentialverteilte Zufallszahl

Empfehlungen zur Anwendungen der Zufallszahlenströme Zu jedem zufälligen Prozess muss ein Strom zugeordnet werden. Varianzreduktion Um die Ergebnisdaten verschiedener Simulationsläufe vergleichen zu können, sollten nicht ausgewertete zufällige Prozesse in den Simulationsläufen gleich ablaufen. Dadurch werden unnötige Schwankungen der Ergebnisdaten vermieden. Vergleich der mittleren Wartezeiten bei verschiedenen Warteschlangendisziplinen: Europa Amerika Zufällige Prozesse, die in beiden Modellen gleich ablaufen sollten. verschiedene Ströme mit gleichen Seed-Werten Ankunftszeiten der Kunden (1 Kunde / min ) Servicezeiten der Kunden ( 2 min ) Frage: Ist die Differenz der mittleren Wartezeiten in Europa und Amerika größer Null?

Bestimmung der Güte der Simulationsergebnisse Es genügt nicht, die Ergebnisse aus verschiedenen Simulationsläufen nur durch einen Mittelwert zusammenzufassen. Die Ergebnisse können nur dann sinnvoll interpretiert werden, wenn zu dem Mittelwert das zugehörige Konfidenzintervall (Vertrauensintervall) angegeben wird. Die Simulationsergebnisse sind auch Zufallszahlen, von denen man nur wenige Realisierungen beobachtet hat (Stichprobe). Konfidenzintervalle ermöglichen die Genauigkeit der Simulationsergebnisse zu schätzen. Ein Konfidenzintervall gibt an, in welchem Bereich sich der wahre Mittelwert der Zufallszahl mit einer gegebenen Wahrscheinlichkeit (Vertrauenswahrscheinlichkeit, Sicherheitsniveau) befindet. Eine Vergrößerung des Stichprobenumfanges führt bei gleicher Vertrauenswahrscheinlichkeit zu einer Verkleinerung des Konfidenzintervalls. Eine Vergrößerung der Vertrauenswahrscheinlichkeit führt bei gleichen Stichprobenumfang zu einer Vergrößerung des Konfidenzintervalls.

Konfidenzintervalle Gegeben ist eine Stichprobe einer (normalverteilten) Zufallszahl x. Beide Parameter der Zufallszahl sind unbekannt. n = Umfang der Stichprobe (z.B. Anzahl der Simulationsläufe)  = Irrtumswahrscheinlichkeit des Konfidenzintervalls 1-  = Vertrauenswahrscheinlichkeit des Konfidenzintervalls (90%) m = Mittelwert der Stichprobe s = Standardabweichung der Stichprobe Das Konfidenzintervall [m-h, m+h] ist bestimmt durch P(„ m - h  x  m + h “) = P([m-h, m+h]) = 1 -  . h = t(1 -  /2, n-1) * s / n t(1 -  /2, n-1) ist das Quantil der Student t-Verteilung mit n-1 Freiheitsgraden (aus Tabellen oder mit dem Modell Datafit.spp , Netzwerk .StatisticalTools.Confidence bestimmen) Achtung: Die Excel-Funktion = KONFIDENZ(0,1;C16;10)  = 0,1, Standardabweichung aus Zelle C16, n = 10 geht von einer bekannten Standardabweichung der Zufallszahl x aus.

Konfidenzintervalle Beispiel: Differenz der mittleren Wartezeiten bei verschiedenen Warteschlangendisziplinen: Konfidenzintervall bei verschiedenen Ankunfts- und Servicezeiten: [ -458 , 600 ] (m = 71) Mit einer Vertrauenswahrscheinlichkeit von 90 % kann man auf Grund dieser Simulationsstudie nicht entscheiden, ob die Wartezeiten in Europa oder Amerika kürzer sind. Konfidenzintervall bei gleichen Ankunfts- und Servicezeiten: [ 25 , 45 ] (m = 35) Der Mittelwert der Differenz der Wartezeiten in Europa und Amerika ist mit einer Wahrschein-lichkeit von 90 % zwischen 25 und 45 Sekunden. Streuungsdiagramme mit Wertepaare (Europa, Amerika)

Konfidenzintervalle und Stichprobenumfang Situation: Es liegt eine Stichprobe vom Umfang n vor. Die halbe Breite des Konfidenzintervalls ist h. Frage: Wie groß muss n* sein, um die halbe Breite des Konfidenzintervalls auf einem gewünschten Wert h* zu bringen? h = t(1 - /2, n -1) * s /  n h* = t(1 -  /2, n*-1) * s /  n* n*/ n = (h / h*)2 t(1 -  /2, n-1) liegt für n  10 zwischen 1.282 und 3.106. Auch wird sich die Standardabweichung mit wachsenden n kaum noch ändern. h2 * n ist etwa konstant. Beispiel: Halbierung der Breite des Konfidenzintervalls ( h* / h = 0.5 ) erfordert eine 4-fach größere Stichprobe ( n* = 4 n ). Idee: J. Banks: „Output Analysis Capabilities of Simulation Software“, 1996

(x,y) = Cov(x,y) Kovarianz der Zufallszahlen x und y Abhängigkeit zwischen Simulationsergebnissen (x,y) = Cov(x,y) Kovarianz der Zufallszahlen x und y E[x] = Erwartungswert der Zufallszahl x (x,y) = E[ (x – E[x]) (y - E[y]) ] x und y sind stochastisch unabhängig: (x,y) = 0 (x,y) = Korrelationskoeffizient (x,y) = (x,y) / ((x) (y) ) -1  (x,y)  1 Maß für die (lineare) Abhängigkeit von x und y, (x,y) = ±1: linear abhängige Zufallszahlen x und y.

Literatur zur Simulation und Statistik J. Banks; J.S. Carson: „Discrete-Event System Simulation.“, Prentice--Hall 1984. Eine umfassende Einführung in die Mathematischen und statistischen Grundlagen mit Bezügen zur Simulation von Produktions- und Logistikprozessen. P. Bratley; B.L. Fox; L.E. Schrage: „A Guide to Simulation.“, Springer 1987. Kapitel 6 gibt einem umfassenden theoretischen Überblick zur Erzeugung von Zufallszahlen. H. Corsten: „Produktionswirtschaft.“, München, Wien 1994. Grundlagen zur Steuerung und Planung. Pierre L'Ecuyer: „Efficient and Portable Combined Random Number Generators.“ Comm of the ACM Vol 31, Number 6, 1988, p.742-750. Beschreibung der MLCG und Begründungen für die Wahl der Multiplikatoren und der verwendeteten Primzahlen. A.M. Law; W.D. Kelton: „Simulation Modeling & Analysis“, McGraw-Hill, 1991. F. Liebl: „Simulation: Problemorientierte Einführung“, Oldenbourg Verlag 1995. Allgemeinverständliche Einführung in die diskrete Simulation mit zahlreichen Anweisungen und Hinweisen zur Durchführung von Simulationsprojekten. B. Page: „Diskrete Simulation: Eine Einführung mit Modula-2.“, Springer 1991. Statistische Verfahren werden ohne breite mathematische Abhandlungen allgemeinverständlich beschrieben. Hinweise zur Durchführung von Simulationsprojekten. K. Neumann; M. Morlock: „Operations Research.“, Hanser Verlag 1993. Mathematische Grundlagen in knapper Form mit zahlreichen algorithmischen Problemlösungen, Bezüge zur Produktion und Logistik.