Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seminar SE 2 st. Uni Klagenfurt: 814.515 und Uni Wien: 562.430 Mathematische Modellbildung und Simulation Ökonometrische, systemdynamische, Input-Output.

Ähnliche Präsentationen


Präsentation zum Thema: "Seminar SE 2 st. Uni Klagenfurt: 814.515 und Uni Wien: 562.430 Mathematische Modellbildung und Simulation Ökonometrische, systemdynamische, Input-Output."—  Präsentation transkript:

1 Seminar SE 2 st. Uni Klagenfurt: und Uni Wien: Mathematische Modellbildung und Simulation Ökonometrische, systemdynamische, Input-Output Modelle sowie agent-based systems Peter Fleissner Institut für Gestaltungs- und Wirkungsforschung

2 websites Allgemeines ell.phphttp://www.iff.ac.at/socec/lehre/lehre_aktu ell.php Laufende Ereignisse, Skripten, Termine MathModhttp://cartoon.iguw.tuwien.ac.at/zope/lvas/ MathMod

3 Termine Vorbespr: Donnerstag; 3. März 2005, 17 Uhr 1. Block: Montag, 7. März (9 -17 Uhr) 2. Block: Donnerstag, 17. März (9 Uhr) –Vortrag ANYLOGIC TEAM (Ort: Kontaktraum der TU, Gusshausstrasse 25-29, 6. Stock) 3. Block: Montag, 4. April (9 -17 Uhr) 4. Block: Montag, 11. April (9 -17 Uhr) 5. Block: Montag, 2. Mai (9 -17 Uhr) –Ab 15:30 Uhr: Vortrag DI Klug, Seibersdorf Die ganztägigen Termine finden im Seminarraum bzw. im Computerlabor des IGW statt

4 Ausblick Teil 4 (Montag, 11. April, ganzer Tag) Grundzüge der Input-Output-Analyse, Mehrebenenökonomie Anwendungen auf volkswirtschaftliche Modelle, Stoffstromrechnung Teil 5 (Montag, 2. Mai, ganzer Tag) Agent-based modelling Praktische Beispiele, Vortrag DI Klug ab 15:30 Uhr

5 Teil 3 Montag, 4. April, ganzer Tag Ökonometrische Modelle: Parameterschätzung –Ökonometrie –neuronale Netze Praktische Übungen anhand mitgebrachter Daten

6 Ökonometrische Modelle Definitionen „tools for measurement used in forecasting, which extrapolate from statistics.“ –workinfonet.bc.ca/lmisi/Making/APPEND/APPENDB.HTMworkinfonet.bc.ca/lmisi/Making/APPEND/APPENDB.HTM „a probabilistic model consisting of a system of one or more equations that describe the relationship among a number of economic and time series variables.“ –www.pestmanagement.co.uk/library/gloss_e1.htmlwww.pestmanagement.co.uk/library/gloss_e1.html A model whose equations are estimated using statistical procedures –wps.aw.com/aw_mishkin_finmkts_4/0,6251, ,00.htmlwps.aw.com/aw_mishkin_finmkts_4/0,6251, ,00.html Vergegenständlichung einer Widerspiegelung ökonomischer Aktivitäten auf einer speziellen Aggregationsebenen und ihrer Ursache-Wirkungs- und Bilanzbeziehungen mittels mathematischer und statistischer Methoden –eigene Definition

7 Ökonometrische Modelle Mathematische Form: Lineare oder nicht-lineare Gleichung bzw. Gleichungssystem y 1 = f 1 (x 1, x 2, …. x k ; y 1, y 2, …. y n ), y 2 = f 2 (x 1, x 2, …. x k ; y 1, y 2, …. y n ), …. y n = f n (x 1, x 2, …. x k ; y 1, y 2, …. y n ), wobei y i …endogene Variablen, i = 1…n x j …exogene Variablen, j = 1…k Jede Variable besitzt eine bestimmte Bedeutung/Qualität, die durch eine Definition beschrieben/festgelegt wird. Die quantitativen Werte der endogene Variablen werden im Modell berechnet Die quantitativen Werte der exogenen Variablen werden extern vorgegeben Man sagt: endogene Variablen werden durch das Modell „erklärt“ Günstig wäre eine kausale Erklärung, ist aber nicht immer gegeben Strukturell/ontologisch gesprochen enthalten ökonometrische Modelle neben definitorischen Zusammenhängen Kausal- und Bilanzbeziehungen

8 Ökonometrische Modelle Welche Funktionen werden verwendet? a.Lineare Modelle (Typ des „stochastischen Gesetzes“) Einzelgleichung, n Beobachtungen (Zeitpunkte oder Querschnittsdaten) Idealisierte Sicht der „Wirklichkeit“: y 1 = x 11  1 + x 12  2 + … + x 1k  k + u 1 y 2 = x 21  1 + x 22  2 + … + x 2k  k + u 2 y = f(x 1, x 2, …. x k ) … y n-1 = x n-1,1  1 + x n-1,2  2 + … + x n-1,k  k + u n-1 y n = x n1  1 + x n2  2 + … + x nk  k + u n wobei u i …Störglieder, i = 1…n  j …Parameter, j = 1…k y = X  + u in Matrixschreibweise y 1 x 11 x 12 … x 1k  1 u 1 y 2 x 21 x 22 … x 2k  2 u 2 y = …, X = …,  =…, u =…. y n-1 x n-1, x n-1,2 … x n-1,k  k-1 u n-1 y n x n1 x n2 … x nk  k u n

9 Ökonometrische Modelle Welche Funktionen werden verwendet? b.Linearisierte Modelle Nichtlineare Gleichungen werden so transformiert, dass lineare Strukturen herauskommen Besipiel 1: Trend mit konstanter Wachstumsrate g, (b = 1+ g) Y t = a. b t. v t Transformation durch Logarithmieren und Substituieren log (Y t ) =log ( a. b t. v t ) -> log (Y t ) = log (a) + t. log (b) + log (v t ) = 1.  1 + x t.  2 + u t = y t Beispiel 2: halblogarithmische Transformation (Störglied u bzw. v weggelassen) Ergebnis der Differenzialgleichung dY/dX=b/X Y t = a. b X t y t = log (Y t ) = log (a) + X t log (b) + log (v t ) = 1.  1 + x t.  2

10 Ökonometrische Modelle Beispiel 3: Veränderungsraten g in Zeitreihen mit äqudistanten Punkten g(Y t ) = Y t / Y t-1 – 1 = (Y t - Y t-1 ) / Y t-1 =~ dY/dt. 1/Y =~ d( log(Y) ) / dt =~ log(Y t ) - log(Y t-1 ) d.h. Lineare Gleichungen in Veränderungsraten sind auf der Ebene der Originalzeitreihe doppeltlogarithmische Funktionen: g(Y t ) = a + b. g(X t ) = d( log(Y t ) ) / dt = a + b.d( log(X t ) ) / dt Integration über die Zeit ergibt log(Y t ) = a.t + b.log(X t ) + c Exponentieren führt zu Y t = exp(c). exp(a.t). X t b (Produkt aus einer Konstanten, einem exponentiellen Trend und der potenzierten Variablen) Dies ist eine typische Transformation von Zeitreihen in Veränderungsraten, die in der Ökonometrie häufig angewendet wird, um den gemeinsamen Trend herauszufiltern, der Scheinkorrelation erzeugt.

11 Ökonometrische Verfahren: nichtlinear, mit Polynom in x Beispiel Parabel: y = a + b.x + c. x 2 Exkurs: Parameterschätzung

12 Ökonometrische Verfahren: linear Exkurs: Parameterschätzung

13 Ökonometrische Verfahren: linear y = alfa + beta.x Exkurs: Parameterschätzung x y alfa beta = tan(  ) 

14 Kriterium für optimale Lage der Geraden gesucht. 3 Möglichkeiten: Distanz senkrecht, waagrecht oder normal zur Gerade gemessen Best Fit Kriterium: Summe der Absolutbeträge oder Summe der Quadrate der Abweichungen = Methode der kleinsten Quadrate y = alfa + beta.x x y alfa beta = tan(  ) 

15 Wenn wir die senkrechte Distanz wählen: Gleichung für jeden einzelnen Punkt mit den Koordinaten (x i, y i ): y i = alfa + beta x i + e i Minimierung der Summe der Quadrate der Fehler y = alfa + beta.x x alfa beta = tan(  )  beta.x i eiei xixi yi =yi = (x i, y i )

16 ? ? Bestimmung der Parameter der Geraden durch Minimierung der Fehlerquadratensumme Notwendige Bedingung für Minimum: Partielle Ableitungen nach den Parametern = Null ? ?

17 2 Gleichungen in 2 Unbekannten, alfa und beta Aus Gleichung 1 erhält man nach Division durch n eine Beziehung zwischen den Mittelwerten von y und x Aus Gleichung 2 erhält man nach Einsetzen von alfa in Gleichung 1 den Wert für beta. ? Regressionsgerade geht durch die Mittelwerte von y und x

18 Kleiner Ausflug in die empirische Statistik + Neuinterpretation der Kleinstquadratenmethode Mittelwert (ar. Mittel von x) Varianz var(x) = s 2 Kovarianz cov(x,y) Standardabweichung s Korrelationskoeffizient rBestimmtheitsmaß r 2 Was bedeuten diese Kenngrößen? Dazu müssen wir eine Blickwechselübung machen…

19 Alternative Interpretation einer Zeitreihe oder von Querschnittsdaten

20 l ist proportional der Standard-Abweichung s Alternative Interpretation einer Zeitreihe oder von Querschnittsdaten wobei der Ursprung des Koordinatensystems in den Punkt gelegt wird Die ganze Zeitreihe wird als Punkt im n- dimensionalen Raum betrachtet, ? O t=1 t=3 t=2 Was bedeutet die Länge l des Vektors in statistischen Begriffen?

21 Lineares Regressionsmodell Matrixschreibweise

22 Verallgemeinertes lineares Modell in Matrixschreibweise y 1 = x 11  1 + x 12  2 + … + x 1k  k + u 1 y 2 = x 21  1 + x 22  2 + … + x 2k  k + u 2 ….. y n-1 = x n-1,1  1 + x n-1,2  2 + … + x n-1,k  k + u n-1 y n = x n1  1 + x n2  2 + … + x nk  k + u n k Parameter, k-1 exogene Variablen, n Zeitpunkte, i = 1 … n, Üblicherweise wird die erste exogene Zeitreihe als Vektor angenommen, der aus n Einsen besteht. Warum? y = X  + u Schreibweise: Matrizen als fettgedruckte Großbuchstaben Vektoren als fettgedruckte Kleinbuchstaben

23 Matrixalgebra im Schnellverfahren Eine Matrix ist eine rechteckige Anordnung von Elementen. Sie kann als Verallgemeinerung einer einzelnen Zahl aufgefasst werden. Ihre Elemente sind in Reihen, in Zeilen [rows] (horizontal) oder Spalten [columns] (vertikal) angeordnet. Besitzt eine Matrix n Zeilen und k Spalten, besitzt sie n.k Elemente. Man sagt, sie ist von der Ordnung (oder Dimension) n mal k, n x k. Das Element am Kreuzungspunkt der i-ten Zeile und der j-ten Spalte der Matrix A wird repräsentiert durch a ij Will man Zugriff auf die Indizes, kann man schreiben: A = { a ij } Aus Konvention wird der erste Index als Zeilenindex, der zweite als Spaltenindex angesehen

24 Matrixalgebra im Schnellverfahren Eine Matrix der Ordnung 1 x k besteht aus einer einzigen Zeile von Elementen. Wir nennen eine solche Matrix einen Zeilenvektor Beispiel: p = [ p 1, p 2, … p k-1, p k ] = { p j }, j = 1 … k Eine Matrix der Ordnung n x 1 besteht aus einer einzigen Spalte von Elementen. Wir nennen eine solche Matrix einen Spaltenvektor Beispiel:

25 Matrixoperationen im Schnellverfahren Wir gehen von den Matrizen A = { a ij }, B = { b ij } und C = { c ij } aus. Gestürzte (transponierte) Matrix [transposed matrix]: (Zeilen und Spalten werden vertauscht) A‘ = A T = { a ji } Addition/Subtraktion zweier Matrizen A + B = { a ij } + { b ij } = { a ij + b ij } = { c ij } = C A - B = { a ij } - { b ij } = { a ji - b ij } = { c ij } = C Gleichheit zweiter Matrizen Zwei Matrizen sind gleich, wenn sie von der selben Ordnung sind und in allen ihren Elementen übereinstimmen. A = B  a ij = b ij für alle i,j, wobei i = 1 … n, j = 1 … k

26 Matrixoperationen im Schnellverfahren Wir gehen von den Matrizen A = { a ij }, B = { b ij } und C = { c ij } aus. Multiplikation zweier Matrizen: A ist von der Ordnung n x q B von der Ordnung q x m Ergebnis: Matrix C von der Ordnung n x m Achtung: Im Allgemeinen nicht kommutativ (vertauschbar). A B ungleich B A. Spaltenzahl der ersten Matrix muss gleich der Zeilenzahl der zweiten sein! Faustregel: Gliedweise Multiplikation der Zeilenelemente der ersten Matrix mit den Spaltenelementen der zweiten Matrix mit nachfolgender Summierung

27 Matrixoperationen im Schnellverfahren Beispiel 1: Beispiel 2: ? ? ?

28 Spezielle Matrizen Diagonalmatrix D besitzt nur Elemente ≠ 0 in der Hauptdiagonale (von links oben nach rechts unten), sonst Nullen Einheitsmatrix I besitzt nur Einsen in der Hauptdiagonale sonst Nullen I = { e ij }, e ij = 1 für i = j; e ij = 0 für i ≠ j (Andere Schreibweise mit Deltafunktion: e ij =  ij ) Skalarmatrix besitzt einen Skalar in der Hauptdiagonale, sonst nur Nullen S = { s ij }, s ij = .  ij Vektor y als Diagonalmatrix ŷ ŷ = { y ij }, y ij = y i.  ij

29 Spezielle Matrizen bzw. Kenngrößen Einsvektoren (hilfreich zur Summierung von Reihen): Eins-Zeilenvektor (nur von links in Multiplikation) 1 = [ 1, 1, ….1, 1 ] Eins-Spaltenvektor (nur von rechts in Multiplikation) 1 T Symmetrische Matrix Y = { y ij }, wenn y ij = y ji Schiefsymmetrische Matrix Z = { z ij }, wenn z ij = -z ij für i ≠ j Inverse Matrix A -1 als Lösung der Gleichung A -1 A = I oder AA -1 = I, A muss quadratisch sein Spur [trace] ist die Summe aller Hauptdiagonalelemente Zu beweisen: tr(AB) = tr(BA) Wie geht das?

30 Skalarprodukt zweier Vektoren x´y = x 1 y 1 + x 2 y 2 + … + x n-1 y n-1 + x n y n Gehen wir zunächst nur von einem Vektor x aus. Die Länge l eines Vektors haben wir schon berechnet. Zur Erinnerung Dies ist nichts anderes als die Wurzel aus dem Skalarprodukt x´x des Vektors x mit sich selbst. Was geschieht, wenn wir den Vektor x skalar durch seine Länge dividieren? Länge des neuen Vektors x* = x / l ?

31 Was bedeutet das Skalarprodukt räumlich? x = y + z z = x – y z´z = (x – y)´(x – y) = x´x + yý – 2 xý Nach dem Kosinussatz gilt (http://www.mathewissen.de/klasse10/kosinus.php)http://www.mathewissen.de/klasse10/kosinus.php z´z = x´x + yý – 2 l(x) l(y) cos  Also gilt cos   = x´y / ( l(x) l(y) ) t=1 t=3 t=2 z x y  Anmerkung 1: Diese Formel kennen wir schon. Was bedeutet sie? Anmerkung 2: für x‘y = 0  x und y stehen zueinander rechtwinkelig

32 Der cos des Winkels  zwischen x und y ist nichts anderes als der Korrelationskoeffizient r Zur Erinnerung: Ursprung des Koordinatensystems liegt im Punkt y t=1 t=3 t=2 x  r (x,y) = cos 

33 Partielle Ableitung nach den Komponenten eines Vektors Partielle Ableitung des Skalarprodukts a‘x nach den x i (a und x sind Spaltenvektoren) ∂(a‘x)/ ∂x = a Partielle Ableitung der „quadratischen Form“ x‘Ax nach den x i ∂(x‘Ax)/ ∂x = 2Ax (Spaltenvektor) oder (!) ∂(x‘Ax)/ ∂x = 2x‘A (Zeilenvektor) je nach Kontext

34 Das allgemeine lineare Modell Es geht wieder um die Minimierung der Summe der Fehlerquadrate, diesmal in Matrixschreibweise, zur Bestimmung der k Parameter y 1 = x 11  1 + x 12  2 + … + x 1k  k + u 1 y 2 = x 21  1 + x 22  2 + … + x 2k  k + u 2 ….. y n-1 = x n-1,1  1 + x n-1,2  2 + … + x n-1,k  k + u n-1 y n = x n1  1 + x n2  2 + … + x nk  k + u n Konvention: Variablen, die empirisch bestimmt werden, tragen ein Dach („Schätzwerte“) y = X  + u

35 Idealtypisches Modell y = X  + u u ist eine (vektorielle) Zufallsvariable mit Erwartungswert 0 E(u) = 0 mit statistisch unabhängigen Elementen und mit gleicher Varianz für alle Zeitpunkte E(u.u´) =  2 I n Die Elemente von X sind fixe Zahlen Der Rang der Matrix ist k

36 Schätzverfahren für die Parameter Kleinstquadratensumme e´e -> Minimum ? ? ?

37 Konsequenzen Heben wir 2X‘ heraus und fassen zusammen, ergibt sich X´e = 0 d.h. der Fehlervektor e ist zu allen Vektoren der exogenen Variablen x orthogonal. Ist (wie üblich) die erste Spalte von X, x 1 = 1, ergibt sich

38 Einsetzen des idealtypischen Modells in die Schätzformel für die Parameter Berechnung der Erwartungswerte ergibt, dass die Schätzfunktion „unverzerrt“ [unbiased] ist, also im Mittel genau den „wahren“ Parameter ergibt, denn

39 Einsetzen des idealtypischen Modells in die Schätzformel für die Parameter Berechnung der Varianz-Kovarianz-Matrix Schätzfunktion ist die bestmögliche mit kleinsten (Co- )varianzen [best estimator], aber auch erwartungstreu: best linear unbiased estimator = BLUE estimator

40 Schätzung der Residuen u und σ 2 durch e Der Schätzer der Residuen ist erwartungstreu. A ist symmetrisch: A‘ = A und idempotent: A 2 = A Wie = kommen wir zu einer Schätzung für σ 2 ? E(e‘e) = E(u‘A‘Au) = E(u‘Au) = σ 2 Spur [I n -X(X‘X) -1 X‘] = σ 2 (n - k)

41 Bestimmtheitsmaß r 2 und Varianzanalyse Varianz der Schätzungen (erklärter Teil) r 2 = Varianz der Beobachtungen Das Bestimmtheitsmaß drückt den Anteil der erklärten Varianz an der Gesamtvarianz aus Es gilt weiters: 0 <= r 2 <= 1 und für die Berechnung in Excel (Beweis?)

42 Klassische ökonometrische Parameterschätzung  = (X ‘ X) -1 X ‘ y :   x  Intuitive Interpretation im n-dimensionalen Raum x1x1    x  x2x2 y y = >   x    x  Korrelations- Koeffizient r = cos(  )  > y = y +  > > > > var(y) >= var(y) > > >

43 Intuitive Interpretation im n-dimensionalen Raum y = y + e Nach Pythagoras ist l 2 (y) = l 2 (y) + l 2 (e) var(y) = var(y) + var(e) y ist die orthogonale Projektion von y auf die Ebene, die von den exogenen Vektoren aufgespannt wird e steht auf alle x i senkrecht und auf y r 2 = (cos  2 = l 2 (y) / l 2 (y) = var(y) / var(y) ^ ^ y y e ^  ^ ^ ^ ^ ^

44 Varianzanalyse Nach Pythagoras gilt im rechtwinkeligen Dreieck: Die Varianz der Beobachtungen = Summe aus Varianz der Schätzungen (erklärter Teil der Varianz) und Varianz der Residuen (nicht erklärter Teil der Varianz) Es gilt aber auch für die Quadratsummen: (Beweis nachstehend)

45 Regressionsanalyse Testen von Hypothesen T-Test und F-Test

46 Testen von Hypothesen Bisher keine Annahme über spezielle Verteilungsform der Zufallsvariablen Nun wird Normalverteilung angenommen u ist N(0, σ 2 I n ) Wahrscheinlichkeit für die Stichprobenwerte ist:

47 Testen von Hypothesen Verteilung der Schätzfunktionen von β und von u? Als lineare Funktionen von normalverteilten Zufallsvariablen sind sie ebenfalls normalverteilt. Ihre Kovarianz ist Null, daher sind sie ebenfalls unabhängig voneinander verteilt. Anders ist es für die Schätzfunktion von σ 2. Ohne Beweis stellen wir fest, dass dieser Schätzer χ 2 -verteilt ist, mit (n-k) Freiheitsgraden. Die Student‘sche t-Verteilung ist eine Verteilung, die – salopp gesprochen – aus dem Quotienten einer normalverteilten Variablen (u) und der Quadratwurzel einer χ 2 -verteilten Zufallsvariablen gebildet wird / ist also t-verteilt

48 Testen von Hypothesen t-Verteilung mit n-k Freiheitsgraden a ii ist das i-te Diagonal- element von (X‘X) -1 Zum Testen der Hypothese, dass β i = 0 ist (dies ist gleichbedeutend mit der Annahme, dass von der Variablen von x i kein linearer Einfluss auf y ausgeht), substituieren wir den Wert von β i in die obige Formel. Wir verwerfen die Hypothese β i = 0, wenn t größer („überkritisch“) ist als der Wert, der für ein bestimmtes Sicherheitsniveau (z.B. 95%) und für eine bestimmte Zahl von Freiheitsgraden in der t-Tabelle steht.

49 T-Verteilung

50 Testen von Hypothesen: Konfidenzintervall Eine andere Art von Test geht über das Konfidenzintervall, das mit einer bestimmten Sicherheitswahrscheinlichkeit den unbekannten Parameter Überdeckt a ii ist das i-te Diagonal- element von (X‘X) -1 Als Sicherheitswahrscheinlichkeit wählt man üblicherweise 95% oder 99% (in der obigen Formel bedeutet є = 1-Sicherheitswahrscheinlichkeit resp. 5% bzw. 1%). Da die Verteilung zwei Schwänze besitzt, wird Є durch 2 dividiert. Übliche Werte aus der Tabelle von t є/2 für 20 Freiheitsgrade sind (95%) bzw (99%).

51 Testen von Hypothesen: F-Test Will man die Hypothese testen, dass alle Parameter (ohne Konstante) gleich Null sind (also die Gleichung nichts erklärt) empfiehlt sich der F-Test. Die F-Verteilung besteht aus dem Quotienten zweier χ 2 -Verteilungen mit (k-1) bzw. (n-k) Freiheitsgraden. Vereinfacht lässt sich F mit Hilfe des Bestimmtheitsmaßes (Quadrat des Korrelationskoeffizienten) berechnen

52 Erzeugen eines Regressionsprogramms in Excel 1., n, k 2. y = X , e = y – y, 3. Testen auf Parametereinfluss  i = 0 4. Testen auf Einfluss der ganzen Gleichung ^ ^ ^

53 Ein Beispiel zur Illustration (aus Johnston, J. (1963): Econometric Methods, McGraw-Hill, New York etc, p.127) Drei Zeitreihen (von 1948 bis 1956) Exogene Variablen –Index des BNP für UK, Preise von 1948 –Quotient des Importpreisindex/Preisindex des BNP Endogene Variable –Index der importierten Güter und Dienstleistungen (UK, Preise von 1948) Gleiches Beispiel wird später mit einem neuronalen Netz geschätzt

54 Wichtigste Ergebnisse Parameter Beta/sigma t-WertUntere Grenze Obere Grenze -49, (Konstante) -2, , , , , (Koeff von x2) 9, , , , , (Koeff von x3) 0, , , , R2=0,93850F-Wert=45,78245

55 Parameterschätzung mit Hilfe Neuronaler Netze

56 Parameterschätzung mit neuronalen Netzen 1.Was sind neuronale Netze? 2.Beschreibung des Algorithmus 3.Anwendungs- beispiel Bildquelle: Freeman, James A., and David M. Skapura (1991): Neural networks: algorithms, applications, and programming techniques, Addison Wesley: Reading, Massachusetts

57 Parameterschätzung mit neuronalen Netzen 1.Was sind neuronale Netze? 2.Beschreibung des Algorithmus 3.Anwendungs- beispiel

58 Was sind neuronale Netze? Neuronale Netze können als stark vereinfachte Nachahmung der Informationsverarbeitung in natürlichen Nervensystemen auf dem Computer angesehen werden. Sie folgen dem Paradigma des Konnektionismus Wesentlichen Merkmale : Sehr viele Verarbeitungselemente Komplexe (nichtlineare) Zusammenhänge können dargestellt werden. Neuronale Netze müssen nicht programmiert werden, sie "lernen" anhand von Beispielen, sie werden trainiert

59 Klassische KI versus Konnektionismus Die klassische KI (Künstliche Intelligenz)-Forschung vertritt bezüglich der »Repräsentation mentaler Prozesse und Zustände« das Konzept der »symbolischen« Repräsentation. Der „Konnektionismus“ geht dagegen von der Annahme einer »verteilten« Repräsentation aus. Neuronale Netze beruhen auf dem Konnektionismus. Das „Wissen“ des Netzes ist in Form von unterschiedlichen Gewichten auf alle Knoten des Netzes verteilt Das Wissen kann nicht extrahiert und symbolisch repräsentiert werden

60 Vorteile von neuronalen Netzen Bessere Erfassung von Größen, die von extrem vielen Einflüssen abhängen Arbeiten mit Größen, die keiner Quantifizierung zugänglich sind. Auch Texte/soft variables zugelassen Unbekannte nichtlineare Zusammenhänge, können erschlossen werden Netze können ziemlich komplexes Verhalten simulieren Varianz der Schätzung muss nicht kleiner sein als die Varianz der Originalreihe

61 Nachteile von neuronalen Netzen Innerer Zusammenhang zwischen Inputs und Output ist im Vergleich zu linearen Modellen schwer nachzuvollziehen Netze lernen manchmal nicht die wesentlichen Zusammenhänge, sondern bleiben an oberflächlichen Gemeinsamkeiten hängen Statistische Tests sind nur schwer möglich Hoher Rechenaufwand bei Problemen mit vielen Variablen Großer Datenbedarf Summe der Residuen in der Regel ungleich Null Schätzung ist eher Kunst als Wissenschaft

62 Repräsentation eines Neurons mit gewichteten Inputs

63 Variablentransformationen Inputvariablen Ziel: Variablen sollen relativ gleichen Einfluss haben Normierung so, dass die Reihe auf das Intervall [ -1, +1 ] abgebildet wird Lineare Transformation x trans = [ x orig – (max + min)/2 ] / (max - min)/2 Outputvariablen Ziel: Rücktransformation von [ -1, +1 ] auf [ min, max ] Lineare Transformation y out = y trans * (max - min)/2 + (max + min)/2

64 Algorithmus: Backpropagation Der Algorithmus beruht auf Versuch und Irrtum. Zu Beginn werden die Gewichte geraten und nach dem Backpropagation Algorithmus so verbessert, dass der berechnete output dem tatsächlichen immer näher kommt Das Backpropagation-Netz besitzt mehrere Schichten (layers), deren Knoten ausschließlich mit Knoten der unmittelbar angrenzenden Schichten verbunden sind. Das Backpropagation-Netz ist von den Inputs zu den Outputs gerichtet (wie eine Einbahnstrasse), es besitzt keine feedback-loops Die Schichten, die weder input noch output darstellen, heißen hidden layers

65 Der j-te Netzknoten net pj des hidden layer h mit p inputs besitzt eine Kostante  j (bias) und für jeden input x i ein Gewicht w ij und Der output i pj des Knotens hat die Form wobei f die Gestalt einer logistischen Funktion hat Ein wenig Mathematik…..

66 Logistische Funktion = Sigmoidfunktion F(x) = exp(x) / [ 1 + exp(x) ] =1 / [ 1 + exp(-x) ] Alternative: arctan(x) Normierung des Outputs auf [ -1, +1 ] F norm (x) = = 2. {1 / [ 1 + exp(-x) ] - 0,5}

67 …und ein Kochbuch 1.Nimm einen Vektor von Gewichten an 2.Nimm einen input-Vektor an und berechne durch alle layers den output-Vektor 3.Vergleiche den tatsächlichen output-Wert mit dem berechneten und berechne ein Fehlermaß 4.Bestimme, in welcher Richtung jedes Gewicht verändert werden soll, um den Fehler zu verringern 5.Lege den Wert der Veränderung der Gewichte fest 6.Korrigiere die Gewichte 7.Geh zu Punkt 2

68 …und ein Kochbuch Wie sollen die Gewichte des output-layers geändert werden? Am besten so, dass die Fehlerquadratsumme E p des output-layers minimiert wird Partielle Ableitung nach den Gewichten ergibt

69 Landschaft der Fehlerquadratensumme mit Gradienten im Raum zweier Gewichte

70 …und ein Kochbuch Der letzte Term ist einfach berechnet Für den negativen Gradienten erhalten wir daher Mit der Veränderung der Gewichte proportional zum negativen Gradienten (0

71 …und ein Kochbuch Für eine logistische Funktion lässt sich die Ableitung elegant berechnen Die neuen Gewichte werden daher Für die Berechnung der restlichen Gewichte wird auf die Literatur verwiesen.

72 Ein Beispiel zur Illustration mit dem Programm Braincel von Promised Land Technologies gratis download einer Demoversion Gleiches Beispiel wie bei Ökonometrie

73 Weights for network EXP_REGRE.NET. current % error 2,229 after training for 208 cycles 0 -> 3-1, > 30, > 30, > 4-2, > 41, > 4-0, > 53, > 51, > 52, ,9 0,8 -2,3 1, ,8 -2,3 3,3 -0,17 2,7 1,7 Vergleich mit Regression 0 -> 5-49, > 51, > 50,

74 Das neuronale Netz in einer Formel Die ökonometrische Variante ist dagegen sehr einfach:

75 Weitere intuitive Ergebnisse Parameterschätzung mit neuronalen Netzen: Keine orthogonale Projektion, daher Varianz der Prognosevariablen nicht kleiner als die Originalvariable x1x1  x2x2 y y = >  x  xx  > > Exkurs: Parameterschätzung

76 Ein Beispiel: „Exklusives Oder“ Illustriert die Schätzung von stark nichtlinearen Funktionen mittels neuronalen Netzen

77 Danke für Ihre Aufmerksamkeit Nächster Termin: Montag, 11. April


Herunterladen ppt "Seminar SE 2 st. Uni Klagenfurt: 814.515 und Uni Wien: 562.430 Mathematische Modellbildung und Simulation Ökonometrische, systemdynamische, Input-Output."

Ähnliche Präsentationen


Google-Anzeigen