Seminar SE 2 st. Uni Klagenfurt: und Uni Wien: 562

Seminar SE 2 st. Uni Klagenfurt: 814. 515 und Uni Wien: 562
Seminar SE 2 st. Uni Klagenfurt: und Uni Wien: Mathematische Modellbildung und Simulation Ökonometrische, systemdynamische, Input-Output Modelle sowie agent-based systems Peter Fleissner Institut für Gestaltungs- und Wirkungsforschung

websites Allgemeines Laufende Ereignisse, Skripten, Termine

Termine Vorbespr: Donnerstag; 3. März 2005, 17 Uhr
1. Block: Montag, 7. März (9 -17 Uhr) 2. Block: Donnerstag, 17. März (9 Uhr) Vortrag ANYLOGIC TEAM (Ort: Kontaktraum der TU, Gusshausstrasse 25-29, 6. Stock) 3. Block: Montag, 4. April (9 -17 Uhr) 4. Block: Montag, 11. April (9 -17 Uhr) 5. Block: Montag, 2. Mai (9 -17 Uhr) Ab 15:30 Uhr: Vortrag DI Klug, Seibersdorf Die ganztägigen Termine finden im Seminarraum bzw. im Computerlabor des IGW statt

Ausblick Teil 4 (Montag, 11. April, ganzer Tag)
Grundzüge der Input-Output-Analyse, Mehrebenenökonomie Anwendungen auf volkswirtschaftliche Modelle, Stoffstromrechnung Teil 5 (Montag, 2. Mai, ganzer Tag) Agent-based modelling Praktische Beispiele, Vortrag DI Klug ab 15:30 Uhr

Teil 3 Montag, 4. April, ganzer Tag
Ökonometrische Modelle: Parameterschätzung Ökonometrie neuronale Netze Praktische Übungen anhand mitgebrachter Daten

Ökonometrische Modelle
Definitionen „tools for measurement used in forecasting, which extrapolate from statistics.“ workinfonet.bc.ca/lmisi/Making/APPEND/APPENDB.HTM „a probabilistic model consisting of a system of one or more equations that describe the relationship among a number of economic and time series variables.“ A model whose equations are estimated using statistical procedures wps.aw.com/aw_mishkin_finmkts_4/0,6251, ,00.html Vergegenständlichung einer Widerspiegelung ökonomischer Aktivitäten auf einer speziellen Aggregationsebenen und ihrer Ursache-Wirkungs- und Bilanzbeziehungen mittels mathematischer und statistischer Methoden eigene Definition

Mathematische Form: Lineare oder nicht-lineare Gleichung bzw. Gleichungssystem y1 = f1(x1, x2, …. xk; y1, y2, …. yn ), y2 = f2(x1, x2, …. xk; y1, y2, …. yn ), …. yn = fn (x1, x2, …. xk; y1, y2, …. yn ), wobei yi…endogene Variablen, i = 1…n xj…exogene Variablen, j = 1…k Jede Variable besitzt eine bestimmte Bedeutung/Qualität, die durch eine Definition beschrieben/festgelegt wird. Die quantitativen Werte der endogene Variablen werden im Modell berechnet Die quantitativen Werte der exogenen Variablen werden extern vorgegeben Man sagt: endogene Variablen werden durch das Modell „erklärt“ Günstig wäre eine kausale Erklärung, ist aber nicht immer gegeben Strukturell/ontologisch gesprochen enthalten ökonometrische Modelle neben definitorischen Zusammenhängen Kausal- und Bilanzbeziehungen

Welche Funktionen werden verwendet? Lineare Modelle (Typ des „stochastischen Gesetzes“) Einzelgleichung, n Beobachtungen (Zeitpunkte oder Querschnittsdaten) Idealisierte Sicht der „Wirklichkeit“: y1 = x b1 + x12 b2 + … + x1k bk + u1 y2 = x b1 + x22 b2 + … + x2k bk + u2 y = f(x1, x2, …. xk) … yn-1 = xn-1,1 b1 + xn-1,2 b2 + … + xn-1,k bk + un yn = xn b1 + xn2 b2 + … + xnk bk + un wobei ui…Störglieder, i = 1…n bj…Parameter, j = 1…k y = X b + u in Matrixschreibweise y x x12 … x1k b1 u1 y2 x x22 … x2k b2 u2 y = … , X = … , b = … , u = … . yn xn-1, xn-1,2 … xn-1,k bk-1 un-1 yn xn1 xn2 … xnk bk un

Welche Funktionen werden verwendet? b. Linearisierte Modelle Nichtlineare Gleichungen werden so transformiert, dass lineare Strukturen herauskommen Besipiel 1: Trend mit konstanter Wachstumsrate g, (b = 1+ g) Yt = a . bt . vt Transformation durch Logarithmieren und Substituieren log (Yt) =log ( a . bt . vt) -> log (Yt) = log (a) + t . log (b) + log (vt) = 1. b1 + xt . b2 + ut = yt Beispiel 2: halblogarithmische Transformation (Störglied u bzw. v weggelassen) Ergebnis der Differenzialgleichung dY/dX=b/X Yt = a . bXt yt = log (Yt) = log (a) + Xt log (b) + log (vt) = 1. b1 + xt . b2

Beispiel 3: Veränderungsraten g in Zeitreihen mit äqudistanten Punkten g(Yt) = Yt / Yt-1 – 1 = (Yt - Yt-1) / Yt-1 =~ dY/dt . 1/Y =~ d( log(Y) ) / dt =~ log(Yt) - log(Yt-1) d.h. Lineare Gleichungen in Veränderungsraten sind auf der Ebene der Originalzeitreihe doppeltlogarithmische Funktionen: g(Yt) = a + b. g(Xt) = d( log(Yt) ) / dt = a + b.d( log(Xt) ) / dt Integration über die Zeit ergibt log(Yt) = a.t + b.log(Xt) + c Exponentieren führt zu Yt = exp(c). exp(a.t) . Xtb (Produkt aus einer Konstanten, einem exponentiellen Trend und der potenzierten Variablen) Dies ist eine typische Transformation von Zeitreihen in Veränderungsraten, die in der Ökonometrie häufig angewendet wird, um den gemeinsamen Trend herauszufiltern, der Scheinkorrelation erzeugt.

Exkurs: Parameterschätzung
Ökonometrische Verfahren: nichtlinear, mit Polynom in x Beispiel Parabel: y = a + b.x + c. x2

Ökonometrische Verfahren: linear
Exkurs: Parameterschätzung Ökonometrische Verfahren: linear

Ökonometrische Verfahren: linear
Exkurs: Parameterschätzung Ökonometrische Verfahren: linear y y = alfa + beta.x j beta = tan(j) alfa x

j y = alfa + beta.x y beta = tan(j) alfa x
Kriterium für optimale Lage der Geraden gesucht. 3 Möglichkeiten: Distanz senkrecht, waagrecht oder normal zur Gerade gemessen Best Fit Kriterium: Summe der Absolutbeträge oder Summe der Quadrate der Abweichungen = Methode der kleinsten Quadrate y = alfa + beta.x y j beta = tan(j) alfa x

(xi , yi) j y = alfa + beta.x yi = ei beta.xi beta = tan(j) alfa x xi
Wenn wir die senkrechte Distanz wählen: Gleichung für jeden einzelnen Punkt mit den Koordinaten (xi , yi): yi = alfa + beta xi + ei Minimierung der Summe der Quadrate der Fehler y = alfa + beta.x yi = (xi , yi) ei j beta.xi beta = tan(j) alfa x xi

Bestimmung der Parameter der Geraden durch Minimierung der Fehlerquadratensumme
? ? Notwendige Bedingung für Minimum: Partielle Ableitungen nach den Parametern = Null ? ?

2 Gleichungen in 2 Unbekannten, alfa und beta
Aus Gleichung 1 erhält man nach Division durch n eine Beziehung zwischen den Mittelwerten von y und x ? Regressionsgerade geht durch die Mittelwerte von y und x Aus Gleichung 2 erhält man nach Einsetzen von alfa in Gleichung 1 den Wert für beta.

Was bedeuten diese Kenngrößen?
Kleiner Ausflug in die empirische Statistik + Neuinterpretation der Kleinstquadratenmethode Mittelwert (ar. Mittel von x) Standardabweichung s Was bedeuten diese Kenngrößen? Dazu müssen wir eine Blickwechselübung machen… Varianz var(x) = s2 Kovarianz cov(x,y) Korrelationskoeffizient r Bestimmtheitsmaß r2

Alternative Interpretation einer Zeitreihe oder von Querschnittsdaten

Alternative Interpretation einer Zeitreihe oder von Querschnittsdaten
Die ganze Zeitreihe wird als Punkt im n-dimensionalen Raum betrachtet, Was bedeutet die Länge l des Vektors in statistischen Begriffen? ? l ist proportional der Standard-Abweichung s wobei der Ursprung des Koordinatensystems in den Punkt gelegt wird

Lineares Regressionsmodell
Matrixschreibweise

Verallgemeinertes lineares Modell in Matrixschreibweise
k Parameter, k-1 exogene Variablen, n Zeitpunkte, i = 1 … n, Üblicherweise wird die erste exogene Zeitreihe als Vektor angenommen, der aus n Einsen besteht. Warum? y1 = x b1 + x12 b2 + … + x1k bk + u1 y2 = x b1 + x22 b2 + … + x2k bk + u2 ….. yn-1 = xn-1,1 b1 + xn-1,2 b2 + … + xn-1,k bk + un-1 yn = xn b1 + xn2 b2 + … + xnk bk + un y = Xb + u Schreibweise: Matrizen als fettgedruckte Großbuchstaben Vektoren als fettgedruckte Kleinbuchstaben

Matrixalgebra im Schnellverfahren
Eine Matrix ist eine rechteckige Anordnung von Elementen. Sie kann als Verallgemeinerung einer einzelnen Zahl aufgefasst werden. Ihre Elemente sind in Reihen, in Zeilen [rows] (horizontal) oder Spalten [columns] (vertikal) angeordnet. Besitzt eine Matrix n Zeilen und k Spalten, besitzt sie n.k Elemente. Man sagt, sie ist von der Ordnung (oder Dimension) n mal k, n x k. Das Element am Kreuzungspunkt der i-ten Zeile und der j-ten Spalte der Matrix A wird repräsentiert durch aij Will man Zugriff auf die Indizes, kann man schreiben: A = { aij } Aus Konvention wird der erste Index als Zeilenindex, der zweite als Spaltenindex angesehen

Matrixalgebra im Schnellverfahren
Eine Matrix der Ordnung 1 x k besteht aus einer einzigen Zeile von Elementen. Wir nennen eine solche Matrix einen Zeilenvektor Beispiel: p = [ p1, p2, … pk-1, pk ] = { pj }, j = 1 … k Eine Matrix der Ordnung n x 1 besteht aus einer einzigen Spalte von Elementen. Wir nennen eine solche Matrix einen Spaltenvektor Beispiel:

Matrixoperationen im Schnellverfahren
Wir gehen von den Matrizen A = { aij }, B = { bij } und C = { cij } aus. Gestürzte (transponierte) Matrix [transposed matrix]: (Zeilen und Spalten werden vertauscht) A‘ = AT = { aji } Addition/Subtraktion zweier Matrizen A + B = { aij } + { bij } = { aij + bij } = { cij } = C A - B = { aij } - { bij } = { aji - bij } = { cij } = C Gleichheit zweiter Matrizen Zwei Matrizen sind gleich, wenn sie von der selben Ordnung sind und in allen ihren Elementen übereinstimmen. A = B  aij = bij für alle i,j, wobei i = 1 … n, j = 1 … k

Wir gehen von den Matrizen A = { aij }, B = { bij } und C = { cij } aus. Multiplikation zweier Matrizen: A ist von der Ordnung n x q B von der Ordnung q x m Ergebnis: Matrix C von der Ordnung n x m Achtung: Im Allgemeinen nicht kommutativ (vertauschbar). A B ungleich B A. Spaltenzahl der ersten Matrix muss gleich der Zeilenzahl der zweiten sein! Faustregel: Gliedweise Multiplikation der Zeilenelemente der ersten Matrix mit den Spaltenelementen der zweiten Matrix mit nachfolgender Summierung

Beispiel 1: Beispiel 2: ? ? ?

Spezielle Matrizen Diagonalmatrix D besitzt nur Elemente ≠ 0 in der Hauptdiagonale (von links oben nach rechts unten), sonst Nullen Einheitsmatrix I besitzt nur Einsen in der Hauptdiagonale sonst Nullen I = { eij }, eij = 1 für i = j; eij = 0 für i ≠ j (Andere Schreibweise mit Deltafunktion: eij = dij ) Skalarmatrix besitzt einen Skalar l in der Hauptdiagonale, sonst nur Nullen S = { sij }, sij = l. dij Vektor y als Diagonalmatrix ŷ ŷ = { yij }, yij = yi . dij

Spezielle Matrizen bzw. Kenngrößen
Einsvektoren (hilfreich zur Summierung von Reihen): Eins-Zeilenvektor (nur von links in Multiplikation) 1 = [ 1, 1, ….1, 1 ] Eins-Spaltenvektor (nur von rechts in Multiplikation) 1T Symmetrische Matrix Y = { yij }, wenn yij = yji Schiefsymmetrische Matrix Z = { zij }, wenn zij = -zij für i ≠ j Inverse Matrix A-1 als Lösung der Gleichung A-1A = I oder AA-1 = I, A muss quadratisch sein Spur [trace] ist die Summe aller Hauptdiagonalelemente Zu beweisen: tr(AB) = tr(BA) Wie geht das?

Skalarprodukt zweier Vektoren
x´y = x1y1+ x2y2 + … + xn-1yn-1+ xnyn Gehen wir zunächst nur von einem Vektor x aus. Die Länge l eines Vektors haben wir schon berechnet. Zur Erinnerung Dies ist nichts anderes als die Wurzel aus dem Skalarprodukt x´x des Vektors x mit sich selbst. Was geschieht, wenn wir den Vektor x skalar durch seine Länge dividieren? Länge des neuen Vektors x* = x / l ?

Was bedeutet das Skalarprodukt räumlich?
z x y j x = y + z z = x – y z´z = (x – y)´(x – y) = x´x + yý – 2 xý Nach dem Kosinussatz gilt ( z´z = x´x + yý – 2 l(x) l(y) cos j Also gilt cos j = x´y / ( l(x) l(y) ) Anmerkung 1: Diese Formel kennen wir schon. Was bedeutet sie? Anmerkung 2: für x‘y = 0  x und y stehen zueinander rechtwinkelig

Der cos des Winkels j zwischen x und y ist nichts anderes als der Korrelationskoeffizient r
Zur Erinnerung: Ursprung des Koordinatensystems liegt im Punkt r (x,y) = cos j

Partielle Ableitung nach den Komponenten eines Vektors
Partielle Ableitung des Skalarprodukts a‘x nach den xi (a und x sind Spaltenvektoren) ∂(a‘x)/ ∂x = a Partielle Ableitung der „quadratischen Form“ x‘Ax nach den x i ∂(x‘Ax)/ ∂x = 2Ax (Spaltenvektor) oder (!) ∂(x‘Ax)/ ∂x = 2x‘A (Zeilenvektor) je nach Kontext

Das allgemeine lineare Modell
Es geht wieder um die Minimierung der Summe der Fehlerquadrate, diesmal in Matrixschreibweise, zur Bestimmung der k Parameter y1 = x b1 + x12 b2 + … + x1k bk + u1 y2 = x b1 + x22 b2 + … + x2k bk + u2 ….. yn-1 = xn-1,1 b1 + xn-1,2 b2 + … + xn-1,k bk + un-1 yn = xn b1 + xn2 b2 + … + xnk bk + un Konvention: Variablen, die empirisch bestimmt werden, tragen ein Dach („Schätzwerte“) y = Xb + u

Idealtypisches Modell
y = Xb + u u ist eine (vektorielle) Zufallsvariable mit Erwartungswert 0 E(u) = 0 mit statistisch unabhängigen Elementen und mit gleicher Varianz für alle Zeitpunkte E(u.u´) = s2 In Die Elemente von X sind fixe Zahlen Der Rang der Matrix ist k<n (bleibt unerklärt)

Schätzverfahren für die Parameter
Kleinstquadratensumme e´e -> Minimum ? ? ?

Konsequenzen Heben wir 2X‘ heraus und fassen zusammen, ergibt sich
X´e = 0 d.h. der Fehlervektor e ist zu allen Vektoren der exogenen Variablen x orthogonal. Ist (wie üblich) die erste Spalte von X, x1 = 1, ergibt sich

Einsetzen des idealtypischen Modells in die Schätzformel für die Parameter
Berechnung der Erwartungswerte ergibt, dass die Schätzfunktion „unverzerrt“ [unbiased] ist, also im Mittel genau den „wahren“ Parameter ergibt, denn

Einsetzen des idealtypischen Modells in die Schätzformel für die Parameter
Berechnung der Varianz-Kovarianz-Matrix Schätzfunktion ist die bestmögliche mit kleinsten (Co-)varianzen [best estimator], aber auch erwartungstreu: best linear unbiased estimator = BLUE estimator

Schätzung der Residuen u und σ2 durch e
Der Schätzer der Residuen ist erwartungstreu. A ist symmetrisch: A‘ = A und idempotent: A2 = A Wie = kommen wir zu einer Schätzung für σ2 ? E(e‘e) = E(u‘A‘Au) = E(u‘Au) = σ2 Spur [In-X(X‘X)-1X‘] = σ2 (n - k)

Bestimmtheitsmaß r2 und Varianzanalyse
Varianz der Schätzungen (erklärter Teil) r2 = Varianz der Beobachtungen Das Bestimmtheitsmaß drückt den Anteil der erklärten Varianz an der Gesamtvarianz aus Es gilt weiters: 0 <= r2 <= 1 und für die Berechnung in Excel (Beweis?)

Intuitive Interpretation im n-dimensionalen Raum
Klassische ökonometrische Parameterschätzung b = (X‘X)-1 X‘y : x1 j b2 x2 x2 y y = > b1 x1 + b2 x2 Korrelations- Koeffizient r = cos(j) e y = y + var(y) >= var(y) b1 x1

Intuitive Interpretation im n-dimensionalen Raum
^ y e ^ y = y + e Nach Pythagoras ist l2(y) = l2(y) + l2(e) var(y) = var(y) + var(e) y ist die orthogonale Projektion von y auf die Ebene, die von den exogenen Vektoren aufgespannt wird e steht auf alle xi senkrecht und auf y r2 = (cosj)2 = l2(y) / l2(y) = var(y) / var(y) j ^ ^ ^ ^ ^ ^

Varianzanalyse Die Varianz der Beobachtungen = Summe aus
Nach Pythagoras gilt im rechtwinkeligen Dreieck: Die Varianz der Beobachtungen = Summe aus Varianz der Schätzungen (erklärter Teil der Varianz) und Varianz der Residuen (nicht erklärter Teil der Varianz) Es gilt aber auch für die Quadratsummen: (Beweis nachstehend)

Regressionsanalyse Testen von Hypothesen T-Test und F-Test

Testen von Hypothesen Bisher keine Annahme über spezielle Verteilungsform der Zufallsvariablen Nun wird Normalverteilung angenommen u ist N(0, σ2In) Wahrscheinlichkeit für die Stichprobenwerte ist:

Testen von Hypothesen Verteilung der Schätzfunktionen von β und von u?
Als lineare Funktionen von normalverteilten Zufallsvariablen sind sie ebenfalls normalverteilt. Ihre Kovarianz ist Null, daher sind sie ebenfalls unabhängig voneinander verteilt. Anders ist es für die Schätzfunktion von σ2. Ohne Beweis stellen wir fest, dass dieser Schätzer χ2-verteilt ist, mit (n-k) Freiheitsgraden. Die Student‘sche t-Verteilung ist eine Verteilung, die – salopp gesprochen – aus dem Quotienten einer normalverteilten Variablen (u) und der Quadratwurzel einer χ2-verteilten Zufallsvariablen gebildet wird / ist also t-verteilt

Testen von Hypothesen t-Verteilung mit n-k Freiheitsgraden aii ist das
i-te Diagonal- element von (X‘X)-1 Zum Testen der Hypothese, dass βi = 0 ist (dies ist gleichbedeutend mit der Annahme, dass von der Variablen von xi kein linearer Einfluss auf y ausgeht), substituieren wir den Wert von βi in die obige Formel. Wir verwerfen die Hypothese βi = 0, wenn t größer („überkritisch“) ist als der Wert, der für ein bestimmtes Sicherheitsniveau (z.B. 95%) und für eine bestimmte Zahl von Freiheitsgraden in der t-Tabelle steht.

T-Verteilung

Testen von Hypothesen: Konfidenzintervall
Eine andere Art von Test geht über das Konfidenzintervall, das mit einer bestimmten Sicherheitswahrscheinlichkeit den unbekannten Parameter Überdeckt aii ist das i-te Diagonal- element von (X‘X)-1 Als Sicherheitswahrscheinlichkeit wählt man üblicherweise 95% oder 99% (in der obigen Formel bedeutet є = 1-Sicherheitswahrscheinlichkeit resp. 5% bzw. 1%). Da die Verteilung zwei Schwänze besitzt, wird Є durch 2 dividiert. Übliche Werte aus der Tabelle von tє/2 für 20 Freiheitsgrade sind (95%) bzw (99%).

Testen von Hypothesen: F-Test
Will man die Hypothese testen, dass alle Parameter (ohne Konstante) gleich Null sind (also die Gleichung nichts erklärt) empfiehlt sich der F-Test. Die F-Verteilung besteht aus dem Quotienten zweier χ2-Verteilungen mit (k-1) bzw. (n-k) Freiheitsgraden. Vereinfacht lässt sich F mit Hilfe des Bestimmtheitsmaßes (Quadrat des Korrelationskoeffizienten) berechnen

Erzeugen eines Regressionsprogramms in Excel
, n, k y = Xb, e = y – y, 3. Testen auf Parametereinfluss bi = 0 4. Testen auf Einfluss der ganzen Gleichung ^ ^ ^

Ein Beispiel zur Illustration
(aus Johnston, J. (1963): Econometric Methods, McGraw-Hill, New York etc, p.127) Drei Zeitreihen (von 1948 bis 1956) Exogene Variablen Index des BNP für UK, Preise von 1948 Quotient des Importpreisindex/Preisindex des BNP Endogene Variable Index der importierten Güter und Dienstleistungen (UK, Preise von 1948) Gleiches Beispiel wird später mit einem neuronalen Netz geschätzt

Wichtigste Ergebnisse
Parameter Beta/sigma t-Wert Untere Grenze Obere Grenze -49,341339 (Konstante) -2, -0, -108,216211 9, 1, (Koeff von x2) 9, 0, 1, 1, 0, (Koeff von x3) 0, 0, -0, 0, R2= 0,93850 F-Wert= 45,78245

Parameterschätzung mit Hilfe Neuronaler Netze

Parameterschätzung mit neuronalen Netzen
Was sind neuronale Netze? Beschreibung des Algorithmus Anwendungs-beispiel Bildquelle: Freeman, James A., and David M. Skapura (1991): Neural networks: algorithms, applications, and programming techniques, Addison Wesley: Reading, Massachusetts

Parameterschätzung mit neuronalen Netzen
Was sind neuronale Netze? Beschreibung des Algorithmus Anwendungs-beispiel

Was sind neuronale Netze?
Neuronale Netze können als stark vereinfachte Nachahmung der Informationsverarbeitung in natürlichen Nervensystemen auf dem Computer angesehen werden. Sie folgen dem Paradigma des Konnektionismus Wesentlichen Merkmale : Sehr viele Verarbeitungselemente Komplexe (nichtlineare) Zusammenhänge können dargestellt werden. Neuronale Netze müssen nicht programmiert werden, sie "lernen" anhand von Beispielen, sie werden trainiert

Klassische KI versus Konnektionismus
Die klassische KI (Künstliche Intelligenz)-Forschung vertritt bezüglich der »Repräsentation mentaler Prozesse und Zustände« das Konzept der »symbolischen« Repräsentation. Der „Konnektionismus“ geht dagegen von der Annahme einer »verteilten« Repräsentation aus. Neuronale Netze beruhen auf dem Konnektionismus. Das „Wissen“ des Netzes ist in Form von unterschiedlichen Gewichten auf alle Knoten des Netzes verteilt Das Wissen kann nicht extrahiert und symbolisch repräsentiert werden

Vorteile von neuronalen Netzen
Bessere Erfassung von Größen, die von extrem vielen Einflüssen abhängen Arbeiten mit Größen, die keiner Quantifizierung zugänglich sind. Auch Texte/soft variables zugelassen Unbekannte nichtlineare Zusammenhänge, können erschlossen werden Netze können ziemlich komplexes Verhalten simulieren Varianz der Schätzung muss nicht kleiner sein als die Varianz der Originalreihe

Nachteile von neuronalen Netzen
Innerer Zusammenhang zwischen Inputs und Output ist im Vergleich zu linearen Modellen schwer nachzuvollziehen Netze lernen manchmal nicht die wesentlichen Zusammenhänge, sondern bleiben an oberflächlichen Gemeinsamkeiten hängen Statistische Tests sind nur schwer möglich Hoher Rechenaufwand bei Problemen mit vielen Variablen Großer Datenbedarf Summe der Residuen in der Regel ungleich Null Schätzung ist eher Kunst als Wissenschaft

Repräsentation eines Neurons mit gewichteten Inputs

Variablentransformationen
Inputvariablen Ziel: Variablen sollen relativ gleichen Einfluss haben Normierung so, dass die Reihe auf das Intervall [ -1, +1 ] abgebildet wird Lineare Transformation xtrans = [ xorig – (max + min)/2 ] / (max - min)/2 Outputvariablen Ziel: Rücktransformation von [ -1, +1 ] auf [ min, max ] Lineare Transformation yout = ytrans * (max - min)/2 + (max + min)/2

Algorithmus: Backpropagation
Der Algorithmus beruht auf Versuch und Irrtum. Zu Beginn werden die Gewichte geraten und nach dem Backpropagation Algorithmus so verbessert, dass der berechnete output dem tatsächlichen immer näher kommt Das Backpropagation-Netz besitzt mehrere Schichten (layers), deren Knoten ausschließlich mit Knoten der unmittelbar angrenzenden Schichten verbunden sind. Das Backpropagation-Netz ist von den Inputs zu den Outputs gerichtet (wie eine Einbahnstrasse), es besitzt keine feedback-loops Die Schichten, die weder input noch output darstellen, heißen hidden layers

Ein wenig Mathematik….. Der j-te Netzknoten netpj des hidden layer h mit p inputs besitzt eine Kostante qj (bias) und für jeden input xi ein Gewicht wij und Der output ipj des Knotens hat die Form wobei f die Gestalt einer logistischen Funktion hat

Logistische Funktion = Sigmoidfunktion
F(x) = exp(x) / [ 1 + exp(x) ] =1 / [ 1 + exp(-x) ] Alternative: arctan(x) Normierung des Outputs auf [ -1, +1 ] Fnorm(x) = = 2 . {1 / [ 1 + exp(-x) ] - 0,5}

…und ein Kochbuch Nimm einen Vektor von Gewichten an Nimm einen input-Vektor an und berechne durch alle layers den output-Vektor Vergleiche den tatsächlichen output-Wert mit dem berechneten und berechne ein Fehlermaß Bestimme, in welcher Richtung jedes Gewicht verändert werden soll, um den Fehler zu verringern Lege den Wert der Veränderung der Gewichte fest Korrigiere die Gewichte Geh zu Punkt 2

…und ein Kochbuch Wie sollen die Gewichte des output-layers geändert werden? Am besten so, dass die Fehlerquadratsumme Ep des output-layers minimiert wird Partielle Ableitung nach den Gewichten ergibt

Landschaft der Fehlerquadratensumme mit Gradienten im Raum zweier Gewichte

…und ein Kochbuch Der letzte Term ist einfach berechnet
Für den negativen Gradienten erhalten wir daher Mit der Veränderung der Gewichte proportional zum negativen Gradienten (0<Lernrate<1), erhalten wir

…und ein Kochbuch Für eine logistische Funktion lässt sich die Ableitung elegant berechnen Die neuen Gewichte werden daher Für die Berechnung der restlichen Gewichte wird auf die Literatur verwiesen.

Ein Beispiel zur Illustration
mit dem Programm Braincel von Promised Land Technologies gratis download einer Demoversion Gleiches Beispiel wie bei Ökonometrie

Weights for network EXP_REGRE. NET
Weights for network EXP_REGRE.NET. current % error 2,229 after training for 208 cycles 0 -> 3 -1, 1 -> 3 0, 2 -> 3 0, 0 -> 4 -2, 1 -> 4 1, 2 -> 4 -0, 0 -> 5 3, 3 -> 5 1, 4 -> 5 2, - 0,9 0,8 -2,3 1,3 1 2 3 4 5 -1,8 3,3 -0,17 2,7 1,7 Vergleich mit Regression 0 -> 5 -49,341339 1 -> 5 1, 2 -> 5 0,

Das neuronale Netz in einer Formel
Die ökonometrische Variante ist dagegen sehr einfach:

Weitere intuitive Ergebnisse
Exkurs: Parameterschätzung Weitere intuitive Ergebnisse Parameterschätzung mit neuronalen Netzen: Keine orthogonale Projektion, daher Varianz der Prognosevariablen nicht kleiner als die Originalvariable > y > x1 e y = > F(x1 x2) j x2

Ein Beispiel: „Exklusives Oder“
Illustriert die Schätzung von stark nichtlinearen Funktionen mittels neuronalen Netzen

Danke für Ihre Aufmerksamkeit
Nächster Termin: Montag, 11. April

Seminar SE 2 st. Uni Klagenfurt: und Uni Wien: 562

Ähnliche Präsentationen

Präsentation zum Thema: "Seminar SE 2 st. Uni Klagenfurt: und Uni Wien: 562"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Seminar SE 2 st. Uni Klagenfurt: und Uni Wien: 562

Ähnliche Präsentationen

Präsentation zum Thema: "Seminar SE 2 st. Uni Klagenfurt: und Uni Wien: 562"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback