Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie

Ähnliche Präsentationen


Präsentation zum Thema: "2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie"—  Präsentation transkript:

1 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie

2 B. Huwe(2001) „Modelle sind Abbildungen ausgewählter Teile (Subsysteme) der Realität in ein künstliches System (Papier und Bleistift, Rechner), so dass die als wichtig erachteten Relationen weitgehend erhalten bleiben. Modellierung ist ein iterativer Prozess, bei dem Erfahrung, Prozessforschung und Abstraktion bzw. Modellbildung sich wechselseitig bedingen....“

3 Grundregel bei der Modellbildung :
Am Anfang und am Ende steht die Beobachtung, stehen die Daten !

4 1. „Klassische“ deterministische Modelle:
„White- Box- Modelle“: alle (relevanten) Prozesse sind bekannt und können über ein System von Differential- und/oder Integralgleichungen auch beschrieben werden. - mathematisch analytische Modelle: Bei Vorgabe von Anfangs- und Randwerten exakte Lösung eines Systems von Differential- und/oder Integralgleichungen. - numerische Modelle: Iterative Lösung (komplexer) Differential- und/oder Integralgleichungssysteme mit Hilfe numerischer Methoden (immer rechnergestützte Verfahren)

5 2. Mathematisch statistische Modelle:
Ein mathematischer Rahmen, quasi als Grundgerüst passt sich mit Hilfe von Regressionsverfahren dem vorliegenden Datensatz an (Primat der Daten! ): - rein abbildende Modelle: Finden einer besten Abbildung aus dem Trainingsdatensatz für eine „beste“ Prognose der abgebildeten Größe. („Black- Box- Modelle“ Verzicht auf eine „erklärende“ innere Struktur) - erklärende Modelle: Finden einer (besten) Abbildung nur mit Hilfe „erklärender“ Modellparameter (Beitrag zur Prozessaufklärung).

6 3. Kombinierte Modelle Deterministische Modelle werden mit Hilfe statistischer Modelle „optimiert“ (Grey- Box-Modelle). - Inverse Modellierung: Anpassung von Modellpara- meter deterministischer Modelle mit Hilfe regressiver Verfahren (z.B. Bestimmung des Wärmeleitungs- koeffizienten bei Wärmeausbreitungsrechnungen in Böden). - Model- Output- Statistics Verfahren (MOS): Die Ergebnisse deterministischer Modelle werden mit Hilfe von Regressionsmodellen an die „wahren“ Beobachtungsdaten „herangezogen“. (z.B. lokake Wetterprognosemodelle)

7 Vor der Modellentwicklung (Konzipierung) muss
Vor der Modellentwicklung (Konzipierung) muss unbedingt dessen anschließend (vorrangiger) Verwendungszweck klar sein !

8 Fehlermaße von Modellen
- Mean Error (BIAS): - Root Mean Squared Error: - Reduktion der Varianz: für IW = 5% mit:

9 Der Vergleich von Modellwert mit Beobachtungswert
Der Vergleich von Modellwert mit Beobachtungswert besitzt zwei einschneidende Probleme: 1. Beobachtungsdaten sind immer mit zufälligen (Mess)fehlern „quasi verrauscht“ 2. Fehler können auch nur mit Hilfe „historischer“ Daten berechnet werden.  Der (aktuelle) wahre Modellfehler kann somit nicht ermittelt werden, wobei zusätzlich noch Messfehler und Modellfehler nicht eindeutig trennbar sind!  Regressionsmodelle gehen von Fehlerfreiheit in der Variablen aus

10 Zum Problem 1 Modelle zur Beschreibung von zufälligen Messfehlern: Modell einer Gauss- Normal- Verteilung (GNV): Gesetzte der Fehlerfortpflanzung von zufälligen Messfehlern der Modellvariablen xi auf den Modellwert durch das Modell hindurch :

11 Achtung: Für das Entwicklungskollektiv(!) von Regressionsmodellen gilt die Fehlerfortpflanzung nicht, da von Fehlerfreiheit in den Variablen ausgegangen wird und über die Regressionsmethode (Minimierung der mittleren quadratischen Abweichung) das „Fehlerrauschen“ der Daten sozusagen „mithinein regressiert“ wird! Was für ein Modellfehler hierdurch entsteht und wie dieser dann korrigiert werden kann, dazu mehr unter Punkt 3!

12 Der Fehler eines Modells (z. B. der Mean Error (ME))
Der Fehler eines Modells (z.B. der Mean Error (ME)) kann somit nur mit Hilfe obiger statistischer Modellvorstellungen mit einem „Unschärfebereich“ (Vertrauensbereich) angegeben werden !

13 Zum Problem 2 Modellvorstellung von stationären Prozessen: Die durch das Modell beschriebenen Prozesse bestehen unverändert fort und(!) die Beobachtungsdaten werden unter den gleichen Bedingungen erhalten wie bisher. Methoden der Kreuzvalidierung können durch das künstliche Schaffen von „zukünftigen“ Teildaten in den historischen Beobachtungsdaten eine erste Abschätzung zur Generalisierungsfähigkeit des Modells liefern.

14 Statistische Lerntheorie
Ziel der statistischen Lerntheorie: Die quantitative Beschreibung des Risikos eines Modells mit Hilfe der Abschätzung durch das empirische Risiko, das aus dem zur Verfügung stehenden Datensatz (Trainingsdaten) bestimmt werden kann. Und weiterhin: Welche theoretischen Aussagen können über die Lernbarkeit einer Datenmenge gemacht werden, inwieweit sind die gelernten Konzepte dann auch generalisierbar.

15 Für beschränkte und verteilungsfreie(!) Zufallsprozesse
ist das unbekannte Risiko: Rk eines Modells ebenfalls beschränkt, d.h. es besitzt eine Obergrenze! Diese Obergrenze setzt sich zusammen aus dem: - empirischen Risiko: Rkemp plus einem Zusatzterm, der - den Stichprobenumfang (n), - die theoretische Lernfähigkeit (h) - die Wahrscheinlichkeit dieser so definierten Obergrenze repräsentiert!

16 (1- ) - Wahrscheinlichkeit der Ungleichung
Die folgende Obergrenze : existiert für eine binäre Abbildung: Y = {+1,-1}, einem Datensatz der Form: (xi ,yi) ; i=1,…,n Musterklassifikation (z.B. könnten die xi Krankheits- symptome und die dazugehörigen yi das Vorhandensein einer Krankheit (+1=ja oder: –1=nein) repräsentieren) mit : h - VC- Dimension des Modells (1- ) - Wahrscheinlichkeit der Ungleichung

17 Definition der VC- Dimension: h von Modellen
Die Vapnik, Chervonenkis (VC)- Dimension ist eine Maß für die theoretische Lernfähigkeit einer Modellfunktion. Sie wird als die maximale Anzahl von Punkten definiert, die durch ein binäres Modell Y={+1,-1} separiert („geshatert“) werden kann.

18 4 Punkte nicht (immer) durch Gerade separierbar!
Die Menge der Geraden im z.B. zweidimensionalen Raum kann höchstens drei beliebige, nicht auf einer Linie liegenden Punkte immer in ihr binäres Muster separieren. Dagegen können vier Punkte nicht von Geraden derartig separiert werden: Da Y={+1,-1} gibt es immer genau 2^n- Möglichkeiten, in die n- Punkte in zwei Klassen aufgeteilt werden können (für 3 Punkte also: 2^3=8) (in Grafik sind 4 der 8 Möglichkeiten dargestellt) 4 Punkte nicht (immer) durch Gerade separierbar!

19 Bemerkungen zur Ungleichung
1. Mit Hilfe dieser Ungleichung wird es möglich ein („bestes“) Modell zu entwickeln, indem dazu die rechte Seite dieser Ungleichung minimiert wird ! 2. Für einen linearen Klassifikator (lineares Modell) ist die VC- Dimension gleich der Anzahl der Eingangs- variablen (unabhängigen Variablen: x) plus 1 3. Für ein (binäres) Modell mit endlicher VC- Dimension: h ist somit garantiert (!), dass es auch lernfähig ist ! (Ein Beispiel für eine unendliche VC- Dimension: Klasse der Funktionen: y = f(x) = sign(sin(t*x))

20 VC- Dimension reeller Funktionen
Übertragung des Konzeptes der VC- Dimension auf Funktionen mit reellen Werten durch Einführung von (binären) Indikatorfunktionen {0,1}. Diese Funktion gibt an, wann die Funktion einen frei wählbaren Wert ß übersteigt: Die VC- Dimension der „reellen“ Funktion ist dann die VC- Dimension ihrer so definierten Indikatorfunktion, weil sie durch ihre Indikatorfunktion eindeutig bestimmt ist

21 Achtung ! Diese spezielle Ungleichung gilt nur für unabhängige und binäre Daten! Es lässt sich aber zeigen (z.B. in T. Fender(2003)), dass das Prinzip der Risikominimierung auch erweiterbar ist auf zeitabhängige (stochastische) Daten!

22 Diskussion der Ungleichung
 Für eine Stichprobe von nur 2 Wertepaaren (x1,y1), (x2,y2) aus einem unbekannten Zufallsprozess ist das empirische Risiko eines linearen Regressionsmodells immer Null (R^2=1)! Das „wahre“ Risiko dieses Modells (n=2 ; h=2 (Modell einer Gerade für: y = f(x)) ist schon mit geringer Wahrscheinlichkeit (1- ) deutlich ungleich Null (trotz fehlerfreier Abbildung dieser beiden Wertepaare!)  Der Mean Error linearer Regressionsmodelle ist für das Entwicklungskollektiv immer Null. Das „wahre“ Risiko dieser Modelle ist aber aufgrund des Summanden in der Ungleichung auf jeden Fall größer Null !

23  Problematik des „Overfitting“:
Wird bei wenigen Daten mit einer komplexen Struktur durch Wahl eines komplexen (Regressions)Modells (großes h) nur der empirische Modellfehler minimiert (z.B. durch R^2 (Max)), so besteht häufig die Gefahr des Anstiegs des „wahren“ Risikos des Modells (Zusatzterm in Ungleichung wird häufig sehr groß!). Dann kann nach obiger Ungleichung ein einfacheres Modell (kleineres h) mit einem höheren empirischen Fehler für diese Stichprobe ein mit gleicher Wahr- scheinlichkeit kleineres „wahres“ Risiko besitzen!

24 Modellierung komplexer Prozesse
Aus obiger Ungleichung folgt, dass für wirklich komplexe Prozesse (z.B. Klima), die dann natürlich auch nur mit relativ komplexen Modellen (großes h) beschrieben werden können, eine sehr große (!) Datenmenge (n) benötiget wird, um diese Prozesse dann auch mit akzeptabler Wahrscheinlichkeit (1- ) und mit hoher Generalisierung beschreiben zu können! (Klimamessdaten sind in der Größenordnung von: ~100a, charakteristischen Zeiten klimatischer Prozesse aber in der Größenordnung von ~1000a !!)

25 Ein Modell sollte nach der Lerntheorie dann
Ein Modell sollte nach der Lerntheorie dann am „optimalsten“ konzipiert sein, wenn es: 1. Das empirische Risiko durch Wahl einer möglichst guten „Abbildung“ minimiert (R^2=Max), was dann aber in der Regel auf „Kosten“ einer großen VC- Dimension: h geht ! DESHALB:

26 2. Eine möglichst große Datenmengen (n) zum
2. Eine möglichst große Datenmengen (n) zum Training des Modells verwendet !  nach obiger Ungleichung kann(!) der Effekt großer h- Werte durch Wahl großer n kompensiert werden UND 3. „selbstlernend“ ist: im Sinne der permanenten Neuberechnung des empirischen Risikos (bei jedem neuen Datensatz Aktualisierung des Trainingsdaten- satzes), sowie eine Anpassung der Modellfunktionen an eine aus den letzten Daten sich ergebende Auswahl nach bestimmten Kriterien erfolgt. (z.B. durch eine harmo- nische Analyse der zeitlichen Datenstruktur)  Berücksichtigung der Stationaritätsforderung

27 IPCC 2007, 6 Palaeoclimate S.467


Herunterladen ppt "2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie"

Ähnliche Präsentationen


Google-Anzeigen