2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie

Slides:



Advertisements
Ähnliche Präsentationen
Christian Scheideler SS 2009
Advertisements

Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Polynomial Root Isolation
Simulation komplexer technischer Anlagen
Vom graphischen Differenzieren
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
5. Sortier-Algorithmen Vorbemerkungen:
Seminar „Extrapolationsmethoden für zufällige Felder“
13 2. Eine Anwendung der Spline-Glättung in der Versicherungsmathematik: Geographische Prämienschätzung durch räumliche Whittaker-Glättung 2.1 Vorbemerkungen.
Bewegungswissenschaft
Physikalische Messgrößen
Diese Fragen sollten Sie beantworten können
Numerik partieller Differentialgleichungen
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (06 – Reduktion endlicher Automaten) Prof. Dr. Th. Ottmann.
Kapitel 5 Stetigkeit.
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Nicht-Lineare Regression
Kapitel 1 Die natürlichen und die ganze Zahlen. Kapitel 1: Die natürlichen und die ganzen Zahlen © Beutelspacher/Zschiegner April 2005 Seite 2 Inhalt.
Computerkurs: Quantitative Auswertung biochemischer Experimente Tag 8 Einführung in die numerische Integration Aufgabe 18: Simulation einer Assoziationskinetik.
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Struktur und Funktion von Biopolymeren Elmar Lang
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
K. Desch - Statistik und Datenanalyse SS05
Konfidenzintervalle Intervallschätzung
Die Student- oder t-Verteilung
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Statistische Methoden II SS 2003
Folie 1 Kapitel II. Vom Raumbegriff zu algebraischen Strukturen Neubeginn: Herleitung des Begriffs Vektorraum aus intuitiven Vorstellungen über den Raumbegriff.
Tutorium
5. Abbildende versus erklärende Modelle –
Konzeption und Realisierung von DSS
Wiederholung und Beispiele
Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten.
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Universität Stuttgart Wissensverarbeitung und Numerik I nstitut für K ernenergetik und E nergiesysteme Numerik partieller Differentialgleichungen, SS 01Teil.
Ausgleichungsrechnung II
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Folie 1 Kapitel IV. Matrizen Inhalt: Matrizen als eigenständige mathematische Objekte Zusammenhang zwischen Matrizen und linearen Abbildungen Produkt von.
§3 Allgemeine lineare Gleichungssysteme
Wahrscheinlichkeit Zufallsexperiment:
Kapitel 10 Multikollinearität
Strategie der Modellbildung
ENDLICHE KÖRPER RSA – VERFAHREN.
Stetige Kleinste-Quadrate-Approximation
Statistik – Regression - Korrelation
Vom graphischen Differenzieren
Einführung zur Fehlerrechnung
Empirische Sozialforschung am Beispiel der Limburger Nordstadt
Wiederholung/Zusammenfassung
setzt Linearität des Zusammenhangs voraus
Wann ist eine Funktion (über den natürlichen Zahlen) berechenbar?
Der Wiener Prozess und seltene Ereignisse
Geoinformationssysteme
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Univ.-Prof. Dr. L. Müller-HagedornSofia 2007 Marketing 1 Kapitel 4 Nach der Bearbeitung des 4. Kapitels sollten Sie in der Lage sein, q Kennzahlen aufzuzeigen,
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
 Präsentation transkript:

2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie

B. Huwe(2001) „Modelle sind Abbildungen ausgewählter Teile (Subsysteme) der Realität in ein künstliches System (Papier und Bleistift, Rechner), so dass die als wichtig erachteten Relationen weitgehend erhalten bleiben. Modellierung ist ein iterativer Prozess, bei dem Erfahrung, Prozessforschung und Abstraktion bzw. Modellbildung sich wechselseitig bedingen....“

Grundregel bei der Modellbildung : Am Anfang und am Ende steht die Beobachtung, stehen die Daten !

1. „Klassische“ deterministische Modelle: „White- Box- Modelle“: alle (relevanten) Prozesse sind bekannt und können über ein System von Differential- und/oder Integralgleichungen auch beschrieben werden. - mathematisch analytische Modelle: Bei Vorgabe von Anfangs- und Randwerten exakte Lösung eines Systems von Differential- und/oder Integralgleichungen. - numerische Modelle: Iterative Lösung (komplexer) Differential- und/oder Integralgleichungssysteme mit Hilfe numerischer Methoden (immer rechnergestützte Verfahren)

2. Mathematisch statistische Modelle: Ein mathematischer Rahmen, quasi als Grundgerüst passt sich mit Hilfe von Regressionsverfahren dem vorliegenden Datensatz an (Primat der Daten! ): - rein abbildende Modelle: Finden einer besten Abbildung aus dem Trainingsdatensatz für eine „beste“ Prognose der abgebildeten Größe. („Black- Box- Modelle“ Verzicht auf eine „erklärende“ innere Struktur) - erklärende Modelle: Finden einer (besten) Abbildung nur mit Hilfe „erklärender“ Modellparameter (Beitrag zur Prozessaufklärung).

3. Kombinierte Modelle Deterministische Modelle werden mit Hilfe statistischer Modelle „optimiert“ (Grey- Box-Modelle). - Inverse Modellierung: Anpassung von Modellpara- meter deterministischer Modelle mit Hilfe regressiver Verfahren (z.B. Bestimmung des Wärmeleitungs- koeffizienten bei Wärmeausbreitungsrechnungen in Böden). - Model- Output- Statistics Verfahren (MOS): Die Ergebnisse deterministischer Modelle werden mit Hilfe von Regressionsmodellen an die „wahren“ Beobachtungsdaten „herangezogen“. (z.B. lokake Wetterprognosemodelle)

Vor der Modellentwicklung (Konzipierung) muss Vor der Modellentwicklung (Konzipierung) muss unbedingt dessen anschließend (vorrangiger) Verwendungszweck klar sein !

Fehlermaße von Modellen - Mean Error (BIAS): - Root Mean Squared Error: - Reduktion der Varianz: für IW = 5% mit:

Der Vergleich von Modellwert mit Beobachtungswert Der Vergleich von Modellwert mit Beobachtungswert besitzt zwei einschneidende Probleme: 1. Beobachtungsdaten sind immer mit zufälligen (Mess)fehlern „quasi verrauscht“ 2. Fehler können auch nur mit Hilfe „historischer“ Daten berechnet werden.  Der (aktuelle) wahre Modellfehler kann somit nicht ermittelt werden, wobei zusätzlich noch Messfehler und Modellfehler nicht eindeutig trennbar sind!  Regressionsmodelle gehen von Fehlerfreiheit in der Variablen aus

Zum Problem 1 Modelle zur Beschreibung von zufälligen Messfehlern: Modell einer Gauss- Normal- Verteilung (GNV): Gesetzte der Fehlerfortpflanzung von zufälligen Messfehlern der Modellvariablen xi auf den Modellwert durch das Modell hindurch :

Achtung: Für das Entwicklungskollektiv(!) von Regressionsmodellen gilt die Fehlerfortpflanzung nicht, da von Fehlerfreiheit in den Variablen ausgegangen wird und über die Regressionsmethode (Minimierung der mittleren quadratischen Abweichung) das „Fehlerrauschen“ der Daten sozusagen „mithinein regressiert“ wird! Was für ein Modellfehler hierdurch entsteht und wie dieser dann korrigiert werden kann, dazu mehr unter Punkt 3!

Der Fehler eines Modells (z. B. der Mean Error (ME)) Der Fehler eines Modells (z.B. der Mean Error (ME)) kann somit nur mit Hilfe obiger statistischer Modellvorstellungen mit einem „Unschärfebereich“ (Vertrauensbereich) angegeben werden !

Zum Problem 2 Modellvorstellung von stationären Prozessen: Die durch das Modell beschriebenen Prozesse bestehen unverändert fort und(!) die Beobachtungsdaten werden unter den gleichen Bedingungen erhalten wie bisher. Methoden der Kreuzvalidierung können durch das künstliche Schaffen von „zukünftigen“ Teildaten in den historischen Beobachtungsdaten eine erste Abschätzung zur Generalisierungsfähigkeit des Modells liefern.

Statistische Lerntheorie Ziel der statistischen Lerntheorie: Die quantitative Beschreibung des Risikos eines Modells mit Hilfe der Abschätzung durch das empirische Risiko, das aus dem zur Verfügung stehenden Datensatz (Trainingsdaten) bestimmt werden kann. Und weiterhin: Welche theoretischen Aussagen können über die Lernbarkeit einer Datenmenge gemacht werden, inwieweit sind die gelernten Konzepte dann auch generalisierbar.

Für beschränkte und verteilungsfreie(!) Zufallsprozesse ist das unbekannte Risiko: Rk eines Modells ebenfalls beschränkt, d.h. es besitzt eine Obergrenze! Diese Obergrenze setzt sich zusammen aus dem: - empirischen Risiko: Rkemp plus einem Zusatzterm, der - den Stichprobenumfang (n), - die theoretische Lernfähigkeit (h) - die Wahrscheinlichkeit dieser so definierten Obergrenze repräsentiert!

(1- ) - Wahrscheinlichkeit der Ungleichung Die folgende Obergrenze : existiert für eine binäre Abbildung: Y = {+1,-1}, einem Datensatz der Form: (xi ,yi) ; i=1,…,n Musterklassifikation (z.B. könnten die xi Krankheits- symptome und die dazugehörigen yi das Vorhandensein einer Krankheit (+1=ja oder: –1=nein) repräsentieren) mit : h - VC- Dimension des Modells (1- ) - Wahrscheinlichkeit der Ungleichung

Definition der VC- Dimension: h von Modellen Die Vapnik, Chervonenkis (VC)- Dimension ist eine Maß für die theoretische Lernfähigkeit einer Modellfunktion. Sie wird als die maximale Anzahl von Punkten definiert, die durch ein binäres Modell Y={+1,-1} separiert („geshatert“) werden kann.

4 Punkte nicht (immer) durch Gerade separierbar! Die Menge der Geraden im z.B. zweidimensionalen Raum kann höchstens drei beliebige, nicht auf einer Linie liegenden Punkte immer in ihr binäres Muster separieren. Dagegen können vier Punkte nicht von Geraden derartig separiert werden: Da Y={+1,-1} gibt es immer genau 2^n- Möglichkeiten, in die n- Punkte in zwei Klassen aufgeteilt werden können (für 3 Punkte also: 2^3=8) (in Grafik sind 4 der 8 Möglichkeiten dargestellt) 4 Punkte nicht (immer) durch Gerade separierbar!

Bemerkungen zur Ungleichung 1. Mit Hilfe dieser Ungleichung wird es möglich ein („bestes“) Modell zu entwickeln, indem dazu die rechte Seite dieser Ungleichung minimiert wird ! 2. Für einen linearen Klassifikator (lineares Modell) ist die VC- Dimension gleich der Anzahl der Eingangs- variablen (unabhängigen Variablen: x) plus 1 3. Für ein (binäres) Modell mit endlicher VC- Dimension: h ist somit garantiert (!), dass es auch lernfähig ist ! (Ein Beispiel für eine unendliche VC- Dimension: Klasse der Funktionen: y = f(x) = sign(sin(t*x))

VC- Dimension reeller Funktionen Übertragung des Konzeptes der VC- Dimension auf Funktionen mit reellen Werten durch Einführung von (binären) Indikatorfunktionen {0,1}. Diese Funktion gibt an, wann die Funktion einen frei wählbaren Wert ß übersteigt: Die VC- Dimension der „reellen“ Funktion ist dann die VC- Dimension ihrer so definierten Indikatorfunktion, weil sie durch ihre Indikatorfunktion eindeutig bestimmt ist

Achtung ! Diese spezielle Ungleichung gilt nur für unabhängige und binäre Daten! Es lässt sich aber zeigen (z.B. in T. Fender(2003)), dass das Prinzip der Risikominimierung auch erweiterbar ist auf zeitabhängige (stochastische) Daten!

Diskussion der Ungleichung  Für eine Stichprobe von nur 2 Wertepaaren (x1,y1), (x2,y2) aus einem unbekannten Zufallsprozess ist das empirische Risiko eines linearen Regressionsmodells immer Null (R^2=1)! Das „wahre“ Risiko dieses Modells (n=2 ; h=2 (Modell einer Gerade für: y = f(x)) ist schon mit geringer Wahrscheinlichkeit (1- ) deutlich ungleich Null (trotz fehlerfreier Abbildung dieser beiden Wertepaare!)  Der Mean Error linearer Regressionsmodelle ist für das Entwicklungskollektiv immer Null. Das „wahre“ Risiko dieser Modelle ist aber aufgrund des Summanden in der Ungleichung auf jeden Fall größer Null !

 Problematik des „Overfitting“: Wird bei wenigen Daten mit einer komplexen Struktur durch Wahl eines komplexen (Regressions)Modells (großes h) nur der empirische Modellfehler minimiert (z.B. durch R^2 (Max)), so besteht häufig die Gefahr des Anstiegs des „wahren“ Risikos des Modells (Zusatzterm in Ungleichung wird häufig sehr groß!). Dann kann nach obiger Ungleichung ein einfacheres Modell (kleineres h) mit einem höheren empirischen Fehler für diese Stichprobe ein mit gleicher Wahr- scheinlichkeit kleineres „wahres“ Risiko besitzen!

Modellierung komplexer Prozesse Aus obiger Ungleichung folgt, dass für wirklich komplexe Prozesse (z.B. Klima), die dann natürlich auch nur mit relativ komplexen Modellen (großes h) beschrieben werden können, eine sehr große (!) Datenmenge (n) benötiget wird, um diese Prozesse dann auch mit akzeptabler Wahrscheinlichkeit (1- ) und mit hoher Generalisierung beschreiben zu können! (Klimamessdaten sind in der Größenordnung von: ~100a, charakteristischen Zeiten klimatischer Prozesse aber in der Größenordnung von ~1000a !!)

Ein Modell sollte nach der Lerntheorie dann Ein Modell sollte nach der Lerntheorie dann am „optimalsten“ konzipiert sein, wenn es: 1. Das empirische Risiko durch Wahl einer möglichst guten „Abbildung“ minimiert (R^2=Max), was dann aber in der Regel auf „Kosten“ einer großen VC- Dimension: h geht ! DESHALB:

2. Eine möglichst große Datenmengen (n) zum 2. Eine möglichst große Datenmengen (n) zum Training des Modells verwendet !  nach obiger Ungleichung kann(!) der Effekt großer h- Werte durch Wahl großer n kompensiert werden UND 3. „selbstlernend“ ist: im Sinne der permanenten Neuberechnung des empirischen Risikos (bei jedem neuen Datensatz Aktualisierung des Trainingsdaten- satzes), sowie eine Anpassung der Modellfunktionen an eine aus den letzten Daten sich ergebende Auswahl nach bestimmten Kriterien erfolgt. (z.B. durch eine harmo- nische Analyse der zeitlichen Datenstruktur)  Berücksichtigung der Stationaritätsforderung

IPCC 2007, 6 Palaeoclimate S.467