Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Alke Kaufman Geändert vor über 6 Jahren
1
Ökonometrie und Statistik Einfach Regression
Bertram Wassermann
2
Übersicht I Streudiagramm (Beschreibende Statistik, grafisch) II
Korrelation (Beschreibende Statistik, Kennzahlen) III Regression (Beschreibende Statistik, Kennzahlen) IV Ablauf: Bivariate Regressionsanalyse V Test und KI für Regressionsparameter (Schließende Statistik) VI Formeln für KI (Schließende Statistik) VII Fallbeispiel 1 & 2
3
Streudiagramm (Scatter Plot)
Für jede Beobachtungseinheit werden 2 Messungen erhoben. Die Einheiten werden dann als Punkte mit den beiden Messwerten als x und y Koordinate in einem Koordinatensystem dargestellt.
4
Streudiagramm (Scatter Plot)
Zur Form: - Mit Überschrift und Achsenbeschriftung (Einheiten angeben, wenn nicht offensichtlich) Darstellung dokumentieren. - Anzahl der Beobachtungen angeben.
5
Streudiagramm (Scatter Plot)
Hilfslinien erleichtern das Lesen.
6
Streudiagramm (Scatter Plot)
Ablauf: Grafische Analyse für lineare Regression: Folgende Fragen sollen beantwortet werden: . Gibt es einen Zusammenhang zwischen den Variablen? Ist in der Punktwolke ein Muster zu erkennen? . Ist der Zusammenhang linear? Wie sieht dieses Muster aus? Insbesondere, ist das Muster eine „je desto“ Muster? . Wie stark ist der Zusammenhang? Wie ausgeprägt ist das Muster? Sehr deutlich oder eher schwach? . Gibt es Ausreißer in den Daten? Gibt es einzelne Beobachtungen, die sogar nicht ins Muster passen? Oder ohne deren Vorhandensein das Muster gar nicht so ausgeprägt wäre?
7
Gibt es einen Zusammenhang zwischen den Variablen?
8
Ist der Zusammenhang linear?
9
Wie stark ist der Zusammenhang?
10
Gibt es Ausreißer in den Daten?
11
Beispiel Alter und Gewicht bei Kindern bis 36 Monaten
12
Beispiel
13
4 Fragen . Gibt es einen Zusammenhang zwischen den Variablen? Ja
Ist in der Punktwolke ein Muster zu erkennen? . Ist der Zusammenhang linear? Wie sieht dieses Muster aus? Insbesondere, ist das Muster eine „je desto“ Muster? Es ist ein deutlicher „Je mehr desto mehr“ Zusammenhang zu sehen. Eine lineare Regression scheint angebracht. Das Muster enthält aner auch eine leichte Krümmung, also nicht 100%ig linear . Wie stark ist der Zusammenhang? Wie ausgeprägt ist das Muster? Sehr deutlich oder eher schwach? Relative stark und deutlich. . Gibt es Ausreißer in den Daten? Gibt es einzelne Beobachtungen, die sogar nicht ins Muster passen? Oder ohne deren Vorhandensein das Muster gar nicht so ausgeprägt wäre? Keine Auffälligen.
14
Übersicht I Streudiagramm (Beschreibende Statistik, grafisch) II
Korrelation (Beschreibende Statistik, Kennzahlen) III Regression (Beschreibende Statistik, Kennzahlen) IV Ablauf: Bivariate Regressionsanalyse V Test und KI für Regressionsparameter (Schließende Statistik) VI Formeln für KI (Schließende Statistik) VII Fallbeispiel 1 & 2
15
Das Ausmaß des linearen Zusammenhanges kann mit
Korrelation Das Ausmaß des linearen Zusammenhanges kann mit Korrelationskoeffizienten quantifiziert werden. Der Korrelationskoeffizient liegt zwischen –1 und 1. Liegt der Korrelationskoeffizient nahe bei starke positive Korrelation keine Korrelation starke negative Korrelation.
16
Korrelation Der Korrelationskoeffizient r: ein Maß für die Stärke und die Richtung des linearen Zusammenhangs zwischen den Variablen.
17
Korrelation: Definition und Berechnung
Der Korrelationskoeffizient nach Pearson wird mittels folgender Formel berechnet: die Standardabweichung des Merkmals X, die Standardabweichung des Merkmals Y, die Kovarianz der Merkmale X und Y beschreibt die gemeinsame Streuung der x- und der y-Werte.
18
Beispiel
19
Probleme Achtung bei Ausreißern!
20
r=0.6 Probleme Scheinkorrelation
Quelle: Psychomotorik: Der kausale Zusammenhang zwischen psychischen Vorgängen (z.B. Emotionalität oder Konzentration) und dem spontanen Bewegungsspiel. (Quelle: Wikipedia, )
21
Probleme Beachten Sie! Starke Korrelation zweier Variablen muss nicht bedeuten, dass es einen kausalen Zusammenhang zwischen ihnen gibt. Am bekanntesten ist das Storchenbeispiel, … : Abnahme der Anzahl der Störche korrelierte mit der Abnahme der Geburtenzahlen in Ostpreußen, weil die zunehmende Industrialisierung sowohl die Anzahl der Geburten reduzierte als auch die Störche vertrieb. Quelle: Oder: Bei Kindern ist etwa Gewicht und die Schnelligkeit beim Laufen positiv korreliert.
22
Übersicht I Streudiagramm (Beschreibende Statistik, grafisch) II
Korrelation (Beschreibende Statistik, Kennzahlen) III Regression (Beschreibende Statistik, Kennzahlen) IV Ablauf: Bivariate Regressionsanalyse V Test und KI für Regressionsparameter (Schließende Statistik) VI Formeln für KI (Schließende Statistik) VII Fallbeispiel 1 & 2
23
Regression Die Gerade mit der besten Anpassung an die Daten wird berechnet.
24
Regression: Bestimmtheitsmaß
Zunächst gegeben als r², also das Quadrat des Korrelationskoeffizienten. Liegt somit zwischen 0 und 1. Berechnung mittels Residuen: r² entspricht daher dem Prozentsatz der erklärten Varianz an der Gesamtvarianz. Spielt bei Mehrfachregression eine große Rolle
25
Regression: Berechnung der Geraden
Man bestimmt jene Gerade, zu der alle Punkte den möglichst kleinsten Abstand haben.
26
Regression: Berechnung der Geraden
Geradengleichung allgemein: y = k·x + d Regressionsgerade: wobei die Steigung b1 und der Achsenabschnitt b0 folgendermaßen berechnet werden (Andere Formel als im Buch Seite 186):
27
Definition der Residuen (e for errorterm):
Regression: Residuen Definition der Residuen (e for errorterm): Man bestimmt jene Gerade für die gilt, dass die Quadratsumme der Residuen am kleinsten ist. d.h. ist zu minimieren! Liefert die Formeln für b0 und b1 am (vgl. Buch S. 186)
28
Eigenschaften der Residuen (e for errorterm):
Regression: Residuen Eigenschaften der Residuen (e for errorterm): Man prüft die Qualität des Modells mittels so genannter Residuenplots
29
Regression: Residuenplot
… ist ein Streudiagramm, in dem die unabhängige, die erklärende Variable (der Regressor) mit den Residuen aufgetragen wird. Es sollten keine Muster in der Punktwolke erkennbar sein! Gibt es hier ein Muster?
30
4 Fragen für Residuenplots
. Gibt es einen Zusammenhang zwischen den Variablen? Es sollte kein Muster erkennbar sein. Doch. Da ist ein Muster. . Ist der Zusammenhang linear? Es sollte kein lineares Muster mehr sichtbar sein. Wenn, dann ein nicht-lineares Muster. Die Punktwolke passt zu einer Parabel. . Wie stark ist der Zusammenhang? Es ist nicht gut, wenn das Restmuster sehr stark ist. Nicht sehr stark, aber deutlich. . Gibt es Ausreißer in den Daten? Wenn es Ausreißer gibt, dann waren sie vielleicht schon vorher da, oder aber sie sind verschwunden, weil sie die Regression stark beeinflussen. Keine Auffälligen.
31
Regression: Residuenplot
32
Regression: Modellinterpretation
Die Modellgleichung soll in eine sachliche Sprache übersetzt werden. Was bedeutet diese Formel im Kontext des Themas der Daten?
33
Regression: Modellinterpretation
Die Modellgleichung soll in eine sachliche Sprache übersetzt werden. Was bedeutet diese Formel im Kontext des Themas der Daten? Antwort: Laut Modell nimmt das Gewicht pro Monat um 257 Gramm zu. Das Geburtsgewicht beträgt 6,5 kg. Wie kommt man auf das Geburtsgewicht? Antwort: Wenn man in der Formel für Alter 0 einsetzt, erhält man als Ergebnis ja den Achsenabschnitt, also 6,5. Und Alter gleich 0 bedeutet ja Geburt. Ist das plausibel? Die 6,5 kg Geburtsgewicht sicherlich nicht. Das passt aber zur bereits bei der Residuenanalyse gewonnenen Erkenntnis , dass das Modell das Gewicht der Jüngsten und ältesten Kinder überschätzt.
34
Regression: Modellkritik
Was bedeutet das für das Modell? Können wir es verwenden? Antwort: Das Modell zeigt mit einem Korrelationskoeffizienten von 0,89 einen sehr starken Zusammenhang. Wegen der unplausible Interpretation sollten man aber ein besseres Modell entwickeln. Wie kann man das Modell verbessern? Maßnahme 1: Nicht-linearer Ansatz, z.B. ein Modell der folgenden Art schätzen.
35
Regression: Modellkritik
Wie viele neugeborene Kinder haben wir eigentlich in der Stichprobe? Die Antwort finden Sie, wenn Sie aus den univariaten Voranalysen das Minimum herauslesen, oder die entsprechende Grafik betrachten, oder direkt in die Daten gehen. Letzteres ist nur sinnvoll, wenn die Anzahl der Datensätze überschaubar ist. Das jüngste Kind ist 0,2 Monate alt. Das zweitjüngste Kind 3 Monate. D.h. wir haben praktisch keine Daten, die erlauben das Geburtsgewicht zu schätzen. Den Achsenabschnitt als Geburtsgewicht zu interpretieren ist sehr gewagt -> Extrapolation!!!
36
Regression: Modellkritik
Maßnahme 2: Zurück zur Grundgesamtheit. Wir müssen die Definition der Grundgesamtheit schärfen. Für welchen Altersbereich soll die Alters – Gesichtsformel bestimmt werden? Wenn für 0 bis 36 Monate (3 Jahre), dann sollten wir die Stichprobe mit den Daten von Neugeborenen anreichern. Wenn Neugeborene ausgeschlossen sein sollen, dann schränken wird z.B. auf 1 bis 36 Monate (3 Jahre) ein. Konsequenz: Wir können den Achsenabschnitt nicht mehr als Geburtsgewicht interpretieren. Und wir müssen das jüngste Kind aus der Stichprobe entfernen. Die Stichproben überhaupt zu vergrößern wäre sowieso eine gute Maßnahmen
37
Regression: Modellinterpretation
Die Steigung ist die konstante Änderungsrate der Zielvariable (im Beispiel Gewicht) in Abhängigkeit von einer Einheit der erklärenden Variable (im Beispiel Alter). Steigung ~ Änderung der ZV pro erklärender Einheit Der Achsenabschnitt ist der Wert der Zielvariable, den das Modell für den Wert 0 der erklärenden Variable liefert. Aber Achtung: Diese Interpretation macht nur Sinn, wenn 0 ein sinnvoller Wert der erklärenden Variable ist (wie im Beispiel) 0 im Wertebereich der Daten der erklärenden Variable liegt. (Was im Beispiel eben nicht der Fall war.)
38
Übersicht I Streudiagramm (Beschreibende Statistik, grafisch) II
Korrelation (Beschreibende Statistik, Kennzahlen) III Regression (Beschreibende Statistik, Kennzahlen) IV Ablauf: Bivariate Regressionsanalyse V Test und KI für Regressionsparameter (Schließende Statistik) VI Formeln für KI (Schließende Statistik) VII Fallbeispiel 1 & 2
39
Ablauf: Bivariate Regressionsanalyse
. Fragestellung a) Beschreiben und verstehen b) Abklären . Grundgesamtheit a) Beschreibung b) Größe . Datenerfassung a) Erheben, messen b) Erfassen . Stichprobe a)Stichprobenverfahren b) Beschreibung c) Größe . Univariate Analyse der Variablen a) Kennzahlen Mittelwert, Standardabweichung, Schiefe Minimum, 1.Quantil, Median, 3.Quantil, Maximum Modus, eventuell 2., 3. etc. größte Werte b) Grafische Darstellung c) Datenkontrolle d) Ziel: machen Sie sich ein Bild von den Objekten, die Sie vor sich haben.
40
Ablauf: Bivariate Regressionsanalyse
. Streudiagramm Inspektion anhand der 4 Fragen . Inspektion von Ausreißern a) Datenkontrolle, Suche nach einer Erklärung b) Korrigieren, entfernen oder belassen? c) Modellvergleiche in der Modellierungsphase . Modellberechnung Geradengleichung, Bestimmtheitsmaß . Modell Interpretation Übersetzen der Modellgleichung in Sach- und Fachsprache. Was bedeutet die Gleichung? . Modellkritik a) Korrelation bzw. Bestimmtheitsmaß b) Residuenplots c) Plausibilitätscheck : Ist die Interpretation sachlich plausibel
41
Ablauf: Bivariate Regressionsanalyse
. eventuell Ausreißer Behandlung: a) entfernen b) neue Modellierung c) Vergleich mit dem alten Modell . eventuell Datenmanipulation, um Modell zu verbessern Nicht Lineare Regression . Ergebnisbeschreibung Eine Zusammenfassung aller getätigten Schritte
42
Beispiel: Einkommen und Sparen
. Das Beispiel ist fiktiv. Daten sind erfunden.
43
Beispiel: Einkommen und Sparen
. Grundgesamtheit: Haushalte in Österreich Stichprobe: zufällig gewählte Haushalten . Fragestellung: Erfragt wurde das Jahreseinkommen im Haushalt und das jährliches Sparvolumen beides gemessen in 1000 Euro. Gibt es einen Zusammenhang zwischen Einkommen und Sparvolumen, und wie lässt sich dieser Beschreiben? . Univariate Analyse Erste Ergebnisse: 1) Im Durchschnitt werden nicht ganz 10% des Einkommens gespart. 2) Die Streuung der Daten ist bei beiden Variablen recht hoch. Die Variationsko-effizienten liegt deutlich über 50%. 3) Die Einkommen variieren zwischen € 12k und € 80k. Man muss sich hier wohl Haushalte mit ganz unterschiedlichem Verhalten und Bedürfnissen vorstellen. 4) Beim Sparen weißt der hohe Werte bei der Schiefe auf einen Ausreißer rechts, also bei hohem Sparvolumen hin. Einkommen Sparen Mittelwert 36,46 3,23 Standardabw. 23,68 2,53 Schiefe 0,83 1,56 Maximum 83 10 3.Quartil 45 4 Median 31 3 1.Quartil 15 2 Minimum 12
44
Beispiel: Einkommen und Sparen
. Univariate Analyse
45
Beispiel: Einkommen und Sparen
. Streudiagramm
46
Beispiel: Einkommen und Sparen
. Ausreißer und Modellvergleich
47
Beispiel: Einkommen und Sparen
. Ausreißer Versuchen Sie eine Erklärung für die Ausreißer zu finden! Möglicherweise nutzen Haushalten mit höherem Einkommen eher andere Möglichkeiten der finanziellen Veranlagung als Sparen. Das würde eventuell den einen Ausreißer erklären. Vorsicht! Geringe Fallzahl! Man sieht an dem Datensatz ganz deutlich wie sehr sich die Ergebnisse verändern, wenn man nur eine Beobachtung aus der Analyse entfernt.
48
Beispiel: Einkommen und Sparen
. Noch ein Versuch: Beschränkung auf Einkommen unter
49
Beispiel: Einkommen und Sparen
. Residuen
50
Beispiel: Einkommen und Sparen
. Ergebnisbeschreibung Die Inspektion des Streudiagramms und ein Korrelationskoeffizient von 0,70 weisen auf einen Zusammenhang zwischen Einkommen und Sparen hin. Dieser hat durchaus linearen Charakter. Allerdings finden sich gerade bei den höheren Einkommen zwei deutliche Abweichungen von der prognostizierten Linie (#15 zu hoch, #17 zu niedrig). Behandelt man diese (und noch einen anderen Fall #3) als Ausreißer und berechnet Modelle ohne sie, so erkennt man die starke Abhängigkeit linearer Modelle von diesen Beobachtungen (R² zwischen 0,22 und 0,87, Steigung zwischen 0,037 und 0,106), was auf die leider geringe Fallzahl zurückzuführen ist. Auf der Suche nach einer möglichen Erklärung für diese Ausreißer wurde die Hypothese aufgestellt, dass möglicherweise Personen mit höherem Einkommen in ihren Vermögens-Veranlagungsstrategien eher zur Diversifikation neigen als Personen mit geringerem Einkommen. Aufgrund der geringen Fallzahl (13 Stück und 3 HH über €) und aufgrund mangelnder Informationen (wir wissen nichts über die Verwendung des restlichen HH-Einkommens) lässt sich diese Hypothese nicht näher untersuchen. Dennoch versuchen wir zu einem aussagekräftigem Ergebnis zu kommen, indem wir uns bei der Grundgesamtheit auf Haushalte beschränken, deren Einkommen unter € liegt. In diesem Fall erhalten wir einen Korrelationskoeffizienten von 0,89 und die Schätzung, dass in diesem Einkommensfeld in etwa 10% des Einkommens gespart wird (Steigung der Geraden 0,1048).
51
Übersicht I Streudiagramm (Beschreibende Statistik, grafisch) II
Korrelation (Beschreibende Statistik, Kennzahlen) III Regression (Beschreibende Statistik, Kennzahlen) IV Ablauf: Bivariate Regressionsanalyse V Test und KI für Regressionsparameter (Schließende Statistik) VI Formeln für KI (Schließende Statistik) VII Fallbeispiel 1 & 2
52
Schließende Statistik: Stichprobe
Es gibt Fragestellungen, da reicht die Regressionsgerade zu Beschreibung der Daten völlig aus: Fraud Detection: auffällige Muster in Daten finden Controlling: Ist-Zahlen Beschreibung Sobald aber von Stichproben die Rede ist, möchte man in der Regel die gefundenen Ergebnisse auf die Grundmenge übertragen: Und zwar im Wesentlichen die Geradengleichung. Man möchte zum Beispiel sagen können: Der Zusammenhang zwischen Alter und Gewicht verhält sich bei Kindern zwischen 1 und 36 Monaten entsprechend der folgenden Formel: Gewicht ~ 6, ,2568 * Alter
53
Schließende Statistik: Konfidenzintervall KI
Würde man neuerlich eine Stichprobe ziehen und die Regressionsgerade berechnen, so wird man wohl andere Werte für Steigung und Achsenabschnitt erhalten. Mit Konfidenzintervallen wird die Bandbreite der möglichen Schwankung bestimmt und dargestellt. Im Beispiel beträgt das 95% KI für die Steigung [0.1829, ] Das bedeutet, bei einer weiteren Stichprobe der selben Größe fällt der Steigungskoeffizient mit 95% Sicherheit in dieses Intervall. Oder, zieht man tausende Stichproben der selben Größe, so werden in 95% der Fälle die Steigungskoeffizienten in diesem Intervall liegen, in 5% außerhalb, also drunter oder drüber.
54
Schließende Statistik: KI für Steigungskoeffizienten
Anwendungen der Konfidenzintervalle KI für Steigungskoeffizient zur Modellkritik Enthält ein KI den Wert 0 oder sogar negative und positive Werte, so ist nicht mit hoher Sicherheit auszuschließen, dass eine neuerliche Stichprobe inklusive Regressionsberechnung gar keinen oder sogar einen gegenteiligen Zusammenhang zeigen würde. Im Beispiel, wäre das 95% KI [ , ], so wäre nicht mit 95%iger Sicherheit auszuschließen, dass eine neuerliche Stichprobe einen Steigungskoeffizienten nahe 0 oder gar einen negativen Zusammenhang zeigen würde. Es wäre aber auch sachlich unplausibel.
55
Schließende Statistik: KI für Steigungskoeffizienten
Anwendungen der Konfidenzintervalle KI für Steigungskoeffizient zur Modellkritik Zur Erinnerung, es gibt einen Zusammenhang zwischen Steigungskoeffizienten der Regressionsgeraden und Korrelationskoeffizient: D.h. Ist die Steigung signifikant von 0 verschieden, so ist es auch der Korrelationskoeffizient (und umgekehrt). Man kann also mit einer gewissen Sicherheit von einem statistisch linearen Zusammenhang der beiden Variablen sprechen, wenn der Wert 0 nicht in dem KI liegt.
56
Schließende Statistik: KI für Steigungskoeffizienten
Anwendungen der Konfidenzintervalle KI für Steigungskoeffizient zur Modellkritik Zur Erinnerung, es gibt einen Zusammenhang zwischen Steigungskoeffizienten der Regressionsgeraden und Korrelationskoeffizient: D.h. Ist die Steigung signifikant von 0 verschieden, so ist es auch der Korrelationskoeffizient (und umgekehrt). „Signifikant von 0 verschieden“ bedeutet, der Wert 0 ist in einem Konfidenzintervall mit hoher Sicherheit nicht enthalten. Als hohe Sicherheit werden üblicher Weise Werte wie 90%, 95% oder 99% genommen. Sie entsprechen den Fehlerrisiken α = 0,1 oder 0,05 oder 0,01, dass der Wert dennoch außerhalb des Intervalls liegt.
57
Schließende Statistik: KI für Steigungskoeffizienten
Anwendungen der Konfidenzintervalle KI für Steigungskoeffizient zur Modellkritik Was aber tun, wenn der Wert 0 selbst für die niedrigste Sicherheit von 90% im KI liegt? Beweist das dann, dass es keinen Zusammenhang gibt? 1. Es beweist nicht, dass es keinen linearen Zusammenhang gibt. 2. Es beweist schon gar nicht, dass es keinen Zusammenhang gibt. 3. Es bedeutet lediglich, dass statistisch auf dem gewählten Sicherheitsniveau kein linearer Zusammenhang nachgewiesen werden kann. Es könnte aber nicht-lineare Zusammenhänge geben. Oder man hat einfach eine zu kleine Stichprobe. Oder das Sicherheitsniveau ist zu hoch.
58
Schließende Statistik: KI für Steigungskoeffizienten
Anwendungen der Konfidenzintervalle KI für Steigungskoeffizient zur Modellkritik Was aber tun, wenn der Wert 0 selbst für die niedrigste Sicherheit von 90% im KI liegt? 1. Qualitätskontrolle: Überprüfen der Daten, und der Berechnungen. Manchmal treten einfach Fehler auf, die das Ergebnis verschlechtern. Passen die Daten mit der Fragestellung wirklich zusammen? 2. Stichprobengröße erhöhen. 3. Modell verändern. Nicht-lineare Modellierung oder multiple Regression verwenden. 4. Akzeptieren, dass kein Zusammenhang nachweisbar ist.
59
Schließende Statistik: KI für Steigungskoeffizienten
Anwendungen der Konfidenzintervalle 2. KI für Steigungskoeffizient zur Schätzung der Genauigkeit Im Beispiel beträgt das 95% KI für die Steigung [0.1829, ] Die Steigung selbst wird mit geschätzt. Das bedeutet, mit einer 95%ign Sicherheit wird Gewichtszuwachs auf ± kg genau geschätzt, also auf 74 Gramm genau. Ist das zu ungenau? Was tun, wenn es zu ungenau ist? Stichprobengröße erhöhen.
60
Schließende Statistik: KI für Achsenabschnitt
Anwendungen der Konfidenzintervalle 3. KI für Achsenabschnitt Für den Achsenabschnitt gibt es keinen „natürlichen“ Wert, der nicht im KI enthalten sein sollte, sowie bei der Steigung der Wert 0. Der Achsenabschnitt sollte interpretierbar sein, damit auch das KI interpretierbar ist. Sonst macht das KI keinen Sinn. Wie im Beispiel, Zusammenhang Alter Gewicht von Kindern zwischen einem Monat und 36 Monaten. Achsenabschnitt ist nicht interpretierbar, daher KI ist nicht interpretierbar. Daten auch mit Neugeborenen, also Alter der Kinder zwischen 0 und 36 Monaten. Achsenabschnitt ist Geburtsgewicht. Daher KI ist die Schwankungsbreite des durchschnittlichen Geburtsgewichtes
61
Schließende Statistik: KI für Achsenabschnitt
Anwendungen der Konfidenzintervalle 3. KI für Achsenabschnitt Daten auch mit Neugeborenen, also Alter der Kinder zwischen 0 und 36 Monaten. Achsenabschnitt ist Geburtsgewicht. Daher KI ist die Schwankungsbreite des durchschnittlichen Geburtsgewichtes Anwendung: Plausibilitätscheck, 0 sollte nicht im KI sein, da fachlich in diesem Fall kein sinnvoller Wert. Lösung, falls das geschieht: 1. Qualitätskontrolle 2. Stichprobengröße erhöhen. 3. Modell verändern. 4. Modell verwerfen.
62
Schließende Statistik: Prognose
Die Geradengleichung bietet sich ganz offensichtlich an, sie auch für Objekte aus der Grundgesamtheit zu benutzen, die nicht in der Stichprobe waren. Man bestimmt für ein Objekt der Grundgesamtheit den Wert der erklärenden Variable (Regressor, x-Achse) und berechnet mit Hilfe der Regressionsgleichung der erwarteten (theoretischen) Wert der abhängigen Variable (Regressand, y-Achse) Anwendung 1, Punktschätzung: Der Ist Wert für den Regressanden ist nicht bekannt. Man verwendet den geschätzten Wert als Ersatz, Anwendung 2, Soll-Ist Vergleich: Der Ist-Wert für den Regressanden ist bekannt. Man bewertet, ob das Objekt gut ins Modell passt, oder davon abweicht. Wenn letzteres: Warum?
63
Schließende Statistik: Prognose
Weiters unterscheidet man die Art der Fragestellung bei der Prognose: Individuelle Fragestellungen: a) Rating bei einer Bank (Wie groß ist das Risiko, dass der potentielle Kunden seinen Kredit nicht zurückzahlen kann?) b) Wetter (Welche Temperatur wird es morgen haben?) c) Herzinfarktrisiko (eines Patienten) d) Beurteilung der Entwicklung von Kleinkindern Fragestellungen bezogen auf Gruppen: a) Business Case (Wie viel werden die 40 bis 50 jährigen im Durchschnitt für ein neues Produkt ausgeben?) b) Klimamodelle (wollen nicht das Wetter am 22. Dez 2109 prognostizieren) c) Bevölkerungs- und Gesundheitsstatistik (Durchschnittliche Lebenserwartung)
64
Schließende Statistik: KI für Prognose
Anwendungen der Konfidenzintervalle 4. KI für Punktschätzung Bei einer Punktschätzung stellt sich unweigerlich die Frage: Wie genau ist die Schätzung? Konfidenzintervalle geben die Antwort. Zumindest mit einer gewissen Sicherheit. Interpretation eines 95% Konfidenzintervall für eine Prognose: Für verschiedene Objekte der Grundgesamtheit, die alle den selben Wert im Regressor haben, werden 95% der Ist-Werte in dem KI liegen und nur 5% außerhalb. Eigenschaften: Je größer die gewünschte Sicherheit, desto breiter das KI. KIs in der Mitte der Verteilung des Regressors sind am engsten, am Rande am breitesten. KIs für individuelle Prognose sind immer breiter als für Mittelwerte.
65
Schließende Statistik: KI für Prognose
Anwendungen der Konfidenzintervalle 5. Mit KI Soll-Ist Vergleiche durchführen Bei einem Soll-Ist Vergleich gilt es zu bewerten, ab wann die Abweichung des Ist vom Soll nicht mehr normal ist. Das findet z.B. Anwendung in der Produktion: Weicht das Ist vom Soll zu stark ab, schließt man daraus, dass sich die Produktionsbedingungen verschlechtert haben. Konsequenz: Techniker justiert Maschinen nach. Grenzen für die Abweichung werden mit KI festgelegt, z.B. Alles außerhalb des 95% KI ist Abweichung. Oder mit Abstufung Außerhalb 90% KI aber innerhalb 95% KI -> Warnstufe 1 Außerhalb 95% KI aber innerhalb 99% KI -> Warnstufe 2 Außerhalb 99% -> Alram
66
Schließende Statistik: KI für Prognose
Anwendungen der Konfidenzintervalle 5. Mit KI Soll-Ist Vergleiche durchführen Bei einem Soll-Ist Vergleich gilt es zu bewerten, ab wann die Abweichung des Ist vom Soll nicht mehr normal ist. Warnung: KIe spiegeln jene Normalität wider, die in den Daten der Stichprobe abgebildet ist. KIe liefern nicht automatisch Bereiche für sachlich richtige, passende oder „gesunde“ Zahlen. z.B. Zusammenhang Alter und Gewicht bei Kleinkindern Angenommen unsere Stichprobe enthielte auch viele Frühgeburten, was würde das 99% KI für das Geburtsgewicht aussagen? Sicher nicht den Gewichtsbereich für gesunde Kinder. Das KI würde auch das zu niedrige Gewicht von Frühgeburten widerspiegeln.
67
Schließende Statistik: KI für Prognose
Anwendungen der Konfidenzintervalle 5. Mit KI Soll-Ist Vergleiche durchführen Bei einem Soll-Ist Vergleich gilt es zu bewerten, ab wann die Abweichung des Ist vom Soll nicht mehr normal ist. Warnung: KIe spiegeln jene Normalität wider, die in den Daten der Stichprobe abgebildet ist. KIe liefern nicht automatisch Bereiche für sachlich richtige, passende oder „gesunde“ Zahlen. Lösung 1: Grundgesamtheit so definieren und Stichprobe so wählen, dass nur gesunde Kinder berücksichtigt werden. Lösung 2: Multiple Regression, die zusätzlichen Informationen über den Gesundheitszustand der Kinder ins Modell mitaufnehmen.
68
Schließende Statistik: Voraussetzungen für Prognosen
Welche Voraussetzungen müssen erfüllt sein, damit eine Hochrechnung zulässig ist? Die Stichprobe muss zufällig gezogen worden sein. Die Residuen dürfen kein Restmuster enthalten. Die Residuen müssen voneinander unabhängig sein. Die Residuen müssen mit Mittelwert 0 normalverteilt sein. Der Wert des Regressors (erklärende Variable, x-Achse) sollte aus dem Wertebereich der Stichprobe der erklärenden Variable sein, also ≥ Min und ≤ Max des Regressors. Vermeiden Sie Extrapolation! Der Support des Regressors sollte grundsätzlich gleichmäßig und repräsentativ sein.
69
Ablauf: Bivariate Regression mit schließender Statistik
Zunächst einmal läuft die Regression entsprechend des bereits besprochenen Ablaufes für bivariate Regression. Die Modellkritik wird erweitert. . Modellkritik a) Korrelation bzw. Bestimmtheitsmaß b) Test, ob Steigung / Korrelation signifikant von verschieden. c) Residuenplots erweitert um die Überprüfung der Voraussetzungen für Hochrechnung. d) Plausibilitätscheck: Ist die Interpretation sachlich plausibel e) Wenn angebracht, KI für Achsenabschnitt auf Plausibilität prüfen.
70
Ablauf: Bivariate Regression mit schließender Statistik
. Prognose bei positiver Modellkritik a) Abklären der Fragestellung, für die prognostiziert werden soll (individuell / Gruppe). b) Auswahl der Objekte für Prognose c) Durchführung der Prognose d) Berechnung der KIe e) Interpretation und Reaktion (Was tun?) . Prognose bei negativer Modellkritik a) Keine Durchführung, zurück an den Start. b) Qualitätskontrolle bei Daten und Durchführung c) Modellverbesserung durch Erhöhen der Stichprobe d) Modellverbesserung durch Wahl anderer Modelle e) Modellverbesserung durch Wahl zusätzlicher erklärender Variablen.
71
Übersicht I Streudiagramm (Beschreibende Statistik, grafisch) II
Korrelation (Beschreibende Statistik, Kennzahlen) III Regression (Beschreibende Statistik, Kennzahlen) IV Ablauf: Bivariate Regressionsanalyse V Test und KI für Regressionsparameter (Schließende Statistik) VI Formeln für KI (Schließende Statistik) VII Fallbeispiel 1 & 2
72
Test für den Steigungskoeffizienten
Ein wichtige Annahme dabei ist, dass die Residuen unabhängig und normalverteilt sind mit der selben Varianz. Teststatistik: Signifikanzniveau a wählen: typische Werte 0.1, 0.05 oder 0.01 Hypothesen: zweiseitig einseitig H0:b1=0, H1:b1≠ H0:b1≤0, H1:b1> H0:b10, H1:b1<0 Entscheidung: Q(t) ist die Quantile der t-Verteilung.
73
Beispiel r=0,894 r²= 0,799 1-r²= 0,201 √1-r²= 0,449 r √(n-2) =3,344
T =7,456 = 0,05 2-seitiger Test Q(t) = 2.145 Entscheidung für H1
74
Konfidenzintervall (KI) für den Steigungskoeffizienten
Das Konfidenzintervall für b1 auf einem Konfidenzniveau von 1-a hat die Gestalt: wobei die Varianz des Koeffizienten durch gegeben ist. Q(t) ist die Quantile der t-Verteilung. (Buch: Statistik für Wirtschaftswissenschaflter, Brannath und Futschik)
75
Beispiel 0,1829 0,3307
76
Beispiel: Individuelle Fragestellung
Ein Statistiker untersucht ein 6½ Monate altes Kind. Wie schwer sollte es sein? Was, wenn das Kind nur 5 kg hätte?
77
Konfidenzintervall (KI) für die individuelle Prognose
Das Konfidenzintervall für eine individuelle Prognose an einer Stelle x0 auf einem Konfidenzniveau von 1-a hat die Gestalt: wobei und ist. Beachten Sie, dass das Intervall mit zunehmenden Abstand von x0 zum Mittelwert breiter wird. Q(t) ist die Quantile der t-Verteilung. (Buch: Statistik für Wirtschaftswissenschaflter, Brannath und Futschik)
78
Konfidenzintervall (KI) für die Prognose von Mittelwerten
Das Konfidenzintervall für die Prognose des Regressions-mittels an einer Stelle x0 auf einem Konfidenzniveau von 1-a hat die Gestalt: wobei und ist. Beachten Sie, dass das Intervall mit zunehmenden Abstand von x0 zum Mittelwert breiter wird. Q(t) ist die Quantile der t-Verteilung. (Buch: Statistik für Wirtschaftswissenschaflter, Brannath und Futschik)
79
Beispiel: Individuelle Fragestellung, KI
Ein 6½ Monate altes Kind hat 5kg. Wie passt das ins Modell?
80
Beispiel: Prognose von Mittelwerten, KI
Wie breit schwankt das Durchschnitts-gewicht von Kindern mit 6½ Monaten laut dem Modell?
81
Vorsicht! Extrapolation
Wie schwer sind Kinder im Durchschnitt nach 4 Jahren? Wie schwer sind Kinder im Durchschnitt nach 40 Jahren?
82
Übersicht I Streudiagramm (Beschreibende Statistik, grafisch) II
Korrelation (Beschreibende Statistik, Kennzahlen) III Regression (Beschreibende Statistik, Kennzahlen) IV Ablauf: Bivariate Regressionsanalyse V Test und KI für Regressionsparameter (Schließende Statistik) VI Formeln für KI (Schließende Statistik) VII Fallbeispiel 1 & 2
83
Normwertgrenzen bei Kindern und Jugendlichen
84
Normwertgrenzen bei Kindern und Jugendlichen
85
Normwertgrenzen bei Kindern und Jugendlichen
86
Von 11 Firmen wurde Umsatz und Gewinn des letzten Jahres erhoben.
Wie hängen die beiden Werte zusammen? Siehe EXCEL File.
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.