Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Ökonometrie und Statistik Logistische Regression

Ähnliche Präsentationen


Präsentation zum Thema: "Ökonometrie und Statistik Logistische Regression"—  Präsentation transkript:

1 Ökonometrie und Statistik Logistische Regression
Bertram Wassermann

2 Übersicht I Einleitung II Beispieldaten III Univariate Analysen IV
Grafiken und Motivation für logistische Regression V Logistische Regression und Prognose VI Modellbewertung

3 Logistische Regression Zielvariable: eine dichotome Variable
Einleitung Vergleich Lineare Regression Zielvariable: eine Variable mit metrischem Skalenniveau Erklärende Variable: Eine oder mehrere, metrisch und/oder dichotom Varianzanalyse Erklärende Variable: Vor allem kategoriale Variable, eine oder mehrere, metrisch Kovariate sind möglich Logistische Regression Zielvariable: eine dichotome Variable Erklärende Variable: Eine oder mehrere, metrisch und/oder kategorial

4 Einleitung Typische Fragestellungen Wirtschaft
Ausfallrisiko, nicht nur im Bank- und Versicherungswesen geht es darum frühzeitig zu erkennen, dass ein Kunde seinen Verpflichtungen nicht (mehr) nachkommen kann. Vertriebssteuerung, für welche Kunden ist ein bestimmtes Produkt von größerem Interesse? Kundenbindung, wie groß ist die Bereitschaft (m)eines Kunden den Anbieter zu wechseln? Medizin Diagnostik, aus einer Reihe (leicht) messbarer Kennwerter versucht man eine bestimmte Diagnose zu erstellen (Krebs ja - nein, Herzinfarktrisiko hoch - gering, Frühgeburt ja – nein) Wirksamkeit, wodurch wird die Wirksamkeit einer Therapie / eines Medikamentes beeinflusst? Soziologie, Verhaltensforschung, Psychologie, Meinungsforschung, Technik, Militär, …

5 Übersicht I Einleitung II Beispieldaten III Univariate Analysen IV
Grafiken und Motivation für logistische Regression V Logistische Regression und Prognose VI Modellbewertung

6 Beispieldaten: Herzkranzgefäß
Beschreibung: Hosmer and Lemeshow (2000) Applied Logistic Regression: Second Edition. 100 Personen wurden auf deutliche Anzeichen einer Erkrankung der Herzkranzgefäß hin untersucht. Es wurde einerseits das Alter der Personen in Jahren erfasst (AGE) und andererseits das Ergebnis der Untersuchung (CHD – Coronary Heart Disease) 0 für ein negatives und 1 für ein positives Ergebnis. Ziel der Analyse ist es festzustellen, ob es einen Zusammenhang zwischen Alter und Erkrankung gibt, und wenn möglichen diesen Zusammenhang zu quantifizieren.

7 Übersicht I Einleitung II Beispieldaten III Univariate Analysen IV
Grafiken und Motivation für logistische Regression V Logistische Regression und Prognose VI Modellbewertung

8 Univariate Analysen In der Stichprobe wurden 43% der Personen positiv diagnostiziert. Dass die Verteilung des Alters symmetrisch ist, deutet daraufhin, dass die Stichprobe nicht zufällig gewählt wurde.

9 Übersicht I Einleitung II Beispieldaten III Univariate Analysen IV
Grafiken und Motivation für logistische Regression V Logistische Regression und Prognose VI Modellbewertung

10 Grafiken und Motivation für logistische Regression
erkrankt nicht erkrankt Boxplot und T-Test … sind eine Möglichkeit den Zusammenhang zwischen Herzkranzgefäßerkrankung und Alter zu untersuchen. Der T-Test bestätigt, was man auf Grund des Boxplots schon vermutet: Die erkrankten Probanden sind im Durchschnitt signifikant älter als die gesunden.

11 Grafiken und Motivation für logistische Regression
erkrankt nicht erkrankt Streudiagramm Eine alternative Darstellungsweise erhält man mit dem Streudiagramm. In dieser Form ist die Darstellung mittels Boxplot allerdings weitaus informativer.

12 Grafiken und Motivation für logistische Regression
Streudiagramm Gruppiert man jedoch die Variable Alter in 10 Jahresschritten, berechnet dann für jede Altersgruppe den Mittelwert der abhängigen Variable und zeichnet das Ergebnis im Streudiagramm ein, erhält man neue Einsichten in den Zusammenhang der beiden Variablen.

13 Grafiken und Motivation für logistische Regression
Wie ist diese Grafik zu interpretieren? Alter gruppiert (10 Jahresschritte) Der Anteil der Erkrankten steigt mit höherer Altersklasse.

14 Grafiken und Motivation für logistische Regression
Alter gruppiert (5 Jahresschritte) Eine verfeinerte Gruppierung bestätigt dieses Bild. Grob betrachtet kann man von einem linearen Zusammenhang zwischen Alter und Anteil von Erkrankten pro Altersgruppe sprechen.

15 Grafiken und Motivation für logistische Regression
Alter gruppiert (3 Jahresschritte) Eine noch feinere Gruppierung und eine etwas genauere Betrachtung ergibt allerdings: Der Zusammenhang ist nicht überall gleich stark. Den deutlichsten Anstieg gibt es zwischen 35 und 55 Jahren. Davor und danach ändert er sich nicht so stark.

16 Grafiken und Motivation für logistische Regression
Lineare Regression Trotzdem rechnen wir eine lineare Regression und zwar mit den Ausgangsdaten (rot). Modellkritik: Was ist an diesem Modell das auffälligste Problem? Für die Gruppe der unter 25 Jährigen prognostiziert das Modell einen negativen Anteil von Erkrankten, was sachlich betrachtet Unsinn ist.

17 Grafiken und Motivation für logistische Regression
Residuen, weitere Modellkritik: Die Residuen erfüllen nicht die Anforderungen, die man bei der linearen Regression stellt. Sie sind nicht normalverteilt.

18 Grafiken und Motivation für logistische Regression
Mit Hilfe einer nicht-linearen Transformation behebt man das Problem Werte zu schätzen, die nicht zwischen 0% und 100% liegen. Durch Formelumwandlung kann man p, den Anteil der Erkrankten, in Abhängigkeit des Alters darstellen.

19 Übersicht I Einleitung II Beispieldaten III Univariate Analysen IV
Grafiken und Motivation für logistische Regression V Logistische Regression und Prognose VI Modellbewertung

20 Logistische Regression und Prognose
Mit Hilfe dieser Formel lässt sich für jeden Probanden, aber auch für Personen, die nicht in der Stichprobe sind, in Abhängigkeit vom Alter eine Zahl p berechnen. Aber wie kann man das Ergebnis - eine Zahl zwischen 0 und 1 – interpretieren?

21 Logistische Regression und Prognose
Prognose für Gruppen Bezogen auf alle Personen des selben Alters kann man diese Zahl als den Anteil von Erkrankten in dieser Altersgruppe interpretieren. Z.B. Geschätzte 30% aller 40 jährigen haben Erkrankungen der Herzkranzgefäße.

22 Logistische Regression und Prognose
Prognose für Individuen Bezogen auf eine individuelle Person kann man die Zahl p als Wahrscheinlichkeit --- in diesem Fall als Risiko erkrankt zu sein --- interpretieren. Das ist ein wenig unbefriedigend. Was tut man mit 28.4% Risiko, wenn man 38 ist?

23 Logistische Regression und Prognose
Gesund Krank Individuelle Prognose Alternative: Eine Person wird als gesund eingestuft, wenn ihr prognostiziertes p einen Wert kleiner als 0.5 hat, und als krank falls der Wert über 0.5 liegt. Nach der Einstufung --- auch Klassifikation genannt --- kann man dann weitere Schritt unternehmen (z.B. eine teure Untersuchung durchführen, um sicher zu gehen, ob die Erkrankung wirklich vorliegt).

24 Logistische Regression und Prognose
Gesund Krank Individuelle Prognose Wie kann man diesen Grenzwert beim Alter berechnen, mit dem man dann Personen in Gesunde und Kranke einteilt? In diesem Fall also werden alle Personen unter 48 Jahren als gesund und über 47 Jahren als krank eingestuft.

25 Logistische Regression und Prognose
Gesund Krank Falsch Richtig Insgesamt werden 74% der Probanden richtig klassifiziert, die Gesunden etwas besser als die Kranken. Trefferrate = 74% Richtig Falsch Modellgüte Wie kann man die Güte des vorliegenden Modells beurteilen? Basierend auf Klassifizierung aller Personen der Stichprobe erstellt man die so genannte Klassifizierungstabelle. Sie liefert ein erstes Maß für die Güte des Modells.

26 Logistische Regression und Prognose
Gesund Krank Falsch Richtig Richtig Falsch Modellgüte und Trefferrate Was ist die best mögliche Trefferrate? Nennen Sie eine Zahl. Wann ist ein Modell gut? Was ist die schlechteste Trefferrate? Nennen Sie eine Zahl. Richtig, das Modell ist schlecht, wenn die Trefferrate genau 50% beträgt – und nicht wenn die Trefferrate 0% beträgt.

27 Logistische Regression und Prognose
Gesund Krank Falsch Richtig Richtig Falsch Trefferrate = 57%. Modellgüte und Trefferrate Mit ein wenig mehr Information lässt sich dieser Vergleichswert noch erhöhen: Aus der univariaten Voranalyse wissen wir, die Mehrheit der Probanden in der Stichprobe ist gesund (57%). Wählt man eine Person zufällig aus der Stichprobe, so ist sie wahrscheinlich gesund.

28 Logistische Regression und Prognose
Gesund Krank Falsch Richtig Richtig Falsch Trefferrate = 57%. Modellgüte und Trefferrate D.h. die Trefferrate des Modells muss nicht nur besser (höher) sein als 50%, sondern größer als der Anteil des Modus der dichotomen Zielvariable, der in diesem Beispiel 57% beträgt.

29 Logistische Regression und Prognose
Gesund Krank Falsch Richtig Richtig Falsch Trefferrate = 57%. Modellgüte, Trefferrate und Hochrechnung Die Trefferrate des logistischen Modells von 74% ist deutlich besser als die des einfachen Modells mit 57%. Aber, wie immer gilt das nur für die Stichprobe. Was kann man aber über das Modell bezogen auf die Grundgesamtheit sagen?

30 Logistische Regression und Prognose
Gesund Krank Falsch Richtig Trefferrate einfaches Modell = 57% Richtig Falsch Modellgüte, Trefferrate und Hochrechnung Man führt einen Test durch, mit dem man überprüfen kann, ob die Trefferrate des logistischen Modells signifikant verschieden ist von der Trefferrate des einfachen Modells. Er wird Omnibus-Test genannt und basiert auf einer Chi² Verteilung. Die erste Zeile ist relevant und besagt: der Unterschied ist signifikant. (Sig. < α).

31 Übersicht I Einleitung II Beispieldaten III Univariate Analysen IV
Grafiken und Motivation für logistische Regression V Logistische Regression und Prognose VI Modellbewertung

32 Anfangsblock oder NULL Modell
Modellbewertung Anfangsblock oder NULL Modell Man berechnet ein logistisches Regressionsmodell ohne die unabhängige Variable, also nur mit der Konstanten. Das Ergebnis dieses Modells wird auch Anfangsblock oder NULL Modell genannt. Da ein logistisches Regressionsmodell immer die Wahrscheinlichkeit p angibt, dass die Zielvariable den Wert 1 hat, und alle Beobachtungen die gleiche Wahrscheinlichkeit im NULL Modell bekommen, ist die Wahrscheinlichkeit eine erkrankte Personen zu sein gleich 43% oder p = 0.43.

33 Modellbewertung Auch für das Anfangsmodell gibt es eine Klassifikationstabelle. Da für alle Beobachtungen der prognostizierte Wert p=0.43 ist, werden bei einem Trennwert von 0.5 alle Probanden als gesund klassifiziert (Code 0). Dass dieses Ergebnis Sinn macht, kann man sich auch so überlegen: Angenommen wir wählen eine der 100 untersuchten Personen zufällig aus und sollen erraten, wie die Person diagnostiziert wurde. Wenn wir über die 100 Personen nichts anderes wissen, als das 57 von ihnen negativ diagnostiziert wurden, dann stehen die Chancen 57 zu 43, dass die gewählte Person auch negativ ist. Also klassifizieren wir die Person am besten als gesund.

34 Modellbewertung Vergleich der Trefferraten
Ein Vergleich der beiden Klassifikationstabellen zeigt, das Modell mit Alter hat einen höheren Prozentsatz richtiger Klassifikationen und ist daher potentiell besser.

35 Modellbewertung Omnibustest
In der Tabelle „Omnibus-Tests der Modellkoeffizienten“ wird das Modell aus Schritt 1 - im Beispiel das Modell mit dem Alter – mit dem Modell aus dem Anfangsblock – dem Modell nur mit der Konstanten - verglichen. Die Nullhypothese lautet, „Die beiden Modelle unterscheiden sich nicht. Beide Modelle erklären die Daten gleich gut.“ Die Teststatistik wird in der Spalte Chi-Quadrat ausgewiesen und folgt einer ebensolchen Verteilung. Ob die Nullhypothese verworfen werden kann, ersieht man aus dem p-Wert ausgewiesen in der Spalte Sig.

36 Modellbewertung Zusammenfassend lässt sich zur Modellbewertung sagen: Vergleiche die Klassifikationstabelle des Anfangsblockes mit der des Modells Wie ist der Omnibus-Test ausgefallen? Wie ist R² (je größer desto besser)? Bewerte die Koeffizienten der Variablen in der Gleichung. Sind sie signifikant von 0 verschieden?


Herunterladen ppt "Ökonometrie und Statistik Logistische Regression"

Ähnliche Präsentationen


Google-Anzeigen