Ökonometrie und Statistik Logistische Regression

Slides:



Advertisements
Ähnliche Präsentationen
Theorie psychometrischer Tests, III
Advertisements

Thema der Stunde I. Einführung in die Varianzanalyse:
Einfaktorielle Varianzanalyse
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Hypothesen testen: Grundidee
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Statistiktutorat: Datenkontrolle
Effektgrößen, Kontraste & Post-hoc-Tests
Nachholung der Vorlesung vom Freitag
Vorlesung Die Vorlesung Statistische Methoden II in 2 Wochen vom 6. Juni ( in 2 Wochen ) wird auf den 4. Juni (Mittwoch) vorverlegt ! 14 – 16 Zeit: 14.
Chi-Quadrat-Test auf Unabhängigkeit I
III. Induktive Statistik
Chi-Quadrat-Test auf Unabhängigkeit I Hypothese Ablehnungsbereich.
Chi-Quadrat-Tests. Satz von Karl Pearson I X: Stichprobenvariable, die r > 2 verschieden Werte annehmen kann: Die Verteilung von X ist durch einen Wahrscheinlichkeitsvektor.
Tutorium
Tutorium
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Wiederholung und Beispiele
Einführung in die Metaanalyse
Eigenschaften der OLS-Schätzer
Probleme der Modellspezifikation
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Externe Bewertung in IB-Biologie
Formulierung und Überprüfung von Hypothesen
Einführung in die beurteilende Statistik
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Chi Quadrat Test Tamara Katschnig.
Logistische Regression
Wahrscheinlichkeitsrechnung
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Seminar: Datenerhebung
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Kapitel 10 Multikollinearität
Ökonometrie I Modellvergleich (Übersicht) Ökonometrie I2 Vergleich von Modellen Fragestellungen für Modellvergleich 1.Fehlende Regressoren.
Statistik – Regression - Korrelation
Die einfache/multiple lineare Regression
Arzt-Patienten-Beziehung
setzt Linearität des Zusammenhangs voraus
Statistiken je nach Messniveau
Mathematik Q1 -Stochastik. Die Immunschwächekrankheit AIDS wird durch das HI-Virus, welches 1993 entdeckt wurde, verursacht. Die Krankheit gilt bis heute.
Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung
Geoinformationssysteme
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Grafische Darstellung von Gruppenunterschieden.
Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.
1. 2 Das Grundproblem der Beurteilenden Statistik ● Wir haben uns bisher mit Problemen der Wahrscheinlichkeitsrechnung beschäftigt: – Die Wahrscheinlichkeit.
Jennifer Staubmann 5 AK 2012/2013 Regressionsanalyse.
Exkurs: Chi-quadrat und Modellgüte 1. ist ein Distanzmaß, welches die Distanz zwischen Modellvorhersage und Daten misst.  Je kleiner desto besser ist.
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Analysen univariater Stichproben
Die einfache/multiple lineare Regression
Signifikanz – was ist das überhaupt?
Ökonometrie und Statistik Logistische Regression
Ökonometrie und Statistik Wiederholung
Ökonometrie und Statistik Mehrfachregression
Kapitel 2: Testtheorie / Testmodelle
Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.
Ökonometrie und Statistik Wiederholung
ReduSoft Ltd. Kurzbeschreibungen zu einigen Modulen, die im Programm MathProf 5.0 unter dem Themenbereich Stochastik implementiert sind.
Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.
Ökonometrie und Statistik Prüfungsthemen
Ökonometrie und Statistik Wiederholung
Konfidenzintervalle und Tests auf Normalverteilung
Ökonometrie und Statistik Mehrfachregression
ANOVA für unabhängige Daten.
Ökonometrie und Statistik Varianzanalyse Beispiele
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.
 Präsentation transkript:

Ökonometrie und Statistik Logistische Regression Bertram Wassermann

Übersicht I Einleitung II Beispieldaten III Univariate Analysen IV Grafiken und Motivation für logistische Regression V Logistische Regression und Prognose VI Modellbewertung

Logistische Regression Zielvariable: eine dichotome Variable Einleitung Vergleich Lineare Regression Zielvariable: eine Variable mit metrischem Skalenniveau Erklärende Variable: Eine oder mehrere, metrisch und/oder dichotom Varianzanalyse Erklärende Variable: Vor allem kategoriale Variable, eine oder mehrere, metrisch Kovariate sind möglich Logistische Regression Zielvariable: eine dichotome Variable Erklärende Variable: Eine oder mehrere, metrisch und/oder kategorial

Einleitung Typische Fragestellungen Wirtschaft Ausfallrisiko, nicht nur im Bank- und Versicherungswesen geht es darum frühzeitig zu erkennen, dass ein Kunde seinen Verpflichtungen nicht (mehr) nachkommen kann. Vertriebssteuerung, für welche Kunden ist ein bestimmtes Produkt von größerem Interesse? Kundenbindung, wie groß ist die Bereitschaft (m)eines Kunden den Anbieter zu wechseln? Medizin Diagnostik, aus einer Reihe (leicht) messbarer Kennwerter versucht man eine bestimmte Diagnose zu erstellen (Krebs ja - nein, Herzinfarktrisiko hoch - gering, Frühgeburt ja – nein) Wirksamkeit, wodurch wird die Wirksamkeit einer Therapie / eines Medikamentes beeinflusst? Soziologie, Verhaltensforschung, Psychologie, Meinungsforschung, Technik, Militär, …

Übersicht I Einleitung II Beispieldaten III Univariate Analysen IV Grafiken und Motivation für logistische Regression V Logistische Regression und Prognose VI Modellbewertung

Beispieldaten: Herzkranzgefäß Beschreibung: Hosmer and Lemeshow (2000) Applied Logistic Regression: Second Edition. 100 Personen wurden auf deutliche Anzeichen einer Erkrankung der Herzkranzgefäß hin untersucht. Es wurde einerseits das Alter der Personen in Jahren erfasst (AGE) und andererseits das Ergebnis der Untersuchung (CHD – Coronary Heart Disease) 0 für ein negatives und 1 für ein positives Ergebnis. Ziel der Analyse ist es festzustellen, ob es einen Zusammenhang zwischen Alter und Erkrankung gibt, und wenn möglichen diesen Zusammenhang zu quantifizieren.

Übersicht I Einleitung II Beispieldaten III Univariate Analysen IV Grafiken und Motivation für logistische Regression V Logistische Regression und Prognose VI Modellbewertung

Univariate Analysen In der Stichprobe wurden 43% der Personen positiv diagnostiziert. Dass die Verteilung des Alters symmetrisch ist, deutet daraufhin, dass die Stichprobe nicht zufällig gewählt wurde.

Übersicht I Einleitung II Beispieldaten III Univariate Analysen IV Grafiken und Motivation für logistische Regression V Logistische Regression und Prognose VI Modellbewertung

Grafiken und Motivation für logistische Regression erkrankt nicht erkrankt Boxplot und T-Test … sind eine Möglichkeit den Zusammenhang zwischen Herzkranzgefäßerkrankung und Alter zu untersuchen. Der T-Test bestätigt, was man auf Grund des Boxplots schon vermutet: Die erkrankten Probanden sind im Durchschnitt signifikant älter als die gesunden.

Grafiken und Motivation für logistische Regression erkrankt nicht erkrankt Streudiagramm Eine alternative Darstellungsweise erhält man mit dem Streudiagramm. In dieser Form ist die Darstellung mittels Boxplot allerdings weitaus informativer.

Grafiken und Motivation für logistische Regression Streudiagramm Gruppiert man jedoch die Variable Alter in 10 Jahresschritten, berechnet dann für jede Altersgruppe den Mittelwert der abhängigen Variable und zeichnet das Ergebnis im Streudiagramm ein, erhält man neue Einsichten in den Zusammenhang der beiden Variablen.

Grafiken und Motivation für logistische Regression Wie ist diese Grafik zu interpretieren? Alter gruppiert (10 Jahresschritte) Der Anteil der Erkrankten steigt mit höherer Altersklasse.

Grafiken und Motivation für logistische Regression Alter gruppiert (5 Jahresschritte) Eine verfeinerte Gruppierung bestätigt dieses Bild. Grob betrachtet kann man von einem linearen Zusammenhang zwischen Alter und Anteil von Erkrankten pro Altersgruppe sprechen.

Grafiken und Motivation für logistische Regression Alter gruppiert (3 Jahresschritte) Eine noch feinere Gruppierung und eine etwas genauere Betrachtung ergibt allerdings: Der Zusammenhang ist nicht überall gleich stark. Den deutlichsten Anstieg gibt es zwischen 35 und 55 Jahren. Davor und danach ändert er sich nicht so stark.

Grafiken und Motivation für logistische Regression Lineare Regression Trotzdem rechnen wir eine lineare Regression und zwar mit den Ausgangsdaten (rot). Modellkritik: Was ist an diesem Modell das auffälligste Problem? Für die Gruppe der unter 25 Jährigen prognostiziert das Modell einen negativen Anteil von Erkrankten, was sachlich betrachtet Unsinn ist.

Grafiken und Motivation für logistische Regression Residuen, weitere Modellkritik: Die Residuen erfüllen nicht die Anforderungen, die man bei der linearen Regression stellt. Sie sind nicht normalverteilt.

Grafiken und Motivation für logistische Regression Mit Hilfe einer nicht-linearen Transformation behebt man das Problem Werte zu schätzen, die nicht zwischen 0% und 100% liegen. Durch Formelumwandlung kann man p, den Anteil der Erkrankten, in Abhängigkeit des Alters darstellen.

Übersicht I Einleitung II Beispieldaten III Univariate Analysen IV Grafiken und Motivation für logistische Regression V Logistische Regression und Prognose VI Modellbewertung

Logistische Regression und Prognose Mit Hilfe dieser Formel lässt sich für jeden Probanden, aber auch für Personen, die nicht in der Stichprobe sind, in Abhängigkeit vom Alter eine Zahl p berechnen. Aber wie kann man das Ergebnis - eine Zahl zwischen 0 und 1 – interpretieren?

Logistische Regression und Prognose Prognose für Gruppen Bezogen auf alle Personen des selben Alters kann man diese Zahl als den Anteil von Erkrankten in dieser Altersgruppe interpretieren. Z.B. Geschätzte 30% aller 40 jährigen haben Erkrankungen der Herzkranzgefäße.

Logistische Regression und Prognose Prognose für Individuen Bezogen auf eine individuelle Person kann man die Zahl p als Wahrscheinlichkeit --- in diesem Fall als Risiko erkrankt zu sein --- interpretieren. Das ist ein wenig unbefriedigend. Was tut man mit 28.4% Risiko, wenn man 38 ist?

Logistische Regression und Prognose Gesund Krank Individuelle Prognose Alternative: Eine Person wird als gesund eingestuft, wenn ihr prognostiziertes p einen Wert kleiner als 0.5 hat, und als krank falls der Wert über 0.5 liegt. Nach der Einstufung --- auch Klassifikation genannt --- kann man dann weitere Schritt unternehmen (z.B. eine teure Untersuchung durchführen, um sicher zu gehen, ob die Erkrankung wirklich vorliegt).

Logistische Regression und Prognose Gesund Krank Individuelle Prognose Wie kann man diesen Grenzwert beim Alter berechnen, mit dem man dann Personen in Gesunde und Kranke einteilt? In diesem Fall also werden alle Personen unter 48 Jahren als gesund und über 47 Jahren als krank eingestuft.

Logistische Regression und Prognose Gesund Krank Falsch Richtig Insgesamt werden 74% der Probanden richtig klassifiziert, die Gesunden etwas besser als die Kranken. Trefferrate = 74% Richtig Falsch Modellgüte Wie kann man die Güte des vorliegenden Modells beurteilen? Basierend auf Klassifizierung aller Personen der Stichprobe erstellt man die so genannte Klassifizierungstabelle. Sie liefert ein erstes Maß für die Güte des Modells.

Logistische Regression und Prognose Gesund Krank Falsch Richtig Richtig Falsch Modellgüte und Trefferrate Was ist die best mögliche Trefferrate? Nennen Sie eine Zahl. Wann ist ein Modell gut? Was ist die schlechteste Trefferrate? Nennen Sie eine Zahl. Richtig, das Modell ist schlecht, wenn die Trefferrate genau 50% beträgt – und nicht wenn die Trefferrate 0% beträgt.

Logistische Regression und Prognose Gesund Krank Falsch Richtig Richtig Falsch Trefferrate = 57%. Modellgüte und Trefferrate Mit ein wenig mehr Information lässt sich dieser Vergleichswert noch erhöhen: Aus der univariaten Voranalyse wissen wir, die Mehrheit der Probanden in der Stichprobe ist gesund (57%). Wählt man eine Person zufällig aus der Stichprobe, so ist sie wahrscheinlich gesund.

Logistische Regression und Prognose Gesund Krank Falsch Richtig Richtig Falsch Trefferrate = 57%. Modellgüte und Trefferrate D.h. die Trefferrate des Modells muss nicht nur besser (höher) sein als 50%, sondern größer als der Anteil des Modus der dichotomen Zielvariable, der in diesem Beispiel 57% beträgt.

Logistische Regression und Prognose Gesund Krank Falsch Richtig Richtig Falsch Trefferrate = 57%. Modellgüte, Trefferrate und Hochrechnung Die Trefferrate des logistischen Modells von 74% ist deutlich besser als die des einfachen Modells mit 57%. Aber, wie immer gilt das nur für die Stichprobe. Was kann man aber über das Modell bezogen auf die Grundgesamtheit sagen?

Logistische Regression und Prognose Gesund Krank Falsch Richtig Trefferrate einfaches Modell = 57% Richtig Falsch Modellgüte, Trefferrate und Hochrechnung Man führt einen Test durch, mit dem man überprüfen kann, ob die Trefferrate des logistischen Modells signifikant verschieden ist von der Trefferrate des einfachen Modells. Er wird Omnibus-Test genannt und basiert auf einer Chi² Verteilung. Die erste Zeile ist relevant und besagt: der Unterschied ist signifikant. (Sig. < α).

Übersicht I Einleitung II Beispieldaten III Univariate Analysen IV Grafiken und Motivation für logistische Regression V Logistische Regression und Prognose VI Modellbewertung

Anfangsblock oder NULL Modell Modellbewertung Anfangsblock oder NULL Modell Man berechnet ein logistisches Regressionsmodell ohne die unabhängige Variable, also nur mit der Konstanten. Das Ergebnis dieses Modells wird auch Anfangsblock oder NULL Modell genannt. Da ein logistisches Regressionsmodell immer die Wahrscheinlichkeit p angibt, dass die Zielvariable den Wert 1 hat, und alle Beobachtungen die gleiche Wahrscheinlichkeit im NULL Modell bekommen, ist die Wahrscheinlichkeit eine erkrankte Personen zu sein gleich 43% oder p = 0.43.

Modellbewertung Auch für das Anfangsmodell gibt es eine Klassifikationstabelle. Da für alle Beobachtungen der prognostizierte Wert p=0.43 ist, werden bei einem Trennwert von 0.5 alle Probanden als gesund klassifiziert (Code 0). Dass dieses Ergebnis Sinn macht, kann man sich auch so überlegen: Angenommen wir wählen eine der 100 untersuchten Personen zufällig aus und sollen erraten, wie die Person diagnostiziert wurde. Wenn wir über die 100 Personen nichts anderes wissen, als das 57 von ihnen negativ diagnostiziert wurden, dann stehen die Chancen 57 zu 43, dass die gewählte Person auch negativ ist. Also klassifizieren wir die Person am besten als gesund.

Modellbewertung Vergleich der Trefferraten Ein Vergleich der beiden Klassifikationstabellen zeigt, das Modell mit Alter hat einen höheren Prozentsatz richtiger Klassifikationen und ist daher potentiell besser.

Modellbewertung Omnibustest In der Tabelle „Omnibus-Tests der Modellkoeffizienten“ wird das Modell aus Schritt 1 - im Beispiel das Modell mit dem Alter – mit dem Modell aus dem Anfangsblock – dem Modell nur mit der Konstanten - verglichen. Die Nullhypothese lautet, „Die beiden Modelle unterscheiden sich nicht. Beide Modelle erklären die Daten gleich gut.“ Die Teststatistik wird in der Spalte Chi-Quadrat ausgewiesen und folgt einer ebensolchen Verteilung. Ob die Nullhypothese verworfen werden kann, ersieht man aus dem p-Wert ausgewiesen in der Spalte Sig.

Modellbewertung Zusammenfassend lässt sich zur Modellbewertung sagen: Vergleiche die Klassifikationstabelle des Anfangsblockes mit der des Modells Wie ist der Omnibus-Test ausgefallen? Wie ist R² (je größer desto besser)? Bewerte die Koeffizienten der Variablen in der Gleichung. Sind sie signifikant von 0 verschieden?