Agrar- und Ernährungspolitik III

Slides:



Advertisements
Ähnliche Präsentationen
Forschungsstrategien Johannes Gutenberg Universität Mainz
Advertisements

Gliederung Vertrauensintervalle Arten von Hypothesen
Gliederung Definition des Wahrscheinlichkeitsbegriffes
Gliederung Der Begriff der Stichprobe, Stichprobenfehler
Forschungsstatistik II
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Mehrfachregressionen
Hypothesen testen: Grundidee
Statistische Methoden I
Statistische Methoden I
Statistische Methoden II
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden II SS 2008
Vorlesung Die Vorlesung Statistische Methoden II nächste Woche vom 6. Juni ( nächste Woche ) wird auf den 4. Juni (Mittwoch) vorverlegt ! 14 – 16 Zeit:
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
M-L-Schätzer Erwartungswert
Chi-Quadrat-Test auf Unabhängigkeit I
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur - statt Vorlesungen -
Erwartungswert und Varianz I Der endliche Fall Erwartungswert Varianz.
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden I SS 2005
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Statistische Methoden I WS 2007/2008 Probeklausur Donnerstag, 31. Januar 2008 und Freitag, 1. Februar statt Vorlesungen -
Median Merkmal Geordneter Datensatz
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Die Vorlesung Mathematik I (Prof. Kugelmann) findet heute um 14:30 Uhr im Hörsaal Loefflerstraße 70 statt.
II. Wahrscheinlichkeitstheorie
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird verlegt. Der Nachholtermin wird noch bekannt gegeben.
Statistische Methoden II SS 2003
Häufigkeiten Gegeben ist eine Datenliste (Urliste) (hier z. B. die Klausur-Noten von 50 Studenten)
Extra-SPSS-Kurse Durchführung: Birte Holtfreter Termine Di Mi Mi Ort PC-Pool Loefflerstarße.
Grundbegriffe der (deskriptiven) Statistikder Wahrscheinlichkeitstheorie.
Test auf Normalverteilung
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Binomialverteilung: Beispiel
Eigenschaften der OLS-Schätzer
Histogramm/empirische Verteilung Verteilungen
Formulierung und Überprüfung von Hypothesen
Einführung in die beurteilende Statistik
Agrar- und Ernährungspolitik III
Die Gaußverteilung.
Agrar- und Ernährungspolitik III
Agrar- und Ernährungspolitik III
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 1852 WS 2005/ Dezember 2005.
STATISIK LV Nr.: 0021 WS 2005/ Oktober 2005.
STATISIK LV Nr.: 1375 SS März 2005.
Konfidenzintervall und Testen für den Mittelwert und Anteile
1 (C) 2002, Hermann Knoll, HTW Chur, Fachhochschule Ostschweiz Wahrscheinlichkeitsverteilung Lernziele: Wahrscheinlichkeitsverteilung und der Wahrscheinlichkeitsdichte.
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Bioinformatik Vorlesung
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
Die Binomialverteilung
 Präsentation transkript:

Agrar- und Ernährungspolitik III Vorlesung 18. März 2009 Auswertung von Strukturdaten auf dem Weg zur Normalverteilung und statistischen Tests Martin Kniepert

Übersicht für diese Vorlesung Frage: Wo stehen wir im Rahmen der gesamten Vorlesung? Beschreibende Statistik – Darstellung von Ergebnissen aus Strukturerhebungen Die Normalverteilung als Grundlage von Stichprobenauswertungen Haben wir Normalverteilungen? => Zentraler Grenzwertsatz Punktschätzung Konfidenzintervall Hypothesentest

Kurz zurück zu Malthus Die Vorlesung wird durchgängig auf eine zentrale, beispielhafte Fragestellung bezogen Was bieten die Wirtschaftswissenschaften zur Neufassung Bearbeitung von Malthus Wozu brauchen wir nun Information zur Struktur bzw. Verteilung? Berücksichtigung Einkommensverteilung von Haushalten (global, national) Struktur der Betriebe als Ziel von Agrarpolitik [ok, es gäbe möglicherweise Dringenderes, es geht aber auch darum, für später notwendige Grundlagen der Statistik ins Gedächtnis zu rufen.]

„Klassierende Auswertung“ „Klassierende Auswertung“ als Publikationsstandard Fläche nach Fläche (als Beispiel) Betriebe nach Fläche Gibt Aufschluss über Größenverteilung Bsp. Geflügelbestand nach Fläche Aussagekraft gering. (Diskutieren!) Eine Klassierung nach Geflügel selbst wäre aufschlussreicher. Aussagekraft gering) Klassierung nach Erschwerniszonen, Anbaugebieten Erlaubt ein qualitatives Bild, bietet aber keine unmittelbar Umsetzung für Quantifzierung

„Klassierende Auswertung“ - Beispiele Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen

Histogramm: klassierend - grafische Auswertung In aller Regel einheitlich klassiert Problem: Ausreißer, hohe Ungleichmäßigkeit Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen, wegen Einzeldaten nicht benannt

Boxplots Achtung: Ausreißer (Filterstufen wie bei Histogramm) Outliers Staple Wisker 3rd Quartile Median Medium 1st Quartile Um den Median grau schattiert: Der Konfidenz-intervall Hier: sehr, sehr klein Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen, wegen Einzeldaten nicht benannt

Lorenzkurven Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen und Darstellung Die Lorenzkurve stellt eine statistische Verteilung graphisch dar; sie veranschaulicht eine Konzentrationsmaß. Ausreißer sind hier explizit enthalten Als Alternative bieten sich der Gini-Koeffizient oder der Herfindahl-Index an.

Von Würfeln und Münzen Bislang: Beschreibende Statistik Im Weiteren: Beurteilende Statistik, Schließende Statistik; Wahrscheinlichkeitstheorie spielt eine entscheidende Rolle Lange Geschichte der Wahrscheinlichkeitstheorie … Nicht zuletzt aus Interesse am Glücksspiel Ernsthafter aus der zunehmenden Notwendigkeit zur Prognose bestimmter Entwicklungen, Eintrittswahrscheinlichkeiten von Ereignissen (für Versicherungen, Parteien, Firmen bei der Absatzplanung…)

Punktschätzung Bspw. Schätzung eines Mittelwerts Beobachtungen x1, x2, … ,xn einer Stichprobe sind Realisierungen von n Zufallsvariablen (X1, X2,…, Xn). Der Schätzwert nach der Schätzfunktion Wird ein einziger Schätzwert berechnet => Punktschätzung Werden mehrere Werte berechnet, so weisen diese ihrerseits eine Verteilung auf. Frage: Wie genau trifft der Schätzwert den tatsächlichen Wert der Grundgesamtheit?

Anforderungen an Schätzfunktion Erwartungstreu (keine systematische Abweichung) Effizienz (weisen geringe Varianz auf) Konsistenz (kleine zufällige Fehler bei großer Stichproben) Suffizienz: Alle Informationen der Stichprobe werden genutzt …so weit so gut, alles wird genutzt. Frage bleibt: Wie gut ist die Schätzung. Unterstellt man eine „Normalverteilung“ wird man zu Aussagen treffen können!

Flächen einer Normalverteilung N(μ,σ) y 0,4 0,3 0,2 0,1 -z z μ-4σ μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ μ+4σ 68,27% 95,45% 99,73% 99,99%

Standardnormalverteilung N(0,1) Jede beliebige Normalverteilung N(μ,σ) kann durch Standardisierung in eine einheitliche Standardnormalverteilung N(0,1) transformiert (d.h. mit z multipliziert) werden. Für N(0,1) sind Flächenanteile (also Wahrscheinlich-keiten) „austabelliert“.

Flächen einer Standard-Normalverteilung N(0,1) y 0,4 0,3 0,2 0,1 -z z -4 -3 -2 -1 1 2 3 4 68,27% 95,45% 99,73% 99,99% http://www.uni-konstanz.de/FuF/wiwi/heiler/os/vt-index.html

Normalverteilungen? Wir haben kaum Normalverteilungen! Vgl. Auswertungen von Strukturerhebungen: In aller Regel stark rechtsschiefe Verteilungen! Haben wir nicht gewissermaßen stark unregelmäßige Würfel? (Nein!) Eine Lösung liegt im zentralen Grenzwertsatz Die Summe von vielen unabhängigen, beliebig verteilten Zufallsvariablen gleicher Größenordnung ist angenähert normalverteilt Nicht die Verteilung der Grundgesamtheit (oder der einzelnen Stichprobe) ist entscheidend, sondern die Verteilung der errechneten Mittelwerte

Zentraler Grenzwertsatz (1) Würfeln mehrmals und mit mehreren Würfeln Würfel 1 000 mal, 2) Zwei Würfel 1 000 Mal, 3) Fünf Würfel 1 000 Mal, 4) Fünf Würfel 10 000 mal http://en.wikipedia.org/wiki/Central_limit_theorem http://www.stat.sc.edu/~west/javahtml/CLT.html

Zentraler Grenzwertsatz (2) Grundgesamtheit einer typischen AS-Population Die Verteilung ist stark linkssteil, selbst wenn die Betriebe ohne Bestand herausgenommen werden; auch weitere Einschränkungen führen nicht zu einer Normalverteilung, während die Gesamtzahl stark abnimmt.

Zentraler Grenzwertsatz (3) Mittelwerte von1000 Stichproben aus Beispiel2 Die Verteilungsfunktion bietet eine kumulierende Darstellung von Wahrscheinlichkeiten Die Dichtefunktion gibt die Wahrscheinlichkeit an mit der eine Zufallsvariable zwischen zwei reellen Zahlen liegt

Zentraler Grenzwertsatz (4) Durch den Zentralen Grenzwertsatz kann für Schätzwerte eine Normalverteilung unterstellt werden. Aber: Der Löwenanteil der statistischen Arbeit ist auf eine Stichprobe beschränkt Techniken mit denen das Problem berücksichtigt werden kann Transformation der Populationswerte bspw. durch logarithmieren Prüfung von Verteilungen anhand von Chi-Quadrat- oder F-Verteilungen Re-sampling-Techniken (Mehrauswertung einer einzigen Stichprobe => Jackknife-Verfahren, => Bootstrapping)

Konfidenzintervall Das Konfidenzintervall (Δkrit) für Mittelwerte (μ) berechnet sich folgendermaßen: Für n > 30 kann diese Formel genutzt werden:

T-Verteilungen (df =1, 3, 5, 10) Vgl. http://www.uni-kiel.de/medinfo/biometrie/folien/ss08_2003/sld012.htm

t-Verteilung df p 0,900 p 0,975 p 0,990 p 0,995 1   3,078 12,706 31,821 63,656 2 1,886 4,303 6,965 9,925 3 1,638 3,182 4,541 5,841 4 1,533 2,776 3,747 4,604 ... 10 1,372 2,228 2,764 3,169 30 1,310 2,042 2,457 2,750 1000 1,282 1,962 2,330 2,581

Zur Hypothesenbildung (1) Nullhypothese H0: Ein Zusammenhang zwischen zwei untersuchten Größen besteht nicht! (bspw. Steuer auf Inputverbrauch) Ein Grenzwert wird nicht überschritten, höchstens erreicht (etwas salopp: „Null“, weil sich zwei Vergleichsgruppen „Null“ unterschieden) Alternativhypothese H1: In der Regel die Forschungshypothese Ein Zusammenhang zwischen zwei untersuchten Größen wird unterstellt, soll nachgewiesen werden. Ein Grenzwert wird überschritten

Zur Hypothesenbildung (2) Nullhypothese H0 und Alternativhypothese H1 schließen sich gegenseitig aus. Bspw. H0: Pestizidbelastung <= 3 g je / kg H1 : Pestizidbelastung > 3 g je / kg Eine dritte Möglichkeit neben diesen Hypothesen bleiben nicht. Im Beispiel (3 g je / kg ) wird eine Annahmegrenze (cA) präzisiert. Der kritische Wert (c) beläuft sich auf 3 g bei einem Stichprobenumfang von 1 kg.

Bestätigung? Fehler 1. und 2. Art Wenn eine Hypothese bestätigt werden kann, gilt die andere automatisch als verworfen. Eine dritte Möglichkeit neben diesen Hypothesen bleiben nicht. Fehler 1. Art: H0 wird verworfen, obwohl H0 richtig ist. Fehler 2. Art: H0 wird angenommen, obwohl H0 falsch ist. In beiden Fällen erweist sich die Stichprobe als gewissermaßen nicht stichhaltig.

„Klinisch reine“ Anordnung? Vgl. Sachs (2002:188f; [144]) Zur Frage der Hypothesengewinnung aus bestehendem Datenmaterial Diskussion zur speziellen Situation der Sozialwissenschaften im Vergleich bspw. zur experimentellen Physik Zur Erinnerung: Zur Datenherkunft (vorletzte Vorlesung) Daten als Sekundärdaten; Vielzahl von Einflussgrößen auf zu erklärende Größen „Versuchsanordnung“ allenfalls in Experimenten der Verhaltensökonomik Anspruch an „wissenschaftliche Exaktheit“ bleibt dennoch!

Begriffe Mittelwert, Median, Quantil, Quartil etc., Klassen Lorenz-Kurven, Konzentrationsmaße Standardabweichung, Varianz Rangfolge, Histogramm, Verteilungsfunktion, Wahrscheinlichkeitsfunktion Wahrscheinlichkeitsdichten, Dichtefunktion Zentraler Grenzwertsatz H0-, H1-Hypothese Fehler 1. Art, Fehler 2. Art Konfidenzintervall, Signifikanzniveau

Lese- und Lernempfehlungen Zu Signifikanztests, Konfidenzintervall etc. Sachs, Lothar (1999), Angewandte Statistik, Neunte Überarbeitete Auflage, Berlin, Heidelberg [Lehrbuchsammlung der BOKU 32.60. 1 9A, insb. S. 97ff) Bortz, J., Döring, N. (1995), Forschungsmethoden und Evaluation, 2. Auflage, Berlin et al. ([Lehrbuchsammlung der BOKU 20.60 1 2A, insbes. Seite 368 -399] Erben, Wilhelm (1998), Statistik mit Excel 5 oder 7, (Buch mit Diskette), [Lehrbuchsammlung der BOKU 32.60 5] Diverse Internet-Angebote unter Stichworten wie „Konfidenzintervall“, „Standardfehler“ etc. mit Java-Applets zur Manipulation von Parametern etc.