Agrar- und Ernährungspolitik III Vorlesung 11. März 2009 Statistik und Modellierung auf Grundlage einzelbetrieblicher Daten Martin Kniepert
Ausblick
Kurz zurück zu Malthus Wozu brauchen wir Information zur Struktur? S Berücksichtigung Einkommensverteilung Struktur der Betriebe [ok, es gäbe dringenderes, eigentlich geht’s darum, die Statistik nachzuholen] S
„Klassierende Auswertung“ „Klassierende Auswertung“ als Publikationsstandard Fläche nach Fläche (als Beispiel) Betriebe nach Fläche Gibt Aufschluss über Größenverteilung Bsp. Geflügelbestand nach Fläche Aussagekraft gering. (Diskutieren!) Eine Klassierung nach Geflügel selbst wäre aufschlussreicher. Aussagekraft gering) Klassierung nach Erschwerniszonen, Anbaugebieten Erlaubt ein qualitatives Bild, bietet aber keine unmittelbar Umsetzung für Quantifzierung
„Klassierende Auswertung“ - Beispiele Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen
Histogramm: klassierend - grafische Auswertung In aller Regel einheitlich klassiert Problem: Ausreißer, hohe Ungleichmäßigkeit Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen, wegen Einzeldaten nicht benannt
Boxplots Achtung: Ausreißer (Filterstufen wie bei Histogramm) Outliers Staple Wisker 3rd Quartile Median Medium 1st Quartile Um den Median grau schattiert: Der Konfidenz-intervall Hier: sehr, sehr klein Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen, wegen Einzeldaten nicht benannt
Lorenzkurven Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen und Darstellung Die Lorenzkurve stellt eine statistische Verteilung graphisch dar; sie veranschaulicht eine Konzentrationsmaß. Ausreißer sind hier explizit enthalten Als Alternative bieten sich der Gini-Koeffizient oder der Herfindahl-Index an.
Von Würfeln und Münzen Beschreibende Statistik Beurteilende Statistik, Schließende Statistik Stochastik… who is who… Lauter Spieler http://en.wikipedia.org/wiki/Central_limit_theorem http://www.stat.sc.edu/~west/javahtml/CLT.html
CLT Würfeln mit mehreren Würfeln http://en.wikipedia.org/wiki/Central_limit_theorem http://www.stat.sc.edu/~west/javahtml/CLT.html
Flächen einer Normalverteilung N(μ,σ) y 0,4 0,3 0,2 0,1 -z z μ-4σ μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ μ+4σ 68,27% 95,45% 99,73% 99,99%
Standardnormalverteilung N(0,1) Jede beliebige Normalverteilung N(μ,σ) kann durch Standardisierung in eine einheitliche Standardnormalverteilung N(0,1) transformiert (d.h. mit z multipliziert) werden. Für N(0,1) sind Flächenanteile (also Wahrscheinlich-keiten) „austabelliert“.
Flächen einer Standard-Normalverteilung N(0,1) y 0,4 0,3 0,2 0,1 -z z -4 -3 -2 -1 1 2 3 4 68,27% 95,45% 99,73% 99,99% http://www.uni-konstanz.de/FuF/wiwi/heiler/os/vt-index.html
Konfidenzintervall Das Konfidenzintervall (Δkrit) für Mittelwerte (μ) berechnet sich folgendermaßen: Für n > 30 kann diese Formel genutzt werden:
T-Verteilungen (df =1, 3, 5, 10) Vgl. http://www.uni-kiel.de/medinfo/biometrie/folien/ss08_2003/sld012.htm
t-Verteilung df p 0,900 p 0,975 p 0,990 p 0,995 1 3,078 12,706 31,821 63,656 2 1,886 4,303 6,965 9,925 3 1,638 3,182 4,541 5,841 4 1,533 2,776 3,747 4,604 ... 10 1,372 2,228 2,764 3,169 30 1,310 2,042 2,457 2,750 1000 1,282 1,962 2,330 2,581
Zur Hypothesenbildung Nullhypothese H0: Ein Zusammenhang zwischen zwei untersuchten Größen besteht nicht! Alternativhypothese H1: In der Regel die Forschungshypothese Ein Zusammenhang zwischen zwei untersuchten größen wird unterstell bzw. soll nachgewiesen werden.
Zur Hypothesenbildung (1) Nullhypothese H0: Ein Zusammenhang zwischen zwei untersuchten Größen besteht nicht! (bspw. Steuer auf Inputverbrauch) Ein Grenzwert wird nicht überschritten, höchstens erreicht (etwas salopp: „Null“, weil sich zwei Vergleichsgruppen „Null“ unterschieden) Alternativhypothese H1: In der Regel die Forschungshypothese Ein Zusammenhang zwischen zwei untersuchten Größen wird unterstellt, soll nachgewiesen werden. Ein Grenzwert wird überschritten
Zur Hypothesenbildung (2) Nullhypothese H0 und Alternativhypothese H1 schließen sich gegenseitig aus. Bspw. H0: Pestizidbelastung <= 3 g je / kg H1 : Pestizidbelastung > 3 g je / kg Eine dritte Möglichkeit neben diesen Hypothesen bleiben nicht. Im Beispiel (3 g je / kg ) wird eine Annahmegrenze (cA) präzisiert. Der kritische Wert (c) beläuft sich auf 3 g bei einem Stichprobenumfang von 1 kg.
Begriffe Im Beispiel (3 g je / kg ) wird eine Annahmegrenze (cA) präzisiert. Der kritische Wert (c) beläuft sich auf 3 g bei einem Stichprobenumfang von 1 kg. Signifikanzniveau α0:
Bestätigung? Fehler 1. und 2. Art Wenn eine Hypothese bestätigt werden kann, gilt die andere automatisch als verworfen. Eine dritte Möglichkeit neben diesen Hypothesen bleiben nicht. Fehler 1. Art: H0 wird verworfen, obwohl H0 richtig ist. Fehler 2. Art: H0 wird angenommen, obwohl H0 falsch ist. In beiden Fällen erweist sich die Stichprobe als gewissermaßen nicht stichhaltig.
Beispiel Pestizid Nullhypothese H0 und Alternativhypothese H1 schließen sich gegenseitig aus. Bspw. H0: Pestizidbelastung <= 3 g je / kg H1 : Pestizidbelastung > 3 g je / kg Eine dritte Möglichkeit neben diesen Hypothesen bleiben nicht.
„Klinisch reine“ Anordnung? Vgl. Sachs (2002:188f; [144] Zur Frage der Hypothesengewinnung aus bestehendem Datenmaterial
Begriffe Mittelwert, Median, Quantil, Quartil etc., Klassen Lorenz-Kurven, Konzentrationsmaße Standardabweichung, Varianz Rangfolge, Histogramm, Verteilungsfunktion, Wahrscheinlichkeitsfunktion Wahrscheinlichkeitsdichten, Dichtefunktion Zentraler Grenzwertsatz
Lese- und Lernempfehlungen Zu Signifikanztests, Konfidenzintervall etc. Sachs, Lothar (1999), Angewandte Statistik, Neunte Überarbeitete Auflage, Berlin, Heidelberg [Lehrbuchsammlung der BOKU 32.60. 1 9A, insb. S. 97ff) Bortz, J., Döring, N. (1995), Forschungsmethoden und Evaluation, 2. Auflage, Berlin et al. ([Lehrbuchsammlung der BOKU 20.60 1 2A, insbes. Seite 368 -399] Erben, Wilhelm (1998), Statistik mit Excel 5 oder 7, (Buch mit Diskette), [Lehrbuchsammlung der BOKU 32.60 5] Diverse Internet-Angebote unter Stichworten wie „Konfidenzintervall“, „Standardfehler“ etc. mit Java-Applets zur Manipulation von Parametern etc.