Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Agrar- und Ernährungspolitik III Vorlesung 18. März 2009 Auswertung von Strukturdaten auf dem Weg zur Normalverteilung und statistischen Tests Martin Kniepert.

Ähnliche Präsentationen


Präsentation zum Thema: "Agrar- und Ernährungspolitik III Vorlesung 18. März 2009 Auswertung von Strukturdaten auf dem Weg zur Normalverteilung und statistischen Tests Martin Kniepert."—  Präsentation transkript:

1 Agrar- und Ernährungspolitik III Vorlesung 18. März 2009 Auswertung von Strukturdaten auf dem Weg zur Normalverteilung und statistischen Tests Martin Kniepert

2 Übersicht für diese Vorlesung Frage: Wo stehen wir im Rahmen der gesamten Vorlesung? Beschreibende Statistik – Darstellung von Ergebnissen aus Strukturerhebungen Die Normalverteilung als Grundlage von Stichprobenauswertungen Haben wir Normalverteilungen? => Zentraler Grenzwertsatz Punktschätzung Konfidenzintervall Hypothesentest

3 Kurz zurück zu Malthus Die Vorlesung wird durchgängig auf eine zentrale, beispielhafte Fragestellung bezogen Was bieten die Wirtschaftswissenschaften zur Neufassung Bearbeitung von Malthus Wozu brauchen wir nun Information zur Struktur bzw. Verteilung? Berücksichtigung Einkommensverteilung von Haushalten (global, national) Struktur der Betriebe als Ziel von Agrarpolitik [ok, es gäbe möglicherweise Dringenderes, es geht aber auch darum, für später notwendige Grundlagen der Statistik ins Gedächtnis zu rufen.]

4 Klassierende Auswertung Klassierende Auswertung als Publikationsstandard Fläche nach Fläche (als Beispiel) Betriebe nach Fläche Gibt Aufschluss über Größenverteilung Bsp. Geflügelbestand nach Fläche Aussagekraft gering. (Diskutieren!) Eine Klassierung nach Geflügel selbst wäre aufschlussreicher. Aussagekraft gering) Klassierung nach Erschwerniszonen, Anbaugebieten Erlaubt ein qualitatives Bild, bietet aber keine unmittelbar Umsetzung für Quantifzierung

5 Klassierende Auswertung - Beispiele Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen

6 Histogramm: klassierend - grafische Auswertung In aller Regel einheitlich klassiert Problem: Ausreißer, hohe Ungleichmäßigkeit Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen, wegen Einzeldaten nicht benannt

7 Um den Median grau schattiert: Der Konfidenz- intervall Hier: sehr, sehr klein Outliers Staple Wisker 3rd Quartile Median Medium 1st Quartile Boxplots Achtung: Ausreißer (Filterstufen wie bei Histogramm) Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen, wegen Einzeldaten nicht benannt

8 Lorenzkurven Die Lorenzkurve stellt eine statistische Verteilung graphisch dar; sie veranschaulicht eine Konzentrationsmaß. Ausreißer sind hier explizit enthalten Als Alternative bieten sich der Gini-Koeffizient oder der Herfindahl-Index an. Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen und Darstellung

9 Von Würfeln und Münzen Bislang: Beschreibende Statistik Im Weiteren: Beurteilende Statistik, Schließende Statistik; Wahrscheinlichkeitstheorie spielt eine entscheidende Rolle Lange Geschichte der Wahrscheinlichkeitstheorie … Nicht zuletzt aus Interesse am Glücksspiel Ernsthafter aus der zunehmenden Notwendigkeit zur Prognose bestimmter Entwicklungen, Eintrittswahrscheinlichkeiten von Ereignissen (für Versicherungen, Parteien, Firmen bei der Absatzplanung…)

10 Punktschätzung Bspw. Schätzung eines Mittelwerts Beobachtungen x 1, x 2, …,x n einer Stichprobe sind Realisierungen von n Zufallsvariablen (X 1, X 2,…, X n ). Der Schätzwert nach der Schätzfunktion Wird ein einziger Schätzwert berechnet => Punktschätzung Werden mehrere Werte berechnet, so weisen diese ihrerseits eine Verteilung auf. Frage: Wie genau trifft der Schätzwert den tatsächlichen Wert der Grundgesamtheit?

11 Anforderungen an Schätzfunktion Erwartungstreu (keine systematische Abweichung) Effizienz (weisen geringe Varianz auf) Konsistenz (kleine zufällige Fehler bei großer Stichproben) Suffizienz: Alle Informationen der Stichprobe werden genutzt …so weit so gut, alles wird genutzt. Frage bleibt: Wie gut ist die Schätzung. Unterstellt man eine Normalverteilung wird man zu Aussagen treffen können!

12 Flächen einer Normalverteilung N(μ,σ) y -z z 0,4 0,3 0,2 0,1 μ-σμ-σ μ-2σ μ 68,27% 95,45% 99,73% 99,99% μ-3σ μ-4σ μ+4σ μ+3σ μ+2σ μ+σμ+σ

13 Standardnormalverteilung N(0,1) Jede beliebige Normalverteilung N(μ,σ) kann durch Standardisierung in eine einheitliche Standardnormalverteilung N(0,1) transformiert (d.h. mit z multipliziert) werden. Für N(0,1) sind Flächenanteile (also Wahrscheinlich- keiten) austabelliert.

14 Flächen einer Standard-Normalverteilung N(0,1) y -z z 0,4 0,3 0,2 0, ,27% 95,45% 99,73% 99,99%

15 Normalverteilungen? Wir haben kaum Normalverteilungen! Vgl. Auswertungen von Strukturerhebungen: In aller Regel stark rechtsschiefe Verteilungen! Haben wir nicht gewissermaßen stark unregelmäßige Würfel? (Nein!) Eine Lösung liegt im zentralen Grenzwertsatz Die Summe von vielen unabhängigen, beliebig verteilten Zufallsvariablen gleicher Größenordnung ist angenähert normalverteilt Nicht die Verteilung der Grundgesamtheit (oder der einzelnen Stichprobe) ist entscheidend, sondern die Verteilung der errechneten Mittelwerte

16 Zentraler Grenzwertsatz (1) Würfeln mehrmals und mit mehreren Würfeln Würfel mal, 2) Zwei Würfel Mal, 3) Fünf Würfel Mal, 4) Fünf Würfel mal

17 Zentraler Grenzwertsatz (2) Grundgesamtheit einer typischen AS-Population Die Verteilung ist stark linkssteil, selbst wenn die Betriebe ohne Bestand herausgenommen werden; auch weitere Einschränkungen führen nicht zu einer Normalverteilung, während die Gesamtzahl stark abnimmt.

18 Zentraler Grenzwertsatz (3) Mittelwerte von1000 Stichproben aus Beispiel2 Die Verteilungsfunktion bietet eine kumulierende Darstellung von Wahrscheinlichkeiten Die Dichtefunktion gibt die Wahrscheinlichkeit an mit der eine Zufallsvariable zwischen zwei reellen Zahlen liegt

19 Zentraler Grenzwertsatz (4) Durch den Zentralen Grenzwertsatz kann für Schätzwerte eine Normalverteilung unterstellt werden. Aber: Der Löwenanteil der statistischen Arbeit ist auf eine Stichprobe beschränkt Techniken mit denen das Problem berücksichtigt werden kann Transformation der Populationswerte bspw. durch logarithmieren Prüfung von Verteilungen anhand von Chi-Quadrat- oder F- Verteilungen Re-sampling-Techniken (Mehrauswertung einer einzigen Stichprobe => Jackknife-Verfahren, => Bootstrapping)

20 Konfidenzintervall Für n > 30 kann diese Formel genutzt werden: Das Konfidenzintervall (Δ krit ) für Mittelwerte (μ) berechnet sich folgendermaßen:

21 T-Verteilungen (df =1, 3, 5, 10) Vgl.

22 t-Verteilung dfp 0,900p 0,975p 0,990p 0, ,07812,70631,82163,656 21,8864,3036,9659,925 31,6383,1824,5415,841 41,5332,7763,7474, ,3722,2282,7643, ,3102,0422,4572, ,2821,9622,3302,581

23 Zur Hypothesenbildung (1) Nullhypothese H 0 : Ein Zusammenhang zwischen zwei untersuchten Größen besteht nicht! (bspw. Steuer auf Inputverbrauch) Ein Grenzwert wird nicht überschritten, höchstens erreicht (etwas salopp: Null, weil sich zwei Vergleichsgruppen Null unterschieden) Alternativhypothese H 1 : In der Regel die Forschungshypothese Ein Zusammenhang zwischen zwei untersuchten Größen wird unterstellt, soll nachgewiesen werden. Ein Grenzwert wird überschritten

24 Zur Hypothesenbildung (2) Nullhypothese H 0 und Alternativhypothese H 1 schließen sich gegenseitig aus. Bspw. H 0 : Pestizidbelastung <= 3 g je / kg H 1 : Pestizidbelastung > 3 g je / kg Eine dritte Möglichkeit neben diesen Hypothesen bleiben nicht. Im Beispiel (3 g je / kg ) wird eine Annahmegrenze (c A ) präzisiert. Der kritische Wert (c) beläuft sich auf 3 g bei einem Stichprobenumfang von 1 kg.

25 Bestätigung? Fehler 1. und 2. Art Wenn eine Hypothese bestätigt werden kann, gilt die andere automatisch als verworfen. Eine dritte Möglichkeit neben diesen Hypothesen bleiben nicht. Fehler 1. Art: H 0 wird verworfen, obwohl H 0 richtig ist. Fehler 2. Art: H 0 wird angenommen, obwohl H 0 falsch ist. In beiden Fällen erweist sich die Stichprobe als gewissermaßen nicht stichhaltig.

26 Klinisch reine Anordnung? Vgl. Sachs (2002:188f; [144]) Zur Frage der Hypothesengewinnung aus bestehendem Datenmaterial Diskussion zur speziellen Situation der Sozialwissenschaften im Vergleich bspw. zur experimentellen Physik Zur Erinnerung: Zur Datenherkunft (vorletzte Vorlesung) Daten als Sekundärdaten; Vielzahl von Einflussgrößen auf zu erklärende Größen Versuchsanordnung allenfalls in Experimenten der Verhaltensökonomik Anspruch an wissenschaftliche Exaktheit bleibt dennoch!

27 Begriffe Mittelwert, Median, Quantil, Quartil etc., Klassen Lorenz-Kurven, Konzentrationsmaße Standardabweichung, Varianz Rangfolge, Histogramm, Verteilungsfunktion, Wahrscheinlichkeitsfunktion Wahrscheinlichkeitsdichten, Dichtefunktion Zentraler Grenzwertsatz H 0 -, H 1 -Hypothese Fehler 1. Art, Fehler 2. Art Konfidenzintervall, Signifikanzniveau

28 Lese- und Lernempfehlungen Zu Signifikanztests, Konfidenzintervall etc. Sachs, Lothar (1999), Angewandte Statistik, Neunte Überarbeitete Auflage, Berlin, Heidelberg [Lehrbuchsammlung der BOKU A, insb. S. 97ff) Bortz, J., Döring, N. (1995), Forschungsmethoden und Evaluation, 2. Auflage, Berlin et al. ([Lehrbuchsammlung der BOKU A, insbes. Seite ] Erben, Wilhelm (1998), Statistik mit Excel 5 oder 7, (Buch mit Diskette), [Lehrbuchsammlung der BOKU ] Diverse Internet-Angebote unter Stichworten wie Konfidenzintervall, Standardfehler etc. mit Java-Applets zur Manipulation von Parametern etc.


Herunterladen ppt "Agrar- und Ernährungspolitik III Vorlesung 18. März 2009 Auswertung von Strukturdaten auf dem Weg zur Normalverteilung und statistischen Tests Martin Kniepert."

Ähnliche Präsentationen


Google-Anzeigen