Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

APPLIED MARKET RESEARCH.

Ähnliche Präsentationen


Präsentation zum Thema: "APPLIED MARKET RESEARCH."—  Präsentation transkript:

1 APPLIED MARKET RESEARCH

2 MARKET RESEARCH …IST AUCH EIN PROZESS
Definitionsphase Formulierung des Forschungsproblems Bestimmung der Erhebungsziele Desk Research Vorbereitung: Worauf will ich Antworten? Und wie bekomme ich sie? Designphase Informationsquellen (Primär-/Sekundärerhebung) Messinstrumente/Operationalisierung Grobplanung der Datenauswertung Erhebungseinheiten (Voll-/Teilerhebung, Stichprobenumfang) Arbeits-, Zeit- und Kostenplanung Pre-Tests Im Feld: Wie sieht der Blick in die Realität aus? Feldphase Durchführung Kontrolle und Dokumentation der Datenerhebung Eingreifen vs. Standardisierung Analysephase Vorbereitung der Datenauswertung (Digitalisierung, Kodierung, Logikchecks) Auswertung und Interpretation Nachbereitung: Was sind die Antworten? Kommunikationsphase Forschungsbericht Präsentation

3 MARKET RESEARCH …IST AUCH EIN PROZESS
Definitionsphase Formulierung des Forschungsproblems Bestimmung der Erhebungsziele Desk Research Designphase Informationsquellen (Primär-/Sekundärerhebung) Messinstrumente/Operationalisierung Grobplanung der Datenauswertung Erhebungseinheiten (Voll-/Teilerhebung, Stichprobenumfang) Arbeits-, Zeit- und Kostenplanung Pre-Tests Vorbereitung Feldphase Durchführung Kontrolle und Dokumentation der Datenerhebung Eingreifen vs. Standardisierung Im Feld Analysephase Vorbereitung der Datenauswertung (Digitalisierung, Kodierung, Logikchecks) Auswertung und Interpretation Nachbereitung Kommunikationsphase Forschungsbericht Präsentation

4 MARKET RESEARCH PLAN DER VERANSTALTUNG
EINFÜHRUNG IN DIE VERANSTALTUNG WAS IST MARKET RESEARCH – UND (WOZU) BRAUCHE ICH DAS? DATEN SAMMELN Definitionsphase, Designphase, Feldphase: Wo die Fragen und Daten herkommen? DATEN AUSWERTEN Analysephase: Wie kommt man von Daten zu Ergebnissen? INSIGHTS GENERIEREN UND KOMMUNIZIEREN Kommunikationsphase: Wie werden aus Ergebnissen „Insights“? DR. JAN RUTENBERG Leiter Kundenmanagement & Marktforschung sowie Regal- & Flächenmanagement

5 DATEN AUSWERTEN Daten aufbereiten
Daten beschreiben: Deskriptive Statistiken Daten testen I: Was ist stat. Signifikanz und wozu brauche ich das überhaupt? Daten testen II: Methoden zur Aufdeckung von Zusammenhängen Daten testen III: Methoden zur Aufdeckung von Gruppenunterschieden

6 (1) Daten aufbereiten Bildquelle:

7 Literatur Backhaus, Klaus, Erichson, Bernd, Plinke, Wulff & Weiber, Rolf (2006). Multivariate Analysemethoden, 11. Auflage, Berlin-Heidelberg-New York etc.: Springer, S.4-6. Berekoven, Ludwig, Eckert, Werner & Ellenrieder, Peter (2004). Marktforschung. Methodische Grundlagen und praktische Anwendung, 10. Auflage, Wiesbaden: Gabler, S Bortz, Jürgen (2005). Statistik für Human- und Sozialwissenschaftler, 6. Aufl., Heidelberg: Springer, S Fahrmeir, Ludwig, Künstler, Rita, Pigeot, Iris & Tutz, Gerhard (2004). Statistik, 5. Aufl., Berlin-Heidelberg-New York etc.: Springer, S Handl, Andreas (2002). Multivariate Analysemethoden: Theorie und Praxis unter besonderer Berücksichtigung von S-Plus, Berlin-Heidelberg-New York etc.: Springer, S

8 ANALYSEPHASE DATENAUFBEREITUNG
Fragebogen Bearbeiten Kodieren Säubern/ Checken Transformieren Daten- analyse Darstellung der Ergebnisse, Interpretation und Präsentation/ Darstellung Aufbereitung

9 ANALYSEPHASE DATENAUFBEREITUNG

10 ANALYSEPHASE DATENAUFBEREITUNG

11 ANALYSEPHASE DATENAUFBEREITUNG
Fragebogen Bearbeiten Kodieren Säubern/ Checken Transformieren Daten- analyse Darstellung der Ergebnisse, Interpretation und Präsentation/ Darstellung Aufbereitung

12 ANALYSEPHASE DATENAUFBEREITUNG
Kodieren In der Regel notwendig bei Kategorisieren offener Antworten Nicht-nummerischen Antworten Zahlen/Kategorien zuweisen Zusammenfassen (komplexer) Antworten Anzahl Kategorie Code 0 bis 3 wenig 4 bis 10 mittel 1 über 10 viel 2 k.A. „missing“ 99 Wie viele Snickers essen Sie normalerweise am Tag? 27

13 ANALYSEPHASE DATENAUFBEREITUNG
Kodieren In der Regel notwendig bei Kategorisieren offener Antworten Nicht-nummerischen Antworten Zahlen/Kategorien zuweisen Zusammenfassen (komplexer) Antworten Wie alt bist Du? 18-30 31-40 41-55 56 und älter Was ist Deine Lieblingsfarbe? braun gelb 1 lila bordeaux 2 2 3

14 ANALYSEPHASE DATENAUFBEREITUNG
Kodieren In der Regel notwendig bei Kategorisieren offener Antworten Nicht-nummerischen Antworten Zahlen/Kategorien zuweisen Zusammenfassen (komplexer) Antworten Was ist Deine Lieblingsfarbe? Antwort Kategorie Code braun erdfarben 1 gelb lila rötlich 2 bordeaux k.A. „missing“ 99 braun gelb lila bordeaux Vergessen Sie den Kodierungsplan nicht!

15 ANALYSEPHASE DATENAUFBEREITUNG
Transformieren Rohdaten so anpassen, dass die gewünschten Auswertungen möglich werden, beispielsweise durch das Zusammenführen von Antworten in eine Variable, Multi-Item Messungen eines Konstrukts Zusammenfassende Kennzahlen Sie wollen wissen, wie viele Schokoladenriegel der Proband am Tag insgesamt ist. Wie viele Snickers essen Sie normalerweise am Tag? 27 28 Wie viele sonstige Schokoladenriegel essen Sie normalerweise am Tag? 1

16 ANALYSEPHASE DATENAUFBEREITUNG
Transformieren

17 (2) Daten beschreiben: Deskriptive Statistiken
Darstellungformen Lageparameter Streuungsparameter (2) Daten beschreiben: Deskriptive Statistiken Bildquelle:

18 ANALYSEPHASE DATEN BESCHREIBEN
Wahl einer geeigneten Betrachtungsform, die die in den Daten steckende Struktur möglichst gut erkennen lässt oder der Fragestellung entspricht Häufige Darstellungsformen von Daten: Buchstaben vom Ende unseres Alphabets kennzeichnen Variablen, häufig bspw. X Die zu einer Variable X zugehörigen Beobachtungswerte werden mit dem entsprechenden Kleinbuchstaben bezeichnet (x) Unterschiedliche Beobachtungswerte x für ein Merkmal X werden von 1 bis n indiziert (x1, x2, …, xn), wobei n den Stichprobenumfang, die Anzahl an Beobachtungen für das Merkmal X, repräsentiert. In der Regel wird dem Index auch ein Buchstabe zugeordnet, zum Beispiel i. Bei n Beobachtungen kann der Index i die Werte von 1 bis n annehmen (i = 1,2, …, n) Lateinische Buchstaben werden dabei kursiv gesetzt, griechische nicht vor und nach allen Operatoren (bspw. „+“, „=“) wird ein Leerzeichen eingefügt Bei Werten, die nicht größer als eins werden können, wird oftmals die Null vor dem Komma weggelassen (bspw. „p = .01“).

19 ANALYSEPHASE DATEN BESCHREIBEN
Urliste x1 x2 x3 x4 x5 x6 x7 x8 x10 21 33 41 52 61 28 34 43 53 68 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 27 36 48 58 38 45 x21 x22 x23 x24 x25 x26 x27 x28 x29 x30 37 47 57 46

20 ANALYSEPHASE DATEN BESCHREIBEN
Häufigkeitstabellen Eine Häufigkeitstabelle zeigt, wie häufig eine Merkmalsausprägung – also ein bestimmter tatsächlich beobachteter Wert – in einer Menge von erhobenen Daten vorkommt. Sie liefert somit Informationen über die Häufigkeitsverteilung der erfassten Daten.

21 ANALYSEPHASE DATEN BESCHREIBEN
Häufigkeitstabellen Eine Häufigkeitstabelle zeigt, wie häufig eine Merkmalsausprägung – also ein bestimmter tatsächlich beobachteter Wert – in einer Menge von erhobenen Daten vorkommt. Sie liefert somit Informationen über die Häufigkeitsverteilung der erfassten Daten.

22 ANALYSEPHASE DATEN BESCHREIBEN
Säulendiagramm bzw. Stabdiagramm (bei diskreten Merkmalen) Auf der horizontalen Achse werden die tatsächlich beobachteten Werte yi des Merkmals Y eingetragen. Die absoluten oder relativen Häufigkeiten bestimmen die Länge der senkrechten Linien über jedem beobachteten Wert yi

23 ANALYSEPHASE DATEN BESCHREIBEN
Histogramm (bei kontinuierlichen Merkmalen) Auf der horizontalen Achse werden die tatsächlich beobachteten Werte yi des Merkmals Y eingetragen. Dabei werden Klassen gebildet. Die absoluten oder relativen Häufigkeiten bestimmen die Länge der senkrechten Linien über jedem beobachteten Wert yi

24 ANALYSEPHASE DATEN BESCHREIBEN
Streckenzugdiagramm (bei kontinuierlichen Merkmalen)

25 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken (Beschreibende Kennzahlen) Situation Fragestellung Datenlage Lageparameter Modus Median Mittelwert Streuungsparameter Spannweite Varianz Standardabweichung Zusammenfassende Darstellung

26 ANALYSEPHASE DATEN BESCHREIBEN
Situation Eine Befragung von Absolventen des Studiengangs BWL in Göttingen, Hannover und Mannheim sollte Aufschluss über die jeweiligen Studiendauer in Semestern bringen. Im ersten Auswertungsschritt gilt es die Daten und ihre Häufigkeitsverteilung durch Grafiken und geeignete Kennzahlen zu beschreiben.

27 ANALYSEPHASE DATEN BESCHREIBEN
Fragestellung Erläutern und berechnen Sie einzelne Lage- und Streuungsparameter auf Grundlage der erfassten Stichprobendaten. Gehen Sie bei der Erläuterung auch auf das Kriterium des Skalenniveaus ein. Abschließend geben Sie bitte eine kurze Beurteilung der Aussagekraft der Lage- und Streuungsmaße.

28 ANALYSEPHASE DATEN BESCHREIBEN
Datenlage Die Untersuchung führte zu folgendem Ergebnis (Urliste): 1) Universität Göttingen Person 1 2 3 4 5 6 7 8 9 10 11 Semester 12 2) Universität Hannover Person 1 2 3 4 5 6 7 8 9 10 11 Semester 15 20 38 3) Universität Mannheim Person 1 2 3 4 5 6 7 8 9 10 11 Semester

29 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken (Beschreibende Kennzahlen) Lage- und Streuungsparameter (stets bezogen auf eine Variable/Merkmal) sind Kennzahlen zur Beschreibung empirischer Merkmalsverteilungen Sie sollten folgende Kriterien erfüllen: große Aussagekraft bei möglichst geringem Informationsverlust, Sachverhalt muss angemessen repräsentiert werden Wichtige Lageparameter Modus, Median, (arithmetischer) Mittelwert Wichtige Streuungsparameter Spannweite, Varianz, Standardabweichung

30 ANALYSEPHASE DATEN BESCHREIBEN
Säulendiagramme der Studiendauern von Absolventen

31 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Lageparameter Frage nach einer typischen Eigenschaft der betrachteten Häufigkeitsverteilung Sollen Auskunft darüber geben, wo der „Schwerpunkt“ des Datenbündels liegt Unterschiedliche Möglichkeiten der Anwendung von Lageparametern in Abhängigkeit vom Skalenniveau der Daten Modus (Modalwert) Wert eines Datenbündels mit der größten Häufigkeit da eine Verteilung mehrgipflig (bi- bzw. multimodal) sein kann, können einer Verteilung auch mehrere Modi zugeordnet sein notwendiges Skalenniveau: schon bei nominalskalierten Variablen zu ermitteln Aussagekraft: bietet wenig Informationen hinsichtlich der numerischen Verteilung der Werte; insbesondere daher schlechte Eignung bei schiefen Verteilungen

32 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Lageparameter Modus (Modalwert) 1) Universität Göttingen Person 1 2 3 4 5 6 7 8 9 10 11 Semester 12 Modus = 10 2) Universität Hannover Person 1 2 3 4 5 6 7 8 9 10 11 Semester 15 20 38 Modus = 10 3) Universität Mannheim Person 1 2 3 4 5 6 7 8 9 10 11 Semester Modus = 7; 10

33 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Lageparameter Median (Zentralwert) Ist der mittlere Wert (50%-Punkt) innerhalb der Rangwertreihe des betrachteten Merkmals Teilt die Reihe aller Merkmalswerte in zwei Hälften (mindestens 50% der Merkmalswerte liegen unter dem Zentralwert) Bei einer Reihe mit einer geraden Anzahl von Elementen wird das arithmetische Mittel der beiden mittleren Werte genommen Notwendiges Skalenniveau: mindestens Ordinalskala Aussagekraft: Bezieht als ein Maß der zentralen Tendenz im Gegensatz zum Modalwert die ganze Verteilung mit ein, wobei die Berechnung bei nominalskalierten Variablen nicht möglich ist Lässt sich auch bei Verteilungen mit offenen Randklassen berechnen (relative) Stabilität gegenüber extremen Merkmalsausprägungen Bietet (relativ) wenig Informationsgehalt, da für den Median insbesondere die Anzahl der Messwerte eine große Rolle spielt

34 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Lageparameter Median (Zentralwert) 1) Universität Göttingen Person 1 5 3 6 4 8 11 2 9 7 10 Semester 12 Median = 10 2) Universität Hannover Person 2 3 4 1 5 6 7 8 9 10 11 Semester 15 20 38 Median = 11 3) Universität Mannheim Person 2 4 6 9 1 3 8 5 7 10 11 Semester Median = 9

35 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Lageparameter (arithmetischer) Mittelwert Lagemaß zur Kennzeichnung von metrischen (mindestens intervallskalierten) Daten Wird berechnet, indem die Summe der Einzelwerte (xi) i = 1,…,n des Datenbündels durch die Anzahl der Beobachtungen (n) dividiert wird notwendiges Skalenniveau: setzt metrisches Skalenniveau voraus Aussagekraft: reagiert auf Ausreißer und auf Schiefe der Verteilung

36 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Lageparameter (arithmetischer) Mittelwert 1) Universität Göttingen Person 1 2 3 4 5 6 7 8 9 10 11 Semester 12 Mittelwert = 10 2) Universität Hannover Person 1 2 3 4 5 6 7 8 9 10 11 Semester 15 20 38 Mittelwert = 15 3) Universität Mannheim Person 1 2 3 4 5 6 7 8 9 10 11 Semester Mittelwert = 8,6

37 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Lageparameter (arithmetischer) Mittelwert »Sollen wir das arithmetische Mittel als durchschnittliche Körpergröße nehmen und den Gegner erschrecken, oder wollen wir ihn einlullen und nehmen den Median?«

38 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Worin unterscheiden sich Mittelwert und Median? Universität Göttingen Hannover Mannheim Säulen-diagramm Median 10 11 9 Mittel- wert 15 8,6

39 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Worin unterscheiden sich Mittelwert und Median? Extreme Beobachtungswerte haben einen großen Einfluss auf den Mittelwert; der Median gibt in diesem Fall die Lage der Verteilung besser wieder Bei symmetrischen Verteilungen nimmt der Mittelwert den gleichen Wert an wie der Median Bei einer rechtsschiefen (oder linkssteilen) Verteilung ist der Mittelwert immer größer als der Median; für linksschiefe (oder rechtssteile) Verteilungen gilt entsprechend das Gegenteil

40 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Streuungsparameter Erfassen, wie eng bzw. weit die einzelnen Merkmalswerte über den Bereich der Merkmalsskala verteilt sind Geben an, wie gut eine Verteilung durch einen Lageparameter charakterisiert werden kann Spannweite (Range) Differenz zwischen größtem (xmax) und kleinstem (xmin) Merkmalswert Notweniges Skalenniveau: zur Kennzeichnung der Streuung bei mindestens ordinalem Skalenniveau Aussagekraft: im allgemeinen als alleinige Maßzahl zur Verdeutlichung der Streuung nicht gut geeignet, da die Spannweite stark von den betrachteten Werten abhängig ist

41 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Streuungsparameter Spannweite (Range) 1) Universität Göttingen Person 1 5 3 6 4 8 11 2 9 7 10 Semester 12 Spannweite = 4 2) Universität Hannover Person 2 3 4 1 5 6 7 8 9 10 11 Semester 15 20 38 Spannweite = 31 3) Universität Mannheim Person 2 4 6 9 1 3 8 5 7 10 11 Semester Spannweite = 3

42 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Streuungsparameter Varianz (mittlere quadratische Abweichung) Summe der quadrierten Abweichungen der einzelnen Werte xi eines Datenbündels vom Mittelwert , dividiert durch die Anzahl der Beobachtungen n Berechnung: Notwendiges Skalenniveau: setzen metrisches Skalenniveau der Variablen voraus Aussagekraft: Maß dafür, wie weit die einzelnen Werte im Durchschnitt vom Mittelwert entfernt liegen durch die Quadrierung erhalten Beobachtungswerte mit einer großen Differenz von ein stärkeres Gewicht

43 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Streuungsparameter Varianz (mittlere quadratische Abweichung) 1) Universität Göttingen Person 1 2 3 4 5 6 7 8 9 10 11 Semester 12 Varianz = 1,82 2) Universität Hannover Person 1 2 3 4 5 6 7 8 9 10 11 Semester 15 20 38 Varianz = 70 3) Universität Mannheim Person 1 2 3 4 5 6 7 8 9 10 11 Semester Varianz = 1,69

44 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Streuungsparameter Standardabweichung Quadrat-)Wurzel aus der Varianz eines Datenbündels Berechnung: Notweniges Skalenniveau: nur für metrische Daten anwendbar Aussagekraft: Eignet sich zur Kennzeichnung von Fehlerintervallen um das arithmetische Mittel Durch die Wurzelberechnung wird die Quadrierung der Abweichungen "rückgängig gemacht", so dass s die gleiche Maßeinheit hat wie die Datenwerte selbst

45 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Streuungsparameter Standardabweichung 1) Universität Göttingen Person 1 2 3 4 5 6 7 8 9 10 11 Semester 12 Standardabweichung= 1,35 2) Universität Hannover Person 1 2 3 4 5 6 7 8 9 10 11 Semester 15 20 38 Standardabweichung = 8,37 3) Universität Mannheim Person 1 2 3 4 5 6 7 8 9 10 11 Semester Standardabweichung = 1,30

46 ANALYSEPHASE DATEN BESCHREIBEN
Deskriptive Statistiken: Streuungsparameter Standardabweichung Für Normalverteilungen gilt: zwischen den Werten x+s und x- s liegen ca. 2/3 aller Fälle (genau 68,26%) oder umgekehrt: die Wahrscheinlichkeit dafür, dass ein Messwert um mehr als eine Standardabweichungseinheit vom Mittelwert abweicht ist kleiner als 32%

47 ANALYSEPHASE DATEN BESCHREIBEN
Zusammenfasende Darstellung Skalenniveau Lageparameter  Nominal Ordinal Metrisch Modus Median Arithmetischer Mittelwert Streuungsparameter Spannweite (☺) Varianz Standardabweichung

48 (3) Daten testen I: Was ist stat
(3) Daten testen I: Was ist stat. Signifikanz und wozu brauche ich das überhaupt? Bildquelle:

49 ANALYSEPHASE DATEN TESTEN
statistische Kennwerte aus einer Stichprobe reflektieren nicht unbedingt die Grundgesamtheit Inwieweit lässt sich von den Verhältnissen in der Stichprobe auf die betreffende Grundgesamtheit schließen? (Zulässigkeit und Zuverlässigkeit eines Induktionschlusses) Stichprobe (Mx = 22) Grundgesamtheit (Mx = 26)

50 ANALYSEPHASE DATEN TESTEN
Lösung: Berechnung der Wahrscheinlichkeit, dass der Wert in der Stichprobe/der Unterschied zwischen zwei Stichproben zufällig zustande gekommen ist Formulierung von Hypothesen und Überprüfung Die Nullhypothese H0 beinhaltet diejenige Aussage, welche falsifiziert werden soll, während die Alternativhypothese H1 die Aussage enthält, die man aufzeigen möchte Für die praktische Durchführung eines Hypothesentestes ist die Alternativhypothese eher von nebensächlicher Bedeutung. Sie dient lediglich dazu, den Ablehnungsbereich der »Prüfgröße« zu lokalisieren

51 ANALYSEPHASE DATEN TESTEN
Hypothesen einseitig gerichtete Hypothesen H0-Hypothese: Der Absatz von Tiefkühlpizza zu Sonderangebotspreisen ist nicht höher im Vergleich zum Absatz von Tiefkühlpizza zu Normalpreisen. H1-Hypothese: Der Absatz von Tiefkühlpizza zu Sonderangebotspreisen ist höher im Vergleich zum Absatz von Tiefkühlpizza zu Normalpreisen. zweiseitig gerichtete Hypothesen H0-Hypothese: Es besteht kein Unterschied in der Absatzzahl zwischen dem Angebot von Tiefkühlpizza zu Sonderpreisen und zu Normalpreisen. H1-Hypothese: Bezüglich der Absatzzahl besteht ein Unterschied zwischen dem Angebot von Tiefkühlpizza zu Sonderpreisen und zu Normalpreisen.

52 ANALYSEPHASE DATEN TESTEN
Fehlerarten beim Prüfen von Hypothesen können zwei Fehler gemacht werden: Die Nullhypothese wird verworfen, obwohl sie richtig ist (Fehler 1. Art) Die Nullhypothese wird beibehalten, obwohl sie falsch ist (Fehler 2. Art) Mit dem Signifikanzniveau α wird die Wahrscheinlichkeit bezeichnet, mit der man einen Fehler 1. Art riskieren will die Wahrscheinlichkeit für einen Fehler 1. Art entspricht der Irrtumswahrscheinlichkeit p die Gefahr einem Fehler 2. Art (β-Fehler) zu erliegen, ist umso kleiner, je deutlicher die berechnete Irrtumswahrscheinlichkeit die Signifikanzgrenze übersteigt

53 ANALYSEPHASE DATEN TESTEN
Fehlerarten die Gefahr einem Fehler 2. Art (β-Fehler) zu erliegen, ist umso kleiner, je deutlicher die berechnete Irrtumswahrscheinlichkeit die Signifikanzgrenze übersteigt

54 ANALYSEPHASE DATEN TESTEN
Signifikanzniveau α = 0,1% Nullkommaeins-prozentige Wahrscheinlichkeit, die Nullhypothese zu verwerfen, obwohl die richtig ist (“bei 1000 identischen Tests, maximal einmal ein Fehler erster Art”, sehr konservativ) α = 1% Ein-prozentige Wahrscheinlichkeit, die Nullhypothese zu verwerfen, obwohl die richtig ist (“bei 100 identischen Tests, maximal einmal ein Fehler erster Art”, konservativ) α = 5% Fünf-prozentige Wahrscheinlichkeit, die Nullhypothese zu verwerfen, obwohl die richtig ist (“bei 100 identischen Tests, maximal fünf Mal ein Fehler erster Art”, weniger konservativ)

55 ANALYSEPHASE DATEN TESTEN
Fehlerarten wird über die Richtung der Alternativhypothese eine Aussage gemacht, dann wird die Hypothese mit einem einseitigen Test geprüft, andernfalls mit einem zweiseitigen Test im Fall eines zweiseitigen Tests liegt der Ablehnungsbereich zu gleichen Teilen an beiden Enden der Standardnormalverteilungs-kurve die sich beim einseitigen Test ergebende Irrtumswahrscheinlichkeit p ist kleiner als die beim zweiseitigen Test (nämlich halb so groß)

56 ANALYSEPHASE DATEN TESTEN
Annahme- und Ablehnungsbereiche bei einseitiger Fragestellung Annahme- und Ablehnungsbereich bei zweiseitiger Fragestellung

57 ANALYSEPHASE DATEN TESTEN
Vorgehensweise beim Signifikanztest Ermittlung der Wahrscheinlichkeit für eine Prüfgröße unter der Bedingung H0 Auf der Grundlage der erhobenen Stichprobendaten wird ein standardisierter Kennwert (die Prüfgröße) ermittelt Häufig verwendete Prüfgrößen (in Abhängigkeit von Fragestellung, Verteilungsannahmen und Skalenniveau) sind: t, , F Für diese Kennzahl sind bei einem gegebenen Test zum gewählten Signifikanzniveau Ablehnungsschwellen festgelegt, die den Bereich der möglichen Werte der Prüfgröße in einen Ablehnungs- und einen Annahmebereich der Nullhypothese H0 unterteilen Die Ablehnungsschwellen werden aus der Verteilung der Teststatistik unter der Bedingung der Gültigkeit von H0 bestimmt Liegt die Prüfgröße im Ablehnungsbereichs, so wird H0 abgelehnt, sonst wird H0 angenommen c 2

58 ANALYSEPHASE DATEN TESTEN
Vorgehensweise beim Signifikanztest Vergleich des p-Wertes mit dem Signifikanzniveau α ist p < α, dann ist die Wahrscheinlichkeit für einen Fehler erster Art kleiner als vorher akzeptiert ist p > α, dann ist die Wahrscheinlichkeit für einen Fehler erster Art größer als vorher akzeptiert H0 wird dann zugunsten der Alternative verworfen, wenn die Irrtumswahrscheinlichkeit p kleiner als das Signifikanzniveau α ist Der p-Wert gibt dabei die Wahrscheinlichkeit an, unter H0 den beobachteten Prüfgrößenwert oder einen in Richtung der Alternative extremeren Wert zu erhalten ein sehr kleiner p-Wert bedeutet, dass es unter H0 sehr unwahrscheinlich ist, den Prüfgrößenwert zu beobachten; dies spricht dafür, H0 zu verwerfen

59 ANALYSEPHASE DATEN TESTEN
Prüfgröße Vorgehensweise beim Signifikanztest “Sig.”, p-Wert

60 DATEN AUSWERTEN Daten aufbereiten
Daten beschreiben: Deskriptive Statistiken Daten testen I: Was ist stat. Signifikanz und wozu brauche ich das überhaupt? Daten testen II: Methoden zur Aufdeckung von Zusammenhängen Daten testen III: Methoden zur Aufdeckung von Gruppenunterschieden

61 MARKET RESEARCH …IST AUCH EIN PROZESS
Definitionsphase Formulierung des Forschungsproblems Bestimmung der Erhebungsziele Desk Research Designphase Informationsquellen (Primär-/Sekundärerhebung) Messinstrumente/Operationalisierung Grobplanung der Datenauswertung Erhebungseinheiten (Voll-/Teilerhebung, Stichprobenumfang) Arbeits-, Zeit- und Kostenplanung Pre-Tests Vorbereitung Feldphase Durchführung Kontrolle und Dokumentation der Datenerhebung Eingreifen vs. Standardisierung Im Feld Analysephase Vorbereitung der Datenauswertung (Digitalisierung, Kodierung, Logikchecks) Auswertung und Interpretation Nachbereitung Kommunikationsphase Forschungsbericht Präsentation

62 (4) Daten testen II: Methoden zur Aufdeckung von Zusammenhängen
Kreuztabellierung und Test Korrelationsanalysen (und Kausalität) Regressionsanalysen c 2 (4) Daten testen II: Methoden zur Aufdeckung von Zusammenhängen Bildquelle: Stahel (2002)

63 Literatur Kreuztabellen
Bortz, Jürgen (1999). Statistik für Sozialwissenschaftler, 5. Aufl., Berlin u.a.: Springer, S ; S und S Fahrmeir, Ludwig; Künstler, Rita; Pigeot, Iris & Tutz, Gerhard (2004). Statistik, 5. Aufl., Berlin-Heidelberg-New York etc. : Springer, S und S Zöfel, Peter (2003). Statistik für Wirtschaftswissenschaftler, München-Boston-San Francisco etc: Pearson, S

64 Literatur Korrelationsanalysen
Berekoven, Ludwig, Eckert, Werner & Ellenrieder, Peter (2004). Marktforschung. Methodische Grundlagen und praktische Anwendung, 10. Auflage, Wiesbaden: Gabler, S Bortz, Jürgen (2005). Statistik für Human- und Sozialwissenschaftler, 6. Aufl., Heidelberg: Springer, S und S Fahrmeir, Ludwig, Künstler, Rita, Pigeot, Iris & Tutz, Gerhard (2004). Statistik, 5. Aufl., Berlin-Heidelberg-New York etc.: Springer, S und S Zöfel, Peter (2003). Statistik für Wirtschaftswissenschaftler, München-Boston-San Francisco etc: Pearson,

65 Literatur Regressionsanalysen
Skiera, Bernd & Albers, Sönke (2000). Regressionsanalyse, in: Herrmann, Andreas & Homburg, Christian (Hg.) Marktforschung, Wiesbaden: Gabler, S Vertiefung: Backhaus, Klaus, Erichson, Bernd, Plinke, Wulff & Weiber, Rolf (2006). Multivariate Analysemethoden, Berlin, Heidelberg, New York: Springer, S Was tun bei Verletzung der Vorraussetzungen? von Auer, Ludwig (2005). Ökonometrie, Berlin, Heidelberg, New York: Springer, S

66 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
2 Kreuztabellierung und Test Situation Fragestellung Verfahren der Datenanalyse im Überblick Bivariate Analyse Die Kreuztabellierung Die Kreuztabelle Bedingte Häufigkeiten Kontingenzmaße -Koeffizient Φ -Koeffizient Kontingenzkoeffizient c 2

67 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Situation Der Marketingleiter des Pizzaherstellers interessiert sich für den Zusammenhang zwischen Geschlecht und Kaufabsicht der Tiefkühlpizza Alberta, um die Marke strategisch besser ausrichten zu können. Eine Befragung von insgesamt N = 1229 Personen zu ihrer Kaufabsicht der Tiefkühlpizza sollte Aufschluss über die Frage geben. Die Kaufabsicht der Tiefkühlpizza wurde anhand der Ausprägungen „niedrig“ und „hoch“ bei unterschiedlichen Probanden ermittelt.

68 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Fragestellung Werten Sie die Befragungsdaten dahingehend aus, ob es einen signifikanten Zusammenhang zwischen Geschlecht und Kaufabsicht gibt. Formulieren Sie zu diesem Zweck die dem Test zugrunde liegende Nullhypothese und ermitteln Sie die empirische Prüfgröße. Wie lautet Ihre Entscheidung über die Forschungshypothese? Falls es einen signifikanten Zusammenhang gibt, wie beurteilen Sie die Stärke des Zusammenhangs?

69 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Datenlage Folgende Daten wurden auf Basis der Befragungen erhoben: Alter 19-30 Jahre 31-50 Jahre Männer Frauen Kauffrequenz von Pizza selten Kaufabsicht hoch 156 72 114 180 522 714 niedrig 48 192 oft 78 45 101 296 515 39 136 30 14 219 321 301 293 314 1229 622 607

70 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Verfahren der Datenanalyse im Überblick Anzahl Variablen Univariate Verfahren Lagemaße Modus Median Mittelwert Streumaße Spanne Varianz Standardabweichung Bi- und Multivariate Verfahren Dependenzanalysen Kreuztabellierung Korrelation Regressionsanalyse Conjointanalyse Varianzanalyse Interdependenzanalysen Faktorenanalyse Multidim. Skalierung Clusteranalyse

71 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Bivariate Datenanalyse Im Mittelpunkt steht hierbei die Frage nach einer möglichen Beziehung zwischen zwei betrachteten Merkmalen Man unterscheidet zwischen: Assoziationsanalysen, die ungerichtete Beziehungen untersuchen und 2. Regressionsanalysen, die sich mit gerichteten Abhängigkeiten befasst Im Bereich der Assoziationsanalyse bei nominaler Skalierung der Merkmale ist die Kreuztabellierung zu nennen Im Bereich der Assoziationsanalyse bei metrischer Skalierung der Merkmale ist die Berechnung des Korrelationskoeffizienten zu nennen

72 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Kreuztabellierung Zur Veranschaulichung und Herausarbeitung von Zusammenhängen zwischen zwei (oder auch mehreren) Variablen dient die Kreuztabelle bzw. Kontingenztafel Es werden in einer Matrix für alle möglichen Kombinationen der Merkmalsausprägungen zweier Merkmale, die (absoluten bzw. relativen) Häufigkeiten angegeben Zur Darstellung des Zusammenhangs wird nur das Nominalskalenniveau bzw. Ordinalskalenniveau der Merkmale benutzt, auch wenn die Merkmale ein höheres Messniveau aufweisen Auf Basis der Kreuztabellierung lassen sich dann Maße für die Stärke des Zusammenhangs zwischen den beiden Merkmalen herausarbeiten

73 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Vorgehensweise zur Erstellung einer Kreuztabelle Ausgangspunkt sind zwei Merkmale X und Y mit den möglichen Ausprägungen: a1,…,ak für X und b1,…, bm für Y man bildet die Häufigkeiten hoij = h(aoi,boj) mit der die möglichen Kombinationen (ai,bj), i = 1,…,k; j = 1,…,m, auftreten die sich daraus ergebene Häufigkeitstabelle heißt Kreuztabelle oder Kontingenztafel Kreuztabellen werden durch Zeilen- und Spaltensummen ergänzt die Zeilensummen ergeben die Randhäufigkeiten des Merkmals X und werden abgekürzt durch: hoi. = hoi1 + … + hoim, i = 1,…, k die Spaltensummen ergeben die Randhäufigkeiten des Merkmals Y und werden abgekürzt durch: h.oj = ho1j + … + hokj, j = 1,…, m

74 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
b1 … bm a1 ho11 … ho1m ho1. a2 ho21 … ho2m ho2. ak hok1 … hokm hok. h.o1 … h.om n (k x m)-Kreuztabelle der absoluten Häufigkeiten: ... ... ... ... hoii = ho (ai,bj) absolute Häufigkeit der Kombination (ai, bj) ho1.,...,hok. Randhäufigkeiten von X h.o1,...,h.om Randhäufigkeiten von Y da die Prozentangaben häufig anschaulicher sind, betrachtet man auch die relativen Häufigkeiten, die sich ergeben, indem man die Beobachtungen durch n dividiert Uni Tübingen/Grammig/Veranstaltungsprogramm

75 ANALYSEPHASE DATENAUFBEREITUNG

76 ANALYSEPHASE DATENAUFBEREITUNG

77 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Kreuztabelle mit absoluten Häufigkeiten hoii und Randsummen Geschlecht (Y) männlich (b1) weiblich (b2) Kauf-absicht (X) hoch (a1) 449 (ho11) 369 (ho12) 818 (ho1.) niedrig (a2) 165 (ho21) 246 (ho22) 411 (ho2.) 614 (h.o1) 615 (h.o2) 1229 (n)

78 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Bedingte Häufigkeiten ein Zusammenhang zwischen Merkmalen ist allein durch die Betrachtung der absoluten und relativen Häufigkeiten noch nicht ersichtlich zur besseren Beurteilung der Häufigkeiten ist eine Prozentuierung mit Bezug auf die Zeilensummen bzw. Spaltensummen sinnvoll die Zeilenprozenturierung ist ein Hilfsmittel zum Vergleich der Zeilenkategorie; die Spaltenprozentuierung entsprechend zum Vergleich der Spaltenkategorie

79 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Kreuztabelle mit Spaltenprozentuierung Geschlecht (Y) männlich (b1) weiblich (b2) Kaufabsicht (X) hoch (a1) 449 (ho11) 73,1% 369 (ho12) 60% 818 (ho1.) niedrig (a2) 165 (ho21) 26,9% 246 (ho22) 40% 411 (ho2.) 614 =100% (h.o1) 615 =100% (h.o2) 1229 (n)  73,1% der männlichen Probanden geben eine hohe Kaufabsicht an, aber nur 60% der weiblichen Studierenden.

80 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Kontingenzmaße Kontingenzmaße decken Beziehungen zwischen Variablen auf und messen die Stärke des Zusammenhangs die Richtung der Wirkungsweise wird nicht erfasst in dem Sinne, dass ein wachsendes X mit wachsendem Y einhergeht alle Merkmale werden wie nominalskalierte Merkmale behandelt, wobei die Ordinalskaleninformationen bzw. metrische Skaleninformationen verloren gehen Y nominal ordinal metrisch X Kontingenz Rang-Korrel. Korrelation i.e.S.

81 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
2 -Koeffizient Mithilfe einer Analyse kann überprüft werden, ob es signifikant auffällige Kategoriekombinationen gibt Fragestellung: Unterscheiden sich die absoluten (beobachteten) Häufigkeiten hoii signifikant von den erwarteten Häufigkeiten heij? Wenn die Merkmale X und Y unabhängig sind, sollten die tatsächlich beobachteten Häufigkeiten von den zu erwarteten Häufigkeiten kaum abweichen Erwartete Häufigkeiten sind diejenigen, die sich unter Zugrundelegung der gegebenen Randsummen bei Gleichverteilung ergeben (Produkt aus zugehöriger Zeilen- und Spaltensumme, dividiert durch Gesamtsumme) Berechnung der quadrierten standardisierten Residuen und Aufsummierung über alle Felder der Kreuztabelle zur Prüfgröße c 2 c 2 c 2 mit df = (k-1)(m-1) Freiheitsgraden

82 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
2 -Koeffizient Ho-Hypothese wird verworfen, wenn Sind X und Y unabhängig, dann ist = 0 nimmt mit wachsendem Stichprobenumfang zu  ohne zusätzliche Überlegungen lässt sich nicht feststellen, wie groß sein muss, um auf einen Zusammenhang hinzuweisen der -Test ist an die Voraussetzung geknüpft, dass die erwarteten Häufigkeiten größer als 5 sind; in 20% der Fälle sind Werte < 5 erlaubt c 2emp > c 2tab c 2 c 2 c 2 c 2

83 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Kreuztabelle mit beobachteten und erwarteten Häufigkeiten heij Geschlecht (Y) männlich (b1) weiblich (b2) Kauf-absicht (X) hoch (a1) 449 (ho11) 408,7 (he11) 369 (ho12) 409,3 (he12) 818 (ho1.) niedrig (a2) 165 (ho21) 205,3 (he21) 246 (ho22) 205,7 (he22) 411 (ho2.) 614 (h.o1) 615 (h.o2) 1229 (n) Ho-Hypothese: Es besteht kein Zusammenhang zwischen dem Geschlecht und der Kaufabsicht.

84 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
2 Berechnung der Prüfgröße H0 kann verworfen werden, da die Prüfgröße größer ist als der kritische Tabellenwert der Tabelle Zwischen Geschlecht und Kaufabsicht existiert ein (höchst) signifikanter Zusammenhang (p < .001). c 2 c 2 = df p = .05 p = .01 p = .001 1 3,841 6,635 10,828 2 5,991 9,210 13,816 c 2 -Tabelle c 2

85 ANALYSEPHASE DATENAUFBEREITUNG

86 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
2 Berechnung der Prüfgröße H0 kann verworfen werden, da die Prüfgröße größer ist als der kritische Tabellenwert der Tabelle Zwischen Geschlecht und Kaufabsicht existiert ein (höchst) signifikanter Zusammenhang (p < .001). Sig. Test statistik c 2

87 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Φ -Koeffizient Um die Stärke des Zusammenhangs zwischen zwei dichotomen Variablen aufzudecken, kann der Φ–Koeffizient ermittelt werden Φ = nimmt Werte zwischen 0 (minimaler Zusammenhang) und 1 (maximaler Zusammenhang) an Das Vorzeichen des Φ–Koeffizienten hängt von der Anordnung der Merkmalsalternativen im 4-Felder-Schema ab eine inhaltliche Interpretation kann deshalb nur aufgrund der angetroffenen Häufigkeiten erfolgen c 2 n

88 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Zur Interpretation des Φ-Koeffizient da es einen signifikanten Zusammenhang gibt, kann auch eine Aussage über die Stärke des Zusammenhangs zwischen Geschlecht und Kaufabsicht getroffen werden zwischen Geschlecht und Kaufabsicht besteht betragsmäßig ein schwacher Zusammenhang dahingehend, dass Männer eine höhere Kaufbereitschaft haben Interpretation kein Zusammenhang 0-0,25 schwacher Zusammenhang 0,25-0,66 mittlerer Zusammenhang 0,66-1 starker Zusammenhang 1 perfekter Zusammenhang

89 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Kontingenzkoeffizient Maß zur Charakterisierung der Stärke des Zusammenhangs zweier mindestens nominalskalierter Merkmale Auch für Variablen mit mehr als zwei Ausprägungen geeignet Ist der -Test signifikant, gibt der Kontingenzkoeffizient den Grad der Abhängigkeit beider Merkmale wieder K ist nur positiv definiert und bewegt sich zwischen 0 und 1 (wobei 1 nicht erreicht werden kann) K = 0 bei Unabhängigkeit der beiden Variablen Kmax ist abhängig von der Zeilen- und Spaltenzahl soll K genau zwischen 0 und 1 liegen, so muss er normiert werden; der normierte Kontingenzkoeffizient hängt nicht mehr von der Dimension der Kontingenztafel ab c 2 c K = n + 2

90 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Korrelationsanalysen Situation Fragestellung Datenlage Funktionstypen Korrelationen Korrelationskoeffizient nach Bravais-Pearson Rangkorrelationskoeffizient nach Spearman Rangkorrelationskoeffizient nach Kendall Zusammenfassung Probleme

91 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Situation Den Marketingleiter des Pizzaherstellers interessiert die Frage nach dem Zusammenhang zwischen Verkaufspreis und Absatzmenge von Tiefkühlpizzen im Monat. Zu diesem Zweck wurde die Absatzmenge bei unterschiedlichen Preisen der Tiefkühlpizza im Monat ermittelt.

92 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Fragestellung Stellen Sie die erfassten Daten zunächst mit Hilfe eines Streudiagramms dar. Liefert Ihnen das Streudiagramm bereits erste Hinweise auf einen möglichen Zusammenhang. Beschreiben Sie den Zusammenhang mithilfe von Korrelationskoeffizienten, wobei Sie einen linearen Zusammenhang zwischen den Werten unterstellen sollten. Gehen Sie bei Ihren Berechnungen davon aus, dass die beiden Merkmale der Stichprobe normalverteilt sind.

93 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Datenlage Tiefkühlpizza A B C D E F G H I J Preis in Euro 5,10 1,80 2,10 2,05 1,99 1,90 2,20 1,95 2,50 2,25 Absatzmenge im Monat 110 1200 100 43 910 1000 760 970 685 860

94 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Ausgewählte Grundformen linearer Funktionen Beispiel: Zusammenhang zwischen Zahl der Vertreterbesuche und Höhe des Verkäuferumsatzes Beispiel: Zusammenhang zwischen Preis und Absatzmenge Beispiel: Zusammenhang zwischen Preis A und Preis B verschiedener Güter

95 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Ausgewählte Grundformen nicht-linearer Funktionen Beispiel: Zusammenhang zwischen Mund-zu-Mund Propaganda und Ausbreitung einer Werbe-botschaft Zusammenhang zwischen Vertraut-heit und Attraktivität eines Produktes Beispiel: Zusammenhang zwischen Artikel- anzahl und Zahlungs-bereitschaft Beispiel: Zusammenhang zwischen Preis und Absatz bei bestimmten Gütern Beispiel: Trendprognose zum Absatz eines Automobils Beispiel: Werbewirkungs- funktion

96 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Streuungsdiagramme Streu(ungs)diagramme sind grafische Hilfsmittel, die die Anordnung der Beobachtungspunkte veranschaulichen Jedes xi/yi - Beobachtungspaar wird in ein x/y-Koordinatensystem eingetragen Es lässt sich ein erster Eindruck gewinnen, ob und wie stark zwei Merkmale zusammenhängen Funktionstypen können abgeleitet werden

97 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Streuungsdiagramme Bildquelle: Stahel (2002)

98 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Korrelationen Als Korrelation bezeichnet man den wechselseitigen Zusammenhang zwischen Größen Korrelation bedeutet nicht das Vorhandensein von Kausalität. Besteht eine Korrelation zwischen X und Y, so gibt es mindestens drei alternative Möglichkeiten einer Kausalitätsbeziehung: X bewirkt Y, Y bewirkt X und X und Y werden durch Z bewirkt (Scheinkorrelation). die Korrelationsanalyse liefert ein Maß für die Stärke des Zusammenhangs; erfasst jedoch nur monotone bzw. lineare Zusammenhänge

99 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Korrelationen Die Stärke des Zusammenhangs wird durch den Korrelationskoeffizienten r gemessen Der Korrelationskoeffizient r liegt stets in den Grenzen von -1 bis +1 Für die Stärke des Zusammenhangs ist allein der Betrag des Korrelationskoeffizienten maßgebend das Vorzeichen gibt an, ob der Zusammenhang gleichläufig (+) oder gegenläufig (–) ist Korrelationskoeffizient Einstufung │r│≤ 0.25 0.25 <│r│≤ 0.66 0.66 <│r│< 1 │r│= 1 schwache Korrelation mittlere Korrelation starke Korrelation perfekte Korrelation

100 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Korrelationen Vermutung: Zwischen den Variablen Preis und Verkaufsmenge besteht ein linearer und gegenläufiger Zusammenhang; je höher der Verkaufspreis umso geringer die Absatzmenge.

101 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Korrelationskoeffizient nach Bravais-Pearson Korrelationskoeffizient nach Bravais-Pearson dient der Beschreibung des Zusammenhangs zwischen metrisch skalierten und normalverteilten Variablen Misst die Stärke des linearen Zusammenhangs, es gilt: Erläuterung: sx bzw. sy stehen für die Standardabweichungen der Merkmale X bzw. Y sxy bezeichnet die empirische Kovarianz (COV) ( ) y x xy n i s yi xi r = - å 1 ( ) y x n / 1 s i xy - = å

102 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Korrelationskoeffizient nach Bravais-Pearson Zur Kovarianz: um einen Zusammenhang zwischen zwei Merkmalen zu erfassen, beschreibt man die Lage eines Beobachtungspunktes mit Bezug zu dem Schwerpunkt des Streudiagramms Punkte im ersten und dritten Quadranten deuten auf einen positiven Zusammenhang hin; Punkte im zweiten und vierten Quadranten auf einen negativen Zusammenhang formal wird dies für jeden Punkt durch das Produkt (xi - )(yi - ) erfasst y IV I x x x x x x x x x x x x x x x x x x x III II x

103 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Korrelationskoeffizient nach Bravais-Pearson Zur Kovarianz: Es gilt: Quadrant 1: Quadrant 2: Quadrant 3: Quadrant 4: Liegen die Punkte hauptsächlich in den Quadranten 1 und 3, so ist die Summe der Produkte stark positiv. Liegen die Punkte hauptsächlich in den Quadranten 2 und 4, so ist die Summe der Produkte stark negativ. Sind die Punkte gleichmäßig verteilt, so heben sich positive und negative Summanden weitgehend auf und die Summe der Produkte wird weitgehend Null. y IV I x x x x x x x x x x x x x x x x x x x III II x

104 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Korrelationskoeffizient nach Bravais-Pearson Zur Kovarianz: Kovarianz: durchschnittliche Summe von Abweichungsprodukten Die Kovarianz gibt die Tendenz an, in welche Richtung die Merkmale variieren sxy > 0 mit x steigt (tendenziell) auch y (und umgekehrt) sxy < 0 hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher sxy = 0 x und y sind unabhängig Kovarianzen deuten (ggf.) auf lineare Abhängigkeiten hin. Sie sind von den Maßeinheiten der Merkmale abhängig! Wertebereich: bis

105 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Korrelationskoeffizient nach Bravais-Pearson Normierung der Kovarianz: Korrelationskoeffizienten nach Bravais-Pearson (Produkt-Moment-Korrelation) rxy Division der Kovarianz durch die Standardabweichungen beider Merkmale ( = Eliminierung der Streuung der einzelnen Verteilungen) Wertebereich von rxy -1 bis +1 rxy > 0 die Merkmale variieren tendenziell in der gleichen Richtung rxy < 0 die Merkmale variieren tendenziell in entgegengesetzter Richtung rxy = 0 kein (linearer) Zusammenhang!

106 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Korrelationskoeffizient nach Bravais-Pearson Die statistische Absicherung des Korrelationskoeffizienten nach Bravais-Pearson gegen Null erfolgt über die t-verteilte Prüfgröße. Der Korrelationskoeffizient ist dann signifikant, wenn die Prüfgröße größer ist als der kritische Wert der t-Verteilung. bei df = n-2 Freiheitsgraden

107 ANALYSEPHASE DATENAUFBEREITUNG

108 ANALYSEPHASE DATENAUFBEREITUNG

109 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Korrelationskoeffizient nach Bravais-Pearson Folgende Ergebnisse liefert die Berechnung des Korrelationskoeffizient nach Bravais-Pearson: rxy = -0,631 Im vorliegenden Fall liegt mit α =.05 ein nicht signifikanter Wert vor N rxy Statistische Absicherung

110 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Korrelationskoeffizient nach Bravais-Pearson

111 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Korrelationskoeffizient nach Bravais-Pearson rxy drückt den linearen Zusammenhang zweier Variablen aus Konsequenz: einzelne Ausreißer, d.h. einzelne extreme Datenpunkte, können einen starken, unerwünschten Effekt auf den numerischen Wert von rxy haben; hohe Korrelationen können als gering erscheinen und umgekehrt. Lösung: Ermittlung von Rangkorrelationskoeffizienten, die von Ausreißern wesentlich weniger beeinflusst werden, da ihre Ermittlung auf den Rängen der Beobachtungen basiert.

112 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Korrelationskoeffizient nach Bravais-Pearson

113 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Rangkorrelationskoeffizient nach Spearman drückt die Stärke des monotonen Zusammenhangs zweier Variablen aus wird zwischen zwei Variablen berechnet, die mindestens ordinalskaliert sind; für metrisch skalierte Variablen, bei Unsicherheit hinsichtlich der Normalverteilungsanahme Basiert auf Rangzahlen, die den Messwerten zugeordnet sind Für beide Variablen wird eine Rangreihe der Werte erstellt, Dem höchsten Wert wird der Rangplatz 1 verliehen; bei gleichen Werten werden gemittelte Rangplätze vergeben die Differenz di der zugehörigen Rangplatzpaare wird bestimmt es gilt: die Absicherung erfolgt über die t-verteilte Prüfgröße bei df = n – 2 Freiheitsgraden

114 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Rangkorrelationskoeffizient nach Spearman Wertebereich von rs -1 bis +1 Gehen mit steigenden x-Werten auch steigende y-Werte einher, so nimmt rs tendenziell einen großen Wert an sind die Rangzahlen bei den Merkmalen beider Variablen völlig gleich, so nimmt rs den Wert 1 an (die Rangpaare liegen auf einer Geraden mit positiver Steigung liegen) bei entgegengesetzt laufenden Rangzahlen wird rs = -1 (die Rangpaare liegen auf einer Geraden mit negativer Steigung)

115 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Rangkorrelationskoeffizient nach Spearman Rechenschritte zur Rangkorrelation nach Spearman rs Tiefkühlpizza A B C D E F G H I J Preis in Euro 5,10 1,80 2,10 2,05 1,99 1,90 2,20 1,95 2,50 2,25 Absatzmenge im Monat 110 1200 100 43 910 1000 760 970 685 860 Rang Preis 1 10 5 6 7 9 4 8 2 3 Rang Absatzmenge di -7 -4 -2 -5 d²i 49 81 16 25

116 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Rangkorrelationskoeffizient nach Spearman Es ergibt sich Die Absicherung erfolgt über die t-verteilte Prüfgröße mit Nach der t-Tabelle ist dies bei df = 8 Freiheitsgraden und α = .05 ein signifikanter Wert. df α = .05 α = .01 8 1,860 2,896 9 1,833 2,821 t-Tabelle

117 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Rangkorrelationskoeffizient nach Spearman Interpretation des Ergebnisses rs = -.685 starker Zusammenhang rs < 0 gegenläufiger monotoner Zusammenhang Es zeigt sich ein mittlerer gegenläufiger Zusammenhang zwischen Preis und Absatzmenge: Je höher der Preis einer Tiefkühlpizza, umso niedriger ist die verkaufte Menge an Tiefkühlpizzen.

118 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Zusammenfassung von Zusammenhangsmaßen Die Rangkorrelation kann nur dann berechnet werden, wenn die beteiligten Variablen mindestens ordinalskaliert sind Die Korrelation i.e.S (Korrelation nach Bravais-Pearson) allerdings nur für metrische Variablen. Y nominal ordinal metrisch X Kontingenz Rang-Korrel. Korrelation i.e.S.

119 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Grenzen von Zusammenhangsmaßen die Korrelation i.e.S gilt: Einzelne Fälle können einen starken Einfluss auf den Korrelationskoeffizienten ausüben. Korrelationen lassen sich für alle Funktionstypen berechnen allerdings werden nur monotone bzw. lineare Zusammenhänge erfasst.

120 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Grenzen von Zusammenhangsmaßen Kausalzusammenhänge können nicht erfasst werden Scheinkorrelationen (Korrelation zwischen Merkmalen, die inhaltlich nicht gerechtfertigt ist) können auftreten Zusammenhänge ergeben sich dann, wenn ein mit beiden beobachtbaren Merkmalen hochkorreliertes drittes Merkmal übersehen wird und unberücksichtigt bleibt. Bleibt ein entscheidendes Merkmal unberücksichtigt, kann dies zudem vorhandene Korrelationen verschleiern oder hinsichtlich des Vorzeichens umkehren

121 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Kausalität r = .62

122 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Kausalität Mögliche Erklärungen für die Korrelation Die Anzahl der Störche beeinflusst tatsächlich die Geburtenrate kausal. Die Geburtenrate beeinflusst das die Anzahl der Störche. Der Zusammenhang zwischen der Anzahl der Störche und der Geburtenrate wird durch eine dritte Variable bestimmt. Der Zusammenhang zwischen Anzahl der Störche und Geburtenrate ist rein zufällig. Es lassen sich also einige unterschiedliche Erklärung für eine hohe statistische Korrelation zwischen zwei Variablen finden. Nicht immer ist die einfachste oder offenkundigste Erklärung auch die richtige. Tatsächlich zeigt die Praxis, dass allzu oft vorschnell von einer Korrelation auf einen Kausalzusammenhang geschlossen wird, ohne weitere, nötige Belege für diese Interpretation anzubringen. Eine statistische Korrelation kann zwar eine kausale Beziehung nahelegen. Sie alleine reicht aber nicht aus, um Kausalität zu begründen.

123 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Kausalität Ein solcher Schluss ist nur dann folgerichtig, wenn diese Kriterien erfüllt werden: Vorliegen einer statistischen Korrelation. Ein statistischer Zusammenhang ist eine notwendige Bedingung für eine kausale Beziehung. Dabei ist aber zu beachten, dass auch nicht-lineare Zusammenhänge zwischen zwei Variablen bestehen können, die bspw. durch die Produkt-Moment Korrelation nicht erfasst werden. In unserem Beispiel konnten wir aber eine substantielle Korrelation zwischen dem Umsatz und den Werbeausgaben errechnen. Die unabhängige Variable findet zeitlich vor der abhängigen Variablen statt. Als unabhängige Variable wird diejenige Variable bezeichnet, die einen Einfluss auf die abhängige Variable ausübt. Die Veränderungen in der unabhängigen Variablen müssen logischer weise vor der Veränderung in der abhängigen Variable stattfinden. Es gibt keine Drittvariablen, die sowohl die unabhängige als auch die abhängige Variable gleichzeitig beeinflussen. Hierfür muss sorgfältig recherchiert werden und möglichst viele Variablen zusätzlich untersucht werden, die einen Einfluss auf beide Variablen ausüben könnten. Es gibt eine inhaltliche Erklärung für den kausalen Zusammenhang. Bevor eine Korrelation kausal interpretiert werden kann, muss immer auch eine Erklärung für die Richtung des Zusammenhangs existieren.

124 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Regressionsanalysen Situation und Problemstellung Schritte der linearen Regressionsanalyse Formulierung des Modells Schätzung der einfachen Regressionsfunktion Prüfung der einfachen Regressionsfunktion Schätzung der multiplen Regressionsfunktion Prüfung der multiplen Regressionsfunktion Voraussetzungen der Regressionsanalyse Grenzen der Regression

125 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Situation und Problemstellung Der Verkaufsleiter eines Margarineherstellers ist mit dem mengenmäßigen Absatz seiner Marke nicht zufrieden. Er stellt zunächst fest, dass der Absatz zwischen seinen Verkaufsgebieten differiert: Die Werte liegen zwischen 921 Kartons und Kartons. Der Mittelwert beträgt ,8. Er möchte wissen, warum die Werte so stark differieren und deshalb prüfen, von welchen Faktoren, die er beeinflussen kann, im wesentlichen der Absatz abhängt. Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn etwa gleich großen Verkaufsgebieten. Er sammelt für die Untersuchungsperiode Daten über die abgesetzte Menge, den Preis, die Ausgaben für Verkaufsförderung sowie die Anzahl der Vertreterbesuche.

126 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Situation und Problemstellung Die Untersuchung soll nun die Antwort auf die Frage geben, ob die genannten Einflussgrößen sich auf die Absatzmenge auswirken. Es soll zunächst eine der in Frage kommenden Variablen (hier: die Besuche) herausgegriffen werden. Im Folgenden sollen auch die weiteren Einflussgrößen (Preis, die Ausgaben für Verkaufsförderung sowie die Anzahl der Vertreterbesuche) in die Untersuchung einbezogen werden.

127 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse Die Folgende Daten erhielt der Verkaufsleiter aus der Stichprobe:

128 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse (1) Formulierung des Modells (2) Schätzung der Regressionsfunktion (3) Prüfung der Regressionsfunktion

129 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Formulierung des Modells Zunächst geht es darum, das sachlich zugrunde liegende Ursache-Wirkungsmodell in Form einer linearen Regressionsbeziehung zu bestimmen Hier: Der Verkaufsleiter vermutet aufgrund seiner Erfahrung, dass die Absatzmenge von der Zahl der Vertreterbesuche abhängig ist Der vermutete Zusammenhang zwischen der Absatzmenge und Zahl der Vertreterbesuche muss der Grundprämisse der Linearität entsprechen. Linearitätsprämisse der Regressionsanalyse: konstant

130 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Formulierung des Modells Für zwei Variablen lässt sich ein Streudiagramm der Beobachtungswerte erzeugen, das erkennen lässt, ob eine lineare Beziehung unterstellt werden kann

131 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion Gesucht ist die genaue Lage einer linearen Funktion im Koordinatensystem (x,y), die man Regressionsgerade nennt. Zwei Parameter bestimmen die Lage einer Geraden das konstante Glied b0, Schnittpunkt mit der Ordinate (x = 0) der Regressionskoeffizient b1, der die Neigung der Geraden bestimmt: die gesuchte Regressionsfunktion lautet: Kriterium (AV) Prädiktor (UV)

132 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion Ein möglicher Verlauf der Regressionsgeraden

133 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion Die in einer vorgegebenen Regressionsgleichung nicht erfassten Einflussgrößen der empirischen y-Werte schlagen sich in der Abweichung von der Regressionsgeraden nieder. Diese Abweichungen werden durch die Variable e repräsentiert. Die Werte ek werden Residuen genannt mit Beobachtungswert der abhängigen Variablen für xk (k=1,2,...,K) aufgrund der Regressionsfunktion ermittelter Schätzwert der abhängigen Variablen für xk nicht erklärte (d.h. nicht durch die unabhängige Variable erklärte) Abweichung des Beobachtungswertes von dem entsprechenden Schätzwert

134 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion die Residualgröße einer Beobachtung bildet einen Teil der Abweichung des beobachteten y-Wertes vom Mittelwert aller Beobachtungspaare

135 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion Die der Regressionsanalyse zugrundeliegende Frage lautet: „Welcher Anteil aller Abweichungen der Beobachtungswerte von ihrem gemeinsamen Mittelwert lässt sich durch den unterstellten linearen Einfluss der unabhängigen Variablen (Vertreterbesuche) erklären und welcher Anteil verbleibt als unerklärte Residuen?“ Hier: Lässt sich die gesamte Abweichung von 778,20 Mengeneinheiten bei Beobachtung 1 durch die Zahl der Vertreterbesuche von 109 erklären, oder ist sie auch durch andere Einflussgrößen maßgeblich bestimmt worden? Die Zielsetzung der Regressionsanalyse besteht darin, eine lineare Funktion zu ermitteln, die möglichst viel von den Abweichungen erklärt und somit möglichst geringe Residuen übrig lässt.

136 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion Wenn man die Residuen explizit in die Regressionsgleichung einbezieht, erhält man folgende Gleichung Will man den Zusammenhang zwischen Absatzmenge und Zahl der Vertreterbesuche schätzen, dann gelingt dies umso besser, je kleiner die ek sind. Es wird ein Rechenverfahren benötigt, das die Parameter der Regressionsgeraden so schätzt, dass die Streuung der Stichprobenwerte um die Gerade möglichst klein wird.  Es wird die Summe der quadrierten Residuen minimiert (KQS - Kleinste-Quadrate-Schätzung)

137 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion Durch Einsetzen und Summation über die Beobachtungen k (k = 1,2,…K) erhält man die Zielfunktion der Regressionsanalyse mit Wert der Residualgröße (k=1,2,...,K) Wert der abhängigen Variablen (k=1,2,...,K) b0 konstantes Glied b1 Regressionskoeffizienten Wert der unabhängigen Variablen (k=1,2,...,K) K Anzahl der Beobachtungen

138 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion Grafische Veranschaulichung

139 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion Rechnerisch erhält man die gesuchten Schätzwerte durch partielle Differentiation nach b0 und b1 Ermittlung der Parameter der Regressionsfunktion:

140 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion Arbeitstabelle zur Berechnung der Funktionsparameter:

141 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion Eingesetzt in (1) und (2) erhält man Die gesuchte Regressionsgleichung lautet demnach

142 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion Die Regressionsfunktion erlaubt die Schätzung der Absatzmenge für jede Zahl von Vertreterbesuchen Bsp.: Zahl der Vertreterbesuche 110 (Fall 7) Beobachtet wurden Das Residuum beträgt demnach e7 = -306,45 Die Regressionsfunktion zeigt an, um wie viel sich die geschätzte Menge ändern wird, wenn die Zahl der Vertreterbesuche um eine Einheit geändert wird In diesem Beispiel zeigt der Regressionskoeffizient b1 an, dass die geschätzte Menge um 18,88105 Einheiten zunehmen wird, wenn die Zahl der Vertreterbesuche um eine Einheit steigt

143 ANALYSEPHASE DATENAUFBEREITUNG

144 ANALYSEPHASE DATENAUFBEREITUNG

145 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion Nachdem die Regressionsfunktion geschätzt wurde, ist deren Güte zu überprüfen, d.h. es ist zu klären, wie gut sie als Modell der Realität geeignet ist Globale Prüfung der Regressionsfunktion: ob und wie gut die abhängige Variable Y durch das Regressionsmodell erklärt wird Prüfung der Regressionskoeffizienten (nicht behandelt): ob und wie gut einzelne Variablen des Regressionsmodells zur Erklärung der abhängigen Variablen beitragen

146 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion Globale Prüfung der Regressionsfunktion anhand folgender Gütemaße das Bestimmtheitsmaß (wird behandelt) die F-Statistik (nicht behandelt) der Standardfehler (nicht behandelt) Bestimmtheitsmaß misst die Güte der Anpassung der Regressionsfunktion an die empirischen Daten („goodness of fit“). die Basis hierfür bilden die Residualgrößen

147 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion Abweichungen der Beobachtungswerte von den Schätzwerten der Regressionsanalyse

148 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion Um zu beurteilen, ob die Größe der Residuen viel oder wenig ist benötigt man eine Vergleichsgröße, zu der man die Abweichung in Relation setzen kann Folgende Relation wird zur Beurteilung herangezogen Gesamtabweichung = erklärte Abweichung + Residuum Die Schätzung von yk ist um so besser, je größer der Anteil der durch die unabhängigen Variable erklärten Abweichung an der Gesamtabweichung ist Für das Wertepaar (x6,y6) ergibt sich folgende Zerlegung 471,20 = , ,60

149 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion Analog zu der beschriebenen Zerlegung der Gesamtabweichung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung aller Beobachtungen Gesamtstreuung = erklärte Streuung + nicht erklärte Streuung Auf Basis der Streuungszerlegung lässt sich das Bestimmtheitsmaß berechnen. Es wird mit R2 bezeichnet und ergibt sich aus dem Verhältnis von erklärter Streuung zur Gesamtstreuung

150 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion Bestimmtheitsmaß oder Das Bestimmtheitsmaß ist eine normierte Größe, dessen Wertebereich zwischen null und eins liegt. Es ist um so größer, je höher der Anteil der erklärten Streuung an der Gesamtstreuung ist. R2 = 1 gesamte Streuung erklärt R2 = 0 gesamte Streuung nicht erklärt

151 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion Aufbereitung der Daten für die Ermittlung von R2

152 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion Ergebnis Das Ergebnis besagt, dass 34,55% der gesamten Streuung auf die erklärende Variable Besuche und 65,45% auf in der Regressionsgleichung nicht erfasste Einflüsse zurückzuführen sind.

153 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion Der Verkaufsleiter ist mit einer Varianzaufklärung (vgl. Bestimmtheitsmaß) von 34.6 % gar nicht zufrieden.* Immerhin bedeutet dies, dass er 65.4 % der Schwankungen des Absatzes auch dann nicht erklären (und beeinflussen) kann, wenn er die Vertreterbesuche berücksichtigt. Deshalb beschließt er, daneben zwei weitere Einflussgrößen in dem Modell zu betrachten: den Preis der Margarine und die Ausgaben für Verkaufsförderung Er ist davon überzeugt, dass neben den Vertreterbesuchen auch diese beiden Größen Einfluss auf den Absatz nehmen. * Peterson, Robert A., Albaum, Gerald & Beltramini, Richard F. (1985). A Meta-Analysis of Effect Sizes in Consumer Behavior Experiments, in: Journal of Consumer Research, Vol. 12 (1985), No. 1, pp , finden, dass im Durchschnitt bei veröffentlichten, signifikanten (α = .05) emp. Ergebnissen zum Käuferverhalten zwischen nur etwa 11 % der AV durch die UVs aufgeklärt wurde.

154 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion Diese Entscheidung verändert das der Regressionsanalyse zu Grunde liegende Modell:

155 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion Der Regressionsansatz hat dann folgende (allgemeine) Form Auch bei der multiplen Regressionsanalyse lautet die Aufgabe, die Parameter b0, b1, b2, ..., bj so zu bestimmen, dass die Summe der Abweichungsquadrate (nicht erklärte Streuung) minimiert wird

156 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion Für die weiteren Variablen ergibt sich folgendes Modell: Die Lösung der Zielfunktion und Bestimmung der Regressionskoeffizienten führt zu einem sog. System von Normalgleichungen, dessen Lösung einen größeren Aufwand als im Fall der linearen Einfachregression verursacht.

157 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion Für die weiteren Variablen ergibt sich folgendes Modell: Die Lösung der Zielfunktion und Bestimmung der Regressionskoeffizienten führt zu einem sog. System von Normalgleichungen, dessen Lösung einen größeren Aufwand als im Fall der linearen Einfachregression verursacht. Auf Grundlage der Daten in der Ausgangstabelle ergibt sich folgende Regressionsfunktion

158 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion Die multiple Regressionsfunktion erlaubt erneut die Schätzung der Absatzmenge Bsp.: Zahl der Vertreterbesuche 110 (Fall 7) Es ergibt sich ein neuer Schätzwert für die Absatzmenge von 1.816, Das Residuum beträgt nur noch -6,35 Erweiterung: Für die multiple Regressionsanalyse ist es interessant, die Einflussstärke der unabhängigen Variablen für die Erklärung der abhängigen Variablen zu erkennen Durch Umformung der Regressionskoeffizienten kann eine direkte Vergleichbarkeit der numerischen Werte hergestellt werden

159 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion Der standardisierte Regressionskoeffizient errechnet sich wie folgt Die Schätzung der Standardabweichung erfolgt nach folgendem Ausdruck Die Standardabweichung der Variablen X und Y betragen in unserem Beispiel sMenge = 449,228 sBesuche = 13,986 demnach ergibt sich als Wert für

160 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion Analog ergeben sich für die Ausgangsdaten mit zehn Beobachtungen und den drei unabhängigen Variablen sBesuche = 13,986 sPreis = 1,547 sAusgaben = 544,289 Es zeigt sich, dass die Variable Besuche den höchsten unstandardisierten Regressionskoeffizienten, die Variable Ausgaben jedoch den höchsten standardisierten Regressionskoeffizienten aufweist - und damit den höchsten Erklärungsbeitrag liefert.

161 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Prüfung der multiplen Regressionsfunktion Bei der multiplen Regressionsfunktion ist zu überprüfen, wie gut sie als Modell der Realität geeignet ist. Globale Prüfung der Regressionsfunktion: ob und wie gut die abhängige Variable Y durch das Regressionsmodell erklärt wird r2 = .926 Das Ergebnis besagt, dass 92,6% der gesamten Streuung auf die erklärenden Variablen Preis, Ausgaben für die Verkaufsförderung sowie Anzahl Vertreterbesuche und 7,4% auf in der Regressionsgleichung nicht erfasste Einflüsse zurückzuführen sind. Durch die Berücksichtigung der weiteren Einflussgrößen hat sich das Bestimmtheitsmaß und damit die Güte der Anpassung erheblich verbessert. Test von r2; F-Statistik H0: r2 = 0; also: keine Varianzaufklärung durch die UVs H1: r2 > 0;

162 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Prüfung der multiplen Regressionsfunktion Bei der multiplen Regressionsfunktion ist zu überprüfen, wie gut sie als Modell der Realität geeignet ist. Prüfung der Regressionskoeffizienten (nicht behandelt): ob und wie gut einzelne Variablen (Preis, Ausgaben für die Verkaufsförderung, Anzahl Vertreterbesuche) des Regressionsmodells zur Klärung der abhängigen Variablen beitragen Prüfung der Regressionskoeffizienten: Test von β1…n; T-Statistik H0: β1…n = 0; also: kein Einfluss dieser UV auf die AV H1: β1…n > 0

163 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Linearen Regressionsanalyse: Interpretation der Regressionsanalyse Ist das Bestimmtheitsmaß r2 > 0 ? Für welche Prädiktoren gilt: βn > 0 ? Sind die Voraussetzungen der Regressionsanalyse erfüllt? (folgt) Sind die Vorzeichen der Regressionskoeffizienten plausibel? Welche Aussagen bzgl. des Zusammenhangs lassen sich bereits so ableiten? Interpretation der Größe der (stand.) Regressionskoeffizienten

164 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Voraussetzungen der Regressionsanalyse Metrisches Messniveau sowohl für die abhängigen als auch für die unabhängigen Variablen. Zwischen der abhängigen Variablen und den einzelnen unabhängigen Variablen muss jeweils eine lineare Beziehung bestehen. Die Variablen müssen additiv verknüpft sein, d.h. der Gesamteinfluss der unabhängigen Variablen auf die abhängige Variable muss gleich der Summe der Einzeleinflüsse sein. Es darf keine Multikollinearität vorliegen, d.h. die unabhängigen Variablen müssen untereinander unabhängig sein, dürfen also nicht miteinander korrelieren. Die Residuen sind normalverteilt (ek ~ N(0,σ2))

165 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN
Grenzen der Regressionsanalyse Regressionsmodell im Regressionsmodell nicht (direkt) abbildbar sind: + intervenierende Variable + Interaktionen + Schätzer für unabhängige Variable + usw. => führt zur Kausalmodellierung AV UV UV UV

166 (5) Daten testen III: Methoden zur Aufdeckung von Gruppenunterschieden
Student´s t-Test t-Test für abhängige Stichproben Varianzanalysen (5) Daten testen III: Methoden zur Aufdeckung von Gruppenunterschieden Bildquelle:

167 Literatur t-Test Bortz, Jürgen (2005). Statistik für Human- und Sozialwissenschaftler, 6. Aufl., Heidelberg: Springer, S Fahrmeir, Ludwig, Künstler, Rita, Pigeot, Iris & Tutz, Gerhard (2004). Statistik, 5. Aufl., Berlin-Heidelberg-New York etc.: Springer, S und S Zöfel, Peter (2003). Statistik für Wirtschaftswissenschaftler, München-Boston-San Francisco etc: Pearson, S und S

168 Literatur Varianzanalyse
Herrmann, Andreas & Seilheimer, Christian (2000). Varianz- und Kovarianzanalyse, in: Herrmann, Andreas & Homburg, Christian (Hg.) Marktforschung, Wiesbaden: Gabler, S Vertiefung: Backhaus, Klaus, Erichson, Bernd, Plinke, Wulff & Weiber, Rolf (2006). Multivariate Analysemethoden, Berlin, Heidelberg, New York: Springer, S Speziell zu Effektstärken und Stichprobengrößen: Bortz, Jürgen & Döring, Nicola (2003). Forschungsmethoden und -evaluation, Berlin, Heidelberg, New York: Springer, S

169 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Kriterien für die Auswahl des richtigen Tests Es gibt drei Kriterien, die bei Tests auf signifikante Unterschiede relevant sind: Unabhängige – abhängige Stichproben Vergleich von zwei Stichproben – Vergleich von mehr als zwei Stichproben Intervallskalierte, normalverteilte Werte – ordinalskalierte oder nicht normalverteilte Werte Tests bei intervallskalierten und normalverteilten Variablen Anwendung parametrischer Tests Hypothesen über bestimmte Parameter der Verteilung sollen getestet werden Gehen davon aus, dass die beobachteten Stichprobendaten einer Grundgesamtheit entstammen, in der die Variablen Intervallskalenniveau und eine bestimmte Wahrscheinlichkeitsverteilung (Normalverteilung) aufweisen Anzahl der Stichproben Art der Abhängigkeit Test 2 unabhängig Student´s t-Test >2 einfaktorielle Varianzanalyse abhängig t-Test für abhängige Stichproben

170 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Student‘s t-Test Situation Fragestellung Datenlage Schritte des Student‘s t-Test t-Test für gepaarte Stichproben

171 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Situation Der Verkaufsleiter eines Pizzaherstellers ist mit dem mengenmäßigen Absatz seiner Marke Alberta nicht zufrieden. Ein Marktforschungsinstitut wird von ihm damit beauftragt zu untersuchen, wie stark ein Sonderangebot kurzfristig den Absatz von Tiefkühlpizza der Marke Alberta steigert. Zu diesem Zweck wird in einem Ladengeschäft stichprobenartig an jeweils 10 Tagen der Absatz des Produktes bei Normalpreisen und der Absatz des Produktes bei Sonderpreisen erhoben.

172 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Fragestellung Im Folgenden gilt es mit geeigneten statistischen Testverfahren zu untersuchen, ob sich beide Gruppen (hier: Normalpreis G1 und Sonderpreis G2) bezüglich der abgesetzten Stückzahl an Tiefkühlpizza bei einer Ablehnungswahrscheinlichkeit von 5%, signifikant voneinander unterscheiden. Gehen Sie hierbei davon aus, dass die Werte in beiden Stichproben normalverteilt sind. Formulieren Sie zunächst die relevanten Hypothesen für das vorliegende Testproblem Erweiterung: Wählen Sie in einem zweiten Schritt ein nicht-parametrisches Prüfverfahren, um zu ermitteln, ob der Unterschied zwischen beiden Gruppen signifikant ist.

173 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Datenlage Normalpreis Sonderpreis Tag Absatz (Stück) 1 4 2 5 3 6 7 8 9 10

174 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Student‘s t-Test Vergleich zweier unabhängiger Stichproben hinsichtlich ihrer Mittelwerte, wobei die Werte der beiden Stichproben normalverteilt sein müssen Je nachdem, ob sich die Varianzen in den beiden Stichproben signifikant unterscheiden (Varianzheterogenität), oder nicht, gibt es zwei verschiedene Formeln für eine t-verteilte Prüfgröße t Man berechnet zunächst die Prüfgröße mit smajor als größere und sminor als kleinere der beiden Standardabweichungen Die Prüfgröße F ist F-verteilt mit df = (nmajor - 1, nminor - 1) Varianzheterogenität wird bei Signifikanz auf der Stufe p < .05 angenommen

175 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Student‘s t-Test im Fall der Varianzhomogenität gilt: im Fall der Varianzheterogenität gilt: die Nullhypothese kann nicht verworfen werden, wenn der berechnete t-Wert geringer ist als der tabellierte kritische Wert (bei gegebener Anzahl der Freiheitsgrade) mit df = n1 + n2 – 2 Freiheitsgraden mit Freiheitsgraden

176 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Student‘s t-Test Im Schnitt unterscheiden sich die Absatzzahlen der Tiefkühlpizza zum Normalpreis im Vergleich zu den Absatzzahlen zum Sonderpreis Es soll mit dem (Student‘s) t-Test überprüft werden, ob dieser Mittelwertsunterschied statistisch signifikant ist Nullhypothese H0 : Es besteht kein Unterschied in der Absatzzahl zwischen dem Angebot von Tiefkühlpizza zu Sonderpreisen und zu Normalpreisen (d.h. der Mittelwertsunterschied in der Stichprobe ist zufällig zustande gekommen/nicht auf die Grundgesamtheit übertragbar). Normalpreis Sonderpreis Tag Absatz (Stück) 1 4 2 5 3 6 7 8 9 10 Mittel-wert 2,2 3,7

177 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Student‘s t-Test Im ersten Schritt ist zu entscheiden, ob Varianzhomogenität oder Varianzheterogenität vorliegt (F-Test): Wie die F-Tabelle ausweist, ist dies bei (9;9) Freiheitsgraden ein nicht signifikanter Wert; Varianzhomogenität ist also gegeben. = 2,28 df1 df2 1 2 3 4 5 6 7 8 9 10 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 F-Tabelle für p = .05

178 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Student‘s t-Test Zweiter Schritt: Bestimmung der Prüfgröße t Im Fall der Varianzhomogenität gilt Nach der t-Tabelle ist dies bei df = Freiheitsgraden ein signifikanter Wert, da t > tkrit. Die Nullhypothese kann daher verworfen werden. df α = .05 α = .01 18 1,734 2,552 19 1,729 2,539 t-Tabelle

179 ANALYSEPHASE DATENAUFBEREITUNG

180 ANALYSEPHASE DATENAUFBEREITUNG

181 ANALYSEPHASE GRUPPENUNTERSCHIEDE
t-Test für abhängige Stichproben Vergleich zweier abhängiger Stichproben hinsichtlich ihrer Mittelwerte, wobei die Differenzen zusammengehöriger Messwertpaare aus einer normalverteilten Grundgesamtheit stammen müssen Prüfgröße ist t-verteilt mit df = n - 1 Freiheitsgraden Errechnung des Mittelwerts der Differenzen di und deren Standardabweichung s die Nullhypothese kann nicht verworfen werden, wenn der berechnete t-Wert geringer ist als der tabellierte kritische Wert (bei gegebener Anzahl der Freiheitsgrade) ∑ di n i=1 d =

182 ANALYSEPHASE DATENAUFBEREITUNG

183 ANALYSEPHASE DATENAUFBEREITUNG

184 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Varianzanalyse Problemstellung Auswertung der Daten des Experimentes mittels einfaktorieller Varianzanalyse Entwicklung des einfaktoriellen Untersuchungsdesigns Schritte der einfaktoriellen Varianzanalyse Voraussetzungen der Varianzanalyse Zusammenfassung der wesentlichen Schritte

185 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Situation Der Leiter einer Supermarktkette möchte die Wirkung verschiedener Arten der Warenplatzierung auf die Absatzmenge überprüfen. Er wählt dazu Margarine in der Becherverpackung aus. Es stehen drei Möglichkeiten der Regalplatzierung offen: Unabhängige Variable (Faktor): Warenplatzierung I Platzierung nur im Normalregal der Frischwarenabteilung II Platzierung im Normalregal der Frischwarenabteilung und Zweitplatzierung im Fleischmarkt III Platzierung im Kühlregal der Frischwarenabteilung

186 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Aufgabenstellung Entwickeln Sie in einem ersten Schritt eine geeignete experimentelle Versuchsanordnung, mit deren Hilfe sich die Frage beantworten lässt, ob die unterschiedlichen Absatzergebnisse in den drei Supermärkten auf die Variation der Warenplatzierung zurückzuführen sind

187 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Entwicklung des einfaktoriellen Untersuchungsdesigns Aus den insgesamt vorhandenen Supermärkten werden drei weitgehend vergleichbare Supermärkte des Unternehmens ausgewählt (Quasi-Experiment). In einem Zeitraum von 5 Tagen wird in jedem der drei Supermärkte jeweils eine Form der Margarine- präsentation durchgeführt („Normalregal“, „Zweitplatzierung“ und „Kühlregal“). Die Auswirkungen der Maßnahmen werden jeweils in der Größe „kg Margarineabsatz pro Kassenvorgänge“ erfasst. Platzierung Normalregal n1 Zweitplatzierung n2 Kühlregal n3

188 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Entwicklung des einfaktoriellen Untersuchungsdesigns Man erhält drei Stichproben mit jeweils genau fünf Beobachtungswerten, die Teilstichproben haben also den gleichen Umfang. Kg Margarineabsatz pro 1000 Kassenvorgänge in drei Supermärkten in Abhängigkeit von der Platzierung

189 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Schritte der einfaktoriellen Varianzanalyse Mittelwerte des Margarineabsatzes in den drei Supermärkten Folgende Notationen werden eingeführt: = Beobachtungswert mit g = Kennzeichnung einer Faktorstufe als Ausprägung einer unabhängigen Variablen (g = 1, 2 ...,G) k = Kennzeichnung des Beobachtungswertes innerhalb einer Faktorstufe (k= 1, , K) = Mittelwert der Beobachtungswerte einer Faktorstufe = Gesamtmittelwert aller Beobachtungswerte

190 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Schritte der einfaktoriellen Varianzanalyse Die Fragestellung der einfaktoriellen Varianzanalyse lautet: Hat die Warenplatzierung einen Einfluss auf den Absatz? Grundprinzip der Varianzanalyse (Streuungszerlegung): die dargestellte Analyse basiert auf folgendem Grundmodell der einfachen Varianzanalyse Gesamtmittelwert der Grundgesamtheit, Schätzer= Wirkung der Stufe g des Faktors, die sich durch Abweichung vom Gesamtmittelwert der Grundgesamtheit bemerkbar macht, Schätzer= nicht erklärte Einfluss der Zufallsgrößen in der Grundgesamtheit

191 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Schritte der einfaktoriellen Varianzanalyse Grundprinzip der Varianzanalyse (Streuungszerlegung): Der Prognosewert für den Margarineabsatz, wenn kein Einfluss der Warenplatzierung vorhanden wäre, ist . Nimmt man einen Einfluss der Warenplatzierung auf den Absatz an, dann ist der Prognosewert für den Margarineabsatz je nach Art der Platzierung , oder Die Abweichungen vom Prognosewert ( ) sind auf zufällige äußere Einflüsse zurückzuführen und somit nicht erklärt.

192 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Schritte der einfaktoriellen Varianzanalyse Grundprinzip der Varianzanalyse:

193 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Schritte der einfaktoriellen Varianzanalyse Grundprinzip der Varianzanalyse Gesamt- Erklärte Nicht erklärte abweichung Abweichung Abweichung Summe der qua- = Summe der qua Summe der qua- drierten Gesamt- drierten Abwei- drierten Abwei- abweichung chungen zwischen chungen inner- den Faktorstufen halb der Faktorstufen = + SSt(otal) = SSb(etween) + SSw(ithin)

194 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Schritte der einfaktoriellen Varianzanalyse Ermittlung der Abweichungsquadrate:

195 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Schritte der einfaktoriellen Varianzanalyse Ermittlung der Varianzen: Varianz = Mittlere quadratische (Gesamt-) Abweichung MSt = = Mittlere quadratische Abweichung zwischen den Faktorstufen MSb = = Mittlere quadratische Abweichung innerhalb der Faktorstufen MSw = =

196 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Schritte der einfaktoriellen Varianzanalyse Statistische Prüfung des Einflusses des Faktors (Waren-platzierung) auf die abhängige Variable (Margarineabsatz): Ausgangspunkt der Prüfung ist die Nullhypothese (H0): „Es bestehen bezüglich des Margarineabsatzes keine Unterschiede in der Wirkung durch die Art der Warenplatzierung.“ H0: Die Alternativhypothese H1 lautet: „Es besteht bezüglich des Margarineabsatzes ein Unterschied in den Wirkungen alternativer Arten der Warenplatzierung.“ H1:

197 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Schritte der einfaktoriellen Varianzanalyse Es werden MSb und MSw in folgende Beziehung gesetzt Femp = mit Femp = empirischer F-Wert Femp = Die Prüfung erfolgt anhand eines Vergleichs des empirischen F-Wertes mit dem theoretischen F-Wert lt. Tabelle. Die Tabelle der theoretischen F-Werte zeigt für jeweilige Vertrauenswahrscheinlichkeit einen Prüfwert. Seine Höhe hängt von der Zahl der Freiheitsgrade (df) im Zähler (Spalten der Tabelle) und der Zahl der Freiheitsgrade im Nenner (Zeilen der Tabelle) ab.

198 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Schritte der einfaktoriellen Varianzanalyse Das Signifikanzniveau von 1% und df = 2 im Zähler und df = 12 im Nenner führt zu einem theoretischen F-Wert von 6,93. Empirischer und theoretischer F-Wert werden verglichen. Ist der empirische Wert größer als der theoretische, dann kann die Nullhypothese verworfen werden. wenn: Femp. > Ftheo. H0 ist zu verwerfen hier: 38,09 > 6,93 H0 ist zu verwerfen D.h. mit einer Vertrauenswahrscheinlichkeit von 99% kann der Schluss gezogen werden, dass die Platzierungsarten einen unterschiedlichen Einfluss auf die Absatzmenge haben.

199 ANALYSEPHASE DATENAUFBEREITUNG

200 ANALYSEPHASE DATENAUFBEREITUNG

201 ANALYSEPHASE DATENAUFBEREITUNG

202 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Effektstärke (Praktische Bedeutsamkeit, Effektgröße, Effect Size) Maße der Effektstärke lassen vergleichbare Aussagen über die Größe von Unterschieden oder Zusammenhängen zu Die Effektstärke ist vor allem in zwei Kontexten wichtig: Bei der Planung einer anderen Studie sollte man überlegen, welcher Stichprobenumfang erforderlich ist, um einen zu erwartenden Unterschied auch tatsächlich inferenzstatistisch absichern zu können. Nach Durchführung einer Studie sollte versucht werden, die "Bedeutsamkeit" eines Effekts abzuschätzen. Die Signifikanz ist hierfür nicht geeignet, da diese ganz wesentlich von der Stichprobengröße beeinflusst wird. Daher sollten Maße der Effektstärke angegeben werden. Ein besonders wichtiges Einsatzgebiet sind Metaanalysen, in welchen die Ergebnisse mehrerer Untersuchungen zusammengefasst werden. Es gibt – auch aufgrund einer Vielzahl möglicher Untersuchungsdesigns – eine ganze Reihe von Maßen der Effektstärke

203 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Effektstärke bei Mittelwertsvergleichen: Cohen‘s d Cohen‘s d Maß für die Effektstärke beim Vergleich von Mittelwerten von 2 Gruppen (z.B. t- Test) wobei gilt: 0 ≤ d ≤ 1 μ1, μ2 = (angestrebte) Mittelwerte der beiden Gruppen (bzw. geschätzt durch Mx) σ = Standardabweichung der untersuchten Größe in beiden Gruppen bei ungleichen gleichen Varianzen entweder die Varianz der Experimentalgruppe bzw.

204 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Effektstärke bei Mittelwertsvergleichen: Cohen‘s d Cohen‘s d Einschätzung der Bedeutsamkeit aufgrund Cohen‘s d kleiner Effekt d > .20 mittlerer Effekt d > .50 großer Effekt d > .80 (vgl. Bortz & Döring (2003, S. 604))

205 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Bestimmtheitsmaß Eta-Quadrat (η2) Eta-Quadrat drückt aus, wie gut durch die Kenntnis einer oder mehrerer Variablen (UV) die Ausprägungen einer weiteren Variablen (AV) vorhergesagt werden kann (vgl. Bestimmtheitsmaß R2 bei der Regression) (bei SST = SSB + SSW) η2 = .00, keine Varianz der AV wird durch die UV aufgeklärt η2 = .13, bedeutet, dass 13 % der Varianz der AV durch die UV aufgeklärt wird η2 = 1.00, gesamte Varianz der AV durch die UV aufgeklärt wird

206 ANALYSEPHASE GRUPPENUNTERSCHIEDE
Voraussetzungen der Varianzanalyse Formulierung einer Hypothese über den Wirkungszusammenhang der unabhängigen und der abhängigen Variablen. Unabhängige Daten können auf nominalen, abhängige müssen auf metrischen Skalenniveau erhoben werden. Die Restgrößen wirken sich bis auf zufällige Schwankungen in allen Stichprobenzellen gleich aus (sog. Varianzhomogenität). Die Werte in der Grundgesamtheit sind normalverteilt. Die Additivität der Einflussgrößen, d.h. der Einfluss eines Faktors auf die Ergebnisvariable ist unabhängig vom Einfluss weiterer Faktoren oder auch Restgrößen. Strukturgleichheit, d.h. die in die Untersuchung gelangten Teilstich-proben haben die gleiche Struktur der absatzbeeinflussenden Größen wie die Grundgesamtheit.

207 MARKET RESEARCH PLAN DER VERANSTALTUNG
EINFÜHRUNG IN DIE VERANSTALTUNG WAS IST MARKET RESEARCH – UND (WOZU) BRAUCHE ICH DAS? DATEN SAMMELN Definitionsphase, Designphase, Feldphase: Wo die Fragen und Daten herkommen? DATEN AUSWERTEN Analysephase: Wie kommt man von Daten zu Ergebnissen? INSIGHTS GENERIEREN UND KOMMUNIZIEREN Kommunikationsphase: Wie werden aus Ergebnissen „Insights“? DR. JAN RUTENBERG Leiter Kundenmanagement & Marktforschung sowie Regal- & Flächenmanagement

208 INSIGHTS GENERIEREN UND KOMMUNIZIEREN

209 MARKET RESEARCH …IST AUCH EIN PROZESS
Definitionsphase Formulierung des Forschungsproblems Bestimmung der Erhebungsziele Desk Research Designphase Informationsquellen (Primär-/Sekundärerhebung) Messinstrumente/Operationalisierung Grobplanung der Datenauswertung Erhebungseinheiten (Voll-/Teilerhebung, Stichprobenumfang) Arbeits-, Zeit- und Kostenplanung Pre-Tests Vorbereitung Feldphase Durchführung Kontrolle und Dokumentation der Datenerhebung Eingreifen vs. Standardisierung Im Feld Analysephase Vorbereitung der Datenauswertung (Digitalisierung, Kodierung, Logikchecks) Auswertung und Interpretation Nachbereitung Kommunikationsphase Forschungsbericht Präsentation

210 Ergebnisse berichten Bildquelle:

211 KOMMUNIKATIONSPHASE ERGEBNISSE BERICHTEN
Regeln für die Ergebnispräsentation Wissenschaftliche Arbeiten haben unter Beachtung von fach- und disziplinspezifischen Regeln nach dem neuesten Stand der Forschung durchgeführt zu werden. Dies setzt voraus, dass man sich vor Beginn der wissenschaftlichen Untersuchung die notwendigen methodischen und theoretischen Fähigkeiten aneignet. In Publikationen, Vorträgen, Präsentationen von Ergebnissen anderer Art sowie Gutachten und Auftragsforschung sind wirtschaftliche und andere Interessenkonflikte offen zu legen. Ab 24 Folien pro Sekunde ist es ein Film. Als Faustregel kann gelten: 2-3 Minuten pro Folie. Ihr Publikum liest Ihre Ergebnisse zum ersten Mal. Zudem sind Sie meist viel tiefer in der Materie als Ihr Zielpublikum. Leiten Sie den Leser also durch den Text. Uns lassen Sie ihm ein wenig Zeit, alle Informationen auch aufzunehmen. PPPPP

212 KOMMUNIKATIONSPHASE ERGEBNISSE BERICHTEN
Wichtige Bestandteile Abstract/Kurzzusammenfassung mit den wichtigsten Ergebnissen Management Summary zusätzlich mit den wichtigsten Informationen für die Praxis Hintergrund/Hinführung zum Thema, in der die Fragestellung in die Forschung eingeordnet wird und deren Relevanz dargelegt wird Stand der Forschung und theoretische Grundlagen: Was wissen wir zu der Frage aus der Literatur? Was ist noch unbekannt? Und welche Vermutungen kann man aus der Theorie dazu aufstellen (Begründung!)? Methoden, Organisation und Ablauf, sowie die Resultate wissenschaftlicher Forschungstätigkeit sind zu dokumentieren, zu sichern und aufzubewahren!  Ergebnisse Diskussion der Ergebnisse Fazit, Implikationen für Forschung und Praxis sowie Limitationen

213 VIEL ERFOLG BEI DER KLAUSUR
VIELEN DANK UND VIEL ERFOLG BEI DER KLAUSUR


Herunterladen ppt "APPLIED MARKET RESEARCH."

Ähnliche Präsentationen


Google-Anzeigen