Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 APPLIED MARKET RESEARCH. 2 MARKET RESEARCH …IST AUCH EIN PROZESS Definitionsphase Formulierung des Forschungsproblems Bestimmung der Erhebungsziele.

Ähnliche Präsentationen


Präsentation zum Thema: "1 APPLIED MARKET RESEARCH. 2 MARKET RESEARCH …IST AUCH EIN PROZESS Definitionsphase Formulierung des Forschungsproblems Bestimmung der Erhebungsziele."—  Präsentation transkript:

1 1 APPLIED MARKET RESEARCH

2 2 MARKET RESEARCH …IST AUCH EIN PROZESS Definitionsphase Formulierung des Forschungsproblems Bestimmung der Erhebungsziele Desk Research Vorbereitung: Worauf will ich Antworten? Und wie bekomme ich sie? Im Feld: Wie sieht der Blick in die Realität aus? Designphase Informationsquellen (Primär-/Sekundärerhebung) Messinstrumente/Operationalisierung Grobplanung der Datenauswertung Erhebungseinheiten (Voll-/Teilerhebung, Stichprobenumfang) Arbeits-, Zeit- und Kostenplanung Pre-Tests Feldphase Durchführung Kontrolle und Dokumentation der Datenerhebung Eingreifen vs. Standardisierung Analysephase Vorbereitung der Datenauswertung (Digitalisierung, Kodierung, Logikchecks) Auswertung und Interpretation Kommunikationsphase Forschungsbericht Präsentation Nachbereitung: Was sind die Antworten?

3 3 MARKET RESEARCH …IST AUCH EIN PROZESS Definitionsphase Formulierung des Forschungsproblems Bestimmung der Erhebungsziele Desk Research Vorbereitung Im Feld Designphase Informationsquellen (Primär-/Sekundärerhebung) Messinstrumente/Operationalisierung Grobplanung der Datenauswertung Erhebungseinheiten (Voll-/Teilerhebung, Stichprobenumfang) Arbeits-, Zeit- und Kostenplanung Pre-Tests Feldphase Durchführung Kontrolle und Dokumentation der Datenerhebung Eingreifen vs. Standardisierung Analysephase Vorbereitung der Datenauswertung (Digitalisierung, Kodierung, Logikchecks) Auswertung und Interpretation Kommunikationsphase Forschungsbericht Präsentation Nachbereitung

4 4 MARKET RESEARCH PLAN DER VERANSTALTUNG +EINFÜHRUNG IN DIE VERANSTALTUNG +WAS IST MARKET RESEARCH – UND (WOZU) BRAUCHE ICH DAS? +DATEN SAMMELN +Definitionsphase, Designphase, Feldphase: Wo die Fragen und Daten herkommen? +DATEN AUSWERTEN +Analysephase: Wie kommt man von Daten zu Ergebnissen? +INSIGHTS GENERIEREN UND KOMMUNIZIEREN +Kommunikationsphase: Wie werden aus Ergebnissen „Insights“? +DR. JAN RUTENBERG Leiter Kundenmanagement & Marktforschung sowie Regal- & Flächenmanagement

5 5 DATEN AUSWERTEN (1)Daten aufbereiten (2)Daten beschreiben: Deskriptive Statistiken (3)Daten testen I: Was ist stat. Signifikanz und wozu brauche ich das überhaupt? (4)Daten testen II: Methoden zur Aufdeckung von Zusammenhängen (5)Daten testen III: Methoden zur Aufdeckung von Gruppenunterschieden

6 6 (1) Daten aufbereiten Bildquelle:

7 7 Literatur Backhaus, Klaus, Erichson, Bernd, Plinke, Wulff & Weiber, Rolf (2006). Multivariate Analysemethoden, 11. Auflage, Berlin-Heidelberg-New York etc.: Springer, S.4-6. Berekoven, Ludwig, Eckert, Werner & Ellenrieder, Peter (2004). Marktforschung. Methodische Grundlagen und praktische Anwendung, 10. Auflage, Wiesbaden: Gabler, S Bortz, Jürgen (2005). Statistik für Human- und Sozialwissenschaftler, 6. Aufl., Heidelberg: Springer, S Fahrmeir, Ludwig, Künstler, Rita, Pigeot, Iris & Tutz, Gerhard (2004). Statistik, 5. Aufl., Berlin-Heidelberg-New York etc.: Springer, S Handl, Andreas (2002). Multivariate Analysemethoden: Theorie und Praxis unter besonderer Berücksichtigung von S-Plus, Berlin-Heidelberg-New York etc.: Springer, S

8 8 ANALYSEPHASE DATENAUFBEREITUNG Bearbeiten Kodieren Säubern/ Checken Transformieren Daten- analyse Fragebogen Darstellung der Ergebnisse, Interpretation und Präsentation/ Darstellung Aufbereitung

9 9 ANALYSEPHASE DATENAUFBEREITUNG

10 10 ANALYSEPHASE DATENAUFBEREITUNG

11 11 ANALYSEPHASE DATENAUFBEREITUNG Bearbeiten Kodieren Säubern/ Checken Transformieren Daten- analyse Fragebogen Darstellung der Ergebnisse, Interpretation und Präsentation/ Darstellung Aufbereitung

12 12 ANALYSEPHASE DATENAUFBEREITUNG Kodieren +In der Regel notwendig bei +Kategorisieren offener Antworten +Nicht-nummerischen Antworten Zahlen/Kategorien zuweisen +Zusammenfassen (komplexer) Antworten Wie viele Snickers essen Sie normalerweise am Tag? 27

13 13 ANALYSEPHASE DATENAUFBEREITUNG Kodieren +In der Regel notwendig bei +Kategorisieren offener Antworten +Nicht-nummerischen Antworten Zahlen/Kategorien zuweisen +Zusammenfassen (komplexer) Antworten Wie alt bist Du? und älter Was ist Deine Lieblingsfarbe? 1 braun gelb lila bordeaux 2 2 3

14 14 ANALYSEPHASE DATENAUFBEREITUNG Kodieren +In der Regel notwendig bei +Kategorisieren offener Antworten +Nicht-nummerischen Antworten Zahlen/Kategorien zuweisen +Zusammenfassen (komplexer) Antworten Was ist Deine Lieblingsfarbe? braun gelb lila bordeaux Vergessen Sie den Kodierungsplan nicht!

15 15 ANALYSEPHASE DATENAUFBEREITUNG Transformieren +Rohdaten so anpassen, dass die gewünschten Auswertungen möglich werden, beispielsweise durch das Zusammenführen von Antworten in eine Variable, +Multi-Item Messungen eines Konstrukts +Zusammenfassende Kennzahlen Wie viele Snickers essen Sie normalerweise am Tag? 27 Wie viele sonstige Schokoladenriegel essen Sie normalerweise am Tag? 1 Sie wollen wissen, wie viele Schokoladenriegel der Proband am Tag insgesamt ist. 28

16 16 ANALYSEPHASE DATENAUFBEREITUNG Transformieren

17 17 (2) Daten beschreiben: Deskriptive Statistiken Bildquelle: +Darstellungformen +Lageparameter +Streuungsparameter

18 18 ANALYSEPHASE DATEN BESCHREIBEN +Wahl einer geeigneten Betrachtungsform, die die in den Daten steckende Struktur möglichst gut erkennen lässt oder der Fragestellung entspricht +Häufige Darstellungsformen von Daten: +Buchstaben vom Ende unseres Alphabets kennzeichnen Variablen, häufig bspw. X +Die zu einer Variable X zugehörigen Beobachtungswerte werden mit dem entsprechenden Kleinbuchstaben bezeichnet (x) +Unterschiedliche Beobachtungswerte x für ein Merkmal X werden von 1 bis n indiziert (x 1, x 2, …, x n ), wobei n den Stichprobenumfang, die Anzahl an Beobachtungen für das Merkmal X, repräsentiert. +In der Regel wird dem Index auch ein Buchstabe zugeordnet, zum Beispiel i. +Bei n Beobachtungen kann der Index i die Werte von 1 bis n annehmen (i = 1,2, …, n) +Lateinische Buchstaben werden dabei kursiv gesetzt, griechische nicht +vor und nach allen Operatoren (bspw. „+“, „=“) wird ein Leerzeichen eingefügt +Bei Werten, die nicht größer als eins werden können, wird oftmals die Null vor dem Komma weggelassen (bspw. „p =.01“).

19 19 ANALYSEPHASE DATEN BESCHREIBEN Urliste x1x1 x2x2 x3x3 x4x4 x5x5 x6x6 x7x7 x8x8 x8x8 x x 11 x 12 x 13 x 14 x 15 x 16 x 17 x 18 x 19 x x 21 x 22 x 23 x 24 x 25 x 26 x 27 x 28 x 29 x

20 20 ANALYSEPHASE DATEN BESCHREIBEN Häufigkeitstabellen +Eine Häufigkeitstabelle zeigt, wie häufig eine Merkmalsausprägung – also ein bestimmter tatsächlich beobachteter Wert – in einer Menge von erhobenen Daten vorkommt. Sie liefert somit Informationen über die Häufigkeitsverteilung der erfassten Daten.

21 21 ANALYSEPHASE DATEN BESCHREIBEN Häufigkeitstabellen +Eine Häufigkeitstabelle zeigt, wie häufig eine Merkmalsausprägung – also ein bestimmter tatsächlich beobachteter Wert – in einer Menge von erhobenen Daten vorkommt. Sie liefert somit Informationen über die Häufigkeitsverteilung der erfassten Daten.

22 22 ANALYSEPHASE DATEN BESCHREIBEN Säulendiagramm bzw. Stabdiagramm (bei diskreten Merkmalen) +Auf der horizontalen Achse werden die tatsächlich beobachteten Werte y i des Merkmals Y eingetragen. +Die absoluten oder relativen Häufigkeiten bestimmen die Länge der senkrechten Linien über jedem beobachteten Wert y i

23 23 ANALYSEPHASE DATEN BESCHREIBEN Histogramm (bei kontinuierlichen Merkmalen) +Auf der horizontalen Achse werden die tatsächlich beobachteten Werte y i des Merkmals Y eingetragen. Dabei werden Klassen gebildet. +Die absoluten oder relativen Häufigkeiten bestimmen die Länge der senkrechten Linien über jedem beobachteten Wert y i

24 24 ANALYSEPHASE DATEN BESCHREIBEN Streckenzugdiagramm (bei kontinuierlichen Merkmalen)

25 25 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken (Beschreibende Kennzahlen) +Situation +Fragestellung +Datenlage +Lageparameter +Modus +Median +Mittelwert +Streuungsparameter +Spannweite +Varianz +Standardabweichung +Zusammenfassende Darstellung

26 26 ANALYSEPHASE DATEN BESCHREIBEN Situation Eine Befragung von Absolventen des Studiengangs BWL in Göttingen, Hannover und Mannheim sollte Aufschluss über die jeweiligen Studiendauer in Semestern bringen. Im ersten Auswertungsschritt gilt es die Daten und ihre Häufigkeitsverteilung durch Grafiken und geeignete Kennzahlen zu beschreiben.

27 27 ANALYSEPHASE DATEN BESCHREIBEN Fragestellung Erläutern und berechnen Sie einzelne Lage- und Streuungsparameter auf Grundlage der erfassten Stichprobendaten. Gehen Sie bei der Erläuterung auch auf das Kriterium des Skalenniveaus ein. Abschließend geben Sie bitte eine kurze Beurteilung der Aussagekraft der Lage- und Streuungsmaße.

28 28 ANALYSEPHASE DATEN BESCHREIBEN Datenlage Die Untersuchung führte zu folgendem Ergebnis (Urliste): 1) Universität Göttingen 2) Universität Hannover 3) Universität Mannheim

29 29 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken (Beschreibende Kennzahlen) +Lage- und Streuungsparameter (stets bezogen auf eine Variable/Merkmal) sind Kennzahlen zur Beschreibung empirischer Merkmalsverteilungen +Sie sollten folgende Kriterien erfüllen: +große Aussagekraft bei möglichst geringem Informationsverlust, +Sachverhalt muss angemessen repräsentiert werden +Wichtige Lageparameter +Modus, +Median, +(arithmetischer) Mittelwert +Wichtige Streuungsparameter +Spannweite, +Varianz, +Standardabweichung

30 30 ANALYSEPHASE DATEN BESCHREIBEN Säulendiagramme der Studiendauern von Absolventen

31 31 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Lageparameter +Frage nach einer typischen Eigenschaft der betrachteten Häufigkeitsverteilung +Sollen Auskunft darüber geben, wo der „Schwerpunkt“ des Datenbündels liegt +Unterschiedliche Möglichkeiten der Anwendung von Lageparametern in Abhängigkeit vom Skalenniveau der Daten (1)Modus (Modalwert) +Wert eines Datenbündels mit der größten Häufigkeit +da eine Verteilung mehrgipflig (bi- bzw. multimodal) sein kann, können einer Verteilung auch mehrere Modi zugeordnet sein +notwendiges Skalenniveau: schon bei nominalskalierten Variablen zu ermitteln +Aussagekraft: bietet wenig Informationen hinsichtlich der numerischen Verteilung der Werte; insbesondere daher schlechte Eignung bei schiefen Verteilungen

32 32 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Lageparameter (1)Modus (Modalwert) 1) Universität Göttingen 2) Universität Hannover 3) Universität Mannheim Modus = 10 Modus = 7; 10

33 33 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Lageparameter (2)Median (Zentralwert) +Ist der mittlere Wert (50%-Punkt) innerhalb der Rangwertreihe des betrachteten Merkmals +Teilt die Reihe aller Merkmalswerte in zwei Hälften (mindestens 50% der Merkmalswerte liegen unter dem Zentralwert) +Bei einer Reihe mit einer geraden Anzahl von Elementen wird das arithmetische Mittel der beiden mittleren Werte genommen +Notwendiges Skalenniveau: mindestens Ordinalskala +Aussagekraft: +Bezieht als ein Maß der zentralen Tendenz im Gegensatz zum Modalwert die ganze Verteilung mit ein, wobei die Berechnung bei nominalskalierten Variablen nicht möglich ist +Lässt sich auch bei Verteilungen mit offenen Randklassen berechnen +(relative) Stabilität gegenüber extremen Merkmalsausprägungen +Bietet (relativ) wenig Informationsgehalt, da für den Median insbesondere die Anzahl der Messwerte eine große Rolle spielt

34 34 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Lageparameter (2)Median (Zentralwert) 1) Universität Göttingen 2) Universität Hannover 3) Universität Mannheim Median = 10 Median = 11 Median = 9

35 35 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Lageparameter (3)(arithmetischer) Mittelwert +Lagemaß zur Kennzeichnung von metrischen (mindestens intervallskalierten) Daten +Wird berechnet, indem die Summe der Einzelwerte (x i ) i = 1,…,n des Datenbündels durch die Anzahl der Beobachtungen (n) dividiert wird +notwendiges Skalenniveau: setzt metrisches Skalenniveau voraus +Aussagekraft: reagiert auf Ausreißer und auf Schiefe der Verteilung

36 36 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Lageparameter (3)(arithmetischer) Mittelwert 1) Universität Göttingen 2) Universität Hannover 3) Universität Mannheim Mittelwert = 10 Mittelwert = 15 Mittelwert = 8,6

37 37 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Lageparameter (3)(arithmetischer) Mittelwert »Sollen wir das arithmetische Mittel als durchschnittliche Körpergröße nehmen und den Gegner erschrecken, oder wollen wir ihn einlullen und nehmen den Median?«

38 38 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Worin unterscheiden sich Mittelwert und Median?

39 39 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Worin unterscheiden sich Mittelwert und Median? +Extreme Beobachtungswerte haben einen großen Einfluss auf den Mittelwert; der Median gibt in diesem Fall die Lage der Verteilung besser wieder +Bei symmetrischen Verteilungen nimmt der Mittelwert den gleichen Wert an wie der Median +Bei einer rechtsschiefen (oder linkssteilen) Verteilung ist der Mittelwert immer größer als der Median; für linksschiefe (oder rechtssteile) Verteilungen gilt entsprechend das Gegenteil

40 40 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Streuungsparameter +Erfassen, wie eng bzw. weit die einzelnen Merkmalswerte über den Bereich der Merkmalsskala verteilt sind +Geben an, wie gut eine Verteilung durch einen Lageparameter charakterisiert werden kann (1)Spannweite (Range) +Differenz zwischen größtem (x max ) und kleinstem (x min ) Merkmalswert +Notweniges Skalenniveau: zur Kennzeichnung der Streuung bei mindestens ordinalem Skalenniveau +Aussagekraft: im allgemeinen als alleinige Maßzahl zur Verdeutlichung der Streuung nicht gut geeignet, da die Spannweite stark von den betrachteten Werten abhängig ist

41 41 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Streuungsparameter (1)Spannweite (Range) 1) Universität Göttingen 2) Universität Hannover 3) Universität Mannheim Spannweite = 4 Spannweite = 31 Spannweite = 3

42 42 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Streuungsparameter (2)Varianz (mittlere quadratische Abweichung) +Summe der quadrierten Abweichungen der einzelnen Werte xi eines Datenbündels vom Mittelwert, dividiert durch die Anzahl der Beobachtungen n +Berechnung: +Notwendiges Skalenniveau: setzen metrisches Skalenniveau der Variablen voraus +Aussagekraft: +Maß dafür, wie weit die einzelnen Werte im Durchschnitt vom Mittelwert entfernt liegen +durch die Quadrierung erhalten Beobachtungswerte mit einer großen Differenz von ein stärkeres Gewicht

43 43 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Streuungsparameter (2)Varianz (mittlere quadratische Abweichung) 1) Universität Göttingen 2) Universität Hannover 3) Universität Mannheim Varianz = 1,82 Varianz = 70 Varianz = 1,69

44 44 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Streuungsparameter (3)Standardabweichung +Quadrat-)Wurzel aus der Varianz eines Datenbündels +Berechnung: +Notweniges Skalenniveau: nur für metrische Daten anwendbar +Aussagekraft: +Eignet sich zur Kennzeichnung von Fehlerintervallen um das arithmetische Mittel +Durch die Wurzelberechnung wird die Quadrierung der Abweichungen "rückgängig gemacht", so dass s die gleiche Maßeinheit hat wie die Datenwerte selbst

45 45 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Streuungsparameter (3)Standardabweichung 1) Universität Göttingen 2) Universität Hannover 3) Universität Mannheim Standardabweichung= 1,35 Standardabweichung = 8,37 Standardabweichung = 1,30

46 46 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Streuungsparameter (3)Standardabweichung +Für Normalverteilungen gilt: +zwischen den Werten x+s und x- s liegen ca. 2/3 aller Fälle (genau 68,26%) +oder umgekehrt: die Wahrscheinlichkeit dafür, dass ein Messwert um mehr als eine Standardabweichungseinheit vom Mittelwert abweicht ist kleiner als 32%

47 47 ANALYSEPHASE DATEN BESCHREIBEN Zusammenfasende Darstellung

48 48 (3) Daten testen I: Was ist stat. Signifikanz und wozu brauche ich das überhaupt? Bildquelle:

49 49 ANALYSEPHASE DATEN TESTEN +statistische Kennwerte aus einer Stichprobe reflektieren nicht unbedingt die Grundgesamtheit +Inwieweit lässt sich von den Verhältnissen in der Stichprobe auf die betreffende Grundgesamtheit schließen? (Zulässigkeit und Zuverlässigkeit eines Induktionschlusses) Grundgesamtheit (M x = 26) Stichprobe (M x = 22)

50 50 ANALYSEPHASE DATEN TESTEN +Lösung: Berechnung der Wahrscheinlichkeit, dass der Wert in der Stichprobe/der Unterschied zwischen zwei Stichproben zufällig zustande gekommen ist +Formulierung von Hypothesen und Überprüfung +Die Nullhypothese H 0 beinhaltet diejenige Aussage, welche falsifiziert werden soll, während die Alternativhypothese H 1 die Aussage enthält, die man aufzeigen möchte +Für die praktische Durchführung eines Hypothesentestes ist die Alternativhypothese eher von nebensächlicher Bedeutung. Sie dient lediglich dazu, den Ablehnungsbereich der »Prüfgröße« zu lokalisieren

51 51 ANALYSEPHASE DATEN TESTEN Hypothesen +einseitig gerichtete Hypothesen +H 0 -Hypothese: Der Absatz von Tiefkühlpizza zu Sonderangebotspreisen ist nicht höher im Vergleich zum Absatz von Tiefkühlpizza zu Normalpreisen. +H 1 -Hypothese: Der Absatz von Tiefkühlpizza zu Sonderangebotspreisen ist höher im Vergleich zum Absatz von Tiefkühlpizza zu Normalpreisen. +zweiseitig gerichtete Hypothesen +H 0 -Hypothese: Es besteht kein Unterschied in der Absatzzahl zwischen dem Angebot von Tiefkühlpizza zu Sonderpreisen und zu Normalpreisen. +H 1 -Hypothese: Bezüglich der Absatzzahl besteht ein Unterschied zwischen dem Angebot von Tiefkühlpizza zu Sonderpreisen und zu Normalpreisen.

52 52 ANALYSEPHASE DATEN TESTEN Fehlerarten +beim Prüfen von Hypothesen können zwei Fehler gemacht werden: +Die Nullhypothese wird verworfen, obwohl sie richtig ist (Fehler 1. Art) +Die Nullhypothese wird beibehalten, obwohl sie falsch ist (Fehler 2. Art) +Mit dem Signifikanzniveau α wird die Wahrscheinlichkeit bezeichnet, mit der man einen Fehler 1. Art riskieren will +die Wahrscheinlichkeit für einen Fehler 1. Art entspricht der Irrtumswahrscheinlichkeit p +die Gefahr einem Fehler 2. Art (β-Fehler) zu erliegen, ist umso kleiner, je deutlicher die berechnete Irrtumswahrscheinlichkeit die Signifikanzgrenze übersteigt

53 53 ANALYSEPHASE DATEN TESTEN Fehlerarten +die Gefahr einem Fehler 2. Art (β-Fehler) zu erliegen, ist umso kleiner, je deutlicher die berechnete Irrtumswahrscheinlichkeit die Signifikanzgrenze übersteigt

54 54 ANALYSEPHASE DATEN TESTEN Signifikanzniveau +α = 0,1% Nullkommaeins-prozentige Wahrscheinlichkeit, die Nullhypothese zu verwerfen, obwohl die richtig ist (“bei 1000 identischen Tests, maximal einmal ein Fehler erster Art”, sehr konservativ) +α = 1% Ein-prozentige Wahrscheinlichkeit, die Nullhypothese zu verwerfen, obwohl die richtig ist (“bei 100 identischen Tests, maximal einmal ein Fehler erster Art”, konservativ) +α = 5% Fünf-prozentige Wahrscheinlichkeit, die Nullhypothese zu verwerfen, obwohl die richtig ist (“bei 100 identischen Tests, maximal fünf Mal ein Fehler erster Art”, weniger konservativ)

55 55 ANALYSEPHASE DATEN TESTEN Fehlerarten +wird über die Richtung der Alternativhypothese eine Aussage gemacht, dann wird die Hypothese mit einem einseitigen Test geprüft, andernfalls mit einem zweiseitigen Test +im Fall eines zweiseitigen Tests liegt der Ablehnungsbereich zu gleichen Teilen an beiden Enden der Standardnormalverteilungs-kurve +die sich beim einseitigen Test ergebende Irrtumswahrscheinlichkeit p ist kleiner als die beim zweiseitigen Test (nämlich halb so groß)

56 56 ANALYSEPHASE DATEN TESTEN Testen +Annahme- und Ablehnungsbereiche bei einseitiger Fragestellung +Annahme- und Ablehnungsbereich bei zweiseitiger Fragestellung

57 57 ANALYSEPHASE DATEN TESTEN Vorgehensweise beim Signifikanztest +Ermittlung der Wahrscheinlichkeit für eine Prüfgröße unter der Bedingung H 0 +Auf der Grundlage der erhobenen Stichprobendaten wird ein standardisierter Kennwert (die Prüfgröße) ermittelt +Häufig verwendete Prüfgrößen (in Abhängigkeit von Fragestellung, Verteilungsannahmen und Skalenniveau) sind: t,, F +Für diese Kennzahl sind bei einem gegebenen Test zum gewählten Signifikanzniveau Ablehnungsschwellen festgelegt, die den Bereich der möglichen Werte der Prüfgröße in einen Ablehnungs- und einen Annahmebereich der Nullhypothese H 0 unterteilen +Die Ablehnungsschwellen werden aus der Verteilung der Teststatistik unter der Bedingung der Gültigkeit von H 0 bestimmt +Liegt die Prüfgröße im Ablehnungsbereichs, so wird H 0 abgelehnt, sonst wird H 0 angenommen  2

58 58 ANALYSEPHASE DATEN TESTEN Vorgehensweise beim Signifikanztest +Vergleich des p-Wertes mit dem Signifikanzniveau α +ist p < α, dann ist die Wahrscheinlichkeit für einen Fehler erster Art kleiner als vorher akzeptiert +ist p > α, dann ist die Wahrscheinlichkeit für einen Fehler erster Art größer als vorher akzeptiert +H 0 wird dann zugunsten der Alternative verworfen, wenn die Irrtumswahrscheinlichkeit p kleiner als das Signifikanzniveau α ist +Der p-Wert gibt dabei die Wahrscheinlichkeit an, unter H 0 den beobachteten Prüfgrößenwert oder einen in Richtung der Alternative extremeren Wert zu erhalten +ein sehr kleiner p-Wert bedeutet, dass es unter H 0 sehr unwahrscheinlich ist, den Prüfgrößenwert zu beobachten; dies spricht dafür, H 0 zu verwerfen

59 59 ANALYSEPHASE DATEN TESTEN Vorgehensweise beim Signifikanztest Prüfgröße “Sig.”, p-Wert

60 60 DATEN AUSWERTEN (1)Daten aufbereiten (2)Daten beschreiben: Deskriptive Statistiken (3)Daten testen I: Was ist stat. Signifikanz und wozu brauche ich das überhaupt? (4)Daten testen II: Methoden zur Aufdeckung von Zusammenhängen (5)Daten testen III: Methoden zur Aufdeckung von Gruppenunterschieden

61 61 MARKET RESEARCH …IST AUCH EIN PROZESS Definitionsphase Formulierung des Forschungsproblems Bestimmung der Erhebungsziele Desk Research Vorbereitung Im Feld Designphase Informationsquellen (Primär-/Sekundärerhebung) Messinstrumente/Operationalisierung Grobplanung der Datenauswertung Erhebungseinheiten (Voll-/Teilerhebung, Stichprobenumfang) Arbeits-, Zeit- und Kostenplanung Pre-Tests Feldphase Durchführung Kontrolle und Dokumentation der Datenerhebung Eingreifen vs. Standardisierung Analysephase Vorbereitung der Datenauswertung (Digitalisierung, Kodierung, Logikchecks) Auswertung und Interpretation Kommunikationsphase Forschungsbericht Präsentation Nachbereitung

62 62 (4) Daten testen II: Methoden zur Aufdeckung von Zusammenhängen Bildquelle: Stahel (2002) +Kreuztabellierung und -Test +Korrelationsanalysen (und Kausalität) +Regressionsanalysen  2

63 63 Literatur Kreuztabellen Bortz, Jürgen (1999). Statistik für Sozialwissenschaftler, 5. Aufl., Berlin u.a.: Springer, S ; S und S Fahrmeir, Ludwig; Künstler, Rita; Pigeot, Iris & Tutz, Gerhard (2004). Statistik, 5. Aufl., Berlin-Heidelberg-New York etc. : Springer, S und S Zöfel, Peter (2003). Statistik für Wirtschaftswissenschaftler, München-Boston-San Francisco etc: Pearson, S

64 64 Literatur Korrelationsanalysen Berekoven, Ludwig, Eckert, Werner & Ellenrieder, Peter (2004). Marktforschung. Methodische Grundlagen und praktische Anwendung, 10. Auflage, Wiesbaden: Gabler, S Bortz, Jürgen (2005). Statistik für Human- und Sozialwissenschaftler, 6. Aufl., Heidelberg: Springer, S und S Fahrmeir, Ludwig, Künstler, Rita, Pigeot, Iris & Tutz, Gerhard (2004). Statistik, 5. Aufl., Berlin-Heidelberg-New York etc.: Springer, S und S Zöfel, Peter (2003). Statistik für Wirtschaftswissenschaftler, München-Boston-San Francisco etc: Pearson,

65 65 Literatur Regressionsanalysen Skiera, Bernd & Albers, Sönke (2000). Regressionsanalyse, in: Herrmann, Andreas & Homburg, Christian (Hg.) Marktforschung, Wiesbaden: Gabler, S Vertiefung: Backhaus, Klaus, Erichson, Bernd, Plinke, Wulff & Weiber, Rolf (2006). Multivariate Analysemethoden, Berlin, Heidelberg, New York: Springer, S Was tun bei Verletzung der Vorraussetzungen? von Auer, Ludwig (2005). Ökonometrie, Berlin, Heidelberg, New York: Springer, S

66 66 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kreuztabellierung und -Test +Situation +Fragestellung +Verfahren der Datenanalyse im Überblick +Bivariate Analyse +Die Kreuztabellierung +Die Kreuztabelle +Bedingte Häufigkeiten +Kontingenzmaße + -Koeffizient +Φ -Koeffizient +Kontingenzkoeffizient  2  2

67 67 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Situation Der Marketingleiter des Pizzaherstellers interessiert sich für den Zusammenhang zwischen Geschlecht und Kaufabsicht der Tiefkühlpizza Alberta, um die Marke strategisch besser ausrichten zu können. Eine Befragung von insgesamt N = 1229 Personen zu ihrer Kaufabsicht der Tiefkühlpizza sollte Aufschluss über die Frage geben. Die Kaufabsicht der Tiefkühlpizza wurde anhand der Ausprägungen „niedrig“ und „hoch“ bei unterschiedlichen Probanden ermittelt.

68 68 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Fragestellung Werten Sie die Befragungsdaten dahingehend aus, ob es einen signifikanten Zusammenhang zwischen Geschlecht und Kaufabsicht gibt. Formulieren Sie zu diesem Zweck die dem Test zugrunde liegende Nullhypothese und ermitteln Sie die empirische Prüfgröße. Wie lautet Ihre Entscheidung über die Forschungshypothese? Falls es einen signifikanten Zusammenhang gibt, wie beurteilen Sie die Stärke des Zusammenhangs?

69 69 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Datenlage Folgende Daten wurden auf Basis der Befragungen erhoben: Alter Jahre31-50 Jahre MännerFrauenMännerFrauen ∑∑ Kauffrequenz von Pizza seltenKaufabsichthoch niedrig oftKaufabsichthoch niedrig ∑ ∑

70 70 Anzahl Variablen Univariate Verfahren Lagemaße Modus Median Mittelwert Streumaße Spanne Varianz Standardabweichung Bi- und Multivariate Verfahren Dependenzanalysen Kreuztabellierung Korrelation Regressionsanalyse Conjointanalyse Varianzanalyse Interdependenzanalysen Faktorenanalyse Multidim. Skalierung Clusteranalyse ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Verfahren der Datenanalyse im Überblick

71 71 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Bivariate Datenanalyse +Im Mittelpunkt steht hierbei die Frage nach einer möglichen Beziehung zwischen zwei betrachteten Merkmalen +Man unterscheidet zwischen: +Assoziationsanalysen, die ungerichtete Beziehungen untersuchen und +2. Regressionsanalysen, die sich mit gerichteten Abhängigkeiten befasst +Im Bereich der Assoziationsanalyse bei nominaler Skalierung der Merkmale ist die Kreuztabellierung zu nennen +Im Bereich der Assoziationsanalyse bei metrischer Skalierung der Merkmale ist die Berechnung des Korrelationskoeffizienten zu nennen

72 72 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kreuztabellierung +Zur Veranschaulichung und Herausarbeitung von Zusammenhängen zwischen zwei (oder auch mehreren) Variablen dient die Kreuztabelle bzw. Kontingenztafel +Es werden in einer Matrix für alle möglichen Kombinationen der Merkmalsausprägungen zweier Merkmale, die (absoluten bzw. relativen) Häufigkeiten angegeben +Zur Darstellung des Zusammenhangs wird nur das Nominalskalenniveau bzw. Ordinalskalenniveau der Merkmale benutzt, auch wenn die Merkmale ein höheres Messniveau aufweisen +Auf Basis der Kreuztabellierung lassen sich dann Maße für die Stärke des Zusammenhangs zwischen den beiden Merkmalen herausarbeiten

73 73 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Vorgehensweise zur Erstellung einer Kreuztabelle +Ausgangspunkt sind zwei Merkmale X und Y mit den möglichen Ausprägungen: a 1,…,a k für X und b 1,…, b m für Y +man bildet die Häufigkeiten h oij = h(a oi,b oj ) mit der die möglichen Kombinationen (a i,b j ), i = 1,…,k; j = 1,…,m, auftreten +die sich daraus ergebene Häufigkeitstabelle heißt Kreuztabelle oder Kontingenztafel +Kreuztabellen werden durch Zeilen- und Spaltensummen ergänzt +die Zeilensummen ergeben die Randhäufigkeiten des Merkmals X und werden abgekürzt durch: h oi. = h oi1 + … + h oim, i = 1,…, k +die Spaltensummen ergeben die Randhäufigkeiten des Merkmals Y und werden abgekürzt durch: h.oj = h o1j + … + h okj, j = 1,…, m

74 74 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN b 1 … b m a 1 h o11 … h o1m h o1. a 2 h o21 … h o2m h o2. a k h ok1 … h okm h ok. h.o1 … h.om n... (k x m)-Kreuztabelle der absoluten Häufigkeiten: +h oii = h o (a i,b j ) absolute Häufigkeit der Kombination (a i, b j ) +h o1.,...,h ok. Randhäufigkeiten von X +h.o1,...,h.om Randhäufigkeiten von Y +da die Prozentangaben häufig anschaulicher sind, betrachtet man auch die relativen Häufigkeiten, die sich ergeben, indem man die Beobachtungen durch n dividiert

75 75 ANALYSEPHASE DATENAUFBEREITUNG

76 76 ANALYSEPHASE DATENAUFBEREITUNG

77 77 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Geschlecht (Y) ∑ männlich (b 1 ) weiblich (b 2 ) Kauf- absicht (X) hoch (a 1 ) 449 (h o11 ) 369 (h o12 ) 818 (h o1. ) niedrig (a 2 )165 (h o21 ) 246 (h o22 ) 411 (h o2. ) ∑ 614 (h.o1 ) 615 (h.o2 ) 1229 (n) Kreuztabelle mit absoluten Häufigkeiten h oii und Randsummen

78 78 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Bedingte Häufigkeiten +ein Zusammenhang zwischen Merkmalen ist allein durch die Betrachtung der absoluten und relativen Häufigkeiten noch nicht ersichtlich +zur besseren Beurteilung der Häufigkeiten ist eine Prozentuierung mit Bezug auf die Zeilensummen bzw. Spaltensummen sinnvoll +die Zeilenprozenturierung ist ein Hilfsmittel zum Vergleich der Zeilenkategorie; die Spaltenprozentuierung entsprechend zum Vergleich der Spaltenkategorie

79 79 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Geschlecht (Y) ∑ männlich (b 1 ) weiblich (b 2 ) Kaufabsicht (X) hoch (a 1 ) 449 (h o11 ) 73,1% 369 (h o12 ) 60% 818 (h o1. ) niedrig (a 2 ) 165 (h o21 ) 26,9% 246 (h o22 ) 40% 411 (h o2. ) ∑ 614 =100% (h.o1 ) 615 =100% (h.o2 ) 1229 (n)  73,1% der männlichen Probanden geben eine hohe Kaufabsicht an, aber nur 60% der weiblichen Studierenden. Kreuztabelle mit Spaltenprozentuierung

80 80 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kontingenzmaße +Kontingenzmaße decken Beziehungen zwischen Variablen auf und messen die Stärke des Zusammenhangs +die Richtung der Wirkungsweise wird nicht erfasst in dem Sinne, dass ein wachsendes X mit wachsendem Y einhergeht +alle Merkmale werden wie nominalskalierte Merkmale behandelt, wobei die Ordinalskaleninformationen bzw. metrische Skaleninformationen verloren gehen

81 81 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN -Koeffizient +Mithilfe einer - Analyse kann überprüft werden, ob es signifikant auffällige Kategoriekombinationen gibt +Fragestellung: Unterscheiden sich die absoluten (beobachteten) Häufigkeiten h oii signifikant von den erwarteten Häufigkeiten h eij ? +Wenn die Merkmale X und Y unabhängig sind, sollten die tatsächlich beobachteten Häufigkeiten von den zu erwarteten Häufigkeiten kaum abweichen +Erwartete Häufigkeiten sind diejenigen, die sich unter Zugrundelegung der gegebenen Randsummen bei Gleichverteilung ergeben (Produkt aus zugehöriger Zeilen- und Spaltensumme, dividiert durch Gesamtsumme) +Berechnung der quadrierten standardisierten Residuen und Aufsummierung über alle Felder der Kreuztabelle zur Prüfgröße  2  2  2 mit df = (k-1)(m-1) Freiheitsgraden  2

82 82 -Koeffizient +H o -Hypothese wird verworfen, wenn +Sind X und Y unabhängig, dann ist = 0 + nimmt mit wachsendem Stichprobenumfang zu  ohne zusätzliche Überlegungen lässt sich nicht feststellen, wie groß sein muss, um auf einen Zusammenhang hinzuweisen +der -Test ist an die Voraussetzung geknüpft, dass die erwarteten Häufigkeiten größer als 5 sind; in 20% der Fälle sind Werte < 5 erlaubt  2 emp  2 tab >  2  2  2  2 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN  2

83 83 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kreuztabelle mit beobachteten und erwarteten Häufigkeiten h eij H o -Hypothese: Es besteht kein Zusammenhang zwischen dem Geschlecht und der Kaufabsicht. Geschlecht (Y) ∑ männlich (b 1 ) weiblich (b 2 ) Kauf- absicht (X) hoch (a 1 ) 449 (h o11 ) 408,7 (h e11 ) 369 (h o12 ) 409,3 (h e12 ) 818 (h o1. ) niedrig (a 2 ) 165 (h o21 ) 205,3 (h e21 ) 246 (h o22 ) 205,7 (h e22 ) 411 (h o2. ) ∑ 614 (h.o1 ) 615 (h.o2 ) 1229 (n)

84 84 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Berechnung der Prüfgröße +H 0 kann verworfen werden, da die Prüfgröße größer ist als der kritische Tabellenwert der Tabelle +Zwischen Geschlecht und Kaufabsicht existiert ein (höchst) signifikanter Zusammenhang (p <.001).  2  2 =  2 dfp =.05p =.01p = ,8416,63510,828 25,9919,21013,816  2 -Tabelle  2

85 85 ANALYSEPHASE DATENAUFBEREITUNG

86 86 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Berechnung der Prüfgröße +H 0 kann verworfen werden, da die Prüfgröße größer ist als der kritische Tabellenwert der Tabelle +Zwischen Geschlecht und Kaufabsicht existiert ein (höchst) signifikanter Zusammenhang (p <.001).  2 Test statistik Sig.  2

87 87 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Φ -Koeffizient +Um die Stärke des Zusammenhangs zwischen zwei dichotomen Variablen aufzudecken, kann der Φ–Koeffizient ermittelt werden Φ = + nimmt Werte zwischen 0 (minimaler Zusammenhang) und 1 (maximaler Zusammenhang) an +Das Vorzeichen des Φ–Koeffizienten hängt von der Anordnung der Merkmalsalternativen im 4-Felder-Schema ab  eine inhaltliche Interpretation kann deshalb nur aufgrund der angetroffenen Häufigkeiten erfolgen  n 2

88 88 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Interpretation 0kein Zusammenhang 0-0,25schwacher Zusammenhang 0,25-0,66mittlerer Zusammenhang 0,66-1starker Zusammenhang 1perfekter Zusammenhang Zur Interpretation des Φ-Koeffizient +da es einen signifikanten Zusammenhang gibt, kann auch eine Aussage über die Stärke des Zusammenhangs zwischen Geschlecht und Kaufabsicht getroffen werden +zwischen Geschlecht und Kaufabsicht besteht betragsmäßig ein schwacher Zusammenhang dahingehend, dass Männer eine höhere Kaufbereitschaft haben

89 89 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kontingenzkoeffizient +Maß zur Charakterisierung der Stärke des Zusammenhangs zweier mindestens nominalskalierter Merkmale +Auch für Variablen mit mehr als zwei Ausprägungen geeignet +Ist der -Test signifikant, gibt der Kontingenzkoeffizient den Grad der Abhängigkeit beider Merkmale wieder +K ist nur positiv definiert und bewegt sich zwischen 0 und 1 (wobei 1 nicht erreicht werden kann) +K = 0 bei Unabhängigkeit der beiden Variablen +K max ist abhängig von der Zeilen- und Spaltenzahl +soll K genau zwischen 0 und 1 liegen, so muss er normiert werden; der normierte Kontingenzkoeffizient hängt nicht mehr von der Dimension der Kontingenztafel ab   K = n  2

90 90 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationsanalysen +Situation +Fragestellung +Datenlage +Funktionstypen +Korrelationen +Korrelationskoeffizient nach Bravais-Pearson +Rangkorrelationskoeffizient nach Spearman +Rangkorrelationskoeffizient nach Kendall +Zusammenfassung +Probleme

91 91 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Situation Den Marketingleiter des Pizzaherstellers interessiert die Frage nach dem Zusammenhang zwischen Verkaufspreis und Absatzmenge von Tiefkühlpizzen im Monat. Zu diesem Zweck wurde die Absatzmenge bei unterschiedlichen Preisen der Tiefkühlpizza im Monat ermittelt.

92 92 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Fragestellung Stellen Sie die erfassten Daten zunächst mit Hilfe eines Streudiagramms dar. Liefert Ihnen das Streudiagramm bereits erste Hinweise auf einen möglichen Zusammenhang. Beschreiben Sie den Zusammenhang mithilfe von Korrelationskoeffizienten, wobei Sie einen linearen Zusammenhang zwischen den Werten unterstellen sollten. Gehen Sie bei Ihren Berechnungen davon aus, dass die beiden Merkmale der Stichprobe normalverteilt sind.

93 93 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Datenlage

94 94 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Ausgewählte Grundformen linearer Funktionen Beispiel: Zusammenhang zwischen Zahl der Vertreterbesuche und Höhe des Verkäuferumsatzes Beispiel: Zusammenhang zwischen Preis und Absatzmenge Beispiel: Zusammenhang zwischen Preis A und Preis B verschiedener Güter

95 95 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Ausgewählte Grundformen nicht-linearer Funktionen Beispiel: Zusammenhang zwischen Artikel- anzahl und Zahlungs- bereitschaft Beispiel: Zusammenhang zwischen Preis und Absatz bei bestimmten Gütern Beispiel: Zusammenhang zwischen Mund-zu- Mund Propaganda und Ausbreitung einer Werbe-botschaft Beispiel: Zusammenhang zwischen Vertraut-heit und Attraktivität eines Produktes Beispiel: Werbewirkungs- funktion Beispiel: Trendprognose zum Absatz eines Automobils

96 96 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Streuungsdiagramme +Streu(ungs)diagramme sind grafische Hilfsmittel, die die Anordnung der Beobachtungspunkte veranschaulichen +Jedes x i /y i - Beobachtungspaar wird in ein x/y-Koordinatensystem eingetragen +Es lässt sich ein erster Eindruck gewinnen, ob und wie stark zwei Merkmale zusammenhängen +Funktionstypen können abgeleitet werden

97 97 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Streuungsdiagramme Bildquelle: Stahel (2002)

98 98 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationen +Als Korrelation bezeichnet man den wechselseitigen Zusammenhang zwischen Größen +Korrelation bedeutet nicht das Vorhandensein von Kausalität. +Besteht eine Korrelation zwischen X und Y, so gibt es mindestens drei alternative Möglichkeiten einer Kausalitätsbeziehung: +X bewirkt Y, +Y bewirkt X und +X und Y werden durch Z bewirkt (Scheinkorrelation). +die Korrelationsanalyse liefert ein Maß für die Stärke des Zusammenhangs; erfasst jedoch nur monotone bzw. lineare Zusammenhänge

99 99 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationen +Die Stärke des Zusammenhangs wird durch den Korrelationskoeffizienten r gemessen +Der Korrelationskoeffizient r liegt stets in den Grenzen von -1 bis +1 +Für die Stärke des Zusammenhangs ist allein der Betrag des Korrelationskoeffizienten maßgebend +das Vorzeichen gibt an, ob der Zusammenhang gleichläufig (+) oder gegenläufig (–) ist KorrelationskoeffizientEinstufung │r│≤ <│r│≤ <│r│< 1 │r│= 1 schwache Korrelation mittlere Korrelation starke Korrelation perfekte Korrelation

100 100 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationen Vermutung: Zwischen den Variablen Preis und Verkaufsmenge besteht ein linearer und gegenläufiger Zusammenhang; je höher der Verkaufspreis umso geringer die Absatzmenge.

101 101 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson +Korrelationskoeffizient nach Bravais-Pearson dient der Beschreibung des Zusammenhangs zwischen metrisch skalierten und normalverteilten Variablen +Misst die Stärke des linearen Zusammenhangs, es gilt: +Erläuterung: +s x bzw. s y stehen für die Standardabweichungen der Merkmale X bzw. Y +s xy bezeichnet die empirische Kovarianz (COV)     yx xy n i n i ii n i ss s yyxx y yiyi xxixi r         11 1 ²²  yyxxn/1s i n 1i i    

102 102 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson Zur Kovarianz: +um einen Zusammenhang zwischen zwei Merkmalen zu erfassen, beschreibt man die Lage eines Beobachtungspunktes mit Bezug zu dem Schwerpunkt des Streudiagramms +Punkte im ersten und dritten Quadranten deuten auf einen positiven Zusammenhang hin; Punkte im zweiten und vierten Quadranten auf einen negativen Zusammenhang +formal wird dies für jeden Punkt durch das Produkt (x i - )(y i - ) erfasst IV I IIIII x x x x x x x x x x x x x x x x x x y x

103 103 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson Zur Kovarianz: +Es gilt: Quadrant 1: Quadrant 2: Quadrant 3: Quadrant 4: +Liegen die Punkte hauptsächlich in den Quadranten 1 und 3, so ist die Summe der Produkte stark positiv. +Liegen die Punkte hauptsächlich in den Quadranten 2 und 4, so ist die Summe der Produkte stark negativ. +Sind die Punkte gleichmäßig verteilt, so heben sich positive und negative Summanden weitgehend auf und die Summe der Produkte wird weitgehend Null. IV I IIIII x x x x x x x x x x x x x x x x x x y x

104 104 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson Zur Kovarianz: +Kovarianz: durchschnittliche Summe von Abweichungsprodukten +Die Kovarianz gibt die Tendenz an, in welche Richtung die Merkmale variieren +s xy > 0 mit x steigt (tendenziell) auch y (und umgekehrt) +s xy < 0 hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher +s xy = 0 x und y sind unabhängig +Kovarianzen deuten (ggf.) auf lineare Abhängigkeiten hin. Sie sind von den Maßeinheiten der Merkmale abhängig! +Wertebereich: bis

105 105 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson +Normierung der Kovarianz: Korrelationskoeffizienten nach Bravais-Pearson (Produkt-Moment-Korrelation) r xy +Division der Kovarianz durch die Standardabweichungen beider Merkmale ( = Eliminierung der Streuung der einzelnen Verteilungen) +Wertebereich von r xy -1 bis +1 +r xy > 0 die Merkmale variieren tendenziell in der gleichen Richtung +r xy < 0 die Merkmale variieren tendenziell in entgegengesetzter Richtung +r xy = 0 kein (linearer) Zusammenhang!

106 106 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson +Die statistische Absicherung des Korrelationskoeffizienten nach Bravais-Pearson gegen Null erfolgt über die t-verteilte Prüfgröße. +Der Korrelationskoeffizient ist dann signifikant, wenn die Prüfgröße größer ist als der kritische Wert der t-Verteilung. bei df = n-2 Freiheitsgraden

107 107 ANALYSEPHASE DATENAUFBEREITUNG

108 108 ANALYSEPHASE DATENAUFBEREITUNG

109 109 Statistische Absicherung r xy ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson +Folgende Ergebnisse liefert die Berechnung des Korrelationskoeffizient nach Bravais-Pearson: r xy = -0,631 Im vorliegenden Fall liegt mit α =.05 ein nicht signifikanter Wert vor N

110 110 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson

111 111 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson +r xy drückt den linearen Zusammenhang zweier Variablen aus +Konsequenz: einzelne Ausreißer, d.h. einzelne extreme Datenpunkte, können einen starken, unerwünschten Effekt auf den numerischen Wert von r xy haben; hohe Korrelationen können als gering erscheinen und umgekehrt. +Lösung: Ermittlung von Rangkorrelationskoeffizienten, die von Ausreißern wesentlich weniger beeinflusst werden, da ihre Ermittlung auf den Rängen der Beobachtungen basiert.

112 112 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson

113 113 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Rangkorrelationskoeffizient nach Spearman +drückt die Stärke des monotonen Zusammenhangs zweier Variablen aus +wird zwischen zwei Variablen berechnet, die mindestens ordinalskaliert sind; für metrisch skalierte Variablen, bei Unsicherheit hinsichtlich der Normalverteilungsanahme +Basiert auf Rangzahlen, die den Messwerten zugeordnet sind +Für beide Variablen wird eine Rangreihe der Werte erstellt, +Dem höchsten Wert wird der Rangplatz 1 verliehen; bei gleichen Werten werden gemittelte Rangplätze vergeben +die Differenz d i der zugehörigen Rangplatzpaare wird bestimmt +es gilt: +die Absicherung erfolgt über die t-verteilte Prüfgröße bei df = n – 2 Freiheitsgraden

114 114 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Rangkorrelationskoeffizient nach Spearman +Wertebereich von r s -1 bis +1 +Gehen mit steigenden x-Werten auch steigende y-Werte einher, so nimmt r s tendenziell einen großen Wert an +sind die Rangzahlen bei den Merkmalen beider Variablen völlig gleich, so nimmt r s den Wert 1 an (die Rangpaare liegen auf einer Geraden mit positiver Steigung liegen) +bei entgegengesetzt laufenden Rangzahlen wird r s = -1 (die Rangpaare liegen auf einer Geraden mit negativer Steigung)

115 115 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Rangkorrelationskoeffizient nach Spearman +Rechenschritte zur Rangkorrelation nach Spearman r s

116 116 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Rangkorrelationskoeffizient nach Spearman +Es ergibt sich +Die Absicherung erfolgt über die t-verteilte Prüfgröße mit +Nach der t-Tabelle ist dies bei df = 8 Freiheitsgraden und α =.05 ein signifikanter Wert. t-Tabelle

117 117 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Rangkorrelationskoeffizient nach Spearman +Interpretation des Ergebnisses r s = starker Zusammenhang +r s < 0 gegenläufiger monotoner Zusammenhang +Es zeigt sich ein mittlerer gegenläufiger Zusammenhang zwischen Preis und Absatzmenge: Je höher der Preis einer Tiefkühlpizza, umso niedriger ist die verkaufte Menge an Tiefkühlpizzen.

118 118 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Zusammenfassung von Zusammenhangsmaßen +Die Rangkorrelation kann nur dann berechnet werden, wenn die beteiligten Variablen mindestens ordinalskaliert sind +Die Korrelation i.e.S (Korrelation nach Bravais-Pearson) allerdings nur für metrische Variablen.

119 119 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Grenzen von Zusammenhangsmaßen +die Korrelation i.e.S gilt: Einzelne Fälle können einen starken Einfluss auf den Korrelationskoeffizienten ausüben. +Korrelationen lassen sich für alle Funktionstypen berechnen +allerdings werden nur monotone bzw. lineare Zusammenhänge erfasst.

120 120 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Grenzen von Zusammenhangsmaßen +Kausalzusammenhänge können nicht erfasst werden +Scheinkorrelationen (Korrelation zwischen Merkmalen, die inhaltlich nicht gerechtfertigt ist) können auftreten +Zusammenhänge ergeben sich dann, wenn ein mit beiden beobachtbaren Merkmalen hochkorreliertes drittes Merkmal übersehen wird und unberücksichtigt bleibt. +Bleibt ein entscheidendes Merkmal unberücksichtigt, kann dies zudem vorhandene Korrelationen verschleiern oder hinsichtlich des Vorzeichens umkehren

121 121 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kausalität r =.62

122 122 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kausalität +Mögliche Erklärungen für die Korrelation (1)Die Anzahl der Störche beeinflusst tatsächlich die Geburtenrate kausal. (2)Die Geburtenrate beeinflusst das die Anzahl der Störche. (3)Der Zusammenhang zwischen der Anzahl der Störche und der Geburtenrate wird durch eine dritte Variable bestimmt. (4)Der Zusammenhang zwischen Anzahl der Störche und Geburtenrate ist rein zufällig. +Es lassen sich also einige unterschiedliche Erklärung für eine hohe statistische Korrelation zwischen zwei Variablen finden. +Nicht immer ist die einfachste oder offenkundigste Erklärung auch die richtige. +Tatsächlich zeigt die Praxis, dass allzu oft vorschnell von einer Korrelation auf einen Kausalzusammenhang geschlossen wird, ohne weitere, nötige Belege für diese Interpretation anzubringen. Eine statistische Korrelation kann zwar eine kausale Beziehung nahelegen. Sie alleine reicht aber nicht aus, um Kausalität zu begründen.

123 123 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kausalität +Ein solcher Schluss ist nur dann folgerichtig, wenn diese Kriterien erfüllt werden: +Vorliegen einer statistischen Korrelation. Ein statistischer Zusammenhang ist eine notwendige Bedingung für eine kausale Beziehung. Dabei ist aber zu beachten, dass auch nicht-lineare Zusammenhänge zwischen zwei Variablen bestehen können, die bspw. durch die Produkt-Moment Korrelation nicht erfasst werden. In unserem Beispiel konnten wir aber eine substantielle Korrelation zwischen dem Umsatz und den Werbeausgaben errechnen. +Die unabhängige Variable findet zeitlich vor der abhängigen Variablen statt. Als unabhängige Variable wird diejenige Variable bezeichnet, die einen Einfluss auf die abhängige Variable ausübt. Die Veränderungen in der unabhängigen Variablen müssen logischer weise vor der Veränderung in der abhängigen Variable stattfinden. +Es gibt keine Drittvariablen, die sowohl die unabhängige als auch die abhängige Variable gleichzeitig beeinflussen. Hierfür muss sorgfältig recherchiert werden und möglichst viele Variablen zusätzlich untersucht werden, die einen Einfluss auf beide Variablen ausüben könnten. +Es gibt eine inhaltliche Erklärung für den kausalen Zusammenhang. Bevor eine Korrelation kausal interpretiert werden kann, muss immer auch eine Erklärung für die Richtung des Zusammenhangs existieren.

124 124 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Regressionsanalysen +Situation und Problemstellung +Schritte der linearen Regressionsanalyse +Formulierung des Modells +Schätzung der einfachen Regressionsfunktion +Prüfung der einfachen Regressionsfunktion +Schätzung der multiplen Regressionsfunktion +Prüfung der multiplen Regressionsfunktion +Voraussetzungen der Regressionsanalyse +Grenzen der Regression

125 125 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Situation und Problemstellung Der Verkaufsleiter eines Margarineherstellers ist mit dem mengenmäßigen Absatz seiner Marke nicht zufrieden. Er stellt zunächst fest, dass der Absatz zwischen seinen Verkaufsgebieten differiert: Die Werte liegen zwischen 921 Kartons und Kartons. Der Mittelwert beträgt 1.806,8. Er möchte wissen, warum die Werte so stark differieren und deshalb prüfen, von welchen Faktoren, die er beeinflussen kann, im wesentlichen der Absatz abhängt. Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn etwa gleich großen Verkaufsgebieten. Er sammelt für die Untersuchungsperiode Daten über die abgesetzte Menge, den Preis, die Ausgaben für Verkaufsförderung sowie die Anzahl der Vertreterbesuche.

126 126 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Situation und Problemstellung Die Untersuchung soll nun die Antwort auf die Frage geben, ob die genannten Einflussgrößen sich auf die Absatzmenge auswirken. Es soll zunächst eine der in Frage kommenden Variablen (hier: die Besuche) herausgegriffen werden. Im Folgenden sollen auch die weiteren Einflussgrößen (Preis, die Ausgaben für Verkaufsförderung sowie die Anzahl der Vertreterbesuche) in die Untersuchung einbezogen werden.

127 127 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse +Die Folgende Daten erhielt der Verkaufsleiter aus der Stichprobe:

128 128 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse (1) Formulierung des Modells (2) Schätzung der Regressionsfunktion (3) Prüfung der Regressionsfunktion

129 129 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Formulierung des Modells +Zunächst geht es darum, das sachlich zugrunde liegende Ursache-Wirkungsmodell in Form einer linearen Regressionsbeziehung zu bestimmen +Hier: Der Verkaufsleiter vermutet aufgrund seiner Erfahrung, dass die Absatzmenge von der Zahl der Vertreterbesuche abhängig ist +Der vermutete Zusammenhang zwischen der Absatzmenge und Zahl der Vertreterbesuche muss der Grundprämisse der Linearität entsprechen. +Linearitätsprämisse der Regressionsanalyse: konstant

130 130 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Formulierung des Modells +Für zwei Variablen lässt sich ein Streudiagramm der Beobachtungswerte erzeugen, das erkennen lässt, ob eine lineare Beziehung unterstellt werden kann

131 131 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion +Gesucht ist die genaue Lage einer linearen Funktion im Koordinatensystem (x,y), die man Regressionsgerade nennt. +Zwei Parameter bestimmen die Lage einer Geraden +das konstante Glied b 0, Schnittpunkt mit der Ordinate (x = 0) +der Regressionskoeffizient b 1, der die Neigung der Geraden bestimmt: + die gesuchte Regressionsfunktion lautet: Kriterium (AV) Prädiktor (UV)

132 132 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion +Ein möglicher Verlauf der Regressionsgeraden

133 133 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion +Die in einer vorgegebenen Regressionsgleichung nicht erfassten Einflussgrößen der empirischen y-Werte schlagen sich in der Abweichung von der Regressionsgeraden nieder. Diese Abweichungen werden durch die Variable e repräsentiert. Die Werte e k werden Residuen genannt +mit + Beobachtungswert der abhängigen Variablen für x k (k=1,2,...,K) + aufgrund der Regressionsfunktion ermittelter Schätzwert der abhängigen Variablen für x k + nicht erklärte (d.h. nicht durch die unabhängige Variable erklärte) Abweichung des Beobachtungswertes von dem entsprechenden Schätzwert

134 134 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion +die Residualgröße einer Beobachtung bildet einen Teil der Abweichung des beobachteten y-Wertes vom Mittelwert aller Beobachtungspaare

135 135 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion +Die der Regressionsanalyse zugrundeliegende Frage lautet: +„Welcher Anteil aller Abweichungen der Beobachtungswerte von ihrem gemeinsamen Mittelwert lässt sich durch den unterstellten linearen Einfluss der unabhängigen Variablen (Vertreterbesuche) erklären und welcher Anteil verbleibt als unerklärte Residuen?“ +Hier: Lässt sich die gesamte Abweichung von 778,20 Mengeneinheiten bei Beobachtung 1 durch die Zahl der Vertreterbesuche von 109 erklären, oder ist sie auch durch andere Einflussgrößen maßgeblich bestimmt worden? +Die Zielsetzung der Regressionsanalyse besteht darin, eine lineare Funktion zu ermitteln, die möglichst viel von den Abweichungen erklärt und somit möglichst geringe Residuen übrig lässt.

136 136 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion +Wenn man die Residuen explizit in die Regressionsgleichung einbezieht, erhält man folgende Gleichung +Will man den Zusammenhang zwischen Absatzmenge und Zahl der Vertreterbesuche schätzen, dann gelingt dies umso besser, je kleiner die e k sind. +Es wird ein Rechenverfahren benötigt, das die Parameter der Regressionsgeraden so schätzt, dass die Streuung der Stichprobenwerte um die Gerade möglichst klein wird.  Es wird die Summe der quadrierten Residuen minimiert (KQS - Kleinste-Quadrate-Schätzung)

137 137 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion +Durch Einsetzen und Summation über die Beobachtungen k (k = 1,2,…K) erhält man die Zielfunktion der Regressionsanalyse +mit + Wert der Residualgröße (k=1,2,...,K) + Wert der abhängigen Variablen (k=1,2,...,K) +b 0 konstantes Glied +b 1 Regressionskoeffizienten + Wert der unabhängigen Variablen (k=1,2,...,K) +K Anzahl der Beobachtungen

138 138 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion + Grafische Veranschaulichung

139 139 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion +Rechnerisch erhält man die gesuchten Schätzwerte durch partielle Differentiation nach b 0 und b 1 +Ermittlung der Parameter der Regressionsfunktion:

140 140 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion +Arbeitstabelle zur Berechnung der Funktionsparameter:

141 141 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion +Eingesetzt in (1) und (2) erhält man +Die gesuchte Regressionsgleichung lautet demnach

142 142 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion +Die Regressionsfunktion erlaubt die Schätzung der Absatzmenge für jede Zahl von Vertreterbesuchen +Bsp.: Zahl der Vertreterbesuche 110 (Fall 7) Beobachtet wurden Das Residuum beträgt demnach e 7 = -306,45 +Die Regressionsfunktion zeigt an, um wie viel sich die geschätzte Menge ändern wird, wenn die Zahl der Vertreterbesuche um eine Einheit geändert wird +In diesem Beispiel zeigt der Regressionskoeffizient b 1 an, dass die geschätzte Menge um 18,88105 Einheiten zunehmen wird, wenn die Zahl der Vertreterbesuche um eine Einheit steigt

143 143 ANALYSEPHASE DATENAUFBEREITUNG

144 144 ANALYSEPHASE DATENAUFBEREITUNG

145 145 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion +Nachdem die Regressionsfunktion geschätzt wurde, ist deren Güte zu überprüfen, d.h. es ist zu klären, wie gut sie als Modell der Realität geeignet ist +Globale Prüfung der Regressionsfunktion: ob und wie gut die abhängige Variable Y durch das Regressionsmodell erklärt wird +Prüfung der Regressionskoeffizienten (nicht behandelt): ob und wie gut einzelne Variablen des Regressionsmodells zur Erklärung der abhängigen Variablen beitragen

146 146 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion +Globale Prüfung der Regressionsfunktion anhand folgender Gütemaße +das Bestimmtheitsmaß (wird behandelt) +die F-Statistik (nicht behandelt) +der Standardfehler (nicht behandelt) +Bestimmtheitsmaß +misst die Güte der Anpassung der Regressionsfunktion an die empirischen Daten („goodness of fit“). +die Basis hierfür bilden die Residualgrößen

147 147 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion +Abweichungen der Beobachtungswerte von den Schätzwerten der Regressionsanalyse

148 148 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion +Um zu beurteilen, ob die Größe der Residuen viel oder wenig ist benötigt man eine Vergleichsgröße, zu der man die Abweichung in Relation setzen kann +Folgende Relation wird zur Beurteilung herangezogen Gesamtabweichung= erklärte Abweichung + Residuum +Die Schätzung von y k ist um so besser, je größer der Anteil der durch die unabhängigen Variable erklärten Abweichung an der Gesamtabweichung ist +Für das Wertepaar (x 6,y 6 ) ergibt sich folgende Zerlegung 471,20= 158, ,60

149 149 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion +Analog zu der beschriebenen Zerlegung der Gesamtabweichung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung aller Beobachtungen Gesamtstreuung = erklärte Streuung + nicht erklärte Streuung +Auf Basis der Streuungszerlegung lässt sich das Bestimmtheitsmaß berechnen. +Es wird mit R 2 bezeichnet und ergibt sich aus dem Verhältnis von erklärter Streuung zur Gesamtstreuung

150 150 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion +Bestimmtheitsmaß oder +Das Bestimmtheitsmaß ist eine normierte Größe, dessen Wertebereich zwischen null und eins liegt. Es ist um so größer, je höher der Anteil der erklärten Streuung an der Gesamtstreuung ist. +R 2 = 1gesamte Streuung erklärt +R 2 = 0 gesamte Streuung nicht erklärt

151 151 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion +Aufbereitung der Daten für die Ermittlung von R 2

152 152 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion +Ergebnis +Das Ergebnis besagt, dass 34,55% der gesamten Streuung auf die erklärende Variable Besuche und 65,45% auf in der Regressionsgleichung nicht erfasste Einflüsse zurückzuführen sind.

153 153 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion +Der Verkaufsleiter ist mit einer Varianzaufklärung (vgl. Bestimmtheitsmaß) von 34.6 % gar nicht zufrieden.* +Immerhin bedeutet dies, dass er 65.4 % der Schwankungen des Absatzes auch dann nicht erklären (und beeinflussen) kann, wenn er die Vertreterbesuche berücksichtigt. +Deshalb beschließt er, daneben zwei weitere Einflussgrößen in dem Modell zu betrachten: +den Preis der Margarine und +die Ausgaben für Verkaufsförderung +Er ist davon überzeugt, dass neben den Vertreterbesuchen auch diese beiden Größen Einfluss auf den Absatz nehmen. * Peterson, Robert A., Albaum, Gerald & Beltramini, Richard F. (1985). A Meta-Analysis of Effect Sizes in Consumer Behavior Experiments, in: Journal of Consumer Research, Vol. 12 (1985), No. 1, pp , finden, dass im Durchschnitt bei veröffentlichten, signifikanten (α =.05) emp. Ergebnissen zum Käuferverhalten zwischen nur etwa 11 % der AV durch die UVs aufgeklärt wurde.

154 154 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion +Diese Entscheidung verändert das der Regressionsanalyse zu Grunde liegende Modell:

155 155 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion +Der Regressionsansatz hat dann folgende (allgemeine) Form +Auch bei der multiplen Regressionsanalyse lautet die Aufgabe, die Parameter b 0, b 1, b 2,..., b j so zu bestimmen, dass die Summe der Abweichungsquadrate (nicht erklärte Streuung) minimiert wird

156 156 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion +Für die weiteren Variablen ergibt sich folgendes Modell: +Die Lösung der Zielfunktion und Bestimmung der Regressionskoeffizienten führt zu einem sog. System von Normalgleichungen, dessen Lösung einen größeren Aufwand als im Fall der linearen Einfachregression verursacht.

157 157 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion +Für die weiteren Variablen ergibt sich folgendes Modell: +Die Lösung der Zielfunktion und Bestimmung der Regressionskoeffizienten führt zu einem sog. System von Normalgleichungen, dessen Lösung einen größeren Aufwand als im Fall der linearen Einfachregression verursacht. +Auf Grundlage der Daten in der Ausgangstabelle ergibt sich folgende Regressionsfunktion

158 158 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion +Die multiple Regressionsfunktion erlaubt erneut die Schätzung der Absatzmenge +Bsp.: Zahl der Vertreterbesuche 110 (Fall 7) Es ergibt sich ein neuer Schätzwert für die Absatzmenge von 1.816,35. Das Residuum beträgt nur noch -6,35 + Erweiterung: +Für die multiple Regressionsanalyse ist es interessant, die Einflussstärke der unabhängigen Variablen für die Erklärung der abhängigen Variablen zu erkennen +Durch Umformung der Regressionskoeffizienten kann eine direkte Vergleichbarkeit der numerischen Werte hergestellt werden

159 159 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion +Der standardisierte Regressionskoeffizient errechnet sich wie folgt +Die Schätzung der Standardabweichung erfolgt nach folgendem Ausdruck +Die Standardabweichung der Variablen X und Y betragen in unserem Beispiel +s Menge = 449,228 +s Besuche = 13,986 + demnach ergibt sich als Wert für

160 160 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion +Analog ergeben sich für die Ausgangsdaten mit zehn Beobachtungen und den drei unabhängigen Variablen +s Besuche = 13,986 +s Preis = 1,547 +s Ausgaben = 544,289 +Es zeigt sich, dass die Variable Besuche den höchsten unstandardisierten Regressionskoeffizienten, die Variable Ausgaben jedoch den höchsten standardisierten Regressionskoeffizienten aufweist - und damit den höchsten Erklärungsbeitrag liefert.

161 161 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der multiplen Regressionsfunktion +Bei der multiplen Regressionsfunktion ist zu überprüfen, wie gut sie als Modell der Realität geeignet ist. +Globale Prüfung der Regressionsfunktion: ob und wie gut die abhängige Variable Y durch das Regressionsmodell erklärt wird r 2 =.926 +Das Ergebnis besagt, dass 92,6% der gesamten Streuung auf die erklärenden Variablen Preis, Ausgaben für die Verkaufsförderung sowie Anzahl Vertreterbesuche und 7,4% auf in der Regressionsgleichung nicht erfasste Einflüsse zurückzuführen sind. + Durch die Berücksichtigung der weiteren Einflussgrößen hat sich das Bestimmtheitsmaß und damit die Güte der Anpassung erheblich verbessert. +Test von r 2 ; F-Statistik H 0 : r 2 = 0; also: keine Varianzaufklärung durch die UVs H 1 : r 2 > 0;

162 162 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der multiplen Regressionsfunktion +Bei der multiplen Regressionsfunktion ist zu überprüfen, wie gut sie als Modell der Realität geeignet ist. +Prüfung der Regressionskoeffizienten (nicht behandelt): ob und wie gut einzelne Variablen (Preis, Ausgaben für die Verkaufsförderung, Anzahl Vertreterbesuche) des Regressionsmodells zur Klärung der abhängigen Variablen beitragen +Prüfung der Regressionskoeffizienten: Test von β 1…n ; T-Statistik H 0 : β 1…n = 0; also: kein Einfluss dieser UV auf die AV H 1 : β 1…n > 0

163 163 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Interpretation der Regressionsanalyse +Ist das Bestimmtheitsmaß r 2 > 0 ? Für welche Prädiktoren gilt: β n > 0 ? +Sind die Voraussetzungen der Regressionsanalyse erfüllt? (folgt) +Sind die Vorzeichen der Regressionskoeffizienten plausibel? Welche Aussagen bzgl. des Zusammenhangs lassen sich bereits so ableiten? +Interpretation der Größe der (stand.) Regressionskoeffizienten

164 164 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Voraussetzungen der Regressionsanalyse +Metrisches Messniveau sowohl für die abhängigen als auch für die unabhängigen Variablen. +Zwischen der abhängigen Variablen und den einzelnen unabhängigen Variablen muss jeweils eine lineare Beziehung bestehen. +Die Variablen müssen additiv verknüpft sein, d.h. der Gesamteinfluss der unabhängigen Variablen auf die abhängige Variable muss gleich der Summe der Einzeleinflüsse sein. +Es darf keine Multikollinearität vorliegen, d.h. die unabhängigen Variablen müssen untereinander unabhängig sein, dürfen also nicht miteinander korrelieren. +Die Residuen sind normalverteilt (e k ~ N(0,σ 2 ))

165 165 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Grenzen der Regressionsanalyse Regressionsmodellim Regressionsmodell nicht (direkt) abbildbar sind: + intervenierende Variable + Interaktionen + Schätzer für unabhängige Variable + usw. => führt zur Kausalmodellierung AV UV

166 166 (5) Daten testen III: Methoden zur Aufdeckung von Gruppenunterschieden Bildquelle: +Student´s t-Test +t-Test für abhängige Stichproben +Varianzanalysen

167 167 Literatur t-Test Bortz, Jürgen (2005). Statistik für Human- und Sozialwissenschaftler, 6. Aufl., Heidelberg: Springer, S Fahrmeir, Ludwig, Künstler, Rita, Pigeot, Iris & Tutz, Gerhard (2004). Statistik, 5. Aufl., Berlin-Heidelberg-New York etc.: Springer, S und S Zöfel, Peter (2003). Statistik für Wirtschaftswissenschaftler, München-Boston-San Francisco etc: Pearson, S und S

168 168 Literatur Varianzanalyse Herrmann, Andreas & Seilheimer, Christian (2000). Varianz- und Kovarianzanalyse, in: Herrmann, Andreas & Homburg, Christian (Hg.) Marktforschung, Wiesbaden: Gabler, S Vertiefung: Backhaus, Klaus, Erichson, Bernd, Plinke, Wulff & Weiber, Rolf (2006). Multivariate Analysemethoden, Berlin, Heidelberg, New York: Springer, S Speziell zu Effektstärken und Stichprobengrößen: Bortz, Jürgen & Döring, Nicola (2003). Forschungsmethoden und -evaluation, Berlin, Heidelberg, New York: Springer, S

169 169 ANALYSEPHASE GRUPPENUNTERSCHIEDE Kriterien für die Auswahl des richtigen Tests +Es gibt drei Kriterien, die bei Tests auf signifikante Unterschiede relevant sind: +Unabhängige – abhängige Stichproben +Vergleich von zwei Stichproben – Vergleich von mehr als zwei Stichproben +Intervallskalierte, normalverteilte Werte – ordinalskalierte oder nicht normalverteilte Werte +Tests bei intervallskalierten und normalverteilten Variablen +Anwendung parametrischer Tests +Hypothesen über bestimmte Parameter der Verteilung sollen getestet werden +Gehen davon aus, dass die beobachteten Stichprobendaten einer Grundgesamtheit entstammen, in der die Variablen Intervallskalenniveau und eine bestimmte Wahrscheinlichkeitsverteilung (Normalverteilung) aufweisen

170 170 ANALYSEPHASE GRUPPENUNTERSCHIEDE Student‘s t-Test +Situation +Fragestellung +Datenlage +Schritte des Student‘s t-Test +t-Test für gepaarte Stichproben

171 171 ANALYSEPHASE GRUPPENUNTERSCHIEDE Situation Der Verkaufsleiter eines Pizzaherstellers ist mit dem mengenmäßigen Absatz seiner Marke Alberta nicht zufrieden. Ein Marktforschungsinstitut wird von ihm damit beauftragt zu untersuchen, wie stark ein Sonderangebot kurzfristig den Absatz von Tiefkühlpizza der Marke Alberta steigert. Zu diesem Zweck wird in einem Ladengeschäft stichprobenartig an jeweils 10 Tagen der Absatz des Produktes bei Normalpreisen und der Absatz des Produktes bei Sonderpreisen erhoben.

172 172 ANALYSEPHASE GRUPPENUNTERSCHIEDE Fragestellung Im Folgenden gilt es mit geeigneten statistischen Testverfahren zu untersuchen, ob sich beide Gruppen (hier: Normalpreis G1 und Sonderpreis G2) bezüglich der abgesetzten Stückzahl an Tiefkühlpizza bei einer Ablehnungswahrscheinlichkeit von 5%, signifikant voneinander unterscheiden. Gehen Sie hierbei davon aus, dass die Werte in beiden Stichproben normalverteilt sind. Formulieren Sie zunächst die relevanten Hypothesen für das vorliegende Testproblem Erweiterung: Wählen Sie in einem zweiten Schritt ein nicht-parametrisches Prüfverfahren, um zu ermitteln, ob der Unterschied zwischen beiden Gruppen signifikant ist.

173 173 ANALYSEPHASE GRUPPENUNTERSCHIEDE Datenlage NormalpreisSonderpreis TagAbsatz (Stück)

174 174 ANALYSEPHASE GRUPPENUNTERSCHIEDE Student‘s t-Test +Vergleich zweier unabhängiger Stichproben hinsichtlich ihrer Mittelwerte, wobei die Werte der beiden Stichproben normalverteilt sein müssen +Je nachdem, ob sich die Varianzen in den beiden Stichproben signifikant unterscheiden (Varianzheterogenität), oder nicht, gibt es zwei verschiedene Formeln für eine t-verteilte Prüfgröße t +Man berechnet zunächst die Prüfgröße mit s major als größere und s minor als kleinere der beiden Standardabweichungen +Die Prüfgröße F ist F-verteilt mit df = (n major - 1, n minor - 1) +Varianzheterogenität wird bei Signifikanz auf der Stufe p <.05 angenommen

175 175 ANALYSEPHASE GRUPPENUNTERSCHIEDE Student‘s t-Test +im Fall der Varianzhomogenität gilt: +im Fall der Varianzheterogenität gilt: +die Nullhypothese kann nicht verworfen werden, wenn der berechnete t-Wert geringer ist als der tabellierte kritische Wert (bei gegebener Anzahl der Freiheitsgrade) mit Freiheitsgraden mit df = n 1 + n 2 – 2 Freiheitsgraden

176 176 ANALYSEPHASE GRUPPENUNTERSCHIEDE Student‘s t-Test +Im Schnitt unterscheiden sich die Absatzzahlen der Tiefkühlpizza zum Normalpreis im Vergleich zu den Absatzzahlen zum Sonderpreis +Es soll mit dem (Student‘s) t-Test überprüft werden, ob dieser Mittelwertsunterschied statistisch signifikant ist +Nullhypothese H 0 : Es besteht kein Unterschied in der Absatzzahl zwischen dem Angebot von Tiefkühlpizza zu Sonderpreisen und zu Normalpreisen (d.h. der Mittelwertsunterschied in der Stichprobe ist zufällig zustande gekommen/nicht auf die Grundgesamtheit übertragbar). NormalpreisSonderpreis TagAbsatz (Stück) Mittel- wert 2,23,7

177 177 ANALYSEPHASE GRUPPENUNTERSCHIEDE Student‘s t-Test +Im ersten Schritt ist zu entscheiden, ob Varianzhomogenität oder Varianzheterogenität vorliegt (F-Test): +Wie die F-Tabelle ausweist, ist dies bei (9;9) Freiheitsgraden ein nicht signifikanter Wert; Varianzhomogenität ist also gegeben. F-Tabelle für p =.05 = 2,28

178 178 ANALYSEPHASE GRUPPENUNTERSCHIEDE Student‘s t-Test +Zweiter Schritt: Bestimmung der Prüfgröße t +Im Fall der Varianzhomogenität gilt +Nach der t-Tabelle ist dies bei df = Freiheitsgraden ein signifikanter Wert, da t > t krit. +Die Nullhypothese kann daher verworfen werden. t-Tabelle

179 179 ANALYSEPHASE DATENAUFBEREITUNG

180 180 ANALYSEPHASE DATENAUFBEREITUNG

181 181 ANALYSEPHASE GRUPPENUNTERSCHIEDE t-Test für abhängige Stichproben +Vergleich zweier abhängiger Stichproben hinsichtlich ihrer Mittelwerte, wobei die Differenzen zusammengehöriger Messwertpaare aus einer normalverteilten Grundgesamtheit stammen müssen +Prüfgröße ist t-verteilt mit df = n - 1 Freiheitsgraden +Errechnung des Mittelwerts der Differenzen d i +und deren Standardabweichung s +die Nullhypothese kann nicht verworfen werden, wenn der berechnete t-Wert geringer ist als der tabellierte kritische Wert (bei gegebener Anzahl der Freiheitsgrade) ∑ d i n i=1 n d =

182 182 ANALYSEPHASE DATENAUFBEREITUNG

183 183 ANALYSEPHASE DATENAUFBEREITUNG

184 184 ANALYSEPHASE GRUPPENUNTERSCHIEDE Varianzanalyse +Problemstellung +Auswertung der Daten des Experimentes mittels einfaktorieller Varianzanalyse +Entwicklung des einfaktoriellen Untersuchungsdesigns +Schritte der einfaktoriellen Varianzanalyse +Voraussetzungen der Varianzanalyse +Zusammenfassung der wesentlichen Schritte

185 185 ANALYSEPHASE GRUPPENUNTERSCHIEDE Situation Der Leiter einer Supermarktkette möchte die Wirkung verschiedener Arten der Warenplatzierung auf die Absatzmenge überprüfen. Er wählt dazu Margarine in der Becherverpackung aus. Es stehen drei Möglichkeiten der Regalplatzierung offen: Unabhängige Variable (Faktor): Warenplatzierung I Platzierung nur im Normalregal der Frischwarenabteilung II Platzierung im Normalregal der Frischwarenabteilung und Zweitplatzierung im Fleischmarkt IIIPlatzierung im Kühlregal der Frischwarenabteilung

186 186 ANALYSEPHASE GRUPPENUNTERSCHIEDE Aufgabenstellung Entwickeln Sie in einem ersten Schritt eine geeignete experimentelle Versuchsanordnung, mit deren Hilfe sich die Frage beantworten lässt, ob die unterschiedlichen Absatzergebnisse in den drei Supermärkten auf die Variation der Warenplatzierung zurückzuführen sind

187 187 ANALYSEPHASE GRUPPENUNTERSCHIEDE Entwicklung des einfaktoriellen Untersuchungsdesigns Aus den insgesamt vorhandenen Supermärkten werden drei weitgehend vergleichbare Supermärkte des Unternehmens ausgewählt (Quasi-Experiment). In einem Zeitraum von 5 Tagen wird in jedem der drei Supermärkte jeweils eine Form der Margarine- präsentation durchgeführt („Normalregal“, „Zweitplatzierung“ und „Kühlregal“). Die Auswirkungen der Maßnahmen werden jeweils in der Größe „kg Margarineabsatz pro 1000 Kassenvorgänge“ erfasst. Platzierung Normalregal n1n1 Zweitplatzierung n2n2 Kühlregal n3n3

188 188 ANALYSEPHASE GRUPPENUNTERSCHIEDE Entwicklung des einfaktoriellen Untersuchungsdesigns +Man erhält drei Stichproben mit jeweils genau fünf Beobachtungswerten, die Teilstichproben haben also den gleichen Umfang. Kg Margarineabsatz pro 1000 Kassenvorgänge in drei Supermärkten in Abhängigkeit von der Platzierung

189 189 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse +Mittelwerte des Margarineabsatzes in den drei Supermärkten Folgende Notationen werden eingeführt: = Beobachtungswert mit g= Kennzeichnung einer Faktorstufe als Ausprägung einer unabhängigen Variablen (g = 1, 2...,G) k= Kennzeichnung des Beobachtungswertes innerhalb einer Faktorstufe (k= 1, 2..., K) = Mittelwert der Beobachtungswerte einer Faktorstufe = Gesamtmittelwert aller Beobachtungswerte

190 190 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse +Die Fragestellung der einfaktoriellen Varianzanalyse lautet: Hat die Warenplatzierung einen Einfluss auf den Absatz? +Grundprinzip der Varianzanalyse (Streuungszerlegung): +die dargestellte Analyse basiert auf folgendem Grundmodell der einfachen Varianzanalyse Gesamtmittelwert der Grundgesamtheit, Schätzer= Wirkung der Stufe g des Faktors, die sich durch Abweichung vom Gesamtmittelwert der Grundgesamtheit bemerkbar macht, Schätzer= nicht erklärte Einfluss der Zufallsgrößen in der Grundgesamtheit

191 191 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse +Grundprinzip der Varianzanalyse (Streuungszerlegung): +Der Prognosewert für den Margarineabsatz, wenn kein Einfluss der Warenplatzierung vorhanden wäre, ist. +Nimmt man einen Einfluss der Warenplatzierung auf den Absatz an, dann ist der Prognosewert für den Margarineabsatz je nach Art der Platzierung, oder. +Die Abweichungen vom Prognosewert ( - ) sind auf zufällige äußere Einflüsse zurückzuführen und somit nicht erklärt.

192 192 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse +Grundprinzip der Varianzanalyse:

193 193 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse +Grundprinzip der Varianzanalyse Gesamt-Erklärte Nicht erklärte abweichung Abweichung Abweichung. Summe der qua- = Summe der qua- + Summe der qua- drierten Gesamt-drierten Abwei-drierten Abwei- abweichungchungen zwischenchungen inner- den Faktorstufenhalb der Faktorstufen =+ SS t(otal) = SS b(etween) +SS w(ithin)

194 194 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse +Ermittlung der Abweichungsquadrate:

195 195 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse +Ermittlung der Varianzen: +Varianz = +Mittlere quadratische (Gesamt-) Abweichung MS t == +Mittlere quadratische Abweichung zwischen den Faktorstufen MS b == +Mittlere quadratische Abweichung innerhalb der Faktorstufen MS w ==

196 196 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse +Statistische Prüfung des Einflusses des Faktors (Waren-platzierung) auf die abhängige Variable (Margarineabsatz): +Ausgangspunkt der Prüfung ist die Nullhypothese (H 0 ): „Es bestehen bezüglich des Margarineabsatzes keine Unterschiede in der Wirkung durch die Art der Warenplatzierung.“H 0 : +Die Alternativhypothese H1 lautet: „Es besteht bezüglich des Margarineabsatzes ein Unterschied in den Wirkungen alternativer Arten der Warenplatzierung.“ H 1 : 0

197 197 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse +Es werden MS b und MS w in folgende Beziehung gesetzt +F emp =mit F emp = empirischer F-Wert + +F emp = +Die Prüfung erfolgt anhand eines Vergleichs des empirischen F-Wertes mit dem theoretischen F-Wert lt. Tabelle. +Die Tabelle der theoretischen F-Werte zeigt für jeweilige Vertrauenswahrscheinlichkeit einen Prüfwert. +Seine Höhe hängt von der Zahl der Freiheitsgrade (df) im Zähler (Spalten der Tabelle) und der Zahl der Freiheitsgrade im Nenner (Zeilen der Tabelle) ab.

198 198 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse +Das Signifikanzniveau von 1% und df = 2 im Zähler und df = 12 im Nenner führt zu einem theoretischen F-Wert von 6,93. +Empirischer und theoretischer F-Wert werden verglichen. Ist der empirische Wert größer als der theoretische, dann kann die Nullhypothese verworfen werden. +wenn:F emp. > F theo. H 0 ist zu verwerfen +hier:38,09 > 6,93H 0 ist zu verwerfen +D.h. mit einer Vertrauenswahrscheinlichkeit von 99% kann der Schluss gezogen werden, dass die Platzierungsarten einen unterschiedlichen Einfluss auf die Absatzmenge haben.

199 199 ANALYSEPHASE DATENAUFBEREITUNG

200 200 ANALYSEPHASE DATENAUFBEREITUNG

201 201 ANALYSEPHASE DATENAUFBEREITUNG

202 202 ANALYSEPHASE GRUPPENUNTERSCHIEDE Effektstärke (Praktische Bedeutsamkeit, Effektgröße, Effect Size) +Maße der Effektstärke lassen vergleichbare Aussagen über die Größe von Unterschieden oder Zusammenhängen zu +Die Effektstärke ist vor allem in zwei Kontexten wichtig: +Bei der Planung einer anderen Studie sollte man überlegen, welcher Stichprobenumfang erforderlich ist, um einen zu erwartenden Unterschied auch tatsächlich inferenzstatistisch absichern zu können. +Nach Durchführung einer Studie sollte versucht werden, die "Bedeutsamkeit" eines Effekts abzuschätzen. Die Signifikanz ist hierfür nicht geeignet, da diese ganz wesentlich von der Stichprobengröße beeinflusst wird. Daher sollten Maße der Effektstärke angegeben werden. Ein besonders wichtiges Einsatzgebiet sind Metaanalysen, in welchen die Ergebnisse mehrerer Untersuchungen zusammengefasst werden. +Es gibt – auch aufgrund einer Vielzahl möglicher Untersuchungsdesigns – eine ganze Reihe von Maßen der Effektstärke

203 203 ANALYSEPHASE GRUPPENUNTERSCHIEDE Effektstärke bei Mittelwertsvergleichen: Cohen‘s d +Cohen‘s d Maß für die Effektstärke beim Vergleich von Mittelwerten von 2 Gruppen (z.B. t- Test) wobei gilt: 0 ≤ d ≤ 1 +μ 1, μ 2 = (angestrebte) Mittelwerte der beiden Gruppen (bzw. geschätzt durch M x ) +σ= Standardabweichung der untersuchten Größe in beiden Gruppen bei ungleichen gleichen Varianzen entweder die Varianz der Experimentalgruppe bzw.

204 204 ANALYSEPHASE GRUPPENUNTERSCHIEDE Effektstärke bei Mittelwertsvergleichen: Cohen‘s d +Cohen‘s d Einschätzung der Bedeutsamkeit aufgrund Cohen‘s d +kleiner Effektd >.20 +mittlerer Effektd >.50 +großer Effektd >.80 (vgl. Bortz & Döring (2003, S. 604))

205 205 ANALYSEPHASE GRUPPENUNTERSCHIEDE Bestimmtheitsmaß Eta-Quadrat (η 2 ) +Eta-Quadrat drückt aus, wie gut durch die Kenntnis einer oder mehrerer Variablen (UV) die Ausprägungen einer weiteren Variablen (AV) vorhergesagt werden kann (vgl. Bestimmtheitsmaß R2 bei der Regression) (bei SS T = SS B + SS W ) +η 2 =.00, keine Varianz der AV wird durch die UV aufgeklärt +η 2 =.13, bedeutet, dass 13 % der Varianz der AV durch die UV aufgeklärt wird +η 2 = 1.00, gesamte Varianz der AV durch die UV aufgeklärt wird

206 206 ANALYSEPHASE GRUPPENUNTERSCHIEDE Voraussetzungen der Varianzanalyse +Formulierung einer Hypothese über den Wirkungszusammenhang der unabhängigen und der abhängigen Variablen. +Unabhängige Daten können auf nominalen, abhängige müssen auf metrischen Skalenniveau erhoben werden. +Die Restgrößen wirken sich bis auf zufällige Schwankungen in allen Stichprobenzellen gleich aus (sog. Varianzhomogenität). +Die Werte in der Grundgesamtheit sind normalverteilt. +Die Additivität der Einflussgrößen, d.h. der Einfluss eines Faktors auf die Ergebnisvariable ist unabhängig vom Einfluss weiterer Faktoren oder auch Restgrößen. +Strukturgleichheit, d.h. die in die Untersuchung gelangten Teilstich-proben haben die gleiche Struktur der absatzbeeinflussenden Größen wie die Grundgesamtheit.

207 207 MARKET RESEARCH PLAN DER VERANSTALTUNG +EINFÜHRUNG IN DIE VERANSTALTUNG +WAS IST MARKET RESEARCH – UND (WOZU) BRAUCHE ICH DAS? +DATEN SAMMELN +Definitionsphase, Designphase, Feldphase: Wo die Fragen und Daten herkommen? +DATEN AUSWERTEN +Analysephase: Wie kommt man von Daten zu Ergebnissen? +INSIGHTS GENERIEREN UND KOMMUNIZIEREN +Kommunikationsphase: Wie werden aus Ergebnissen „Insights“? +DR. JAN RUTENBERG Leiter Kundenmanagement & Marktforschung sowie Regal- & Flächenmanagement

208 208 INSIGHTS GENERIEREN UND KOMMUNIZIEREN

209 209 MARKET RESEARCH …IST AUCH EIN PROZESS Definitionsphase Formulierung des Forschungsproblems Bestimmung der Erhebungsziele Desk Research Vorbereitung Im Feld Designphase Informationsquellen (Primär-/Sekundärerhebung) Messinstrumente/Operationalisierung Grobplanung der Datenauswertung Erhebungseinheiten (Voll-/Teilerhebung, Stichprobenumfang) Arbeits-, Zeit- und Kostenplanung Pre-Tests Feldphase Durchführung Kontrolle und Dokumentation der Datenerhebung Eingreifen vs. Standardisierung Analysephase Vorbereitung der Datenauswertung (Digitalisierung, Kodierung, Logikchecks) Auswertung und Interpretation Kommunikationsphase Forschungsbericht Präsentation Nachbereitung

210 210 Ergebnisse berichten Bildquelle:

211 211 KOMMUNIKATIONSPHASE ERGEBNISSE BERICHTEN Regeln für die Ergebnispräsentation +Wissenschaftliche Arbeiten haben unter Beachtung von fach- und disziplinspezifischen Regeln nach dem neuesten Stand der Forschung durchgeführt zu werden. Dies setzt voraus, dass man sich vor Beginn der wissenschaftlichen Untersuchung die notwendigen methodischen und theoretischen Fähigkeiten aneignet. +In Publikationen, Vorträgen, Präsentationen von Ergebnissen anderer Art sowie Gutachten und Auftragsforschung sind wirtschaftliche und andere Interessenkonflikte offen zu legen. +Ab 24 Folien pro Sekunde ist es ein Film. Als Faustregel kann gelten: 2-3 Minuten pro Folie. +Ihr Publikum liest Ihre Ergebnisse zum ersten Mal. Zudem sind Sie meist viel tiefer in der Materie als Ihr Zielpublikum. Leiten Sie den Leser also durch den Text. Uns lassen Sie ihm ein wenig Zeit, alle Informationen auch aufzunehmen. +PPPPP

212 212 KOMMUNIKATIONSPHASE ERGEBNISSE BERICHTEN Wichtige Bestandteile +Abstract/Kurzzusammenfassung mit den wichtigsten Ergebnissen +Management Summary zusätzlich mit den wichtigsten Informationen für die Praxis +Hintergrund/Hinführung zum Thema, in der die Fragestellung in die Forschung eingeordnet wird und deren Relevanz dargelegt wird +Stand der Forschung und theoretische Grundlagen: Was wissen wir zu der Frage aus der Literatur? Was ist noch unbekannt? Und welche Vermutungen kann man aus der Theorie dazu aufstellen (Begründung!)? +Methoden, Organisation und Ablauf, sowie die Resultate wissenschaftlicher Forschungstätigkeit sind zu dokumentieren, zu sichern und aufzubewahren! +Ergebnisse +Diskussion der Ergebnisse +Fazit, Implikationen für Forschung und Praxis sowie Limitationen

213 213 VIELEN DANK UND VIEL ERFOLG BEI DER KLAUSUR


Herunterladen ppt "1 APPLIED MARKET RESEARCH. 2 MARKET RESEARCH …IST AUCH EIN PROZESS Definitionsphase Formulierung des Forschungsproblems Bestimmung der Erhebungsziele."

Ähnliche Präsentationen


Google-Anzeigen