Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Juni 2011 G. Beroggi © zum roten Faden Decision Support Tools MAS Business Consulting Prof. Dr. Giampiero Beroggi 1.

Ähnliche Präsentationen


Präsentation zum Thema: "Juni 2011 G. Beroggi © zum roten Faden Decision Support Tools MAS Business Consulting Prof. Dr. Giampiero Beroggi 1."—  Präsentation transkript:

1 Juni 2011 G. Beroggi © zum roten Faden Decision Support Tools MAS Business Consulting Prof. Dr. Giampiero Beroggi 1

2 Juni 2011 G. Beroggi © zum roten Faden 2 Ihr Dozent: Giampiero Beroggi Fachgebiet: Decision Support Systems/Tools, Entscheidungsanalyse, Statistik, Operations Research, Risikomanagement Akademische Tätigkeit: –Professor für Wirtschaftsinformatik HWZ (seit 2004) –Privatdozent für Wirtschaftsinformatik Universität Zürich (seit 2006) –Gastprofessor ETH-Zürich (2000) –Assozierter Professor Technische Universität Delft, NL (92-01) –Research Associate Rensselear Polytechnic Institute, New York (88-91) Praktische Erfahrung: –Chef Statistisches Amt des Kantons Zürich (seit 2006) –Geschäftsführer Spring Analytica AG (02-06) –Associate Mercer Management Consulting (01-02) –Ingenieur E. Basler & Partner AG (86-88) Ausbildung: –Habilitation Universität Zürich (2006) –Dr. Phil., New York, USA (1991) –Master of Science in Operations Research und Statistik, New York, USA (1989) –Dipl.-Ing. ETH (1986) erreichbar unter: (nur für Absender mit

3 Juni 2011 G. Beroggi © zum roten Faden 3 Decision Support Tools: Aufbau des Kurses Einleitung und Übersicht von Decision Support Tools (DST) in der Praxis Das Konzept der mathematischen Optimierung mit praktischen Übungen mit Excel Formulierung von Entscheidungs- Hypothesen mit DST Realisierung eines Decision Support Tools im Internet für Datenerhebung Einführung in statistische Tests zur optimalen Entscheidungs- findung mit Übungen in Excel Analyse der Daten und Ableitung von optimalen Entscheidungen mit statistischen Tests in Excel Theoretischer Teil mit Übungen Auswahl der Software, Realisierung im Internet und Erhebung von Daten Auswahl des Themas und Formu- lierung des Entscheidungspro- blems zur Integration in ein DST Durchführung der statistischen Tests für das gewählte Entscheidungsproblem Interpretation der Resultate für praktische Handlungsanleitungen Erstellung des Schlussberichts resp. Präsentation Blocktag 1 MorgenBlocktag 1 Morgen Blocktag 1 Nachmittag (zum Projektbeschrieb)zum Projektbeschrieb Links zu den Folien Blocktag 2 MorgenBlocktag 2 Morgen Blocktag 2 Nachmittag Blocktag 3 MorgenBlocktag 3 Morgen Blocktag 3 Nachmittag roter Faden (hier klicken) Unterlagen vom Internet Praktischer Teil als Projekt

4 Juni 2011 G. Beroggi © zum roten Faden 4 Blocktag 1: Morgen Einführung, Ziel des Kurses Beispiele von DST Methodische Ansätze für DST

5 Juni 2011 G. Beroggi © zum roten Faden 5 Decision Support Systems Architektur Decision Maker Interface Datenbanken Infobanken Wissensbanken - Bewerten - Berechnen - Suchen - Optimieren Berechnen (Algorithmen) Modelle Schwerpunkt der Vorlesung (Decision Support Tools) DSS Realität

6 Juni 2011 G. Beroggi © zum roten Faden 6 Entscheidungsprozess Analysiere Problem; Datensammlung durch … Formuliere mathematisches Entscheidungsproblem Simulation (Modell) Erstelle DSS mit Steuerungsvariablen Finde und implemen- tiere Entscheid Erhebung (DWH) Befragung (Akteure) Befragung: Formuliere Hypothesen zum Problem, möglichst abgeleitet aus vorhandenem Wissen. Beim Fragebogen unterscheide zwischen Aussagefragen (was ist die Frage) und Faktorenfragen (wer gibt die Antwort). Handelt es sich um ein explizites oder implizites Entschei- dungsproblem? Identifiziere die Entscheidungsvariablen (EV) (binär, ganzzahlig oder kontinuierlich), Kriterien, Akteure und Szenarien. Definiere Zielfunktion und Randbedingungen mit EV. Unterscheide zwischen logistischen und inhaltlichen Randbedingungen. Wähle geeignete Entscheidungstheorie (AHP, MAUT, Spieltheorie etc.) für subjektive Bewertungen. Erstelle Decision Support Sysetm (DSS) mit Darstellung von Information und Wissen und mit Steuerungsvariablen für Sensitivitätsanalyse und Entscheidungsfindung. Achtung: Kunde verwechselt oft Problem mit Massnahmen. Bsp.: Kunde sagt, das Problem wären die zu hohen Flugbewegungen und die Frage ist, wie diese zu reduzieren wären; dabei ist das Problem der Lärm und dieser könnte mit leiseren Flugzeugen trotz hoher Flugbewegungen reduziert werden. Erhebung: Man sammle nicht alles mögliche an Daten, sondern nur geschäftsrelevante Daten. Formuliere Hypothesen zum Problem und teste sie mit statistischen Methoden. Simulation: Beschreibe das System anhand der relevanten Ereignisse. Definiere mathematisches Modell um die Ereignisse zu beschreiben. Lass das Modell durchlaufen und führe Sensitivitätsanalyse durch.

7 Juni 2011 G. Beroggi © zum roten Faden 7 Beispiele von DSS

8 Juni 2011 G. Beroggi © zum roten Faden 8 Beispiele Analysiere Problem; Datensammlung durch … Formuliere mathematisches Entscheidungsproblem Simulation (Modell) Erstelle DSS mit Steuerungsvariablen Finde und implemen- tiere Entscheid Erhebung (DWH) Befragung (Akteure) Befragung: Formuliere Hypothesen zum Problem, möglichst abgeleitet aus vorhandenem Wissen. Beim Fragebogen unterscheide zwischen Aussagefragen (was ist die Frage) und Faktorenfragen (wer gibt die Antwort). Handelt es sich um ein explizites oder implizites Entschei- dungsproblem? Identifiziere die Entscheidungsvariablen (EV) (binär, ganzzahlig oder kontinuierlich), Kriterien, Akteure und Szenarien. Definiere Zielfunktion und Randbedingungen mit EV. Unterscheide zwischen logistischen und inhaltlichen Randbedingungen. Wähle geeignete Entscheidungstheorie (AHP, MAUT, Spieltheorie etc.) für subjektive Bewertungen. Erstelle Decision Support System (DSS) mit Darstellung von Information und Wissen und mit Steuerungsvariablen für Sensitivitätsanalyse und Entscheidungsfindung. Achtung: Kunde verwechselt oft Problem mit Massnahmen. Bsp.: Kunde sagt, das Problem wären die zu hohen Flugbewegungen und die Frage ist, wie diese zu reduzieren wären; dabei ist das Problem der Lärm und dieser könnte mit leiseren Flugzeugen trotz hoher Flugbewegungen reduziert werden. Erhebung: Man sammle nicht alles mögliche an Daten, sondern nur geschäftsrelevante Daten. Formuliere Hypothesen zum Problem und teste sie mit statistischen Methoden. Simulation: Beschreibe das System anhand der relevanten Ereignisse. Definiere mathematisches Modell um die Ereignisse zu beschreiben. Lass das Modell durchlaufen und führe Sensitivitätsanalyse durch.

9 Juni 2011 G. Beroggi © zum roten Faden 9 Entscheidungsvariablen, Zielfunktion und Randbedingungen Bsp. 1: Entscheide (resp. berechne), welche Zahl zu 3 hinzugezählt werden muss, damit man 10 erhält. Entscheidungsvariable: x Modell: 3 + x = 10 Zielwert: Summe der zwei Zahlen ist gleich 10 Lösung x = 7 Bsp. 2: Entscheide (resp. berechne), welche zwei ganze Zahlen zusammengezählt 10 ergeben und deren Differenz gleich 2 ist. Entscheidungsvariablen: x, y Modell: x + y = 10; x - y = 2 Ziel: Summe der zwei Zahlen ist gleich 10 Randbedingung: Differenz der beiden Zahlen ist gleich 2. Lösung x = 6, y = 4. Matrizenschreibweise: A. X = b Ctrl+Shift+Enter Der Solver im Excel such mit einem Algorithmus für x und y Werte, so dass das Ziel und die Randbedingung erfüllt sind.

10 Juni 2011 G. Beroggi © zum roten Faden 10 xTxT xSxS A C Mathematische Optimierung Entscheidungsvariablen: Wie viele Mio. Fr. (x S ) soll eine Gemeinde in das Sozialprogramm (S) und wie viele (x T ) in das Transportprogramm (T) investieren? Kriterien Anz. Arbeiter, die für jede Mio. anzustellen sind: 4 for S and 1 for T. Anz. Computer, die für jede Mio. gebraucht werden: 1 for S and 3 for T. Profit für jede Mio.: 1 for S and 2 for T. Zielfunktion Maximiere Profit: P*=max: 1x S + 2x T Randbedingungen Tot. Anz. anzustellender Arbeiter: A*= 32 4x S + 1x T Tot. Anz. zu kaufender Computer: C*= 23 1x S + 3x T x S = 6.64 x T = 5.45 P*=17.55 Nie vergessen! x S 0; x T 0; Achtung: Gerundete reelle Lösung ist oft nicht die optimale ganzzahlige Lösung! 4x S + 1x T 32 = A* 1x S + 3x T 23 = C* 1x S + 2x T = max = P* max = xsxtxsxt A x =mmult(A,x)

11 Juni 2011 G. Beroggi © zum roten Faden 11 Lösung mit Excel Solver Falls Solver nicht installiert ist:

12 Juni 2011 G. Beroggi © zum roten Faden 12 Lösung mit Open Office

13 Juni 2011 G. Beroggi © zum roten Faden 13 Lösung mit Google Spreadsheets

14 Juni 2011 G. Beroggi © zum roten Faden 14 Optimierung einer Einsatzplanung EV: x ij (ganzzahlig): Anzahl Pfleger in Schicht S i und S j Zielfunktion: min: x 12 +x 23 +x 34 +x 45 +x 56 +x 61 Problem: Wie viele Pfleger müssen angestellt werden, wenn die minimale Anzahl Pfleger pro Schicht eingehalten werden muss (links) und jeder Pfleger in zwei sich folgenden Schichten arbeiten muss. Schicht Nr. anwesende Pfleger benötigte Pfleger 1 x 61 +x x 12 +x x 23 +x x 34 +x x 45 +x x 56 +x 61 8 Andere Lösungen: 3/2/4/5/8/8 3/2/6/5/6/8

15 Juni 2011 G. Beroggi © zum roten Faden 15 Optimierung der Transportverteilung S 1 : 12 S 2 : 15 S 3 : 18 D 1 : 10 D 2 : 9 D 3 : 14 D 4 : k 32 Achtung: wenn man die Randbedingung x ij 0 weglässt, dann konvergiert die Lösung nicht! Problem: Gesucht ist der billigste Versand der produzierten Autos von den drei Stationen an die vier Destinationen, so dass alle in den drei Stationen produzierten Autos weggehen und alle vier Destinationen genau die bestellte Anzahl Autos erhalten.

16 Juni 2011 G. Beroggi © zum roten Faden Schnellster Weg Problem: Gesucht ist der schnellste Weg von San Francisco nach Kairo.

17 Juni 2011 G. Beroggi © zum roten Faden 17 Lösung von Konflikten Leas Nutzen hängt von Leas p und Jans q ab! Jans Nutzen hängt von Jans q und Leas p ab! LeaJan p% 100-p% q% 100-q% Investition A Investition B p% geht zu A und 100-p% zu B p% geht zu A und 100-p% zu B q% geht zu A und 100-q% zu B q% geht zu A und 100-q% zu B Lea Invesitionen A B Jan ABAB Investitionen genügend sehr gut schlecht gut genügend sehr gut schlecht gut Annahme: Beide Akteure können ihre Investitionen ausschliesslich entweder in A oder B tätigen (d.h. p und q = 0 oder 100%). Wenn Lea annimmt, dass Jan alles in A investiert, dann sollte sie auch alles in A investieren (genügend > schlecht). Wenn sie annimmt, dass Jan alles in B investiert, dann sollte sie auch alles in A investieren. Somit sollte Lea, unabhängig von Jan, immer alles in A investieren. Die analogen Überlegungen für Jan führen zum Schluss, dass auch er, unabhängig von Lea, alles in A investieren sollte. Somit führt die individuelle Rationalität dazu, dass alles in A investiert werden müsste. Das Systemoptimum wäre aber, wenn beide alles in B investieren würden. Diese Lösung ist aber nicht stabil, denn wenn einer vom anderen weiss, dass er/sie alles in B investiert, dann ist er/sie versucht, alles in A zu investieren, denn das führt zum gewünschten individuellen Optimum. Lea Invesitionen A B Jan ABAB Investitionen Der erwartete Nutzen (n) der beiden ist: l n Lea =100pq+300p(1-q)+0(1-p)q+200(1-p)(1-q) l n Jan =100pq+0p(1-q)+300(1-p)q+200(1-p)(1-q)

18 Juni 2011 G. Beroggi © zum roten Faden 18 Dynamische Plots für virtuelle Verhandlungen Auswahl einer Ausgangsverteilung für p und q Verzichtet Gegenpartei auf Reaktion? Gleichgewicht ist erreicht! Akteure verändern abwechselnd p oder q ja nein web

19 Juni 2011 G. Beroggi © zum roten Faden 19 Sicherheits-Niveau (SN): Garantiertes Minimum bei unabhängigen Entscheiden 0p p 2 u* und 300p p 2 u* Substitution: x 1 = p 1 /u* und x 2 = p 2 /u* 0x x 2 1 und 300x x 2 1 x 1 +x 2 : min 0q q 2 u* und 100q q 2 u* Substitution: x 1 = q 1 /u* und x 2 = q 2 /u* 0x x 2 1 und 100x x 2 1 x 1 +x 2 : min alles zu Aalles zu B q1q1 q 2 =(1- q 1 ) alles zu A p1p1 0,0300,100 alles zu B p 2 =(1- p 1 )100,300200,200 Sicherheits-Niveau Neue numerische Verteilung: Lea Jan

20 Juni 2011 G. Beroggi © zum roten Faden 20 Nash-Gleichgewicht (NG): 1-Bewegungs-Horizont 0q + 300(1-q) = 100q + 200(1-q) q = 1/2; n SN = 150 0p + 300(1-p) = 100p + 200(1-p) p = 1/2; n SN = 150 Nash-Punkt (NP): min: (n L - n SN ) (n J – n SN ) n L = n J = 200 Gleichgewichtszustände alles zu Aalles zu B q1q1 q 2 =(1- q 1 ) alles zu A p1p1 0,0300,100 alles zu B p 2 =(1- p 1 )100,300200,200 Nashpunkt Nashgleichgewicht Sicherheitsniveau Lea Jan Definition Nash-Gleichgewicht: Keiner der beiden Akteure kann (im nächsten Zug) seine eigene Position verbessern, ohne die Hilfe des anderen.

21 Juni 2011 G. Beroggi © zum roten Faden 21 Blocktag 1: Nachmittag Bildung Projektteams, Auswahl Thema Formulierung von Hypothesen anhand von Literatursuche

22 Juni 2011 G. Beroggi © zum roten Faden 22 Gegenstand des Kurses DST Analysiere Problem; Datensammlung durch … Formuliere mathematisches Entscheidungsproblem Simulation (Modell) Erstelle DSS mit Steuerungsvariablen Finde und implemen- tiere Entscheid Erhebung (DWH) Befragung (Akteure) Befragung: Formuliere Hypothesen zum Problem, möglichst abgeleitet aus vorhandenem Wissen. Beim Fragebogen unterscheide zwischen Aussagefragen (was ist die Frage) und Faktorenfragen (wer gibt die Antwort). Handelt es sich um ein explizites oder implizites Entschei- dungsproblem? Identifiziere die Entscheidungsvariablen (EV) (binär, ganzzahlig oder kontinuierlich), Kriterien, Akteure und Szenarien. Definiere Zielfunktion und Randbedingungen mit EV. Unterscheide zwischen logistischen und inhaltlichen Randbedingungen. Wähle geeignete Entscheidungstheorie (AHP, MAUT, Spieltheorie etc.) für subjektive Bewertungen. Erstelle Decision Support System (DSS) mit Darstellung von Information und Wissen und mit Steuerungsvariablen für Sensitivitätsanalyse und Entscheidungsfindung. Achtung: Kunde verwechselt oft Problem mit Massnahmen. Bsp.: Kunde sagt, das Problem wären die zu hohen Flugbewegungen und die Frage ist, wie diese zu reduzieren wären; dabei ist das Problem der Lärm und dieser könnte mit leiseren Flugzeugen trotz hoher Flugbewegungen reduziert werden. Erhebung: Man sammle nicht alles mögliche an Daten, sondern nur geschäftsrelevante Daten. Formuliere Hypothesen zum Problem und teste sie mit statistischen Methoden. Simulation: Beschreibe das System anhand der relevanten Ereignisse. Definiere mathematisches Modell um die Ereignisse zu beschreiben. Lass das Modell durchlaufen und führe Sensitivitätsanalyse durch.

23 Juni 2011 G. Beroggi © zum roten Faden 23 MAS-BC DST: Projekt Bis zu 4 Studenten bilden eine Gruppe. Man wähle ein Thema (HWZ Bibliothek, LexisNexis).HWZ BibliothekLexisNexis Man definiere mindestens 3 Hypothesen, je eine mit Zielvariable und Faktor als: (1) beide kontinuierlich, (2) beide kategorisch, (3) ZV kontinuierlich und F kategorisch. Man leite von den Hypothesen einen Internetfragebogen ab, schalte ihn aufs Internet auf. Man simuliere n (>100) Antworten. Man erstelle einen Bericht gemäss Strukturvorgabe (nächste Folie). Abgabe Bericht (als pdf) mit xls Datei, beide gezipped bis am (18:00) inklusive funktionierendem Link für Internetfragebogen an: nur von HWZ accounts Bsp.

24 Juni 2011 G. Beroggi © zum roten Faden 24 Struktur der Berichterstattung (roter Faden) Management Summary (20% der Note): zuerst Resultate, dann Bedeutung und Empfehlung, erst jetzt Methode und schliesslich nächste Schritte. Das Problem / der Auftrag (20%): Einleitung, worum geht es, Stand des Wissens, Ziel der Arbeit, Hypothesen (abgeleitet aus dem Stand des Wissens), Auswahl der Untersuchungsmethodik (Art der Erhebung). Erhebung / Befragung (20%): Zielgruppe, Repräsentativität, Festlegung des Stichprobendesigns und des -umfangs, Erstellung Fragebogen (Ableitung der Fragen aus den Hypothesen), Programmierung und Aufschaltung des Fragebogens im Internet, Testlauf und Durchführung der Erhebung, Bereitstellung der Datenbank (Excel) für Resultate und Analyse. Analyse der Resultate (20%): Rücklaufbeschrieb (Rate, Probleme bei der Erhebung, Analyse der Repräsentativität, Verfälschungen (Bias) und deren Korrektur), Test der Hypothesen und Diskussion von weiteren Resultaten mit Angabe der Signifikanz. Schlussfolgerungen (20%): Zusammenfassung der wichtigsten Erkenntnisse und Empfehlungen, Relativierung der Resultate aufgrund von möglichen Einschränkungen seitens der Methodik, Verallgemeinerung der Resultate für verwandte Themen, weiteres Vorgehen. Note: 0.5 x Note für persönlichen Teil x Gruppennote (Durchschnitt aller Teile). Hier klicken um Vorlage für (und Beispiel von) Bericht zu sehen

25 Juni 2011 G. Beroggi © zum roten Faden 25 Formulierung von Hypothesen 2. Messung (Operationalisierung) a)Raten: Die relative Anzahl der Jungen, die schlecht verdienen ist signifikant grösser, als die relative Anzahl der Alten, die schlecht verdienen. b)Mittelwerte: Das Durchschnittssalär der Jungen ist signifikant kleiner, als das Durchschnittssalär der Alten. c)Trends: Je älter man ist, desto mehr verdient man. 3. Fragebogen Zielvariable: Wie viel verdienen Sie? (Fr. pro Jahr) Faktor: Wie alt sind sie? (Anzahl Jahre) 1. Fragestellung / Antwort Frage: Gibt es in der Firma Altersdiskri- minierung bezüglich des Salärs (d.h. verdienen Alte mehr als Junge, resp. hat das Alter Einfluss auf das Salär)? Antwort: Wenn die Unterschiede in Schritt 4 signifikant sind, dann wird die Frage bejaht, sonst verneint. 4. Auswertung (Statistische Tests) rel. Anzahl Alt Jung signifi- kant gross? 35% 25% Durchschnitts- Salär (1000) Alt Jung signifi- kant gross? Alter Salär a) Raten b) Mittelwerte c) Trends signifi- kant klein? Zu den Tests Trendlinie

26 Juni 2011 G. Beroggi © zum roten Faden 26 Vergleiche mit mehreren Ausprägungen Mehrere Raten (T41) Hat die Position einen Einfluss auf den Gebrauch des ÖV? Mehrere Mittelwerte für einen Faktor (T22) Hat die Position einen Einfluss auf das Salär? relative Anzahl ÖV-Benutzer Angest. Kader Direktion signifi- kant gross? 20% 15% 28% Durchschnitts- Salär (1000 Fr.) Angest. Kader Direktion signifi- kant gross? Mehrere Mittelwerte für zwei Faktoren (T78) Sind Länder und Jahre unabhängig bezüglich Medaillengewinne? Gibt es signifikante Unterschiede zwischen den Ländern, zwischen den Jahren und zwischen Ländern und Jahren bezüglich der Anzahl gewonnener Medaillen? Mehrere Ereignisse (T38) Sind die Anzahl Fehlermeldungen in mehreren Computersystemen signifikant unterschiedlich? Anhzahl Fehlermel- dungen in den Systemen Syst. A Syst. B Syst. C signifi- kant gross? Link zum Buch: 100 Statistical Tests

27 Juni 2011 G. Beroggi © zum roten Faden 27 Weitere Hypothesen und Messformen Ausfallraten (T6/25) Bank A hat 13 Kunden in den letzten 6 Tagen verloren, Bank B 7 Kunden in den letzten 4 Tagen. Geht es Bank A schlechter, als Bank B? Vorher-Nachher Befragung (T23) Von 105 befragten Leuten fanden 30 ein Restaurant sowohl vor wie auch nach dem Besitzerwechsel gut, 51 fanden es weder vor noch nachher gut, 9 fanden es vorher gut aber nachher schlecht und 15 fanden es nachher gut und vorher schlecht. Hat der Wechsel etwas gebracht? Abgänge pro Tag Bank A Bank B signifi- kant gross? Anzahl nach gut vor gut vor schlecht nach schlecht signifi- kant gross? 15 9 Ranglisten (T59) Das Abschneiden von vier Produkten (A: Äpfel etc.) in Region 1 ist (A,B,C,D) und in Region 2 (B,A,C,D). Stellen die zwei Regionen signifikant unterschiedliche Märkte dar? Trendfluktuationen (T70) Der Umsatz geht mal rauf, mal runter. Sind diese Trendfluktuationen zufällig oder gibt es ein signifi- kantes Muster? ABCDABCD BACDBACD signifi- kant anders? Je höher desto besser Ist ein signifikantes Muster für die Trendfluktuation vorhanden? Region 1 Region 2

28 Juni 2011 G. Beroggi © zum roten Faden 28 Noch mehr Hypothesen und Messformen Veränderung von Raten (T84) Die als Raten gemessene Altersdiskriminierung wird vor und nach der Einführung von Gegen- massnahmen gemessen. Ist der Unterschied signifikant? Hierarchische Gruppierung (T80) Geben unterschiedliche Lehrer an unterschiedli- chen Schulen signifikant unterschiedliche Noten? Scheintrends Ist der beobachtete Trend Je grösser die Ausstellungsfläche, desto mehr Orangen werden verkauft nur ein Scheintrend, der vom Standort der Ware verursacht wird (d.h. bei konstantem Standort gibt es den Trend nicht)? Konditionierte Trends Hängt der Trend Je kälter/wärmer das Getränke ist, desto besser schmeckt es davon ab, von der Jahreszeit (Sommer/Winter) ab? signifi- kant anders? rel. Anzahl Alt Jung 35% 25% vor Gegen- massnahmen rel. Anzahl Alt Jung 35% 32% nach Gegen- massnahmen beide Trend- linien sind signifi- kant? Temperatur Wohlbefinden Trendlinie Temperatur Wohlbefinden Trendlinie SommerWinter Ausstellungsfläche Umsatz Laden- eingang Laden- ende gibt es für beide Standorte keine Signifikanten Trendlinien? Gibt es signifikante Unterschiede unter den Lehrer an den drei Schulen und unter den Schülern für die drei Lehrer? Scheintrend

29 Juni 2011 G. Beroggi © zum roten Faden 29 Themen und Hypothesen 2008 Das Fluktuationsverhalten von Mitarbeitenden H: Um die guten MAs zu halten, muss man die schlechten schicken H: Hohe Basissaläre verhindern keine Fluktuation Das Tresorgeschäft in Zeiten der Bankkrise H: In der Bankkrise gibt es mehr Tresorkunden auf dem Land als in der Stadt H: Grosses Vertrauen in die Bank verstärkt Vertrauen in eigenen Tresor Einfluss der Finanzkrise auf den Immobilienmarkt H: Personen mit höherem Einkommen reduzieren das Investitionsvolumen mehr als solche mit tieferem Einkommen H: In der Süd-CH sinken die Mietkosten stärker als in der Deutsch-CH. Wirkung einer Preiserhöhung bei der SBB auf die Passagierszahl H: Schlechter Verdienende sind eher bereit nach Alternativen zu suchen H: Personen, die geschäftlich unterwegs sind, haben eine höhere Zahlungsbereitschaft für ein kostenintensives Ticket als Privatreisende

30 Juni 2011 G. Beroggi © zum roten Faden 30 Themen und Hypothesen 2007 Boreout H: Boreout betrifft mehr Mitarbeiter in administrativen Berufen H: Boreout kommt bei über 18-jährigen Arbeitstätigen im Kanton Zürich vor Die Leserschaft von Gratiszeitungen H: Die örtliche & zeitliche Verfügbarkeit einer Gratiszeitung ist entscheidend für ihren Erfolg H: Auch bei Gratiszeitungen entscheiden die Leser nach Themen und Aufmachung Bedeutung des Kino heute Die Wahl Kino oder Heimkino wird massgebend durch das Genre bestimmt H: Steigende Preise bei Kinotickets (bei sinkenden Preisen für DVDs) wirken sich negativ auf die Kinobesuche aus. Empfundene Produktqualität und Einkaufspräferenz bei Migros und Coop H: Wenn Migros die Preise leicht über Coop heben würde, würden die Migroskunden weiterhin bei Migros einkaufen H: Die Produktqualität bei Migros wird als besser empfunden als bei Coop

31 Juni 2011 G. Beroggi © zum roten Faden 31 Themen und Hypothesen 2007 Powernapping H: Mitarbeiter, die power-nappen, arbeiten effizienter H: Manager betreiben aus Image-Gründen kein Powernapping Mobility - CarSharing H: Je höher das Einkommen, desto höher die Ansprüche an CarSharing bezüglich Komfort und Qualität der Dienstleistungen H: Je dichter das Standortnetz desto mehr Kunden

32 Juni 2011 G. Beroggi © zum roten Faden 32 Themen und Hypothesen 2006 Abfallentsorgung in der Stadt Zürich H: Die Bevölkerung möchte Zeitungen/Karton/PET zur Sammelstelle bringen H: Das Trennverhalten der Personen wird vom Bildungsstand beeinflusst EURO 08 H: Frauen sind wider Erwartungen keine Fussballmuffel H: Die Spiele werden mehrheitlich auswärts verfolgt (Stadion, Rest. etc.) Musik im Internet H: Frauen sind sich der Illegalität eher bewusst als Männer H: Ältere Personen sind bereit für Musik einen höheren Preis zu bezahlen als jüngere Personen Alkoholwerbung und Trinkverhalten H: Personen, die regelmässig Alkohol konsumieren, reagieren auch aktiver auf Alkohol-Werbung H: Jugendliche sind durch Alkoholwerbung beeinflussbarer als Erwachsene

33 Juni 2011 G. Beroggi © zum roten Faden 33 Themen und Hypothesen 2006 Roadpricing H: Roadpricing in Zürich wird abgelehnt H: Die Zahlungsbereitschaft für Roadpricing in Zürich ist tief Leistungsorientiertes-Qualifikations-System für Lehrpersonen an der Volksschule Zürich H: Lehrpersonen haben eine negative Einstellung zum LQS H: Das LQS macht das Berufsbild der Lehrpersonen attraktiver

34 Juni 2011 G. Beroggi © zum roten Faden 34 Themen und Hypothesen Fiktive Beispiele Entwicklung des Immobilienmarktes in der Region Zürich H: Trotz vielen neuen Wohnungen ziehen Familien weg von den Städten H: Singles ziehen vermehrt in die Stadt in Mietwohnungen Diskriminierung am Arbeitsplatz und in der Gesellschaft H: Kinder haben schadet der Karriere nicht H: Die Alterdiskriminierung ist im Vormarsch Mobilitätsmuster im Grossraum Zürich H: Mobility zieht neue Autofahrer-Gruppen an H: Glatttalbahn erhöht Pendlerströme Wahlprognosen für die Nationalratswahlen 2011 H: Die grossen Parteien sind wählergesättigt H: Frauen interessieren sich vermehrt für Politik Bedeutung der Alkoholwerbung auf das Trinkverhalten im Kt. ZH H: Werbung animiert jugendliche mit dem Trinken anzufangen H: Warnhinweise halten Autofahrer nicht ab, angetrunken zu fahren

35 Juni 2011 G. Beroggi © zum roten Faden 35 Nach- und Vorbereitung Studierende Tag 1 Aufwand (ca)ThemaHilfsmittelBesonderes 3 Std.Abschluss der unvollendeten Arbeiten während Tag 1 (bis und mit Formulierung der Hypothesen) InternetGruppenarbeit 2 Std.Repetition Excel-Übungen vom MorgenExcelEinzelarbeit

36 Juni 2011 G. Beroggi © zum roten Faden 36 Blocktag 2: Morgen Ablauf einer Internetbefragung Zielgruppen und Stichproben Definition von statistischen Hypothesen Repräsentativität und Fehler bei der Erhebung Testen von Statistischen Hypothesen

37 Juni 2011 G. Beroggi © zum roten Faden 37 Befragungen Die sorgfältigere Entwerfung der Erhebungsformulare ist eine Errungenschaft der neuesten Entwicklung der Statistik. … Der Wunsch möglichst rasch alles zu erfahren, was man wissen wollte, liess keine Zeit zu einer sorgfältigeren Fertigstellung der Erhebungsmethode. Man begnügte sich mit der Angabe der Gliederung, in welcher das Ergebnis der betreffenden Erhebung schliesslich erscheinen sollte, ohne sich über die Art der primären Fragestellung zu äussern … Eine solche in hohem Grade bedenkliche Behandlung selbst wichtiger Zweige der Statistik ragt teilweise noch bis in die neueste Zeit herein. Die Gesetzmässigkeit im Gesellschaftsleben. Statistische Studien von Dr. Georg Mayr (1877), S. 40.

38 Juni 2011 G. Beroggi © zum roten Faden 38 Ablauf der Befragung Problem / Auftrag Formulierung von Fragen Überprüfung / Korrektur Rücklauf Ableitung von Hypothesen Problem / Auftrag: Worum geht es, was ist das wahre Problem des Kunden, was ist der Stand des Wissens zum Problem, was das Ziel der Arbeit. Z.B. Junge Leute werden dicker und bewegen sich weniger. Hypothesen: Man leite aus dem Stand des Wissens Hypothsen ab. Hypothesen sind nicht persönliche Fragestellungen, sondern allgemein unbeantwortete Vermutungen oder Theorien zu kausalen Ursache-Wirkung Zusammenhängen (z.B. Schlechte Nahrung macht dick und träge). Fragen: Man formuliere Fragen, mit denen die Hypothesen getestet werden können respektive Antworten auf das Problem gefunden werden können. Keine unnötigen Fragen stellen. Z.B. Wie oft essen Sie Fastfood?, Wie schwer sind Sie? und Wie oft bewegen Sie sich?. Zielgruppe/Stichprobe: Über wen soll etwas ausgesagt werden respektive über wessen Problem soll eine Antwort gefunden werden? Geht es nur um Jugendliche oder alle Personen, welche Altersgruppen, welche Regionen etc.? Der Umfang und die Zusammenstellung der Stichprobe muss repräsentativ für die Zielgruppe sein. Man führe den Kuchentest durch: Wie soll ich möglichst wenig vom Kuchen probieren, um möglichst viel über den Kuchen aussagen zu können. Durchführung: Einladung der Stichprobe, Vergabe von Passwörtern, Aufschaltung auf das Internet, Überwachung der Datensammlung, Nacheinladung bei Nichtbeantwortung etc. Rücklauf: Was ist die Rücklaufrate? Sind die Proportionen der Antworten repräsentativ? Wenn nicht, soll man Nichtbeantworter nochmals kontaktieren oder Antworten einfach Hochrechnen? Analyse: Man teste die Hypothesen, sind die Zusammenhänge statistisch signifikant? Gibt es noch weitere interessante Zusammenhänge? Definition Zielgruppe, Auswahl Stichprobe Durchführung Erhebung Datenanalyse, Interpretation, Antworten

39 Juni 2011 G. Beroggi © zum roten Faden 39 Definition von Hypothesen Salär (CHF) Alter (Jahre) Position (Ka/SB) Geschl. (M/F) Note (1-6) Fach (SW/IW) Branche (B/V/I) Zielvariablen (Aussagevariablen) Faktoren (erklärende Variablen) Jeder Pfeil stellt eine mögliche Hypothese dar (0- oder 1-Faktor Hypothese) 1-Faktor Hypothesen z. B. Position hängt vom Geschlecht ab (z. B. Männer sind öfters Kader als Frauen), stellen Abhängigkeiten zwischen Faktoren und Zielvariablen dar. n-Faktor Hypothesen 0-Faktor Hypothesen n-Faktor Hypothesen

40 Juni 2011 G. Beroggi © zum roten Faden 40 Fragebogen Begrüssung, Angabe der benötigten Zeit für das Ausfüllen Zuerst die Zielgrössen fragen, dann die Faktoren Nicht zu viele Fragen, nur jene, um die Hypothesen testen zu können Skalen: kontinuierlich, kategorisch, oder offene Kategorische Skala (Likert Scale): gar nicht eher nicht neutral eher dafür sehr dafür keine Meinung

41 Juni 2011 G. Beroggi © zum roten Faden 41 Zielgruppe und Stichprobe Zielgruppe (Wahrheit) Stichprobe (Beobachtung) Die Hypothesen werden für die gesamte und unbekannte Zielgruppe formuliert. Um Aufwand, Geld und Zeit zu sparen, werden sie aber anhand einer Stichprobe getestet. Damit die Resultate aus der kleinen Stichprobe möglichst gültig sind für die gesamte Zielgruppe, ist wichtig dass: die Stichprobe ein möglichst guter Querschnitt der Zielgruppe ist (d.h. die Stichprobe ist repräsentativ für die Zielgruppe), die Resultate der Stichprobe möglichst signifikant sind, d.h. die Unsicherheit (Irrtumswahrscheinlichkeit), dass die Folgerungen auf die Zielgruppe falsch sein könnten, muss möglichst klein sein. 2. Auswahl der Stichprobe aus der Zielgruppe 3. Erhebung der Daten aus der Stichprobe 1. Definition der Hypothesen resp. Fragestellungen 4. Test der Hypothesen und Rück- schlüsse auf die Zielgruppe

42 Juni 2011 G. Beroggi © zum roten Faden 42 Richtiger Rückschluss: (WS = 1- ) Richtiger Rückschluss (WS = 1- ) Falscher Rückschluss (WS = ) Falscher Rückschluss (WS = ) Wir möchten die Irrtumswahrscheinlichkeiten (ein Schuldiger wird vom Gericht freigesprochen) und (ein Unschuldiger wird vom Gericht schuldig gesprochen) möglichst klein haben. Wirklichkeit Gericht Rückschluss Testen von Hypothesen H 0 : schuldig H 1 : unschuldig unschuldig schuldig Ist der Angeklagte schuldig? H 0 : Der Angeklagte ist schuldig. H 1 : Der Angeklagte ist unschuldig. Unsere Zielgruppe ist die Wirklichkeit. Unsere Stichprobe ist das Gericht.

43 Juni 2011 G. Beroggi © zum roten Faden 43 Was heisst Unsicherheit? 100% 0% Prozentuale Schuldsprechung der Geschworenen H 0 (in Wirklichkeit schuldig) Wir nehmen an, dass die Verteilung der Prozen- tualen Schuldsprechungen einer Dreiecksverteilung entspricht. Die Fläche des Dreiecks ist 100%. Somit ist die Höhe des Dreiecks gleich % 0% Prozentuale Schuldsprechung der Geschworenen H 0 (in Wirklichkeit schuldig) 22.36% 100% Wenn wir (d.h. die Wahrscheinlichkeit, dass ein Schuldiger freigesprochen wird) z.B. 5% haben möchten, respektive wir möchten zu 95% sicher sein, dass ein Schuldiger nicht freigesprochen wird, dann kann man mittels einfachen Dreiecksberechnungen berechnen, bei welcher Prozentzahl die blaue Fläche 5% ist, wenn man weiss, dass die gesamte Fläche 100% ist. Die Lösung ist, dass die = 5% dem Wert von 22.36% entsprechen. D.h. mit 5% Wahrscheinlichkeit stimmen höchstens 22.36% den Angeschuldigten schuldig. M.a.W. wenn höchstens 22.36% der Geschworenen den Angeklagten schuldig sprechen, dann verwerfen wir H 0 zugunsten von H 1, d.h. wir schliessen, dass er unschuldig ist und täuschen uns in dieser Aussage zu höchstens 5%, resp. wir sind mind. 95% sicher, dass er unschuldig ist.

44 Juni 2011 G. Beroggi © zum roten Faden 44 Zusammenhang zwischen und 100% 0% Prozentuale Schuldsprechung der Geschworenen H 0 (in Wirklichkeit schuldig) 100% 0% H 1 (in Wirklichkeit unschuldig) Prozentuale Schuldsprechung der Geschworenen Wenn wir nebst H 0 auch H 1 eintragen, dann nehmen wir an, dass die Verteilung entsprechend spiegelbildlich ist. Die Fläche für ist die Wahrscheinlichkeit, dass man einen unschuldigen für schuldig erklärt. Gerne möchte man und möglichst klein haben. Man sieht aber, dass je kleiner man macht, desto grösser wird. Der Zusammenhang ist unten dargestellt % Wie können wir sowohl wie auch möglichst klein halten? Indem wir die Anzahl Beobachtungen in der Stichprobe erhöhen. Dann verändert sich die Dreieckskurve in eine Kurve folgender Art: klein und klein

45 Juni 2011 G. Beroggi © zum roten Faden 45 Wie wählen wir und, resp. n ? Zuerst müssen wir wissen, was der Zusammenhang (d.h. die Funktion) zwischen dem Stichprobenumfang n und und ist. Angenommen wir wissen dies (f (n) und f (n)), dann stellt sich die Frage, was kosten uns die zwei Fehlerarten, respektive was für einen Ertrag bringen uns korrekte Entscheide. Richtiger Rückschluss: (WS = 1-, Ertrag = E 0 ) Richtiger Rückschluss (WS = 1-, Ertrag = E 1 ) Falscher Rückschluss (WS =, Schaden = S 0 ) Falscher Rückschluss (WS =, Schaden = S 1 ) Wirklichkeit Gericht H 0 : schuldig H 1 : unschuldig unschuldig schuldig Der erwartete Nutzen ist: N = E 0 (1- ) + E 1 (1- ) + S 0 + S 1, respektive als Funktion von n: N = E 0 (1-f (n)) + E 1 (1-f (n) + S 0 f (n) + S 1 f (n). Somit können wir entscheiden, wie wir n wählen müssen, um den Profit zu maximieren.

46 Juni 2011 G. Beroggi © zum roten Faden 46 Rechner für Stichprobenumfang Link

47 Juni 2011 G. Beroggi © zum roten Faden 47 Zufällige Auswahl der Stichprobe Jede Person der Zielgruppe wird zufällig gewählt oder nicht. Die Wahrscheinlichkeit der Wahl wird vorgegeben. Zufallsstichprobe einfacher Zufall systematische Stichprobe geschichtete Stichprobe Klumpen- stichprobe

48 Juni 2011 G. Beroggi © zum roten Faden 48 Einfacher Zufall Jede Person hat die gleiche Wahrscheinlichkeit gewählt zu werden. Auswahl kann mit oder ohne Zurücklegen geschehen (z.B. eine Person könnte mehrmals befragt werden). Zufallszahlen werden vom Computer generiert. Falls der Stichprobenumfang gross ist im Vergleich zur Gesamtheit, dann hat man automatisch eine repräsentative Stichprobe.

49 Juni 2011 G. Beroggi © zum roten Faden 49 Lege gewünschten Stichprobenumfang fest: n. Teile Gesamtheit N in Gruppen von k Personen: k = N / n. Wähle zufällig eine Person aus der ersten Gruppe. Danach wähle jede k-te Person. Bsp.: Qualitätskontrolle Systematische Stichproben N = 64 n = 8 k = 8

50 Juni 2011 G. Beroggi © zum roten Faden 50 Geschichtete Stichproben Die Zielgruppe ist in zwei oder mehr Gruppen geteilt, gemäss gewissen Kriterien (z.B. Kantone). Aus jeder Gruppe wird eine einfache Stichprobe gezogen. Die Stichproben werden zu einer Gesamtstichprobe zusammengefügt.

51 Juni 2011 G. Beroggi © zum roten Faden 51 Klumpenstichprobe Die Gesamtheit ist in verschiedene Schichten aufgeteilt, wobei jede Sicht repräsentativ ist für die Gesamtheit (z.B. Parallelklassen). Von jeder Schicht wird eine einfache Zufallsstichprobe gewählt. Die Stichproben werde zu einer Gesamtstichprobe zusammengefügt. Gesamtheit in 4 Schichten geteilt.

52 Juni 2011 G. Beroggi © zum roten Faden 52 Modeling bias: z.B. falsche Verteilungsannahmen Confirmation bias: Suche nach Bestätigung von Vermutungen Publication bias: Suche nach Neuem zum Publizieren Problem bias: Problem falsch verstanden Questionnaire bias: z.B. suggestive Fragen/Antworten Survey bias: z.B. inkonsistente Befragungsweise Universe bias: Falsche Zielgruppe Selection bias: z.B. nur verärgerte Personen nehmen teil Recall bias: Erinnerung bestimmt Antwort Response bias: z.B. Männer sind befragungsmüde List of cognitive biases: Denkfehler Data Mining: Unfähigkeit der Statistiker zu Modellieren Fehler über Fehler

53 Juni 2011 G. Beroggi © zum roten Faden 53 Zielvariable(n)Faktoren Alter (J/A) Region (D/F/I) Ges. (M/F) Position (Ka/SB) Sind die Verhältnisse der Faktoren richtig erfasst? M F Ka SB J A Ka SB Population 20% 30% 40% 10% 10% 40% 35% 15% ?=?= M F Ka SB J A Ka SB Stichprobe 20% 30% 40% 10% 10% 40% 35% 15% Repräsentativität D F I Ka SB 40% 10% 5% 10% 30% 5% D F I Ka SB 40% 10% 5% 10% 30% 5% H1 H2 H3 H1 H2 H3

54 Juni 2011 G. Beroggi © zum roten Faden 54 Blocktag 2: Nachmittag Gestaltung, Realisierung und Aufschaltung eines Internetfragebogens Generierung von Antworten in Excel

55 Juni 2011 G. Beroggi © zum roten Faden 55 Fragestellungen: Verdienen bessere Studenten mehr als schlechtere? Brauchen Soz-Wiss (SW) Studenten länger für ihr Studium als Ing-Wiss (IW) Studenten? Weitere Fragen:... Erhebungsmaske Name Alter Seme- ster Geschl. Diplom- note Position Bran- che Salär Fach Beispiel: Absolventenstudie Datenbank

56 Juni 2011 G. Beroggi © zum roten Faden 56 Datenbank Datenübersicht: Datenvalidierung Umgang mit fehlenden Daten Datenpunkt Datensatz Datenübersicht

57 Juni 2011 G. Beroggi © zum roten Faden 57 Beispiel Fragebogen Zielvariablen (interessierte Aussagen) Faktoren (Eigenschaften der Befragten)

58 Juni 2011 G. Beroggi © zum roten Faden 58

59 Juni 2011 G. Beroggi © zum roten Faden 59 Software für Internetbefragungen LetMeKnow (via HWZ)LetMeKnowvia HWZ Umfrage Online SPSS Online-Umfragen SurveyMonkey LimeSurvey UniPark Software PoppyDog 2ask Weitere Software Survey Google Survey

60 Juni 2011 G. Beroggi © zum roten Faden 60 Nach- und Vorbereitung Studierende Tag 2 Aufwand (ca)ThemaHilfsmittelBesonderes 3 Std.Generierung von Antworten in ExcelExcelGruppenarbeit 2 Std.Erstellung der Struktur des BerichtesWordGruppenarbeit Funktionierender Link für Internetfragebogen bis am xx an: nur von HWZ Adressen

61 Juni 2011 G. Beroggi © zum roten Faden 61 Blocktag 3: Morgen Deskriptive Statistische Analysen mit Diagrammen Induktive Statistische Analysen der Hypothesen für Proportionen (Chi2-Test) Induktive Statistische Analysen der Hypothesen für Mittelwerte (t-Test)

62 Juni 2011 G. Beroggi © zum roten Faden 62 Histrogramm Extras Analysefunktionen Histogramm

63 Juni 2011 G. Beroggi © zum roten Faden 63 Drei Arten der Datenanalyse 1.Deskription (Beschreibung): Suche in den Daten nach interessanten Informationen 2.Verifikation: Testen von vorgegebenen Hypothesen 3.Induktion: Extrapolation (z.B. Prognosen) oder Interpolation (z.B. Schätzungen von Zwischen- werten)

64 Juni 2011 G. Beroggi © zum roten Faden 64 Populationskenngrössen Extras Analyse-Funktionen Mit 95% Wahrscheinlichkeit enthält das Interval von bis den wahren Mittelwert der Population. Es gibt keinen eindeutigen Modalwert (siehe Histogramm)

65 Juni 2011 G. Beroggi © zum roten Faden 65 Schätzung der Gesamtpopulationsmenge Punktschätzer für die totale Population: Vertrauensintervall für das Total: Bsp.: Die Summe von N=5000 Rechnungen ist gesucht, wenn n=100 Stichproben genommen wurden, mit X = CHF und S = CHF. Für das 95% KI erhalten wir t 99 = : - Total = 5000x = CHF - KI = ± x1.9842x28.95/10x(( )/(5000-1)) = CHF

66 Juni 2011 G. Beroggi © zum roten Faden 66 Pivot Tabellen

67 Juni 2011 G. Beroggi © zum roten Faden 67 Grundsätze 1.Jede Abbildung muss selbsterklärend sein mit Titel, Text, beschrifteten Achsen, Einheiten und Werte in der Abbildung. 2.Jede Abbildung muss im Text besprochen werden, mit zusätzlichen Erklärungen und Interpretationen. Graphische Darstellung in Excel

68 Juni 2011 G. Beroggi © zum roten Faden 68 Linien (2D) Beachte: Abb. 1 und Abb. 2 sind analog. Nur eine durchgezogene Linie in Abb. 1 (ohne die Punkte und die Werte) wäre irreführend, denn die Verbindungslinie stellt ja keine Beobachtungen dar, sondern dient lediglich der Illustration des Trends. Abb. 1: Das Durchschnittssalär nimmt mit zunehmender Note stetig ab.Abb. 2: Das Durchschnittssalär nimmt mit zunehmender Note stetig ab.

69 Juni 2011 G. Beroggi © zum roten Faden 69 Kreis (2D) Abb. 3: Durchschnittssaläre nach Branchen in 1000 CHF. Beachte: Abb. 3 und Abb. 4 sind analog. Jedoch ist eine Kuchendarstellung (Abb. 3) für Durchschnittssaläre irreführend, denn die Summe der drei Durchschnittssaläre (100%) macht keinen Sinn. Abb. 4: Durchschnittssaläre nach Branchen in 1000 CHF.

70 Juni 2011 G. Beroggi © zum roten Faden 70 Punkt (XY) (2D) Abb. 5: Saläre und Alter von 10 Personen.

71 Juni 2011 G. Beroggi © zum roten Faden 71 Säulen Stabdiagramme (3D) Abb. 6: Durchschnittssaläre (1000 CHF) nach Branchen, Studienrichtung und Geschlecht. Beachte: Ähnlich wie in Abb. 3 macht die Darstellung der Summe der Durchschnittssaläre für Frauen und Männer auf der x-Achse auch hier wenig Sinn, denn die Summe der beiden Durchschnitte ist nicht gleich dem Gesamtdurchschnitt in der jeweiligen Branche pro Studienrichtung.

72 Juni 2011 G. Beroggi © zum roten Faden 72 Blase (4D) Abb. 7: Saläre (1000 CHF) und Alter für 10 Personen mit Abschlussnoten (1-6 als Radius der Kreise).

73 Juni 2011 G. Beroggi © zum roten Faden 73 Netz (mD) Normalisierung: x i – x s x b - x s y i = Abb. 8: Normierte Werte für 10 Personen (Reihe 1 bis 10). x i : zu transformierender Wert x s : schlechtester Wert x b : bester Wert y i : transformierter Wert Normalisierte Werte (je weiter draussen, desto besser)

74 Juni 2011 G. Beroggi © zum roten Faden 74 -Bsp.: Die n = 10 Mitarbeitenden haben ein beobach- tetes Durchschnittssalär von m = und eine beobachtete Standardabweichung von s = 39.6 (siehe Zahlenwerte links in der Excel Tabelle). -Um die Wahrscheinlichkeit zu berechnen, dass ein Durchschnittssalär grösser ist als z.B. 115 muss man zuerst Z berechnen: -Mit Z berechnet man die Wahrscheinlichkeit wie folgt: -=1-NORMVERT(1.156;0;1;WAHR) = 12.4%. -Mit einem akzeptablen Höchstwert von 5% müssten wir die Hypothese Das Durchschnittssalär der Gesamtbelegschaft ist grösser als 115 ablehnen. Aussagen und Testen von 0-Faktor Hypothesen Ist das Durchschnittssalär grösser als 115? Salär (Fr.) Salär: kategorisch. Frage: Wie genau kann das Durchschnittssalär bestimmt werden? Antwort: Das Durchschnittssalär der zehn Personen ist ± Oder: Mit 95% Sicherheit liegt das Durchschnittssalär zwischen 99.2 und Bsp.: von n =100 Mitarbeitenden einer Stichprobe sind 23 (23%, p=0.23) im Kader. -Mit 95% Sicherheit liegt die Prozentzahl der Kaderleute zwischen 23-c und 23+c. -Mit 95% Sicherheit liegt die Prozentzahl der Kaderleute zwischen 14.2% und 31.3%. -Die aus der Stichprobe geschätzte Prozentzahl der Kaderleute ist 23 ± 8.3 Prozentpunkte. Mittelwerte Proportionen Z Z =0 Z = 1.64 p = 5% Z = p = 12.4% -Bsp.: Von den n =100 Mitarbeitenden aus der Stichprobe sind 23% (p=0.23) im Kader. -Um die Wahrscheinlichkeit zu berechnen, dass in der Gesamtfirma mehr als z.B. 20% im Kader sind muss man zuerst Z berechnen: -Mit Z berechnet man die Wahrscheinlichkeit wie folgt: -=1-NORMVERT(1.169;0;1;WAHR) = 12.1%. -Mit einem akzeptablen Höchstwert von 5% müssten wir die Hypothese In der Gesamtfirma sind mehr als 20% im Kader ablehnen. Ist der Prozentanteil der Kaderleute grösser als 20%? Position (Ka/SB) Z Z =0 Z = 1.64 p = 5% Z = p = 12.1%

75 Juni 2011 G. Beroggi © zum roten Faden 75 Testen von 1-Faktor Hypothesen Salär (hoch/tief) Alter (jung/alt) Alter hat Einfluss auf Salär (Alter und Salär sind abhängig) Salär (hoch/tief) Alter (jung/alt) Alter hat keinen Einfluss auf Salär (Alter und Salär sind unabhängig) Salär: kategorisch Alter: kategorisch Salär: kontinuierlich Alter: kontinuierlich Salär: kontinuierlich Alter: kategorisch zum Chi 2 -Test zum t-Test zur Regression

76 Juni 2011 G. Beroggi © zum roten Faden 76 Chi 2 -Test ( M F ) Die beobachteten Werte (rote Zahlen in der gelben Kontingenztabelle) unterscheiden sich signifikant von den erwarteten* Werten (blaue Zahlen in der blauen Tabelle). Somit ist das Salär vom Geschlecht abhängig. Mit der Aussage Das Salär ist vom Geschlecht abhängig irrt man sich zu 0.16%, was eine sehr kleine Irrtumswahrscheinlichkeit (resp. Signifikanzniveau) ist. * erwartet im Sinne, dass Geschlecht keinen Einfluss auf Salär hat. Salär (hoch/tief) Geschl. (M/F) 1-Faktor Hypothese (beide kategorische Werte: M/F und h/t) Frage: Hängt das Salär vom Geschlecht ab. Z.B. Überproportionale viele Männer (p M ) haben hohe Saläre als Frauen (p F ). H: M > F. Chi- 2 -Test Verteilung

77 Juni 2011 G. Beroggi © zum roten Faden 77 t-Test ( G S ) Der p-Wert ist grösser als 5%; somit schliessen wir, dass das Geschlecht keinen Einfluss hat auf das Salär. t t t =0 t = 1.89 t = t =0 t = 2.36 p = 2.5% p = 5% p = 2.5% t = p = 15.4% Frage: Hängt das Salär vom Geschlecht ab? Z.B. Männer (m M ) verdienen im Schnitt mehr, als Frauen (m F ). H: M > F. t-Test 1-Faktor Varianzanalyse (ANOVA) Salär (Fr.) Geschl. (M/F) 1-Faktor Hypothese (kategorische Werte (M/F) und kontinuier- liche Werte (Fr.)

78 Juni 2011 G. Beroggi © zum roten Faden 78 Blocktag 3: Nachmittag Induktive Statistische Analyse der Hypothesen für Korrelationen (Regressionsanalyse) Abschluss des Berichtes

79 Juni 2011 G. Beroggi © zum roten Faden 79 Statistik und Interpretation Jeder Punkt im obigen Diagramm zeigt für verschiedene Filialen deren Ausstellungsfläche (AF) für Orangen und die erzielten Umsätze (U). 1. Interpretation (Korrelation): Je grösser die AF, desto mehr U wird gemacht. Somit müssen alle Filialen mit kleinen AF ihre AF sofort vergrössern, damit sie mehr U machen. 2. Interpretation (Kausalität): AF und U haben keinen Zusammenhang. Die Tatsache, dass es in der markierten Zone im Diagramm keine Filialen hat bedeutet, dass Filialen mit kleinen AF offenbar die AF nicht genügend schnell nachfüllen, wenn sie leer werden, und sie deshalb bei kleiner AF weniger Umsatz machen. 3. Interpretation (Partielle Korrelation): Die drei Gruppen im Diagramm stehen für Filialen, welche die Orangen beim Eingang, in der Ladenmitte und hinten im Laden aufgestellt haben. U wird nicht von AF beeinflusst, sondern es ist die Lage, welche sowohl U wie auch AF beeinflusst. D.h. bei konstanter Lage (z.B. Mitte) gibt es keine Korrelation zwischen AF und U. 4. Interpretation (Interaktion): U hängt nicht nur von der Lage der Orangen ab, sondern auch von der Lage der Äpfel. Werden Orangen und Äpfel nebeneinander verkauft, sinkt der totale Umsatz, liegen sie aber weiter auseinander, nimmt er zu. Äpfel weit weg Äpfel in der Nähe

80 Juni 2011 G. Beroggi © zum roten Faden 80 1-Faktor Regressionsanalyse ( 0 0, 1 0) Um die Signifikanz der Koeffizienten a und b zu testen, muss man die Regressionsanalyse durchführen. Offenbar sind die beiden Koeffizienten signifikant, denn beide p- Werte sind kleiner als 5%. Wir akzeptieren die Hypothese, dass das Salär vom Alter abhängig ist. 1-Faktor Hypothese (beide kontinuierliche Werte: Jahre, Fr.) Salär (CHF) Alter (Jahre) Frage: Hängt das Salär vom Alter ab? Z.B. Je älter man ist, desto mehr verdient man: positive Korrelation (r AS ). H: AS > 0. Korrelationsanalyse, Kurvenanpassung 1-Faktor Regressionsanalyse Salär = 8.62xAlter – Salär = 1 Alter + 0

81 Juni 2011 G. Beroggi © zum roten Faden 81 Regressionslinie: y = ax + b a = r s y / s x r: Regressionskoeffizient s x : Standardabweichung der x Werte s y : Standardabweichung der y Werte b = m y – a m x m x : Mittelwert der x Werte m y : Mittelwert der y Werte x y y = ax + b b a = 1-Faktor Regressionsanalyse Zusammenhang zwischen der Steigung a und dem Korrelationskoeffizienten r dydxdydx dydy dxdx

82 Juni 2011 G. Beroggi © zum roten Faden 82 2-Faktor Regressionsanalyse 2-Faktor Hypothese (alles kontinuierliche Werte) Das Salär hängt vom Alter und von der Note ab? Z.B. Je älter man ist und je besser die Note, desto mehr verdient man (Salär ist lineare Funktion von A und N: S = k 1 xA + k 2 xN + k 3 ). H: k 1 > 0, k 2 > 0, k 3 > 0. 2-Faktor Regressionsanalyse Note (1-6) Salär (Fr.) Alter (Jahre) Gleiches Vorgehen im EXCEL, wie mit einem Faktor, mit dem Unterschied, dass es zwei x- Variablen (Alter und Note) hat. Gesucht wird das Modell, welches maximales adjustiertes Bestimmtheitsmass (adj. R 2 ) hat und alle Koeffizienten signifikant sind (p <= 5%). Mit beiden Variablen ist das Regressionsmodell nicht zulässig, da der p-Wert des Schnittpunktes nicht signifikant ist. Da nur der Koeffizient des Schnittpunkts nicht signifikant ist, kann man in EXCEL den Schnittpunkt = 0 festlegen; Alter und Note sind signifikant und somit wird adj. R 2 = Alter und Note haben grosse Korrelation; das Modell hat somit eine grosse Multikollinearität. Es müsste deshalb untersucht werden, ob nur das Alter als unabhängige Variable genommen werden sollte. Mit nur dem Alter als unabhängige Variable erhält man adj. R 2 = Salär = 7.33xAlter – 16.41xNote Salär = 1 Alter + 2 Note + 0

83 Juni 2011 G. Beroggi © zum roten Faden 83 Typs zur Regressionsanalyse (1/3) Gesucht wird das Modell, welches maximales adjustierte Bestimmtheitsmass (adj. R 2 ) hat und alle Koeffizienten signifikant sind (p 5%). Wenn nur der Koeffizient des Schnittpunkts nicht signifikant ist, kann man in EXCEL den Schnittpunkt = 0 festlegen. Grosse Multikollinearität (Korrelation zwischen unabhängigen Variablen) muss vermieden werden. Es lohnt sich, schrittweise das Modell zu bilden, indem man zuerst nur mit jener unabhängigen Variablen beginnt, die am stärksten mit der abhängigen Variablen korreliert; dann fügt man neue Variablen hinzu, solange das adj. R 2 wächst. Wenn zwei unabhängige Variablen grosse Interaktion aufweisen, dann muss man eine neue Variable einführen, welche das Produkt der beiden Variablen ist; das lineare Modell wird somit erweitert zu einem nicht-linearen Modell mit Termen höherer Ordnung. Kategorische Variablen (z.B. Berufsklassen) können auch berücksichtigt werden, indem man für diese Indikatorvariablen (nehmen Werte 0 oder 1 an) einführt. Bei n Kategorien, führt man n-1 Indikatorvariablen ein. Die Indikatorvariable nimmt den Wert 1 an, wenn die entsprechende Beobachtung zutrifft, sonst 0. Wenn eine unabhängige Variable nicht linear, sondern gemäss einer anderen Funktion korreliert, dann kann man diese Variable transformieren und somit die Korrelation mit der abhängigen Variablen erhöhen (siehe unten). Die lineare Regression ergibt ein R 2 = 79%, während die exponentielle Funktion ein R 2 = 89% hat. Somit soll man die x-Werte gemäss dieser exponentiellen Funktion glätten und dann mit den geglätteten Werten eine Regressionsanalyse durchführen.

84 Juni 2011 G. Beroggi © zum roten Faden 84 Mit der ANOVA Tabelle können wir das Bestimmtheitsmass r 2 berechnen: r 2 = SSR/SST berechnen. Der Anteil, den eine Variable X k zur Erklärung der totalen Variabilität leistet, r 2 k, stellt die Wichtigkeit dieser Variablen dar und berechnet sich wie folgt: SSR alle-k : SSR aus der Regression unter Ausschluss von Variable k Typs zur Regressionsanalyse (2/3) Wichtigkeit einer Variablen 1. Voraussetzung für Lineare Regression Normalverteilung der Fehler mit Mittelwert = 0 (beobachtetes Salär minus mit Regression vorausgesagtes Salär) Ist die Annahme einer Normal- verteilung des Fehlers nicht gegeben, dann gelten die statistischen Tests nicht und das R 2 wird zu klein. Normalverteilung der Fehler liegt nicht vor (Abb. links) Salär = 7.33xAlter – 16.41xNote

85 Juni 2011 G. Beroggi © zum roten Faden 85 Typs zur Regressionsanalyse (3/3) 3. Voraussetzung für Lineare Regression Vermeidung von Autokorrelation (y-Werte korrelieren mit der Zeit, zu der sie gemessen wurden) Die Fluktuation der Fehler in einem rauf- runter Muster ist ein Anzeichen der Autokorrelation. Autokorrelation führt dazu, dass der p-Wert unterschätzt wird, d.h. man kommt einfacher zum Schluss, dass die Regressionsfunktion Gültigkeit hat. 2. Voraussetzung für Lineare Regression Homoskedastizität (Streuung der Fehler hängt nicht mit der Grösse der x-Werte ab; kleine x-Werte haben kleinere Varianz, während grössere x-Werte haben grössere Varianz) Bild links; die Fehler nehmen mit zunehmenden x- Werte zu. Die Verletzung der Homoskedastizität führt dazu, dass die statistische Signifikanz der Regression falsch interpretiert wird. Man kann dieses Phänomen durch die sog. gewichtete Methode der kleinsten Quadrate beheben. Eine Verletzung der Homoskedastizität nennt man Heteroskedastizität; d.h. die Varianz der Residuen ist nicht homogen. Beispiel Homoskedastizität liegt nicht vor (Abb. oben) (analoges mit der Note untersuchen) Autokorrelation liegt vor (Abb. links) Salär = 7.33xAlter – 16.41xNote Fazit: alle drei Voraussetzungen für eine Lineare Regression werden verletzt; somit ist das Modell nicht haltbar.

86 Juni 2011 G. Beroggi © zum roten Faden 86 Nach- und Vorbereitung Studierende Tag 3 Aufwand (ca)ThemaHilfsmittelBesonderes 5 Std.Abschluss der Statistischen TestsExcelGruppenarbeit 5. Std.Abschluss und Abgabe des BerichtsWordGruppenarbeit Abgabe Bericht (als pdf) mit xls Datei, beide gezipped bis am xx (18:00) inklusive funktionierendem Link für Internetfragebogen an: nur von HWZ accounts


Herunterladen ppt "Juni 2011 G. Beroggi © zum roten Faden Decision Support Tools MAS Business Consulting Prof. Dr. Giampiero Beroggi 1."

Ähnliche Präsentationen


Google-Anzeigen