Decision Support Tools

Decision Support Tools
MAS Business Consulting Prof. Dr. Giampiero Beroggi

Ihr Dozent: Giampiero Beroggi
Fachgebiet: Decision Support Systems/Tools, Entscheidungsanalyse, Statistik, Operations Research, Risikomanagement Akademische Tätigkeit: Professor für Wirtschaftsinformatik HWZ (seit 2004) Privatdozent für Wirtschaftsinformatik Universität Zürich (seit 2006) Gastprofessor ETH-Zürich (2000) Assozierter Professor Technische Universität Delft, NL (92-01) Research Associate Rensselear Polytechnic Institute, New York (88-91) Praktische Erfahrung: Chef Statistisches Amt des Kantons Zürich (seit 2006) Geschäftsführer Spring Analytica AG (02-06) Associate Mercer Management Consulting (01-02) Ingenieur E. Basler & Partner AG (86-88) Ausbildung: Habilitation Universität Zürich (2006) Dr. Phil., New York, USA (1991) Master of Science in Operations Research und Statistik, New York, USA (1989) Dipl.-Ing. ETH (1986) erreichbar unter: (nur für Absender mit .

Decision Support Tools: Aufbau des Kurses
Einleitung und Übersicht von Decision Support Tools (DST) in der Praxis Unterlagen vom Internet Links zu den Folien Das Konzept der mathematischen Optimierung mit praktischen Übungen mit Excel Blocktag 1 Morgen Blocktag 1 Nachmittag (zum Projektbeschrieb) Formulierung von Entscheidungs-Hypothesen mit DST Auswahl des Themas und Formu-lierung des Entscheidungspro-blems zur Integration in ein DST Realisierung eines Decision Support Tools im Internet für Datenerhebung Auswahl der Software, Realisierung im Internet und Erhebung von Daten Theoretischer Teil mit Übungen Blocktag 2 Morgen Blocktag 2 Nachmittag roter Faden (hier klicken) Einführung in statistische Tests zur optimalen Entscheidungs-findung mit Übungen in Excel Durchführung der statistischen Tests für das gewählte Entscheidungsproblem Praktischer Teil als Projekt Analyse der Daten und Ableitung von optimalen Entscheidungen mit statistischen Tests in Excel Interpretation der Resultate für praktische Handlungsanleitungen Blocktag 3 Morgen Blocktag 3 Nachmittag Erstellung des Schlussberichts resp. Präsentation

Blocktag 1: Morgen Einführung, Ziel des Kurses Beispiele von DST
Methodische Ansätze für DST

Decision Support Systems Architektur
Realität DSS Datenbanken - Bewerten - Berechnen - Suchen - Optimieren Infobanken Modelle Berechnen (Algorithmen) Wissensbanken Decision Maker Interface Schwerpunkt der Vorlesung (Decision Support Tools)

Entscheidungsprozess
Achtung: Kunde verwechselt oft Problem mit Massnahmen. Bsp.: Kunde sagt, das Problem wären die zu hohen Flugbewegungen und die Frage ist, wie diese zu reduzieren wären; dabei ist das Problem der Lärm und dieser könnte mit leiseren Flugzeugen trotz hoher Flugbewegungen reduziert werden. Analysiere Problem; Datensammlung durch … Erhebung: Man sammle nicht alles mögliche an Daten, sondern nur geschäftsrelevante Daten. Formuliere Hypothesen zum Problem und teste sie mit statistischen Methoden. Erhebung (DWH) Befragung (Akteure) Simulation (Modell) Befragung: Formuliere Hypothesen zum Problem, möglichst abgeleitet aus vorhandenem Wissen. Beim Fragebogen unterscheide zwischen Aussagefragen (was ist die Frage) und Faktorenfragen (wer gibt die Antwort). Finde und implemen-tiere Entscheid Simulation: Beschreibe das System anhand der relevanten Ereignisse. Definiere mathematisches Modell um die Ereignisse zu beschreiben. Lass das Modell durchlaufen und führe Sensitivitätsanalyse durch. Handelt es sich um ein explizites oder implizites Entschei-dungsproblem? Identifiziere die Entscheidungsvariablen (EV) (binär, ganzzahlig oder kontinuierlich), Kriterien, Akteure und Szenarien. Definiere Zielfunktion und Randbedingungen mit EV. Unterscheide zwischen logistischen und inhaltlichen Randbedingungen. Wähle geeignete Entscheidungstheorie (AHP, MAUT, Spieltheorie etc.) für subjektive Bewertungen. Formuliere mathematisches Entscheidungsproblem Erstelle Decision Support Sysetm (DSS) mit Darstellung von Information und Wissen und mit Steuerungsvariablen für Sensitivitätsanalyse und Entscheidungsfindung. Erstelle DSS mit Steuerungsvariablen

Beispiele von DSS

Beispiele Analysiere Problem; Datensammlung durch … Erhebung (DWH)
Achtung: Kunde verwechselt oft Problem mit Massnahmen. Bsp.: Kunde sagt, das Problem wären die zu hohen Flugbewegungen und die Frage ist, wie diese zu reduzieren wären; dabei ist das Problem der Lärm und dieser könnte mit leiseren Flugzeugen trotz hoher Flugbewegungen reduziert werden. Analysiere Problem; Datensammlung durch … Erhebung: Man sammle nicht alles mögliche an Daten, sondern nur geschäftsrelevante Daten. Formuliere Hypothesen zum Problem und teste sie mit statistischen Methoden. Erhebung (DWH) Befragung (Akteure) Simulation (Modell) Befragung: Formuliere Hypothesen zum Problem, möglichst abgeleitet aus vorhandenem Wissen. Beim Fragebogen unterscheide zwischen Aussagefragen (was ist die Frage) und Faktorenfragen (wer gibt die Antwort). Finde und implemen-tiere Entscheid Simulation: Beschreibe das System anhand der relevanten Ereignisse. Definiere mathematisches Modell um die Ereignisse zu beschreiben. Lass das Modell durchlaufen und führe Sensitivitätsanalyse durch. Handelt es sich um ein explizites oder implizites Entschei-dungsproblem? Identifiziere die Entscheidungsvariablen (EV) (binär, ganzzahlig oder kontinuierlich), Kriterien, Akteure und Szenarien. Definiere Zielfunktion und Randbedingungen mit EV. Unterscheide zwischen logistischen und inhaltlichen Randbedingungen. Wähle geeignete Entscheidungstheorie (AHP, MAUT, Spieltheorie etc.) für subjektive Bewertungen. Formuliere mathematisches Entscheidungsproblem Erstelle Decision Support System (DSS) mit Darstellung von Information und Wissen und mit Steuerungsvariablen für Sensitivitätsanalyse und Entscheidungsfindung. Erstelle DSS mit Steuerungsvariablen

Entscheidungsvariablen, Zielfunktion und Randbedingungen
Bsp. 1: Entscheide (resp. berechne), welche Zahl zu 3 hinzugezählt werden muss, damit man 10 erhält. Entscheidungsvariable: x Modell: 3 + x = 10 Zielwert: Summe der zwei Zahlen ist gleich 10 Lösung x = 7 Bsp. 2: Entscheide (resp. berechne), welche zwei ganze Zahlen zusammengezählt 10 ergeben und deren Differenz gleich 2 ist. Entscheidungsvariablen: x, y Modell: x + y = 10; x - y = 2 Ziel: Summe der zwei Zahlen ist gleich 10 Randbedingung: Differenz der beiden Zahlen ist gleich 2. Lösung x = 6, y = 4. Der „Solver“ im Excel such mit einem Algorithmus für x und y Werte, so dass das Ziel und die Randbedingung erfüllt sind. Matrizenschreibweise: A . X = b Ctrl+Shift+Enter

Mathematische Optimierung
Entscheidungsvariablen: Wie viele Mio. Fr. (xS) soll eine Gemeinde in das Sozialprogramm (S) und wie viele (xT) in das Transportprogramm (T) investieren? Kriterien Anz. Arbeiter, die für jede Mio. anzustellen sind: for S and 1 for T. Anz. Computer, die für jede Mio. gebraucht werden: 1 for S and 3 for T. Profit für jede Mio.: for S and 2 for T. Zielfunktion Maximiere Profit: P*=max: 1xS + 2xT Randbedingungen Tot. Anz. anzustellender Arbeiter: A*= 32 4xS + 1xT Tot. Anz. zu kaufender Computer: C*= 23  1xS + 3xT Nie vergessen! xS  0; xT  0; xT xS 8 7 6 5 4 3 2 1 A C xS = 6.64 xT = 5.45 P*=17.55 Achtung: Gerundete reelle Lösung ist oft nicht die optimale ganzzahlige Lösung! 4xS + 1xT  32 = A* 1xS + 3xT  23 = C* 1xS + 2xT = max = P* 1 3 1 2 32  23 max  = xs xt A x =mmult(A,x)

Lösung mit Excel Solver
Falls Solver nicht installiert ist:

Lösung mit Open Office

Lösung mit Google Spreadsheets

Optimierung einer Einsatzplanung
Problem: Wie viele Pfleger müssen angestellt werden, wenn die minimale Anzahl Pfleger pro Schicht eingehalten werden muss (links) und jeder Pfleger in zwei sich folgenden Schichten arbeiten muss. EV: xij (ganzzahlig): Anzahl Pfleger in Schicht Si und Sj Zielfunktion: min: x12+x23+x34+x45+x56 +x61 Schicht Nr. anwesende Pfleger benötigte Pfleger x61+x  x12+x  x23+x  x34+x  x45+x  x56+x  Andere Lösungen: 3/2/4/5/8/8 3/2/6/5/6/8

Optimierung der Transportverteilung
Problem: Gesucht ist der billigste Versand der produzierten Autos von den drei Stationen an die vier Destinationen, so dass alle in den drei Stationen produzierten Autos weggehen und alle vier Destinationen genau die bestellte Anzahl Autos erhalten. 12 14 S1: 12 D3: 14 D1: 10 14 8 S2: 15 20 14 D4: 12 D2: 9 16 S3: 18 10 k32 Achtung: wenn man die Randbedingung xij  0 weglässt, dann konvergiert die Lösung nicht!

Schnellster Weg 4 5 1 2 6 3 7 Problem: Gesucht ist der schnellste Weg von San Francisco nach Kairo. 2 5

Lösung von Konflikten Lea Jan q% 100-q% p% 100-p%
Der erwartete Nutzen (n) der beiden ist: nLea=100pq+300p(1-q)+0(1-p)q+200(1-p)(1-q) nJan=100pq+0p(1-q)+300(1-p)q+200(1-p)(1-q) Investition A Investition B q% q% Jan Invesitionen A B p% 100-p% Lea 100 300 A B p% geht zu A und 100-p% zu B q% geht zu A und 100-q% zu B 100 Investitionen Lea Jan 200 Lea‘s Nutzen hängt von Lea‘s p und Jan‘s q ab! Jan‘s Nutzen hängt von Jan‘s q und Lea‘s p ab! 300 200 Lea Invesitionen A B Jan A B Investitionen genügend sehr gut schlecht gut Annahme: Beide Akteure können ihre Investitionen ausschliesslich entweder in A oder B tätigen (d.h. p und q = 0 oder 100%). Wenn Lea annimmt, dass Jan alles in A investiert, dann sollte sie auch alles in A investieren („genügend“ > „schlecht“). Wenn sie annimmt, dass Jan alles in B investiert, dann sollte sie auch alles in A investieren. Somit sollte Lea, unabhängig von Jan, immer alles in A investieren. Die analogen Überlegungen für Jan führen zum Schluss, dass auch er, unabhängig von Lea, alles in A investieren sollte. Somit führt die individuelle Rationalität dazu, dass alles in A investiert werden müsste. Das Systemoptimum wäre aber, wenn beide alles in B investieren würden. Diese Lösung ist aber nicht stabil, denn wenn einer vom anderen weiss, dass er/sie alles in B investiert, dann ist er/sie versucht, alles in A zu investieren, denn das führt zum gewünschten individuellen Optimum.

Dynamische Plots für virtuelle Verhandlungen
Auswahl einer Ausgangsverteilung für p und q Akteure verändern abwechselnd p oder q Verzichtet Gegenpartei auf Reaktion? nein ja Gleichgewicht ist erreicht! web

Sicherheits-Niveau Lea Jan Neue numerische Verteilung: alles zu A
alles zu B q1 q2=(1- q1) p1 0,0 300,100 p2=(1- p1) 100,300 200,200 Lea Sicherheits-Niveau (SN): Garantiertes Minimum bei unabhängigen Entscheiden 0p1+100p2  u* und 300p1+200p2  u* Substitution: x1= p1/u* und x2= p2/u* 0x1+100x2  1 und 300x1+200x2  1 x1+x2: min 0q1+300q2  u* und 100q1+200q2  u* Substitution: x1= q1/u* und x2= q2/u* 0x1+300x2  1 und 100x1+200x2  1 Jan

Gleichgewichtszustände
alles zu A alles zu B q1 q2=(1- q1) p1 0,0 300,100 p2=(1- p1) 100,300 200,200 Nashpunkt Nashgleichgewicht Sicherheitsniveau Lea Jan 300 200 100 Definition Nash-Gleichgewicht: Keiner der beiden Akteure kann (im nächsten Zug) seine eigene Position verbessern, ohne die Hilfe des anderen. Nash-Gleichgewicht (NG): 1-Bewegungs-Horizont 0q + 300(1-q) = 100q + 200(1-q)  q = 1/2; nSN = 150 0p + 300(1-p) = 100p + 200(1-p)  p = 1/2; nSN = 150 Nash-Punkt (NP): min: (nL - nSN)  (nJ – nSN) nL = nJ = 200

Blocktag 1: Nachmittag Bildung Projektteams, Auswahl Thema
Formulierung von Hypothesen anhand von Literatursuche

Gegenstand des Kurses DST
Achtung: Kunde verwechselt oft Problem mit Massnahmen. Bsp.: Kunde sagt, das Problem wären die zu hohen Flugbewegungen und die Frage ist, wie diese zu reduzieren wären; dabei ist das Problem der Lärm und dieser könnte mit leiseren Flugzeugen trotz hoher Flugbewegungen reduziert werden. Analysiere Problem; Datensammlung durch … Erhebung: Man sammle nicht alles mögliche an Daten, sondern nur geschäftsrelevante Daten. Formuliere Hypothesen zum Problem und teste sie mit statistischen Methoden. Erhebung (DWH) Befragung (Akteure) Simulation (Modell) Befragung: Formuliere Hypothesen zum Problem, möglichst abgeleitet aus vorhandenem Wissen. Beim Fragebogen unterscheide zwischen Aussagefragen (was ist die Frage) und Faktorenfragen (wer gibt die Antwort). Finde und implemen-tiere Entscheid Simulation: Beschreibe das System anhand der relevanten Ereignisse. Definiere mathematisches Modell um die Ereignisse zu beschreiben. Lass das Modell durchlaufen und führe Sensitivitätsanalyse durch. Handelt es sich um ein explizites oder implizites Entschei-dungsproblem? Identifiziere die Entscheidungsvariablen (EV) (binär, ganzzahlig oder kontinuierlich), Kriterien, Akteure und Szenarien. Definiere Zielfunktion und Randbedingungen mit EV. Unterscheide zwischen logistischen und inhaltlichen Randbedingungen. Wähle geeignete Entscheidungstheorie (AHP, MAUT, Spieltheorie etc.) für subjektive Bewertungen. Formuliere mathematisches Entscheidungsproblem Erstelle Decision Support System (DSS) mit Darstellung von Information und Wissen und mit Steuerungsvariablen für Sensitivitätsanalyse und Entscheidungsfindung. Erstelle DSS mit Steuerungsvariablen

MAS-BC DST: Projekt Bis zu 4 Studenten bilden eine Gruppe.
Man wähle ein Thema (HWZ Bibliothek, LexisNexis). Man definiere mindestens 3 Hypothesen, je eine mit Zielvariable und Faktor als: (1) beide kontinuierlich, (2) beide kategorisch, (3) ZV kontinuierlich und F kategorisch. Man leite von den Hypothesen einen Internetfragebogen ab, schalte ihn aufs Internet auf. Man simuliere n (>100) Antworten. Man erstelle einen Bericht gemäss Strukturvorgabe (nächste Folie). Abgabe Bericht (als pdf) mit xls Datei, beide gezipped bis am (18:00) inklusive funktionierendem Link für Internetfragebogen an: nur von HWZ accounts aus. Bsp.

Struktur der Berichterstattung (roter Faden)
Management Summary (20% der Note): zuerst Resultate, dann Bedeutung und Empfehlung, erst jetzt Methode und schliesslich nächste Schritte. Das Problem / der Auftrag (20%): Einleitung, worum geht es, Stand des Wissens, Ziel der Arbeit, Hypothesen (abgeleitet aus dem Stand des Wissens), Auswahl der Untersuchungsmethodik (Art der Erhebung). Erhebung / Befragung (20%): Zielgruppe, Repräsentativität, Festlegung des Stichprobendesigns und des -umfangs, Erstellung Fragebogen (Ableitung der Fragen aus den Hypothesen), Programmierung und Aufschaltung des Fragebogens im Internet, Testlauf und Durchführung der Erhebung, Bereitstellung der Datenbank (Excel) für Resultate und Analyse. Analyse der Resultate (20%): Rücklaufbeschrieb (Rate, Probleme bei der Erhebung, Analyse der Repräsentativität, Verfälschungen (Bias) und deren Korrektur), Test der Hypothesen und Diskussion von weiteren Resultaten mit Angabe der Signifikanz. Schlussfolgerungen (20%): Zusammenfassung der wichtigsten Erkenntnisse und Empfehlungen, Relativierung der Resultate aufgrund von möglichen Einschränkungen seitens der Methodik, Verallgemeinerung der Resultate für verwandte Themen, weiteres Vorgehen. Note: 0.5 x Note für persönlichen Teil x Gruppennote (Durchschnitt aller Teile). Hier klicken um Vorlage für (und Beispiel von) Bericht zu sehen

Formulierung von Hypothesen
1. Fragestellung / Antwort Frage: „Gibt es in der Firma Altersdiskri-minierung bezüglich des Salärs (d.h. verdienen „Alte“ mehr als „Junge“, resp. hat das Alter Einfluss auf das Salär)?“ 2. Messung (Operationalisierung) Raten: Die relative Anzahl der Jungen, die schlecht verdienen ist signifikant grösser, als die relative Anzahl der Alten, die schlecht verdienen. Mittelwerte: Das Durchschnittssalär der Jungen ist signifikant kleiner, als das Durchschnittssalär der Alten. Trends: Je älter man ist, desto mehr verdient man. Antwort: Wenn die Unterschiede in Schritt 4 signifikant sind, dann wird die Frage bejaht, sonst verneint. 4. Auswertung (Statistische Tests) rel. Anzahl Alt Jung signifikant gross? 35% 25% Durchschnitts- Salär (1‘000) kant gross? 93 82 Alter Salär a) Raten b) Mittelwerte c) Trends klein? Zu den Tests Trendlinie 3. Fragebogen Zielvariable: Wie viel verdienen Sie? (Fr. pro Jahr) Faktor: Wie alt sind sie? (Anzahl Jahre)

Vergleiche mit mehreren Ausprägungen
Mehrere Raten (T41) „Hat die Position einen Einfluss auf den Gebrauch des ÖV?“ Mehrere Mittelwerte für einen Faktor (T22) „Hat die Position einen Einfluss auf das Salär?“ signifikant gross? signifikant gross? relative Anzahl ÖV-Benutzer 20% 28% Durchschnitts- Salär (1‘000 Fr.) 90 110 15% 60 Angest. Kader Direktion Angest. Kader Direktion Mehrere Mittelwerte für zwei Faktoren (T78) „Sind Länder und Jahre unabhängig bezüglich Medaillengewinne?“ Mehrere Ereignisse (T38) „Sind die Anzahl Fehlermeldungen in mehreren Computersystemen signifikant unterschiedlich?“ signifikant gross? dungen in den Systemen Anhzahl Fehlermel- 90 110 60 Syst. A Syst. B Syst. C Gibt es signifikante Unterschiede zwischen den Ländern, zwischen den Jahren und zwischen Ländern und Jahren bezüglich der Anzahl gewonnener Medaillen? Link zum Buch: „100 Statistical Tests“

Weitere Hypothesen und Messformen
Ausfallraten (T6/25) „Bank A hat 13 Kunden in den letzten 6 Tagen verloren, Bank B 7 Kunden in den letzten 4 Tagen. Geht es Bank A schlechter, als Bank B?“ Vorher-Nachher Befragung (T23) „Von 105 befragten Leuten fanden 30 ein Restaurant sowohl vor wie auch nach dem Besitzerwechsel gut, 51 fanden es weder vor noch nachher gut, 9 fanden es vorher gut aber nachher schlecht und 15 fanden es nachher gut und vorher schlecht. Hat der Wechsel etwas gebracht?“ Abgänge pro Tag Bank A Bank B signifikant gross? 2.2 1.8 signifikant gross? 15 Anzahl 9 nach gut vor gut vor schlecht nach schlecht Ranglisten (T59) „Das Abschneiden von vier Produkten (A: Äpfel etc.) in Region 1 ist (A,B,C,D) und in Region 2 (B,A,C,D). Stellen die zwei Regionen signifikant unterschiedliche Märkte dar?“ Trendfluktuationen (T70) „Der Umsatz geht mal rauf, mal runter. Sind diese Trendfluktuationen zufällig oder gibt es ein signifi-kantes Muster?“ Ist ein signifikantes Muster für die Trendfluktuation vorhanden? A B C D signifikant anders? desto besser Je höher Region Region 2

Noch mehr Hypothesen und Messformen
Veränderung von Raten (T84) „Die als Raten gemessene Altersdiskriminierung wird vor und nach der Einführung von Gegen-massnahmen gemessen. Ist der Unterschied signifikant?“ Hierarchische Gruppierung (T80) „Geben unterschiedliche Lehrer an unterschiedli-chen Schulen signifikant unterschiedliche Noten?“ rel. Anzahl Alt Jung 35% 32% nach Gegen- massnahmen 35% signifikant anders? rel. Anzahl 25% Alt Jung vor Gegen- massnahmen Gibt es signifikante Unterschiede unter den Lehrer an den drei Schulen und unter den Schülern für die drei Lehrer? Scheintrends „Ist der beobachtete Trend „Je grösser die Ausstellungsfläche, desto mehr Orangen werden verkauft“ nur ein Scheintrend, der vom Standort der Ware verursacht wird (d.h. bei konstantem Standort gibt es den Trend nicht)?“ Konditionierte Trends „Hängt der Trend „Je kälter/wärmer das Getränke ist, desto besser schmeckt es“ davon ab, von der Jahreszeit (Sommer/Winter) ab?“ Wohlbefinden Trendlinie Trendlinie beide Trend- linien sind signifikant? Scheintrend Laden- ende gibt es für beide Standorte keine Signifikanten Trendlinien? Wohlbefinden Laden- eingang Umsatz Temperatur Temperatur Winter Sommer Ausstellungsfläche

Themen und Hypothesen 2008 Das Fluktuationsverhalten von Mitarbeitenden H: Um die guten MAs zu halten, muss man die schlechten schicken H: Hohe Basissaläre verhindern keine Fluktuation Das Tresorgeschäft in Zeiten der Bankkrise H: In der Bankkrise gibt es mehr Tresorkunden auf dem Land als in der Stadt H: Grosses Vertrauen in die Bank verstärkt Vertrauen in eigenen Tresor Einfluss der Finanzkrise auf den Immobilienmarkt H: Personen mit höherem Einkommen reduzieren das Investitionsvolumen mehr als solche mit tieferem Einkommen H: In der Süd-CH sinken die Mietkosten stärker als in der Deutsch-CH. Wirkung einer Preiserhöhung bei der SBB auf die Passagierszahl H: Schlechter Verdienende sind eher bereit nach Alternativen zu suchen H: Personen, die geschäftlich unterwegs sind, haben eine höhere Zahlungsbereitschaft für ein kostenintensives Ticket als Privatreisende

Themen und Hypothesen 2007 Boreout
H: Boreout betrifft mehr Mitarbeiter in administrativen Berufen H: Boreout kommt bei über 18-jährigen Arbeitstätigen im Kanton Zürich vor Die Leserschaft von Gratiszeitungen H: Die örtliche & zeitliche Verfügbarkeit einer Gratiszeitung ist entscheidend für ihren Erfolg H: Auch bei Gratiszeitungen entscheiden die Leser nach Themen und Aufmachung Bedeutung des Kino heute Die Wahl Kino oder Heimkino wird massgebend durch das Genre bestimmt H: Steigende Preise bei Kinotickets (bei sinkenden Preisen für DVDs) wirken sich negativ auf die Kinobesuche aus. Empfundene Produktqualität und Einkaufspräferenz bei Migros und Coop H: Wenn Migros die Preise leicht über Coop heben würde, würden die Migroskunden weiterhin bei Migros einkaufen H: Die Produktqualität bei Migros wird als besser empfunden als bei Coop

Themen und Hypothesen 2007 Powernapping
H: Mitarbeiter, die power-nappen, arbeiten effizienter H: Manager betreiben aus Image-Gründen kein Powernapping Mobility - CarSharing H: Je höher das Einkommen, desto höher die Ansprüche an CarSharing bezüglich Komfort und Qualität der Dienstleistungen H: Je dichter das Standortnetz desto mehr Kunden

Themen und Hypothesen 2006 Abfallentsorgung in der Stadt Zürich
H: Die Bevölkerung möchte Zeitungen/Karton/PET zur Sammelstelle bringen H: Das Trennverhalten der Personen wird vom Bildungsstand beeinflusst EURO 08 H: Frauen sind wider Erwartungen keine Fussballmuffel H: Die Spiele werden mehrheitlich auswärts verfolgt (Stadion, Rest. etc.) Musik im Internet H: Frauen sind sich der Illegalität eher bewusst als Männer H: Ältere Personen sind bereit für Musik einen höheren Preis zu bezahlen als jüngere Personen Alkoholwerbung und Trinkverhalten H: Personen, die regelmässig Alkohol konsumieren, reagieren auch aktiver auf Alkohol-Werbung H: Jugendliche sind durch Alkoholwerbung beeinflussbarer als Erwachsene

Themen und Hypothesen 2006 Roadpricing
H: Roadpricing in Zürich wird abgelehnt H: Die Zahlungsbereitschaft für Roadpricing in Zürich ist tief Leistungsorientiertes-Qualifikations-System für Lehrpersonen an der Volksschule Zürich H: Lehrpersonen haben eine negative Einstellung zum LQS H: Das LQS macht das Berufsbild der Lehrpersonen attraktiver

Themen und Hypothesen Fiktive Beispiele
Entwicklung des Immobilienmarktes in der Region Zürich H: Trotz vielen neuen Wohnungen ziehen Familien weg von den Städten H: Singles ziehen vermehrt in die Stadt in Mietwohnungen Diskriminierung am Arbeitsplatz und in der Gesellschaft H: Kinder haben schadet der Karriere nicht H: Die Alterdiskriminierung ist im Vormarsch Mobilitätsmuster im Grossraum Zürich H: Mobility zieht neue Autofahrer-Gruppen an H: Glatttalbahn erhöht Pendlerströme Wahlprognosen für die Nationalratswahlen 2011 H: Die grossen Parteien sind „wählergesättigt“ H: Frauen interessieren sich vermehrt für Politik Bedeutung der Alkoholwerbung auf das Trinkverhalten im Kt. ZH H: Werbung animiert jugendliche mit dem Trinken anzufangen H: Warnhinweise halten Autofahrer nicht ab, angetrunken zu fahren

Nach- und Vorbereitung Studierende Tag 1
Aufwand (ca) Thema Hilfsmittel Besonderes 3 Std. Abschluss der unvollendeten Arbeiten während Tag 1 (bis und mit Formulierung der Hypothesen) Internet Gruppenarbeit 2 Std. Repetition Excel-Übungen vom Morgen Excel Einzelarbeit

Blocktag 2: Morgen Ablauf einer Internetbefragung
Zielgruppen und Stichproben Definition von statistischen Hypothesen Repräsentativität und Fehler bei der Erhebung Testen von Statistischen Hypothesen

Befragungen „Die sorgfältigere Entwerfung der Erhebungsformulare ist eine Errungenschaft der neuesten Entwicklung der Statistik. … Der Wunsch möglichst rasch alles zu erfahren, was man wissen wollte, liess keine Zeit zu einer sorgfältigeren Fertigstellung der Erhebungsmethode. Man begnügte sich mit der Angabe der Gliederung, in welcher das Ergebnis der betreffenden Erhebung schliesslich erscheinen sollte, ohne sich über die Art der primären Fragestellung zu äussern … Eine solche in hohem Grade bedenkliche Behandlung selbst wichtiger Zweige der Statistik ragt teilweise noch bis in die neueste Zeit herein.“ Die Gesetzmässigkeit im Gesellschaftsleben. Statistische Studien von Dr. Georg Mayr (1877), S. 40.

Ablauf der Befragung Problem / Auftrag Ableitung von Hypothesen
Problem / Auftrag: Worum geht es, was ist das wahre Problem des Kunden, was ist der Stand des Wissens zum Problem, was das Ziel der Arbeit. Z.B. Junge Leute werden dicker und bewegen sich weniger. Hypothesen: Man leite aus dem Stand des Wissens Hypothsen ab. Hypothesen sind nicht persönliche Fragestellungen, sondern allgemein unbeantwortete Vermutungen oder Theorien zu kausalen Ursache-Wirkung Zusammenhängen (z.B. “Schlechte Nahrung macht dick und träge”). Fragen: Man formuliere Fragen, mit denen die Hypothesen getestet werden können respektive Antworten auf das Problem gefunden werden können. Keine unnötigen Fragen stellen. Z.B. “Wie oft essen Sie Fastfood?”, “Wie schwer sind Sie?” und “Wie oft bewegen Sie sich?”. Zielgruppe/Stichprobe: Über wen soll etwas ausgesagt werden respektive über wessen Problem soll eine Antwort gefunden werden? Geht es nur um Jugendliche oder alle Personen, welche Altersgruppen, welche Regionen etc.? Der Umfang und die Zusammenstellung der Stichprobe muss repräsentativ für die Zielgruppe sein. Man führe den Kuchentest durch: “Wie soll ich möglichst wenig vom Kuchen probieren, um möglichst viel über den Kuchen aussagen zu können. Durchführung: Einladung der Stichprobe, Vergabe von Passwörtern, Aufschaltung auf das Internet, Überwachung der Datensammlung, Nacheinladung bei Nichtbeantwortung etc. Rücklauf: Was ist die Rücklaufrate? Sind die Proportionen der Antworten repräsentativ? Wenn nicht, soll man Nichtbeantworter nochmals kontaktieren oder Antworten einfach Hochrechnen? Analyse: Man teste die Hypothesen, sind die Zusammenhänge statistisch signifikant? Gibt es noch weitere interessante Zusammenhänge? Ableitung von Hypothesen Formulierung von Fragen Definition Zielgruppe, Auswahl Stichprobe Durchführung Erhebung Überprüfung / Korrektur Rücklauf Datenanalyse, Interpretation, Antworten

Definition von Hypothesen
n-Faktor Hypothesen Faktoren (erklärende Variablen) Zielvariablen (Aussagevariablen) Alter (Jahre) Jeder Pfeil stellt eine mögliche Hypothese dar (0- oder 1-Faktor Hypothese) 1-Faktor Hypothesen z. B. „Position hängt vom Geschlecht ab“ (z. B. Männer sind öfters Kader als Frauen), stellen Abhängigkeiten zwischen Faktoren und Zielvariablen dar. n-Faktor Hypothesen 0-Faktor Hypothesen Geschl. (M/F) Salär (CHF) Note (1-6) Position (Ka/SB) Fach (SW/IW) Branche (B/V/I)

Fragebogen Begrüssung, Angabe der benötigten Zeit für das Ausfüllen
Zuerst die Zielgrössen fragen, dann die Faktoren Nicht zu viele Fragen, nur jene, um die Hypothesen testen zu können Skalen: kontinuierlich, kategorisch, oder offene Kategorische Skala („Likert Scale“): gar nicht eher nicht neutral eher dafür sehr dafür keine Meinung

Zielgruppe und Stichprobe
(Wahrheit) 3. Erhebung der Daten aus der Stichprobe 2. Auswahl der Stichprobe aus der Zielgruppe Stichprobe (Beobachtung) 1. Definition der Hypothesen resp. Fragestellungen 4. Test der Hypothesen und Rück-schlüsse auf die Zielgruppe Die Hypothesen werden für die gesamte und unbekannte Zielgruppe formuliert. Um Aufwand, Geld und Zeit zu sparen, werden sie aber anhand einer Stichprobe getestet. Damit die Resultate aus der kleinen Stichprobe möglichst gültig sind für die gesamte Zielgruppe, ist wichtig dass: die Stichprobe ein möglichst guter Querschnitt der Zielgruppe ist (d.h. die Stichprobe ist repräsentativ für die Zielgruppe), die Resultate der Stichprobe möglichst signifikant sind, d.h. die Unsicherheit (Irrtumswahrscheinlichkeit), dass die Folgerungen auf die Zielgruppe falsch sein könnten, muss möglichst klein sein.

Testen von Hypothesen Wirklichkeit Rückschluss Gericht
Ist der Angeklagte schuldig? H0: Der Angeklagte ist schuldig. H1: Der Angeklagte ist unschuldig. Unsere Zielgruppe ist die Wirklichkeit. Unsere Stichprobe ist das Gericht. Wirklichkeit Rückschluss H0: schuldig H1: unschuldig Richtiger Rückschluss: (WS = 1-a) Falscher Rückschluss (WS = b) Gericht unschuldig schuldig Falscher Rückschluss (WS = a) Richtiger Rückschluss (WS = 1-b) Wir möchten die Irrtumswahrscheinlichkeiten a (ein Schuldiger wird vom Gericht freigesprochen) und b (ein Unschuldiger wird vom Gericht schuldig gesprochen) möglichst klein haben.

Was heisst Unsicherheit?
H0 (in Wirklichkeit schuldig) Wir nehmen an, dass die „Verteilung“ der Prozen-tualen Schuldsprechungen einer Dreiecksverteilung entspricht. Die Fläche des Dreiecks ist 100%. Somit ist die Höhe des Dreiecks gleich 2. 100% Prozentuale Schuldsprechung der Geschworenen Wenn wir a (d.h. die Wahrscheinlichkeit, dass ein Schuldiger freigesprochen wird) z.B. 5% haben möchten, respektive wir möchten zu 95% sicher sein, dass ein Schuldiger nicht freigesprochen wird, dann kann man mittels einfachen Dreiecksberechnungen berechnen, bei welcher Prozentzahl die blaue Fläche 5% ist, wenn man weiss, dass die gesamte Fläche 100% ist. Die Lösung ist, dass die a = 5% dem Wert von 22.36% entsprechen. D.h. mit 5% Wahrscheinlichkeit stimmen höchstens 22.36% den Angeschuldigten schuldig. M.a.W. wenn höchstens 22.36% der Geschworenen den Angeklagten schuldig sprechen, dann verwerfen wir H0 zugunsten von H1, d.h. wir schliessen, dass er unschuldig ist und täuschen uns in dieser Aussage zu höchstens 5%, resp. wir sind mind. 95% sicher, dass er unschuldig ist. 100% % H0 (in Wirklichkeit schuldig) a Prozentuale Schuldsprechung der Geschworenen 100% % 22.36%

Zusammenhang zwischen a und b
Wenn wir nebst H0 auch H1 eintragen, dann nehmen wir an, dass die Verteilung entsprechend spiegelbildlich ist. Die Fläche für b ist die Wahrscheinlichkeit, dass man einen unschuldigen für schuldig erklärt. Gerne möchte man a und b möglichst klein haben. Man sieht aber, dass je kleiner man a macht, desto grösser wird b. Der Zusammenhang ist unten dargestellt. H0 (in Wirklichkeit schuldig) a Prozentuale Schuldsprechung der Geschworenen 100% % 22.36% H1 (in Wirklichkeit unschuldig) b Prozentuale Schuldsprechung der Geschworenen Wie können wir sowohl a wie auch b möglichst klein halten? Indem wir die Anzahl Beobachtungen in der Stichprobe erhöhen. Dann verändert sich die Dreieckskurve in eine Kurve folgender Art: 100% % a klein und b klein

Wie wählen wir a und b, resp. n ?
Zuerst müssen wir wissen, was der Zusammenhang (d.h. die Funktion) zwischen dem Stichprobenumfang n und a und b ist. Angenommen wir wissen dies (fa(n) und fb(n)), dann stellt sich die Frage, was kosten uns die zwei Fehlerarten, respektive was für einen Ertrag bringen uns korrekte Entscheide. Wirklichkeit H0: schuldig H1: unschuldig Richtiger Rückschluss: (WS = 1-a, Ertrag = E0) Falscher Rückschluss (WS = b, Schaden = S1) Gericht unschuldig schuldig Falscher Rückschluss (WS = a, Schaden = S0) Richtiger Rückschluss (WS = 1-b, Ertrag = E1) Der erwartete Nutzen ist: N = E0(1-a) + E1(1-b) + S0a + S1b, respektive als Funktion von n: N = E0(1-fa(n)) + E1(1-fb(n) + S0fa(n) + S1fb(n). Somit können wir entscheiden, wie wir n wählen müssen, um den Profit zu maximieren.

Rechner für Stichprobenumfang
Link

Zufällige Auswahl der Stichprobe
Jede Person der Zielgruppe wird zufällig gewählt oder nicht. Die Wahrscheinlichkeit der Wahl wird vorgegeben. Zufallsstichprobe einfacher Zufall systematische Stichprobe geschichtete Stichprobe Klumpen-stichprobe

Einfacher Zufall Jede Person hat die gleiche Wahrscheinlichkeit gewählt zu werden. Auswahl kann mit oder ohne “Zurücklegen” geschehen (z.B. eine Person könnte mehrmals befragt werden). Zufallszahlen werden vom Computer generiert. Falls der Stichprobenumfang gross ist im Vergleich zur Gesamtheit, dann hat man automatisch eine repräsentative Stichprobe.

Systematische Stichproben
Lege gewünschten Stichprobenumfang fest: n. Teile Gesamtheit N in Gruppen von k Personen: k = N / n. Wähle zufällig eine Person aus der ersten Gruppe. Danach wähle jede k-te Person. Bsp.: Qualitätskontrolle N = 64 n = 8 k = 8

Geschichtete Stichproben
Die Zielgruppe ist in zwei oder mehr Gruppen geteilt, gemäss gewissen Kriterien (z.B. Kantone). Aus jeder Gruppe wird eine einfache Stichprobe gezogen. Die Stichproben werden zu einer Gesamtstichprobe zusammengefügt.

Klumpenstichprobe Gesamtheit in 4 Schichten geteilt.
Die Gesamtheit ist in verschiedene Schichten aufgeteilt, wobei jede Sicht repräsentativ ist für die Gesamtheit (z.B. Parallelklassen). Von jeder Schicht wird eine einfache Zufallsstichprobe gewählt. Die Stichproben werde zu einer Gesamtstichprobe zusammengefügt. Gesamtheit in 4 Schichten geteilt.

Fehler über Fehler Modeling bias: z.B. falsche Verteilungsannahmen
Confirmation bias: Suche nach Bestätigung von Vermutungen Publication bias: Suche nach Neuem zum Publizieren Problem bias: Problem falsch verstanden Questionnaire bias: z.B. suggestive Fragen/Antworten Survey bias: z.B. inkonsistente Befragungsweise Universe bias: Falsche Zielgruppe Selection bias: z.B. nur verärgerte Personen nehmen teil Recall bias: Erinnerung bestimmt Antwort Response bias: z.B. Männer sind befragungsmüde List of cognitive biases: Denkfehler Data Mining: Unfähigkeit der Statistiker zu Modellieren

Repräsentativität Sind die Verhältnisse der Faktoren richtig erfasst? Population Stichprobe Faktoren Zielvariable(n) M F Ka SB H1 M F Ka SB Ges. (M/F) 20% 30% 40% 10% 20% 30% 40% 10% H1 Position (Ka/SB) Alter (J/A) H2 J A Ka SB J A Ka SB H2 ? = H3 10% 40% 35% 15% 10% 40% 35% 15% Region (D/F/I) D F I Ka SB 40% 10% 5% 10% 30% 5% D F I Ka SB 40% 10% 5% 10% 30% 5% H3

Blocktag 2: Nachmittag Gestaltung, Realisierung und Aufschaltung eines Internetfragebogens Generierung von Antworten in Excel

Beispiel: Absolventenstudie
Datenbank Erhebungsmaske Name Alter Geschl. Diplom- note Seme- ster Fach Bran- che Position Salär Fragestellungen: Verdienen bessere Studenten mehr als schlechtere? Brauchen Soz-Wiss (SW) Studenten länger für ihr Studium als Ing-Wiss (IW) Studenten? Weitere Fragen: ...

Datenübersicht Datenbank Datenpunkt Datensatz Datenübersicht:
Datenvalidierung Umgang mit fehlenden Daten

Beispiel Fragebogen Zielvariablen (interessierte Aussagen) Faktoren
(Eigenschaften der Befragten)

Software für Internetbefragungen
LetMeKnow (via HWZ) Umfrage Online SPSS Online-Umfragen SurveyMonkey LimeSurvey UniPark Software PoppyDog 2ask Weitere Software Survey Google Survey

Aufwand (ca) Thema Hilfsmittel Besonderes 3 Std. Generierung von Antworten in Excel Excel Gruppenarbeit 2 Std. Erstellung der Struktur des Berichtes Word Funktionierender Link für Internetfragebogen bis am xx an: nur von HWZ Adressen aus.

Blocktag 3: Morgen Deskriptive Statistische Analysen mit Diagrammen
Induktive Statistische Analysen der Hypothesen für Proportionen (Chi2-Test) Induktive Statistische Analysen der Hypothesen für Mittelwerte (t-Test)

Histrogramm Extras Analysefunktionen Histogramm

Drei Arten der Datenanalyse
Deskription (Beschreibung): Suche in den Daten nach interessanten Informationen Verifikation: Testen von vorgegebenen Hypothesen Induktion: Extrapolation (z.B. Prognosen) oder Interpolation (z.B. Schätzungen von Zwischen-werten)

Populationskenngrössen
Extras Analyse-Funktionen Es gibt keinen eindeutigen Modalwert (siehe Histogramm) Populationskenngrössen Mit 95% Wahrscheinlichkeit enthält das Interval von bis den wahren Mittelwert der Population.

Schätzung der Gesamtpopulationsmenge
Punktschätzer für die totale Population: Vertrauensintervall für das Total: Bsp.: Die Summe von N=5‘000 Rechnungen ist gesucht, wenn n=100 Stichproben genommen wurden, mit X = CHF und S = CHF. Für das 95% KI erhalten wir t99 = : - Total = 5‘000x = 551‘350 CHF - KI = ± 551’350x1.9842x28.95/10x((5’ )/(5’000-1)) = 28’ CHF

Pivot Tabellen

Graphische Darstellung in Excel
Grundsätze Jede Abbildung muss selbsterklärend sein mit Titel, Text, beschrifteten Achsen, Einheiten und Werte in der Abbildung. Jede Abbildung muss im Text besprochen werden, mit zusätzlichen Erklärungen und Interpretationen.

Linien (2D) Abb. 1: Das Durchschnittssalär nimmt mit zunehmender Note stetig ab. Abb. 2: Das Durchschnittssalär nimmt mit zunehmender Note stetig ab. Beachte: Abb. 1 und Abb. 2 sind analog. Nur eine durchgezogene Linie in Abb. 1 (ohne die Punkte und die Werte) wäre irreführend, denn die Verbindungslinie stellt ja keine Beobachtungen dar, sondern dient lediglich der Illustration des Trends.

Kreis (2D) Abb. 3: Durchschnittssaläre nach Branchen in 1‘000 CHF. Abb. 4: Durchschnittssaläre nach Branchen in 1‘000 CHF. Beachte: Abb. 3 und Abb. 4 sind analog. Jedoch ist eine Kuchendarstellung (Abb. 3) für Durchschnittssaläre irreführend, denn die Summe der drei Durchschnittssaläre (100%) macht keinen Sinn.

Punkt (XY) (2D) Abb. 5: Saläre und Alter von 10 Personen.

Säulen Stabdiagramme (3D)
Abb. 6: Durchschnittssaläre (1‘000 CHF) nach Branchen, Studienrichtung und Geschlecht. Beachte: Ähnlich wie in Abb. 3 macht die Darstellung der Summe der Durchschnittssaläre für Frauen und Männer auf der x-Achse auch hier wenig Sinn, denn die Summe der beiden Durchschnitte ist nicht gleich dem Gesamtdurchschnitt in der jeweiligen Branche pro Studienrichtung.

Blase (4D) Abb. 7: Saläre (1‘000 CHF) und Alter für 10 Personen mit Abschlussnoten (1-6 als Radius der Kreise).

Netz (mD) Normalisierung: xi – xs xb - xs yi =
xi : zu transformierender Wert xs : schlechtester Wert xb : bester Wert yi : transformierter Wert Normalisierte Werte (je weiter draussen, desto besser) Abb. 8: Normierte Werte für 10 Personen (Reihe 1 bis 10).

Aussagen und Testen von 0-Faktor Hypothesen
Mittelwerte „Ist das Durchschnittssalär grösser als 115?“ Bsp.: Die n = 10 Mitarbeitenden haben ein beobach-tetes Durchschnittssalär von m = und eine beobachtete Standardabweichung von s = 39.6 (siehe Zahlenwerte links in der Excel Tabelle). Um die Wahrscheinlichkeit zu berechnen, dass ein Durchschnittssalär grösser ist als z.B. 115 muss man zuerst Z berechnen: Mit Z berechnet man die Wahrscheinlichkeit wie folgt: „=1-NORMVERT(1.156;0;1;WAHR)“ = 12.4%. Mit einem akzeptablen Höchstwert von 5% müssten wir die Hypothese „Das Durchschnittssalär der Gesamtbelegschaft ist grösser als 115“ ablehnen. Salär (Fr.) Salär: kategorisch. Frage: „Wie genau kann das Durchschnittssalär bestimmt werden?“ Antwort: „Das Durchschnittssalär der zehn Personen ist ± 24.6.” Oder: “Mit 95% Sicherheit liegt das Durchschnittssalär zwischen 99.2 und ” Z Z = Z = 1.64 p = 5% Z = 1.156 p = 12.4% Proportionen „Ist der Prozentanteil der Kaderleute grösser als 20%?“ Position (Ka/SB) Bsp.: von n =100 Mitarbeitenden einer Stichprobe sind 23 (23%, p=0.23) im Kader. Mit 95% Sicherheit liegt die Prozentzahl der Kaderleute zwischen 23-c und 23+c. Mit 95% Sicherheit liegt die Prozentzahl der Kaderleute zwischen 14.2% und 31.3%. Die aus der Stichprobe geschätzte Prozentzahl der Kaderleute ist 23 ± 8.3 Prozentpunkte. Bsp.: Von den n =100 Mitarbeitenden aus der Stichprobe sind 23% (p=0.23) im Kader. Um die Wahrscheinlichkeit zu berechnen, dass in der Gesamtfirma mehr als z.B. 20% im Kader sind muss man zuerst Z berechnen: Mit Z berechnet man die Wahrscheinlichkeit wie folgt: „=1-NORMVERT(1.169;0;1;WAHR)“ = 12.1%. Mit einem akzeptablen Höchstwert von 5% müssten wir die Hypothese „In der Gesamtfirma sind mehr als 20% im Kader“ ablehnen. Z Z = Z = 1.64 p = 5% Z = 1.169 p = 12.1%

Testen von 1-Faktor Hypothesen
„Alter hat Einfluss auf Salär“ (Alter und Salär sind abhängig) „Alter hat keinen Einfluss auf Salär“ (Alter und Salär sind unabhängig) Alter (jung/alt) Salär (hoch/tief) Alter (jung/alt) Salär (hoch/tief) Salär: kategorisch Alter: kategorisch zum Chi2-Test Salär: kontinuierlich Alter: kategorisch zum t-Test Salär: kontinuierlich Alter: kontinuierlich zur Regression

Chi2-Test (pM  pF) Geschl. Salär
1-Faktor Hypothese (beide kategorische Werte: M/F und h/t) Frage: „Hängt das Salär vom Geschlecht ab.“ Z.B. „Überproportionale viele Männer (pM) haben hohe Saläre als Frauen (pF).“ H: pM > pF. Chi-2-Test Geschl. (M/F) Salär (hoch/tief) Verteilung Die beobachteten Werte (rote Zahlen in der gelben Kontingenztabelle) unterscheiden sich signifikant von den erwarteten* Werten (blaue Zahlen in der blauen Tabelle). Somit ist das Salär vom Geschlecht abhängig. Mit der Aussage „Das Salär ist vom Geschlecht abhängig“ irrt man sich zu 0.16%, was eine sehr kleine Irrtumswahrscheinlichkeit (resp. Signifikanzniveau) ist. * „erwartet“ im Sinne, dass Geschlecht keinen Einfluss auf Salär hat.

t-Test (mG  mS) Geschl. Salär t t
1-Faktor Hypothese (kategorische Werte (M/F) und kontinuier-liche Werte (Fr.) Geschl. (M/F) Salär (Fr.) Frage: „Hängt das Salär vom Geschlecht ab?“ Z.B. „Männer (mM) verdienen im Schnitt mehr, als Frauen (mF).“ H: mM > mF. t-Test 1-Faktor Varianzanalyse (ANOVA) p = 15.4% p = 5% t t = t = 1.89 t = 1.097 p = 2.5% p = 2.5% t Der p-Wert ist grösser als 5%; somit schliessen wir, dass das Geschlecht keinen Einfluss hat auf das Salär. t = t = t = 2.36

Blocktag 3: Nachmittag Induktive Statistische Analyse der Hypothesen für Korrelationen (Regressionsanalyse) Abschluss des Berichtes

Statistik und Interpretation
Jeder Punkt im obigen Diagramm zeigt für verschiedene Filialen deren Ausstellungsfläche (AF) für Orangen und die erzielten Umsätze (U). 1. Interpretation (Korrelation): Je grösser die AF, desto mehr U wird gemacht. Somit müssen alle Filialen mit kleinen AF ihre AF sofort vergrössern, damit sie mehr U machen. 2. Interpretation (Kausalität): AF und U haben keinen Zusammenhang. Die Tatsache, dass es in der markierten Zone im Diagramm keine Filialen hat bedeutet, dass Filialen mit kleinen AF offenbar die AF nicht genügend schnell nachfüllen, wenn sie leer werden, und sie deshalb bei kleiner AF weniger Umsatz machen. Äpfel weit weg Äpfel in der Nähe 3. Interpretation (Partielle Korrelation): Die drei Gruppen im Diagramm stehen für Filialen, welche die Orangen beim Eingang, in der Ladenmitte und hinten im Laden aufgestellt haben. U wird nicht von AF beeinflusst, sondern es ist die Lage, welche sowohl U wie auch AF beeinflusst. D.h. bei konstanter Lage (z.B. „Mitte“) gibt es keine Korrelation zwischen AF und U. 4. Interpretation (Interaktion): U hängt nicht nur von der Lage der Orangen ab, sondern auch von der Lage der Äpfel. Werden Orangen und Äpfel nebeneinander verkauft, sinkt der totale Umsatz, liegen sie aber weiter auseinander, nimmt er zu.

1-Faktor Regressionsanalyse (b0  0, b1  0)
1-Faktor Hypothese (beide kontinuierliche Werte: Jahre, Fr.) Alter (Jahre) Salär (CHF) Frage: „Hängt das Salär vom Alter ab?“ Z.B. „Je älter man ist, desto mehr verdient man: positive Korrelation (rAS). H: rAS > 0. Korrelationsanalyse, Kurvenanpassung 1-Faktor Regressionsanalyse Salär = b1Alter + b0 Um die Signifikanz der Koeffizienten a und b zu testen, muss man die Regressionsanalyse durchführen. Offenbar sind die beiden Koeffizienten signifikant, denn beide p-Werte sind kleiner als 5%. Wir akzeptieren die Hypothese, dass das Salär vom Alter abhängig ist. Salär = 8.62xAlter –

1-Faktor Regressionsanalyse
Zusammenhang zwischen der Steigung a und dem Korrelationskoeffizienten r Regressionslinie: y = ax + b a = r  sy / sx r: Regressionskoeffizient sx: Standardabweichung der x Werte sy: Standardabweichung der y Werte b = my – a  mx mx: Mittelwert der x Werte my: Mittelwert der y Werte x y y = ax + b dy dx a = dy dx b

2-Faktor Regressionsanalyse
2-Faktor Hypothese (alles kontinuierliche Werte) Alter (Jahre) „Das Salär hängt vom Alter und von der Note ab?“ Z.B. „Je älter man ist und je besser die Note, desto mehr verdient man (Salär ist lineare Funktion von A und N: S = k1xA + k2xN + k3). H: k1 > 0, k2 > 0, k3 > 0. 2-Faktor Regressionsanalyse Salär (Fr.) Salär = b1Alter + b2Note + b0 Note (1-6) Gleiches Vorgehen im EXCEL, wie mit einem Faktor, mit dem Unterschied, dass es zwei x-Variablen (Alter und Note) hat. Gesucht wird das Modell, welches maximales adjustiertes Bestimmtheitsmass (adj. R2) hat und alle Koeffizienten signifikant sind (p <= 5%). Mit beiden Variablen ist das Regressionsmodell nicht zulässig, da der p-Wert des Schnittpunktes nicht signifikant ist. Da nur der Koeffizient des Schnittpunkts nicht signifikant ist, kann man in EXCEL den Schnittpunkt = 0 festlegen; Alter und Note sind signifikant und somit wird adj. R2 = 0.86. Alter und Note haben grosse Korrelation; das Modell hat somit eine grosse Multikollinearität. Es müsste deshalb untersucht werden, ob nur das Alter als unabhängige Variable genommen werden sollte. Mit nur dem Alter als unabhängige Variable erhält man adj. R2 = 0.71. Salär = 7.33xAlter – 16.41xNote

Typs zur Regressionsanalyse (1/3)
Gesucht wird das Modell, welches maximales adjustierte Bestimmtheitsmass (adj. R2) hat und alle Koeffizienten signifikant sind (p ≤ 5%). Wenn nur der Koeffizient des Schnittpunkts nicht signifikant ist, kann man in EXCEL den Schnittpunkt = 0 festlegen. Grosse Multikollinearität (Korrelation zwischen unabhängigen Variablen) muss vermieden werden. Es lohnt sich, schrittweise das Modell zu bilden, indem man zuerst nur mit jener unabhängigen Variablen beginnt, die am stärksten mit der abhängigen Variablen korreliert; dann fügt man neue Variablen hinzu, solange das adj. R2 wächst. Wenn zwei unabhängige Variablen grosse Interaktion aufweisen, dann muss man eine neue Variable einführen, welche das Produkt der beiden Variablen ist; das lineare Modell wird somit erweitert zu einem nicht-linearen Modell mit Termen höherer Ordnung. Kategorische Variablen (z.B. Berufsklassen) können auch berücksichtigt werden, indem man für diese Indikatorvariablen (nehmen Werte 0 oder 1 an) einführt. Bei n Kategorien, führt man n-1 Indikatorvariablen ein. Die Indikatorvariable nimmt den Wert 1 an, wenn die entsprechende Beobachtung zutrifft, sonst 0. Wenn eine unabhängige Variable nicht linear, sondern gemäss einer anderen Funktion korreliert, dann kann man diese Variable transformieren und somit die Korrelation mit der abhängigen Variablen erhöhen (siehe unten). Die lineare Regression ergibt ein R2 = 79%, während die exponentielle Funktion ein R2 = 89% hat. Somit soll man die x-Werte gemäss dieser exponentiellen Funktion glätten und dann mit den geglätteten Werten eine Regressionsanalyse durchführen.

Wichtigkeit einer Variablen Mit der ANOVA Tabelle können wir das Bestimmtheitsmass r2 berechnen: r2 = SSR/SST berechnen. Der Anteil, den eine Variable Xk zur Erklärung der totalen Variabilität leistet, r2k, stellt die Wichtigkeit dieser Variablen dar und berechnet sich wie folgt: SSRalle-k: SSR aus der Regression unter Ausschluss von Variable k 1. Voraussetzung für Lineare Regression Salär = 7.33xAlter – 16.41xNote Normalverteilung der Fehler mit Mittelwert = 0 („beobachtetes Salär“ minus „mit Regression vorausgesagtes Salär“) Normalverteilung der Fehler liegt nicht vor (Abb. links) Ist die Annahme einer Normal-verteilung des Fehlers nicht gegeben, dann gelten die statistischen Tests nicht und das R2 wird zu klein.

2. Voraussetzung für Lineare Regression Salär = 7.33xAlter – 16.41xNote Homoskedastizität (Streuung der Fehler hängt nicht mit der Grösse der x-Werte ab; kleine x-Werte haben kleinere Varianz, während grössere x-Werte haben grössere Varianz) Bild links; die Fehler nehmen mit zunehmenden x-Werte zu. Die Verletzung der Homoskedastizität führt dazu, dass die statistische Signifikanz der Regression falsch interpretiert wird. Man kann dieses Phänomen durch die sog. „gewichtete Methode der kleinsten Quadrate“ beheben. Eine Verletzung der Homoskedastizität nennt man Heteroskedastizität; d.h. die Varianz der Residuen ist nicht homogen. Beispiel Homoskedastizität liegt nicht vor (Abb. oben) (analoges mit der „Note“ untersuchen) 3. Voraussetzung für Lineare Regression Salär = 7.33xAlter – 16.41xNote Vermeidung von Autokorrelation (y-Werte korrelieren mit der Zeit, zu der sie gemessen wurden) Die Fluktuation der Fehler in einem „rauf-runter“ Muster ist ein Anzeichen der Autokorrelation. Autokorrelation führt dazu, dass der p-Wert unterschätzt wird, d.h. man kommt einfacher zum Schluss, dass die Regressionsfunktion Gültigkeit hat. Autokorrelation liegt vor (Abb. links) Fazit: alle drei Voraussetzungen für eine Lineare Regression werden verletzt; somit ist das Modell nicht haltbar.

Aufwand (ca) Thema Hilfsmittel Besonderes 5 Std. Abschluss der Statistischen Tests Excel Gruppenarbeit 5. Std. Abschluss und Abgabe des Berichts Word Abgabe Bericht (als pdf) mit xls Datei, beide gezipped bis am xx (18:00) inklusive funktionierendem Link für Internetfragebogen an: nur von HWZ accounts aus.

Decision Support Tools

Ähnliche Präsentationen

Präsentation zum Thema: "Decision Support Tools"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Decision Support Tools

Ähnliche Präsentationen

Präsentation zum Thema: "Decision Support Tools"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback