Decision Support Tools

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Gruppenwettbewerb. Gruppenwettbewerb Aufgabe G1 (8 Punkte)
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Telefonnummer.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
„Netzwerk Medizin und Geschlecht“ an der Medizinischen Hochschule Hannover Projektleitung: Dr. phil. Bärbel Miemietz Projektkoordination: Larissa Burruano,
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Gliederung Vertrauensintervalle Arten von Hypothesen
Entwicklung eines Online-Evaluationssystems
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Internet facts 2006-III Graphiken zum Berichtsband AGOF e.V. März 2007.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Anwendungsseminar: Kausale Modellbildung
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Hypothesen testen: Grundidee
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Univariate Statistik M. Kresken.
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
Heute: Scherenzange zeichnen
AWA 2007 Natur und Umwelt Natürlich Leben
Tutorium Willkommen zurück, in der wunderbaren Welt der Statistik Teil II.
Tutorium
Wiederholung: Einfache Regressionsgleichung
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
Daten auswerten Boxplots
20:00.
Histogramm/empirische Verteilung Verteilungen
Im Zuge unserer Befragung gaben uns 260 Personen über ihr Leseverhalten Auskunft.
Formulierung und Überprüfung von Hypothesen
Zusatzfolien zu B-Bäumen
Internetverwendung und Werbeaffinität APA-IT Forum 7. Mai 2008
WIRTSCHAFTSLAGE NOCH SCHWIERIG
Einführung in die beurteilende Statistik
Eine Einführung in die CD-ROM
Chi Quadrat Test Tamara Katschnig.
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Dokumentation der Umfrage
Where Europe does business Lück, JDZB | Seite © GfW NRW 252 a.
Deutschlandbild bei Kasaner Jugend Dyugurova Aleksandra, Kasaner (Priwolzhskij) Föderale Universität.
Kinder- und Jugenddorf Klinge Qualitätsentwicklung Januar 2005 Auswertung der Fragebögen für die Fachkräfte in den Jugendämtern.
Wir üben die Malsätzchen
Aufgabenzettel V Statistik I
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Seminar: Datenerhebung
STATISIK LV Nr.: 1375 SS März 2005.
Resultate Umfrage Partizipation Arbeitsgruppe DeLL Befragt wurden im Dezember 2010 alle 3., 4. und 5. Klassen Es wurde differenziert nach Ebenen: Schule,
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Kinderferien / Kinderferien für Kinder im Vorschulalter
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Symmetrische Blockchiffren DES – der Data Encryption Standard
Szenisches Lernen Wie Theaterelemente den Unterricht bereichern
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Dokumentation der Umfrage BR P2.t Ergebnisse in Prozent n= 502 telefonische CATI-Interviews, repräsentativ für die Linzer Bevölkerung ab 18 Jahre;
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
3. Fachtagung im Projekt Pflegebegleiter am 24. November in Bad Honnef Projekt Pflegebegleiter 3. Fachtagung Ein Projekt fasst Fuß KURZVERSION DER PRÄSENTATION.
Folie Einzelauswertung der Gemeindedaten
ÖGB BÜRO CHANCEN NUTZEN
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
 Präsentation transkript:

Decision Support Tools MAS Business Consulting Prof. Dr. Giampiero Beroggi

Ihr Dozent: Giampiero Beroggi Fachgebiet: Decision Support Systems/Tools, Entscheidungsanalyse, Statistik, Operations Research, Risikomanagement Akademische Tätigkeit: Professor für Wirtschaftsinformatik HWZ (seit 2004) Privatdozent für Wirtschaftsinformatik Universität Zürich (seit 2006) Gastprofessor ETH-Zürich (2000) Assozierter Professor Technische Universität Delft, NL (92-01) Research Associate Rensselear Polytechnic Institute, New York (88-91) Praktische Erfahrung: Chef Statistisches Amt des Kantons Zürich (seit 2006) Geschäftsführer Spring Analytica AG (02-06) Associate Mercer Management Consulting (01-02) Ingenieur E. Basler & Partner AG (86-88) Ausbildung: Habilitation Universität Zürich (2006) Dr. Phil., New York, USA (1991) Master of Science in Operations Research und Statistik, New York, USA (1989) Dipl.-Ing. ETH (1986) erreichbar unter: gb@fhhwz.ch (nur für Absender mit e-mail: „…@fhhwz.ch“) .

Decision Support Tools: Aufbau des Kurses Einleitung und Übersicht von Decision Support Tools (DST) in der Praxis Unterlagen vom Internet Links zu den Folien Das Konzept der mathematischen Optimierung mit praktischen Übungen mit Excel Blocktag 1 Morgen 30.04.10 Blocktag 1 Nachmittag (zum Projektbeschrieb) Formulierung von Entscheidungs-Hypothesen mit DST Auswahl des Themas und Formu-lierung des Entscheidungspro-blems zur Integration in ein DST Realisierung eines Decision Support Tools im Internet für Datenerhebung Auswahl der Software, Realisierung im Internet und Erhebung von Daten Theoretischer Teil mit Übungen Blocktag 2 Morgen 11.06.10 Blocktag 2 Nachmittag roter Faden (hier klicken) Einführung in statistische Tests zur optimalen Entscheidungs-findung mit Übungen in Excel Durchführung der statistischen Tests für das gewählte Entscheidungsproblem Praktischer Teil als Projekt Analyse der Daten und Ableitung von optimalen Entscheidungen mit statistischen Tests in Excel Interpretation der Resultate für praktische Handlungsanleitungen Blocktag 3 Morgen 03.07.10 Blocktag 3 Nachmittag Erstellung des Schlussberichts resp. Präsentation

Blocktag 1: Morgen Einführung, Ziel des Kurses Beispiele von DST Methodische Ansätze für DST

Decision Support Systems Architektur Realität DSS Datenbanken - Bewerten - Berechnen - Suchen - Optimieren Infobanken Modelle Berechnen (Algorithmen) Wissensbanken Decision Maker Interface Schwerpunkt der Vorlesung (Decision Support Tools)

Entscheidungsprozess Achtung: Kunde verwechselt oft Problem mit Massnahmen. Bsp.: Kunde sagt, das Problem wären die zu hohen Flugbewegungen und die Frage ist, wie diese zu reduzieren wären; dabei ist das Problem der Lärm und dieser könnte mit leiseren Flugzeugen trotz hoher Flugbewegungen reduziert werden. Analysiere Problem; Datensammlung durch … Erhebung: Man sammle nicht alles mögliche an Daten, sondern nur geschäftsrelevante Daten. Formuliere Hypothesen zum Problem und teste sie mit statistischen Methoden. Erhebung (DWH) Befragung (Akteure) Simulation (Modell) Befragung: Formuliere Hypothesen zum Problem, möglichst abgeleitet aus vorhandenem Wissen. Beim Fragebogen unterscheide zwischen Aussagefragen (was ist die Frage) und Faktorenfragen (wer gibt die Antwort). Finde und implemen-tiere Entscheid Simulation: Beschreibe das System anhand der relevanten Ereignisse. Definiere mathematisches Modell um die Ereignisse zu beschreiben. Lass das Modell durchlaufen und führe Sensitivitätsanalyse durch. Handelt es sich um ein explizites oder implizites Entschei-dungsproblem? Identifiziere die Entscheidungsvariablen (EV) (binär, ganzzahlig oder kontinuierlich), Kriterien, Akteure und Szenarien. Definiere Zielfunktion und Randbedingungen mit EV. Unterscheide zwischen logistischen und inhaltlichen Randbedingungen. Wähle geeignete Entscheidungstheorie (AHP, MAUT, Spieltheorie etc.) für subjektive Bewertungen. Formuliere mathematisches Entscheidungsproblem Erstelle Decision Support Sysetm (DSS) mit Darstellung von Information und Wissen und mit Steuerungsvariablen für Sensitivitätsanalyse und Entscheidungsfindung. Erstelle DSS mit Steuerungsvariablen

Beispiele von DSS

Beispiele Analysiere Problem; Datensammlung durch … Erhebung (DWH) Achtung: Kunde verwechselt oft Problem mit Massnahmen. Bsp.: Kunde sagt, das Problem wären die zu hohen Flugbewegungen und die Frage ist, wie diese zu reduzieren wären; dabei ist das Problem der Lärm und dieser könnte mit leiseren Flugzeugen trotz hoher Flugbewegungen reduziert werden. Analysiere Problem; Datensammlung durch … Erhebung: Man sammle nicht alles mögliche an Daten, sondern nur geschäftsrelevante Daten. Formuliere Hypothesen zum Problem und teste sie mit statistischen Methoden. Erhebung (DWH) Befragung (Akteure) Simulation (Modell) Befragung: Formuliere Hypothesen zum Problem, möglichst abgeleitet aus vorhandenem Wissen. Beim Fragebogen unterscheide zwischen Aussagefragen (was ist die Frage) und Faktorenfragen (wer gibt die Antwort). Finde und implemen-tiere Entscheid Simulation: Beschreibe das System anhand der relevanten Ereignisse. Definiere mathematisches Modell um die Ereignisse zu beschreiben. Lass das Modell durchlaufen und führe Sensitivitätsanalyse durch. Handelt es sich um ein explizites oder implizites Entschei-dungsproblem? Identifiziere die Entscheidungsvariablen (EV) (binär, ganzzahlig oder kontinuierlich), Kriterien, Akteure und Szenarien. Definiere Zielfunktion und Randbedingungen mit EV. Unterscheide zwischen logistischen und inhaltlichen Randbedingungen. Wähle geeignete Entscheidungstheorie (AHP, MAUT, Spieltheorie etc.) für subjektive Bewertungen. Formuliere mathematisches Entscheidungsproblem Erstelle Decision Support System (DSS) mit Darstellung von Information und Wissen und mit Steuerungsvariablen für Sensitivitätsanalyse und Entscheidungsfindung. Erstelle DSS mit Steuerungsvariablen

Entscheidungsvariablen, Zielfunktion und Randbedingungen Bsp. 1: Entscheide (resp. berechne), welche Zahl zu 3 hinzugezählt werden muss, damit man 10 erhält. Entscheidungsvariable: x Modell: 3 + x = 10 Zielwert: Summe der zwei Zahlen ist gleich 10 Lösung x = 7 Bsp. 2: Entscheide (resp. berechne), welche zwei ganze Zahlen zusammengezählt 10 ergeben und deren Differenz gleich 2 ist. Entscheidungsvariablen: x, y Modell: x + y = 10; x - y = 2 Ziel: Summe der zwei Zahlen ist gleich 10 Randbedingung: Differenz der beiden Zahlen ist gleich 2. Lösung x = 6, y = 4. Der „Solver“ im Excel such mit einem Algorithmus für x und y Werte, so dass das Ziel und die Randbedingung erfüllt sind. Matrizenschreibweise: A . X = b Ctrl+Shift+Enter

Mathematische Optimierung Entscheidungsvariablen: Wie viele Mio. Fr. (xS) soll eine Gemeinde in das Sozialprogramm (S) und wie viele (xT) in das Transportprogramm (T) investieren? Kriterien Anz. Arbeiter, die für jede Mio. anzustellen sind: 4 for S and 1 for T. Anz. Computer, die für jede Mio. gebraucht werden: 1 for S and 3 for T. Profit für jede Mio.: 1 for S and 2 for T. Zielfunktion Maximiere Profit: P*=max: 1xS + 2xT Randbedingungen Tot. Anz. anzustellender Arbeiter: A*= 32 4xS + 1xT Tot. Anz. zu kaufender Computer: C*= 23  1xS + 3xT Nie vergessen! xS  0; xT  0; xT xS 0 1 2 3 4 5 6 7 8 8 7 6 5 4 3 2 1 A C xS = 6.64 xT = 5.45 P*=17.55 Achtung: Gerundete reelle Lösung ist oft nicht die optimale ganzzahlige Lösung! 4xS + 1xT  32 = A* 1xS + 3xT  23 = C* 1xS + 2xT = max = P* 1 3 1 2 32  23 max  = xs xt A x =mmult(A,x)

Lösung mit Excel Solver Falls Solver nicht installiert ist:

Lösung mit Open Office

Lösung mit Google Spreadsheets http://docs.google.com/support/bin/answer.py?answer=139704&hl=en

Optimierung einer Einsatzplanung Problem: Wie viele Pfleger müssen angestellt werden, wenn die minimale Anzahl Pfleger pro Schicht eingehalten werden muss (links) und jeder Pfleger in zwei sich folgenden Schichten arbeiten muss. EV: xij (ganzzahlig): Anzahl Pfleger in Schicht Si und Sj Zielfunktion: min: x12+x23+x34+x45+x56 +x61 Schicht Nr. anwesende Pfleger benötigte Pfleger 1 x61+x12  3 2 x12+x23  2 3 x23+x34  4 4 x34+x45  5 5 x45+x56  6 6 x56+x61  8 Andere Lösungen: 3/2/4/5/8/8 3/2/6/5/6/8

Optimierung der Transportverteilung Problem: Gesucht ist der billigste Versand der produzierten Autos von den drei Stationen an die vier Destinationen, so dass alle in den drei Stationen produzierten Autos weggehen und alle vier Destinationen genau die bestellte Anzahl Autos erhalten. 12 14 S1: 12 D3: 14 D1: 10 14 8 S2: 15 20 14 D4: 12 D2: 9 16 S3: 18 10 k32 Achtung: wenn man die Randbedingung xij  0 weglässt, dann konvergiert die Lösung nicht!

Schnellster Weg 4 5 1 2 6 3 7 Problem: Gesucht ist der schnellste Weg von San Francisco nach Kairo. 2 5

Lösung von Konflikten Lea Jan q% 100-q% p% 100-p% Der erwartete Nutzen (n) der beiden ist: nLea=100pq+300p(1-q)+0(1-p)q+200(1-p)(1-q) nJan=100pq+0p(1-q)+300(1-p)q+200(1-p)(1-q) Investition A Investition B q% 100-q% Jan Invesitionen A B p% 100-p% Lea 100 300 A B p% geht zu A und 100-p% zu B q% geht zu A und 100-q% zu B 100 Investitionen Lea Jan 200 Lea‘s Nutzen hängt von Lea‘s p und Jan‘s q ab! Jan‘s Nutzen hängt von Jan‘s q und Lea‘s p ab! 300 200 Lea Invesitionen A B Jan A B Investitionen genügend sehr gut schlecht gut Annahme: Beide Akteure können ihre Investitionen ausschliesslich entweder in A oder B tätigen (d.h. p und q = 0 oder 100%). Wenn Lea annimmt, dass Jan alles in A investiert, dann sollte sie auch alles in A investieren („genügend“ > „schlecht“). Wenn sie annimmt, dass Jan alles in B investiert, dann sollte sie auch alles in A investieren. Somit sollte Lea, unabhängig von Jan, immer alles in A investieren. Die analogen Überlegungen für Jan führen zum Schluss, dass auch er, unabhängig von Lea, alles in A investieren sollte. Somit führt die individuelle Rationalität dazu, dass alles in A investiert werden müsste. Das Systemoptimum wäre aber, wenn beide alles in B investieren würden. Diese Lösung ist aber nicht stabil, denn wenn einer vom anderen weiss, dass er/sie alles in B investiert, dann ist er/sie versucht, alles in A zu investieren, denn das führt zum gewünschten individuellen Optimum.

Dynamische Plots für virtuelle Verhandlungen Auswahl einer Ausgangsverteilung für p und q Akteure verändern abwechselnd p oder q Verzichtet Gegenpartei auf Reaktion? nein ja Gleichgewicht ist erreicht! web

Sicherheits-Niveau Lea Jan Neue numerische Verteilung: alles zu A alles zu B q1 q2=(1- q1) p1 0,0 300,100 p2=(1- p1) 100,300 200,200 Lea Sicherheits-Niveau (SN): Garantiertes Minimum bei unabhängigen Entscheiden 0p1+100p2  u* und 300p1+200p2  u* Substitution: x1= p1/u* und x2= p2/u* 0x1+100x2  1 und 300x1+200x2  1 x1+x2: min 0q1+300q2  u* und 100q1+200q2  u* Substitution: x1= q1/u* und x2= q2/u* 0x1+300x2  1 und 100x1+200x2  1 Jan

Gleichgewichtszustände alles zu A alles zu B q1 q2=(1- q1) p1 0,0 300,100 p2=(1- p1) 100,300 200,200 Nashpunkt Nashgleichgewicht Sicherheitsniveau Lea Jan 100 200 300 300 200 100 Definition Nash-Gleichgewicht: Keiner der beiden Akteure kann (im nächsten Zug) seine eigene Position verbessern, ohne die Hilfe des anderen. Nash-Gleichgewicht (NG): 1-Bewegungs-Horizont 0q + 300(1-q) = 100q + 200(1-q)  q = 1/2; nSN = 150 0p + 300(1-p) = 100p + 200(1-p)  p = 1/2; nSN = 150 Nash-Punkt (NP): min: (nL - nSN)  (nJ – nSN) nL = nJ = 200

Blocktag 1: Nachmittag Bildung Projektteams, Auswahl Thema Formulierung von Hypothesen anhand von Literatursuche

Gegenstand des Kurses DST Achtung: Kunde verwechselt oft Problem mit Massnahmen. Bsp.: Kunde sagt, das Problem wären die zu hohen Flugbewegungen und die Frage ist, wie diese zu reduzieren wären; dabei ist das Problem der Lärm und dieser könnte mit leiseren Flugzeugen trotz hoher Flugbewegungen reduziert werden. Analysiere Problem; Datensammlung durch … Erhebung: Man sammle nicht alles mögliche an Daten, sondern nur geschäftsrelevante Daten. Formuliere Hypothesen zum Problem und teste sie mit statistischen Methoden. Erhebung (DWH) Befragung (Akteure) Simulation (Modell) Befragung: Formuliere Hypothesen zum Problem, möglichst abgeleitet aus vorhandenem Wissen. Beim Fragebogen unterscheide zwischen Aussagefragen (was ist die Frage) und Faktorenfragen (wer gibt die Antwort). Finde und implemen-tiere Entscheid Simulation: Beschreibe das System anhand der relevanten Ereignisse. Definiere mathematisches Modell um die Ereignisse zu beschreiben. Lass das Modell durchlaufen und führe Sensitivitätsanalyse durch. Handelt es sich um ein explizites oder implizites Entschei-dungsproblem? Identifiziere die Entscheidungsvariablen (EV) (binär, ganzzahlig oder kontinuierlich), Kriterien, Akteure und Szenarien. Definiere Zielfunktion und Randbedingungen mit EV. Unterscheide zwischen logistischen und inhaltlichen Randbedingungen. Wähle geeignete Entscheidungstheorie (AHP, MAUT, Spieltheorie etc.) für subjektive Bewertungen. Formuliere mathematisches Entscheidungsproblem Erstelle Decision Support System (DSS) mit Darstellung von Information und Wissen und mit Steuerungsvariablen für Sensitivitätsanalyse und Entscheidungsfindung. Erstelle DSS mit Steuerungsvariablen

MAS-BC DST: Projekt Bis zu 4 Studenten bilden eine Gruppe. Man wähle ein Thema (HWZ Bibliothek, LexisNexis). Man definiere mindestens 3 Hypothesen, je eine mit Zielvariable und Faktor als: (1) beide kontinuierlich, (2) beide kategorisch, (3) ZV kontinuierlich und F kategorisch. Man leite von den Hypothesen einen Internetfragebogen ab, schalte ihn aufs Internet auf. Man simuliere n (>100) Antworten. Man erstelle einen Bericht gemäss Strukturvorgabe (nächste Folie). Abgabe Bericht (als pdf) mit xls Datei, beide gezipped bis am 23.12.2008 (18:00) inklusive funktionierendem Link für Internetfragebogen an: gb@fhhwz.ch nur von HWZ accounts aus. Bsp.

Struktur der Berichterstattung (roter Faden) Management Summary (20% der Note): zuerst Resultate, dann Bedeutung und Empfehlung, erst jetzt Methode und schliesslich nächste Schritte. Das Problem / der Auftrag (20%): Einleitung, worum geht es, Stand des Wissens, Ziel der Arbeit, Hypothesen (abgeleitet aus dem Stand des Wissens), Auswahl der Untersuchungsmethodik (Art der Erhebung). Erhebung / Befragung (20%): Zielgruppe, Repräsentativität, Festlegung des Stichprobendesigns und des -umfangs, Erstellung Fragebogen (Ableitung der Fragen aus den Hypothesen), Programmierung und Aufschaltung des Fragebogens im Internet, Testlauf und Durchführung der Erhebung, Bereitstellung der Datenbank (Excel) für Resultate und Analyse. Analyse der Resultate (20%): Rücklaufbeschrieb (Rate, Probleme bei der Erhebung, Analyse der Repräsentativität, Verfälschungen (Bias) und deren Korrektur), Test der Hypothesen und Diskussion von weiteren Resultaten mit Angabe der Signifikanz. Schlussfolgerungen (20%): Zusammenfassung der wichtigsten Erkenntnisse und Empfehlungen, Relativierung der Resultate aufgrund von möglichen Einschränkungen seitens der Methodik, Verallgemeinerung der Resultate für verwandte Themen, weiteres Vorgehen. Note: 0.5 x Note für persönlichen Teil + 0.5 x Gruppennote (Durchschnitt aller Teile). Hier klicken um Vorlage für (und Beispiel von) Bericht zu sehen

Formulierung von Hypothesen 1. Fragestellung / Antwort Frage: „Gibt es in der Firma Altersdiskri-minierung bezüglich des Salärs (d.h. verdienen „Alte“ mehr als „Junge“, resp. hat das Alter Einfluss auf das Salär)?“ 2. Messung (Operationalisierung) Raten: Die relative Anzahl der Jungen, die schlecht verdienen ist signifikant grösser, als die relative Anzahl der Alten, die schlecht verdienen. Mittelwerte: Das Durchschnittssalär der Jungen ist signifikant kleiner, als das Durchschnittssalär der Alten. Trends: Je älter man ist, desto mehr verdient man. Antwort: Wenn die Unterschiede in Schritt 4 signifikant sind, dann wird die Frage bejaht, sonst verneint. 4. Auswertung (Statistische Tests) rel. Anzahl Alt Jung signifi- kant gross? 35% 25% Durchschnitts- Salär (1‘000) kant gross? 93 82 Alter Salär a) Raten b) Mittelwerte c) Trends klein? Zu den Tests Trendlinie 3. Fragebogen Zielvariable: Wie viel verdienen Sie? (Fr. pro Jahr) Faktor: Wie alt sind sie? (Anzahl Jahre)

Vergleiche mit mehreren Ausprägungen Mehrere Raten (T41) „Hat die Position einen Einfluss auf den Gebrauch des ÖV?“ Mehrere Mittelwerte für einen Faktor (T22) „Hat die Position einen Einfluss auf das Salär?“ signifi- kant gross? signifi- kant gross? relative Anzahl ÖV-Benutzer 20% 28% Durchschnitts- Salär (1‘000 Fr.) 90 110 15% 60 Angest. Kader Direktion Angest. Kader Direktion Mehrere Mittelwerte für zwei Faktoren (T78) „Sind Länder und Jahre unabhängig bezüglich Medaillengewinne?“ Mehrere Ereignisse (T38) „Sind die Anzahl Fehlermeldungen in mehreren Computersystemen signifikant unterschiedlich?“ signifi- kant gross? dungen in den Systemen Anhzahl Fehlermel- 90 110 60 Syst. A Syst. B Syst. C Gibt es signifikante Unterschiede zwischen den Ländern, zwischen den Jahren und zwischen Ländern und Jahren bezüglich der Anzahl gewonnener Medaillen? Link zum Buch: „100 Statistical Tests“

Weitere Hypothesen und Messformen Ausfallraten (T6/25) „Bank A hat 13 Kunden in den letzten 6 Tagen verloren, Bank B 7 Kunden in den letzten 4 Tagen. Geht es Bank A schlechter, als Bank B?“ Vorher-Nachher Befragung (T23) „Von 105 befragten Leuten fanden 30 ein Restaurant sowohl vor wie auch nach dem Besitzerwechsel gut, 51 fanden es weder vor noch nachher gut, 9 fanden es vorher gut aber nachher schlecht und 15 fanden es nachher gut und vorher schlecht. Hat der Wechsel etwas gebracht?“ Abgänge pro Tag Bank A Bank B signifi- kant gross? 2.2 1.8 signifi- kant gross? 15 Anzahl 9 nach gut vor gut vor schlecht nach schlecht Ranglisten (T59) „Das Abschneiden von vier Produkten (A: Äpfel etc.) in Region 1 ist (A,B,C,D) und in Region 2 (B,A,C,D). Stellen die zwei Regionen signifikant unterschiedliche Märkte dar?“ Trendfluktuationen (T70) „Der Umsatz geht mal rauf, mal runter. Sind diese Trendfluktuationen zufällig oder gibt es ein signifi-kantes Muster?“ Ist ein signifikantes Muster für die Trendfluktuation vorhanden? A B C D signifi- kant anders? desto besser Je höher Region 1 Region 2

Noch mehr Hypothesen und Messformen Veränderung von Raten (T84) „Die als Raten gemessene Altersdiskriminierung wird vor und nach der Einführung von Gegen-massnahmen gemessen. Ist der Unterschied signifikant?“ Hierarchische Gruppierung (T80) „Geben unterschiedliche Lehrer an unterschiedli-chen Schulen signifikant unterschiedliche Noten?“ rel. Anzahl Alt Jung 35% 32% nach Gegen- massnahmen 35% signifi- kant anders? rel. Anzahl 25% Alt Jung vor Gegen- massnahmen Gibt es signifikante Unterschiede unter den Lehrer an den drei Schulen und unter den Schülern für die drei Lehrer? Scheintrends „Ist der beobachtete Trend „Je grösser die Ausstellungsfläche, desto mehr Orangen werden verkauft“ nur ein Scheintrend, der vom Standort der Ware verursacht wird (d.h. bei konstantem Standort gibt es den Trend nicht)?“ Konditionierte Trends „Hängt der Trend „Je kälter/wärmer das Getränke ist, desto besser schmeckt es“ davon ab, von der Jahreszeit (Sommer/Winter) ab?“ Wohlbefinden Trendlinie Trendlinie beide Trend- linien sind signifi- kant? Scheintrend Laden- ende gibt es für beide Standorte keine Signifikanten Trendlinien? Wohlbefinden Laden- eingang Umsatz Temperatur Temperatur Winter Sommer Ausstellungsfläche

Themen und Hypothesen 2008 Das Fluktuationsverhalten von Mitarbeitenden H: Um die guten MAs zu halten, muss man die schlechten schicken H: Hohe Basissaläre verhindern keine Fluktuation Das Tresorgeschäft in Zeiten der Bankkrise H: In der Bankkrise gibt es mehr Tresorkunden auf dem Land als in der Stadt H: Grosses Vertrauen in die Bank verstärkt Vertrauen in eigenen Tresor Einfluss der Finanzkrise auf den Immobilienmarkt H: Personen mit höherem Einkommen reduzieren das Investitionsvolumen mehr als solche mit tieferem Einkommen H: In der Süd-CH sinken die Mietkosten stärker als in der Deutsch-CH. Wirkung einer Preiserhöhung bei der SBB auf die Passagierszahl H: Schlechter Verdienende sind eher bereit nach Alternativen zu suchen H: Personen, die geschäftlich unterwegs sind, haben eine höhere Zahlungsbereitschaft für ein kostenintensives Ticket als Privatreisende

Themen und Hypothesen 2007 Boreout H: Boreout betrifft mehr Mitarbeiter in administrativen Berufen H: Boreout kommt bei über 18-jährigen Arbeitstätigen im Kanton Zürich vor Die Leserschaft von Gratiszeitungen H: Die örtliche & zeitliche Verfügbarkeit einer Gratiszeitung ist entscheidend für ihren Erfolg H: Auch bei Gratiszeitungen entscheiden die Leser nach Themen und Aufmachung Bedeutung des Kino heute Die Wahl Kino oder Heimkino wird massgebend durch das Genre bestimmt H: Steigende Preise bei Kinotickets (bei sinkenden Preisen für DVDs) wirken sich negativ auf die Kinobesuche aus. Empfundene Produktqualität und Einkaufspräferenz bei Migros und Coop H: Wenn Migros die Preise leicht über Coop heben würde, würden die Migroskunden weiterhin bei Migros einkaufen H: Die Produktqualität bei Migros wird als besser empfunden als bei Coop

Themen und Hypothesen 2007 Powernapping H: Mitarbeiter, die power-nappen, arbeiten effizienter H: Manager betreiben aus Image-Gründen kein Powernapping Mobility - CarSharing H: Je höher das Einkommen, desto höher die Ansprüche an CarSharing bezüglich Komfort und Qualität der Dienstleistungen H: Je dichter das Standortnetz desto mehr Kunden

Themen und Hypothesen 2006 Abfallentsorgung in der Stadt Zürich H: Die Bevölkerung möchte Zeitungen/Karton/PET zur Sammelstelle bringen H: Das Trennverhalten der Personen wird vom Bildungsstand beeinflusst EURO 08 H: Frauen sind wider Erwartungen keine Fussballmuffel H: Die Spiele werden mehrheitlich auswärts verfolgt (Stadion, Rest. etc.) Musik im Internet H: Frauen sind sich der Illegalität eher bewusst als Männer H: Ältere Personen sind bereit für Musik einen höheren Preis zu bezahlen als jüngere Personen Alkoholwerbung und Trinkverhalten H: Personen, die regelmässig Alkohol konsumieren, reagieren auch aktiver auf Alkohol-Werbung H: Jugendliche sind durch Alkoholwerbung beeinflussbarer als Erwachsene

Themen und Hypothesen 2006 Roadpricing H: Roadpricing in Zürich wird abgelehnt H: Die Zahlungsbereitschaft für Roadpricing in Zürich ist tief Leistungsorientiertes-Qualifikations-System für Lehrpersonen an der Volksschule Zürich H: Lehrpersonen haben eine negative Einstellung zum LQS H: Das LQS macht das Berufsbild der Lehrpersonen attraktiver

Themen und Hypothesen Fiktive Beispiele Entwicklung des Immobilienmarktes in der Region Zürich H: Trotz vielen neuen Wohnungen ziehen Familien weg von den Städten H: Singles ziehen vermehrt in die Stadt in Mietwohnungen Diskriminierung am Arbeitsplatz und in der Gesellschaft H: Kinder haben schadet der Karriere nicht H: Die Alterdiskriminierung ist im Vormarsch Mobilitätsmuster im Grossraum Zürich H: Mobility zieht neue Autofahrer-Gruppen an H: Glatttalbahn erhöht Pendlerströme Wahlprognosen für die Nationalratswahlen 2011 H: Die grossen Parteien sind „wählergesättigt“ H: Frauen interessieren sich vermehrt für Politik Bedeutung der Alkoholwerbung auf das Trinkverhalten im Kt. ZH H: Werbung animiert jugendliche mit dem Trinken anzufangen H: Warnhinweise halten Autofahrer nicht ab, angetrunken zu fahren

Nach- und Vorbereitung Studierende Tag 1 Aufwand (ca) Thema Hilfsmittel Besonderes 3 Std. Abschluss der unvollendeten Arbeiten während Tag 1 (bis und mit Formulierung der Hypothesen) Internet Gruppenarbeit 2 Std. Repetition Excel-Übungen vom Morgen Excel Einzelarbeit

Blocktag 2: Morgen Ablauf einer Internetbefragung Zielgruppen und Stichproben Definition von statistischen Hypothesen Repräsentativität und Fehler bei der Erhebung Testen von Statistischen Hypothesen

Befragungen „Die sorgfältigere Entwerfung der Erhebungsformulare ist eine Errungenschaft der neuesten Entwicklung der Statistik. … Der Wunsch möglichst rasch alles zu erfahren, was man wissen wollte, liess keine Zeit zu einer sorgfältigeren Fertigstellung der Erhebungsmethode. Man begnügte sich mit der Angabe der Gliederung, in welcher das Ergebnis der betreffenden Erhebung schliesslich erscheinen sollte, ohne sich über die Art der primären Fragestellung zu äussern … Eine solche in hohem Grade bedenkliche Behandlung selbst wichtiger Zweige der Statistik ragt teilweise noch bis in die neueste Zeit herein.“ Die Gesetzmässigkeit im Gesellschaftsleben. Statistische Studien von Dr. Georg Mayr (1877), S. 40.

Ablauf der Befragung Problem / Auftrag Ableitung von Hypothesen Problem / Auftrag: Worum geht es, was ist das wahre Problem des Kunden, was ist der Stand des Wissens zum Problem, was das Ziel der Arbeit. Z.B. Junge Leute werden dicker und bewegen sich weniger. Hypothesen: Man leite aus dem Stand des Wissens Hypothsen ab. Hypothesen sind nicht persönliche Fragestellungen, sondern allgemein unbeantwortete Vermutungen oder Theorien zu kausalen Ursache-Wirkung Zusammenhängen (z.B. “Schlechte Nahrung macht dick und träge”). Fragen: Man formuliere Fragen, mit denen die Hypothesen getestet werden können respektive Antworten auf das Problem gefunden werden können. Keine unnötigen Fragen stellen. Z.B. “Wie oft essen Sie Fastfood?”, “Wie schwer sind Sie?” und “Wie oft bewegen Sie sich?”. Zielgruppe/Stichprobe: Über wen soll etwas ausgesagt werden respektive über wessen Problem soll eine Antwort gefunden werden? Geht es nur um Jugendliche oder alle Personen, welche Altersgruppen, welche Regionen etc.? Der Umfang und die Zusammenstellung der Stichprobe muss repräsentativ für die Zielgruppe sein. Man führe den Kuchentest durch: “Wie soll ich möglichst wenig vom Kuchen probieren, um möglichst viel über den Kuchen aussagen zu können. Durchführung: Einladung der Stichprobe, Vergabe von Passwörtern, Aufschaltung auf das Internet, Überwachung der Datensammlung, Nacheinladung bei Nichtbeantwortung etc. Rücklauf: Was ist die Rücklaufrate? Sind die Proportionen der Antworten repräsentativ? Wenn nicht, soll man Nichtbeantworter nochmals kontaktieren oder Antworten einfach Hochrechnen? Analyse: Man teste die Hypothesen, sind die Zusammenhänge statistisch signifikant? Gibt es noch weitere interessante Zusammenhänge? Ableitung von Hypothesen Formulierung von Fragen Definition Zielgruppe, Auswahl Stichprobe Durchführung Erhebung Überprüfung / Korrektur Rücklauf Datenanalyse, Interpretation, Antworten

Definition von Hypothesen n-Faktor Hypothesen Faktoren (erklärende Variablen) Zielvariablen (Aussagevariablen) Alter (Jahre) Jeder Pfeil stellt eine mögliche Hypothese dar (0- oder 1-Faktor Hypothese) 1-Faktor Hypothesen z. B. „Position hängt vom Geschlecht ab“ (z. B. Männer sind öfters Kader als Frauen), stellen Abhängigkeiten zwischen Faktoren und Zielvariablen dar. n-Faktor Hypothesen 0-Faktor Hypothesen Geschl. (M/F) Salär (CHF) Note (1-6) Position (Ka/SB) Fach (SW/IW) Branche (B/V/I)

Fragebogen Begrüssung, Angabe der benötigten Zeit für das Ausfüllen Zuerst die Zielgrössen fragen, dann die Faktoren Nicht zu viele Fragen, nur jene, um die Hypothesen testen zu können Skalen: kontinuierlich, kategorisch, oder offene Kategorische Skala („Likert Scale“): gar nicht eher nicht neutral eher dafür sehr dafür keine Meinung

Zielgruppe und Stichprobe (Wahrheit) 3. Erhebung der Daten aus der Stichprobe 2. Auswahl der Stichprobe aus der Zielgruppe Stichprobe (Beobachtung) 1. Definition der Hypothesen resp. Fragestellungen 4. Test der Hypothesen und Rück-schlüsse auf die Zielgruppe Die Hypothesen werden für die gesamte und unbekannte Zielgruppe formuliert. Um Aufwand, Geld und Zeit zu sparen, werden sie aber anhand einer Stichprobe getestet. Damit die Resultate aus der kleinen Stichprobe möglichst gültig sind für die gesamte Zielgruppe, ist wichtig dass: die Stichprobe ein möglichst guter Querschnitt der Zielgruppe ist (d.h. die Stichprobe ist repräsentativ für die Zielgruppe), die Resultate der Stichprobe möglichst signifikant sind, d.h. die Unsicherheit (Irrtumswahrscheinlichkeit), dass die Folgerungen auf die Zielgruppe falsch sein könnten, muss möglichst klein sein.

Testen von Hypothesen Wirklichkeit Rückschluss Gericht Ist der Angeklagte schuldig? H0: Der Angeklagte ist schuldig. H1: Der Angeklagte ist unschuldig. Unsere Zielgruppe ist die Wirklichkeit. Unsere Stichprobe ist das Gericht. Wirklichkeit Rückschluss H0: schuldig H1: unschuldig Richtiger Rückschluss: (WS = 1-a) Falscher Rückschluss (WS = b) Gericht unschuldig schuldig Falscher Rückschluss (WS = a) Richtiger Rückschluss (WS = 1-b) Wir möchten die Irrtumswahrscheinlichkeiten a (ein Schuldiger wird vom Gericht freigesprochen) und b (ein Unschuldiger wird vom Gericht schuldig gesprochen) möglichst klein haben.

Was heisst Unsicherheit? H0 (in Wirklichkeit schuldig) Wir nehmen an, dass die „Verteilung“ der Prozen-tualen Schuldsprechungen einer Dreiecksverteilung entspricht. Die Fläche des Dreiecks ist 100%. Somit ist die Höhe des Dreiecks gleich 2. 100% Prozentuale Schuldsprechung der Geschworenen Wenn wir a (d.h. die Wahrscheinlichkeit, dass ein Schuldiger freigesprochen wird) z.B. 5% haben möchten, respektive wir möchten zu 95% sicher sein, dass ein Schuldiger nicht freigesprochen wird, dann kann man mittels einfachen Dreiecksberechnungen berechnen, bei welcher Prozentzahl die blaue Fläche 5% ist, wenn man weiss, dass die gesamte Fläche 100% ist. Die Lösung ist, dass die a = 5% dem Wert von 22.36% entsprechen. D.h. mit 5% Wahrscheinlichkeit stimmen höchstens 22.36% den Angeschuldigten schuldig. M.a.W. wenn höchstens 22.36% der Geschworenen den Angeklagten schuldig sprechen, dann verwerfen wir H0 zugunsten von H1, d.h. wir schliessen, dass er unschuldig ist und täuschen uns in dieser Aussage zu höchstens 5%, resp. wir sind mind. 95% sicher, dass er unschuldig ist. 100% 0% H0 (in Wirklichkeit schuldig) a Prozentuale Schuldsprechung der Geschworenen 100% 0% 22.36%

Zusammenhang zwischen a und b Wenn wir nebst H0 auch H1 eintragen, dann nehmen wir an, dass die Verteilung entsprechend spiegelbildlich ist. Die Fläche für b ist die Wahrscheinlichkeit, dass man einen unschuldigen für schuldig erklärt. Gerne möchte man a und b möglichst klein haben. Man sieht aber, dass je kleiner man a macht, desto grösser wird b. Der Zusammenhang ist unten dargestellt. H0 (in Wirklichkeit schuldig) a Prozentuale Schuldsprechung der Geschworenen 100% 0% 22.36% H1 (in Wirklichkeit unschuldig) b Prozentuale Schuldsprechung der Geschworenen Wie können wir sowohl a wie auch b möglichst klein halten? Indem wir die Anzahl Beobachtungen in der Stichprobe erhöhen. Dann verändert sich die Dreieckskurve in eine Kurve folgender Art: 100% 0% a klein und b klein

Wie wählen wir a und b, resp. n ? Zuerst müssen wir wissen, was der Zusammenhang (d.h. die Funktion) zwischen dem Stichprobenumfang n und a und b ist. Angenommen wir wissen dies (fa(n) und fb(n)), dann stellt sich die Frage, was kosten uns die zwei Fehlerarten, respektive was für einen Ertrag bringen uns korrekte Entscheide. Wirklichkeit H0: schuldig H1: unschuldig Richtiger Rückschluss: (WS = 1-a, Ertrag = E0) Falscher Rückschluss (WS = b, Schaden = S1) Gericht unschuldig schuldig Falscher Rückschluss (WS = a, Schaden = S0) Richtiger Rückschluss (WS = 1-b, Ertrag = E1) Der erwartete Nutzen ist: N = E0(1-a) + E1(1-b) + S0a + S1b, respektive als Funktion von n: N = E0(1-fa(n)) + E1(1-fb(n) + S0fa(n) + S1fb(n). Somit können wir entscheiden, wie wir n wählen müssen, um den Profit zu maximieren.

Rechner für Stichprobenumfang Link

Zufällige Auswahl der Stichprobe Jede Person der Zielgruppe wird zufällig gewählt oder nicht. Die Wahrscheinlichkeit der Wahl wird vorgegeben. Zufallsstichprobe einfacher Zufall systematische Stichprobe geschichtete Stichprobe Klumpen-stichprobe

Einfacher Zufall Jede Person hat die gleiche Wahrscheinlichkeit gewählt zu werden. Auswahl kann mit oder ohne “Zurücklegen” geschehen (z.B. eine Person könnte mehrmals befragt werden). Zufallszahlen werden vom Computer generiert. Falls der Stichprobenumfang gross ist im Vergleich zur Gesamtheit, dann hat man automatisch eine repräsentative Stichprobe.

Systematische Stichproben Lege gewünschten Stichprobenumfang fest: n. Teile Gesamtheit N in Gruppen von k Personen: k = N / n. Wähle zufällig eine Person aus der ersten Gruppe. Danach wähle jede k-te Person. Bsp.: Qualitätskontrolle N = 64 n = 8 k = 8

Geschichtete Stichproben Die Zielgruppe ist in zwei oder mehr Gruppen geteilt, gemäss gewissen Kriterien (z.B. Kantone). Aus jeder Gruppe wird eine einfache Stichprobe gezogen. Die Stichproben werden zu einer Gesamtstichprobe zusammengefügt.

Klumpenstichprobe Gesamtheit in 4 Schichten geteilt. Die Gesamtheit ist in verschiedene Schichten aufgeteilt, wobei jede Sicht repräsentativ ist für die Gesamtheit (z.B. Parallelklassen). Von jeder Schicht wird eine einfache Zufallsstichprobe gewählt. Die Stichproben werde zu einer Gesamtstichprobe zusammengefügt. Gesamtheit in 4 Schichten geteilt.

Fehler über Fehler Modeling bias: z.B. falsche Verteilungsannahmen Confirmation bias: Suche nach Bestätigung von Vermutungen Publication bias: Suche nach Neuem zum Publizieren Problem bias: Problem falsch verstanden Questionnaire bias: z.B. suggestive Fragen/Antworten Survey bias: z.B. inkonsistente Befragungsweise Universe bias: Falsche Zielgruppe Selection bias: z.B. nur verärgerte Personen nehmen teil Recall bias: Erinnerung bestimmt Antwort Response bias: z.B. Männer sind befragungsmüde List of cognitive biases: Denkfehler Data Mining: Unfähigkeit der Statistiker zu Modellieren

Repräsentativität Sind die Verhältnisse der Faktoren richtig erfasst? Population Stichprobe Faktoren Zielvariable(n) M F Ka SB H1 M F Ka SB Ges. (M/F) 20% 30% 40% 10% 20% 30% 40% 10% H1 Position (Ka/SB) Alter (J/A) H2 J A Ka SB J A Ka SB H2 ? = H3 10% 40% 35% 15% 10% 40% 35% 15% Region (D/F/I) D F I Ka SB 40% 10% 5% 10% 30% 5% D F I Ka SB 40% 10% 5% 10% 30% 5% H3

Blocktag 2: Nachmittag Gestaltung, Realisierung und Aufschaltung eines Internetfragebogens Generierung von Antworten in Excel

Beispiel: Absolventenstudie Datenbank Erhebungsmaske Name Alter Geschl. Diplom- note Seme- ster Fach Bran- che Position Salär Fragestellungen: Verdienen bessere Studenten mehr als schlechtere? Brauchen Soz-Wiss (SW) Studenten länger für ihr Studium als Ing-Wiss (IW) Studenten? Weitere Fragen: ...

Datenübersicht Datenbank Datenpunkt Datensatz Datenübersicht: Datenvalidierung Umgang mit fehlenden Daten

Beispiel Fragebogen Zielvariablen (interessierte Aussagen) Faktoren (Eigenschaften der Befragten)

Software für Internetbefragungen LetMeKnow (via HWZ) Umfrage Online SPSS Online-Umfragen SurveyMonkey LimeSurvey UniPark Software PoppyDog 2ask Weitere Software E-Mail Survey Google Survey

Nach- und Vorbereitung Studierende Tag 2 Aufwand (ca) Thema Hilfsmittel Besonderes 3 Std. Generierung von Antworten in Excel Excel Gruppenarbeit 2 Std. Erstellung der Struktur des Berichtes Word Funktionierender Link für Internetfragebogen bis am xx.12.09 an: gb@fhhwz.ch nur von HWZ e-mail Adressen aus.

Blocktag 3: Morgen Deskriptive Statistische Analysen mit Diagrammen Induktive Statistische Analysen der Hypothesen für Proportionen (Chi2-Test) Induktive Statistische Analysen der Hypothesen für Mittelwerte (t-Test)

Histrogramm Extras Analysefunktionen Histogramm

Drei Arten der Datenanalyse Deskription (Beschreibung): Suche in den Daten nach interessanten Informationen Verifikation: Testen von vorgegebenen Hypothesen Induktion: Extrapolation (z.B. Prognosen) oder Interpolation (z.B. Schätzungen von Zwischen-werten)

Populationskenngrössen Extras Analyse-Funktionen Es gibt keinen eindeutigen Modalwert (siehe Histogramm) Populationskenngrössen Mit 95% Wahrscheinlichkeit enthält das Interval von 123.8-28.35 bis 123.8+28.35 den wahren Mittelwert der Population.

Schätzung der Gesamtpopulationsmenge Punktschätzer für die totale Population: Vertrauensintervall für das Total: Bsp.: Die Summe von N=5‘000 Rechnungen ist gesucht, wenn n=100 Stichproben genommen wurden, mit X = 110.27 CHF und S = 28.95 CHF. Für das 95% KI erhalten wir t99 = 1.9842: - Total = 5‘000x110.27 = 551‘350 CHF - KI = ± 551’350x1.9842x28.95/10x((5’000-100)/(5’000-1)) = 28’436.00 CHF

Pivot Tabellen

Graphische Darstellung in Excel Grundsätze Jede Abbildung muss selbsterklärend sein mit Titel, Text, beschrifteten Achsen, Einheiten und Werte in der Abbildung. Jede Abbildung muss im Text besprochen werden, mit zusätzlichen Erklärungen und Interpretationen.

Linien (2D) Abb. 1: Das Durchschnittssalär nimmt mit zunehmender Note stetig ab. Abb. 2: Das Durchschnittssalär nimmt mit zunehmender Note stetig ab. Beachte: Abb. 1 und Abb. 2 sind analog. Nur eine durchgezogene Linie in Abb. 1 (ohne die Punkte und die Werte) wäre irreführend, denn die Verbindungslinie stellt ja keine Beobachtungen dar, sondern dient lediglich der Illustration des Trends.

Kreis (2D) Abb. 3: Durchschnittssaläre nach Branchen in 1‘000 CHF. Abb. 4: Durchschnittssaläre nach Branchen in 1‘000 CHF. Beachte: Abb. 3 und Abb. 4 sind analog. Jedoch ist eine Kuchendarstellung (Abb. 3) für Durchschnittssaläre irreführend, denn die Summe der drei Durchschnittssaläre (100%) macht keinen Sinn.

Punkt (XY) (2D) Abb. 5: Saläre und Alter von 10 Personen.

Säulen Stabdiagramme (3D) Abb. 6: Durchschnittssaläre (1‘000 CHF) nach Branchen, Studienrichtung und Geschlecht. Beachte: Ähnlich wie in Abb. 3 macht die Darstellung der Summe der Durchschnittssaläre für Frauen und Männer auf der x-Achse auch hier wenig Sinn, denn die Summe der beiden Durchschnitte ist nicht gleich dem Gesamtdurchschnitt in der jeweiligen Branche pro Studienrichtung.

Blase (4D) Abb. 7: Saläre (1‘000 CHF) und Alter für 10 Personen mit Abschlussnoten (1-6 als Radius der Kreise).

Netz (mD) Normalisierung: xi – xs xb - xs yi = xi : zu transformierender Wert xs : schlechtester Wert xb : bester Wert yi : transformierter Wert Normalisierte Werte (je weiter draussen, desto besser) Abb. 8: Normierte Werte für 10 Personen (Reihe 1 bis 10).

Aussagen und Testen von 0-Faktor Hypothesen Mittelwerte „Ist das Durchschnittssalär grösser als 115?“ Bsp.: Die n = 10 Mitarbeitenden haben ein beobach-tetes Durchschnittssalär von m = 123.8 und eine beobachtete Standardabweichung von s = 39.6 (siehe Zahlenwerte links in der Excel Tabelle). Um die Wahrscheinlichkeit zu berechnen, dass ein Durchschnittssalär grösser ist als z.B. 115 muss man zuerst Z berechnen: Mit Z berechnet man die Wahrscheinlichkeit wie folgt: „=1-NORMVERT(1.156;0;1;WAHR)“ = 12.4%. Mit einem akzeptablen Höchstwert von 5% müssten wir die Hypothese „Das Durchschnittssalär der Gesamtbelegschaft ist grösser als 115“ ablehnen. Salär (Fr.) Salär: kategorisch. Frage: „Wie genau kann das Durchschnittssalär bestimmt werden?“ Antwort: „Das Durchschnittssalär der zehn Personen ist 123.8 ± 24.6.” Oder: “Mit 95% Sicherheit liegt das Durchschnittssalär zwischen 99.2 und 148.4.” Z Z =0 Z = 1.64 p = 5% Z = 1.156 p = 12.4% Proportionen „Ist der Prozentanteil der Kaderleute grösser als 20%?“ Position (Ka/SB) Bsp.: von n =100 Mitarbeitenden einer Stichprobe sind 23 (23%, p=0.23) im Kader. Mit 95% Sicherheit liegt die Prozentzahl der Kaderleute zwischen 23-c und 23+c. Mit 95% Sicherheit liegt die Prozentzahl der Kaderleute zwischen 14.2% und 31.3%. Die aus der Stichprobe geschätzte Prozentzahl der Kaderleute ist 23 ± 8.3 Prozentpunkte. Bsp.: Von den n =100 Mitarbeitenden aus der Stichprobe sind 23% (p=0.23) im Kader. Um die Wahrscheinlichkeit zu berechnen, dass in der Gesamtfirma mehr als z.B. 20% im Kader sind muss man zuerst Z berechnen: Mit Z berechnet man die Wahrscheinlichkeit wie folgt: „=1-NORMVERT(1.169;0;1;WAHR)“ = 12.1%. Mit einem akzeptablen Höchstwert von 5% müssten wir die Hypothese „In der Gesamtfirma sind mehr als 20% im Kader“ ablehnen. Z Z =0 Z = 1.64 p = 5% Z = 1.169 p = 12.1%

Testen von 1-Faktor Hypothesen „Alter hat Einfluss auf Salär“ (Alter und Salär sind abhängig) „Alter hat keinen Einfluss auf Salär“ (Alter und Salär sind unabhängig) Alter (jung/alt) Salär (hoch/tief) Alter (jung/alt) Salär (hoch/tief) Salär: kategorisch Alter: kategorisch zum Chi2-Test Salär: kontinuierlich Alter: kategorisch zum t-Test Salär: kontinuierlich Alter: kontinuierlich zur Regression

Chi2-Test (pM  pF) Geschl. Salär 1-Faktor Hypothese (beide kategorische Werte: M/F und h/t) Frage: „Hängt das Salär vom Geschlecht ab.“ Z.B. „Überproportionale viele Männer (pM) haben hohe Saläre als Frauen (pF).“ H: pM > pF. Chi-2-Test Geschl. (M/F) Salär (hoch/tief) Verteilung Die beobachteten Werte (rote Zahlen in der gelben Kontingenztabelle) unterscheiden sich signifikant von den erwarteten* Werten (blaue Zahlen in der blauen Tabelle). Somit ist das Salär vom Geschlecht abhängig. Mit der Aussage „Das Salär ist vom Geschlecht abhängig“ irrt man sich zu 0.16%, was eine sehr kleine Irrtumswahrscheinlichkeit (resp. Signifikanzniveau) ist. * „erwartet“ im Sinne, dass Geschlecht keinen Einfluss auf Salär hat.

t-Test (mG  mS) Geschl. Salär t t 1-Faktor Hypothese (kategorische Werte (M/F) und kontinuier-liche Werte (Fr.) Geschl. (M/F) Salär (Fr.) Frage: „Hängt das Salär vom Geschlecht ab?“ Z.B. „Männer (mM) verdienen im Schnitt mehr, als Frauen (mF).“ H: mM > mF. t-Test 1-Faktor Varianzanalyse (ANOVA) p = 15.4% p = 5% t t =0 t = 1.89 t = 1.097 p = 2.5% p = 2.5% t Der p-Wert ist grösser als 5%; somit schliessen wir, dass das Geschlecht keinen Einfluss hat auf das Salär. t = -2.36 t =0 t = 2.36

Blocktag 3: Nachmittag Induktive Statistische Analyse der Hypothesen für Korrelationen (Regressionsanalyse) Abschluss des Berichtes

Statistik und Interpretation Jeder Punkt im obigen Diagramm zeigt für verschiedene Filialen deren Ausstellungsfläche (AF) für Orangen und die erzielten Umsätze (U). 1. Interpretation (Korrelation): Je grösser die AF, desto mehr U wird gemacht. Somit müssen alle Filialen mit kleinen AF ihre AF sofort vergrössern, damit sie mehr U machen. 2. Interpretation (Kausalität): AF und U haben keinen Zusammenhang. Die Tatsache, dass es in der markierten Zone im Diagramm keine Filialen hat bedeutet, dass Filialen mit kleinen AF offenbar die AF nicht genügend schnell nachfüllen, wenn sie leer werden, und sie deshalb bei kleiner AF weniger Umsatz machen. Äpfel weit weg Äpfel in der Nähe 3. Interpretation (Partielle Korrelation): Die drei Gruppen im Diagramm stehen für Filialen, welche die Orangen beim Eingang, in der Ladenmitte und hinten im Laden aufgestellt haben. U wird nicht von AF beeinflusst, sondern es ist die Lage, welche sowohl U wie auch AF beeinflusst. D.h. bei konstanter Lage (z.B. „Mitte“) gibt es keine Korrelation zwischen AF und U. 4. Interpretation (Interaktion): U hängt nicht nur von der Lage der Orangen ab, sondern auch von der Lage der Äpfel. Werden Orangen und Äpfel nebeneinander verkauft, sinkt der totale Umsatz, liegen sie aber weiter auseinander, nimmt er zu.

1-Faktor Regressionsanalyse (b0  0, b1  0) 1-Faktor Hypothese (beide kontinuierliche Werte: Jahre, Fr.) Alter (Jahre) Salär (CHF) Frage: „Hängt das Salär vom Alter ab?“ Z.B. „Je älter man ist, desto mehr verdient man: positive Korrelation (rAS). H: rAS > 0. Korrelationsanalyse, Kurvenanpassung 1-Faktor Regressionsanalyse Salär = b1Alter + b0 Um die Signifikanz der Koeffizienten a und b zu testen, muss man die Regressionsanalyse durchführen. Offenbar sind die beiden Koeffizienten signifikant, denn beide p-Werte sind kleiner als 5%. Wir akzeptieren die Hypothese, dass das Salär vom Alter abhängig ist. Salär = 8.62xAlter – 114.103

1-Faktor Regressionsanalyse Zusammenhang zwischen der Steigung a und dem Korrelationskoeffizienten r Regressionslinie: y = ax + b a = r  sy / sx r: Regressionskoeffizient sx: Standardabweichung der x Werte sy: Standardabweichung der y Werte b = my – a  mx mx: Mittelwert der x Werte my: Mittelwert der y Werte x y y = ax + b dy dx a = dy dx b

2-Faktor Regressionsanalyse 2-Faktor Hypothese (alles kontinuierliche Werte) Alter (Jahre) „Das Salär hängt vom Alter und von der Note ab?“ Z.B. „Je älter man ist und je besser die Note, desto mehr verdient man (Salär ist lineare Funktion von A und N: S = k1xA + k2xN + k3). H: k1 > 0, k2 > 0, k3 > 0. 2-Faktor Regressionsanalyse Salär (Fr.) Salär = b1Alter + b2Note + b0 Note (1-6) Gleiches Vorgehen im EXCEL, wie mit einem Faktor, mit dem Unterschied, dass es zwei x-Variablen (Alter und Note) hat. Gesucht wird das Modell, welches maximales adjustiertes Bestimmtheitsmass (adj. R2) hat und alle Koeffizienten signifikant sind (p <= 5%). Mit beiden Variablen ist das Regressionsmodell nicht zulässig, da der p-Wert des Schnittpunktes nicht signifikant ist. Da nur der Koeffizient des Schnittpunkts nicht signifikant ist, kann man in EXCEL den Schnittpunkt = 0 festlegen; Alter und Note sind signifikant und somit wird adj. R2 = 0.86. Alter und Note haben grosse Korrelation; das Modell hat somit eine grosse Multikollinearität. Es müsste deshalb untersucht werden, ob nur das Alter als unabhängige Variable genommen werden sollte. Mit nur dem Alter als unabhängige Variable erhält man adj. R2 = 0.71. Salär = 7.33xAlter – 16.41xNote

Typs zur Regressionsanalyse (1/3) Gesucht wird das Modell, welches maximales adjustierte Bestimmtheitsmass (adj. R2) hat und alle Koeffizienten signifikant sind (p ≤ 5%). Wenn nur der Koeffizient des Schnittpunkts nicht signifikant ist, kann man in EXCEL den Schnittpunkt = 0 festlegen. Grosse Multikollinearität (Korrelation zwischen unabhängigen Variablen) muss vermieden werden. Es lohnt sich, schrittweise das Modell zu bilden, indem man zuerst nur mit jener unabhängigen Variablen beginnt, die am stärksten mit der abhängigen Variablen korreliert; dann fügt man neue Variablen hinzu, solange das adj. R2 wächst. Wenn zwei unabhängige Variablen grosse Interaktion aufweisen, dann muss man eine neue Variable einführen, welche das Produkt der beiden Variablen ist; das lineare Modell wird somit erweitert zu einem nicht-linearen Modell mit Termen höherer Ordnung. Kategorische Variablen (z.B. Berufsklassen) können auch berücksichtigt werden, indem man für diese Indikatorvariablen (nehmen Werte 0 oder 1 an) einführt. Bei n Kategorien, führt man n-1 Indikatorvariablen ein. Die Indikatorvariable nimmt den Wert 1 an, wenn die entsprechende Beobachtung zutrifft, sonst 0. Wenn eine unabhängige Variable nicht linear, sondern gemäss einer anderen Funktion korreliert, dann kann man diese Variable transformieren und somit die Korrelation mit der abhängigen Variablen erhöhen (siehe unten). Die lineare Regression ergibt ein R2 = 79%, während die exponentielle Funktion ein R2 = 89% hat. Somit soll man die x-Werte gemäss dieser exponentiellen Funktion glätten und dann mit den geglätteten Werten eine Regressionsanalyse durchführen.

Typs zur Regressionsanalyse (2/3) Wichtigkeit einer Variablen Mit der ANOVA Tabelle können wir das Bestimmtheitsmass r2 berechnen: r2 = SSR/SST berechnen. Der Anteil, den eine Variable Xk zur Erklärung der totalen Variabilität leistet, r2k, stellt die Wichtigkeit dieser Variablen dar und berechnet sich wie folgt: SSRalle-k: SSR aus der Regression unter Ausschluss von Variable k 1. Voraussetzung für Lineare Regression Salär = 7.33xAlter – 16.41xNote Normalverteilung der Fehler mit Mittelwert = 0 („beobachtetes Salär“ minus „mit Regression vorausgesagtes Salär“) Normalverteilung der Fehler liegt nicht vor (Abb. links) Ist die Annahme einer Normal-verteilung des Fehlers nicht gegeben, dann gelten die statistischen Tests nicht und das R2 wird zu klein.

Typs zur Regressionsanalyse (3/3) 2. Voraussetzung für Lineare Regression Salär = 7.33xAlter – 16.41xNote Homoskedastizität (Streuung der Fehler hängt nicht mit der Grösse der x-Werte ab; kleine x-Werte haben kleinere Varianz, während grössere x-Werte haben grössere Varianz) Bild links; die Fehler nehmen mit zunehmenden x-Werte zu. Die Verletzung der Homoskedastizität führt dazu, dass die statistische Signifikanz der Regression falsch interpretiert wird. Man kann dieses Phänomen durch die sog. „gewichtete Methode der kleinsten Quadrate“ beheben. Eine Verletzung der Homoskedastizität nennt man Heteroskedastizität; d.h. die Varianz der Residuen ist nicht homogen. Beispiel Homoskedastizität liegt nicht vor (Abb. oben) (analoges mit der „Note“ untersuchen) 3. Voraussetzung für Lineare Regression Salär = 7.33xAlter – 16.41xNote Vermeidung von Autokorrelation (y-Werte korrelieren mit der Zeit, zu der sie gemessen wurden) Die Fluktuation der Fehler in einem „rauf-runter“ Muster ist ein Anzeichen der Autokorrelation. Autokorrelation führt dazu, dass der p-Wert unterschätzt wird, d.h. man kommt einfacher zum Schluss, dass die Regressionsfunktion Gültigkeit hat. Autokorrelation liegt vor (Abb. links) Fazit: alle drei Voraussetzungen für eine Lineare Regression werden verletzt; somit ist das Modell nicht haltbar.

Nach- und Vorbereitung Studierende Tag 3 Aufwand (ca) Thema Hilfsmittel Besonderes 5 Std. Abschluss der Statistischen Tests Excel Gruppenarbeit 5. Std. Abschluss und Abgabe des Berichts Word Abgabe Bericht (als pdf) mit xls Datei, beide gezipped bis am xx.12.2008 (18:00) inklusive funktionierendem Link für Internetfragebogen an: gb@fhhwz.ch nur von HWZ accounts aus.