„schlecht“ „gut“.

Slides:



Advertisements
Ähnliche Präsentationen
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Advertisements

Elternfragebogen 2009 Die Auswertung ist da mit super Ergebnissen!
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Die Projektgruppe heißt Sie herzlichst willkommen
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Streuung Bezeichnung Streuung=Dispersion=Variabilität Fragestellung:
Telefonnummer.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Statistiken und Tabellen
Quantitative RT-PCR an nativen Prostatakarzinom-Biopsien: Etablierung der Technik und erste vergleichende Ergebnisse Medizinische Fakultät Universitätsklinikum.
Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.
EF: Standards + H2O red = H2O.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Differentielles Paar UIN rds gm UIN
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Univariate Statistik M. Kresken.
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
Daten auswerten Boxplots
20:00.
Zusatzfolien zu B-Bäumen
WIRTSCHAFTSLAGE NOCH SCHWIERIG
In der Schule.
Eine Einführung in die CD-ROM
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Dokumentation der Umfrage
für Weihnachten oder als Tischdekoration für das ganze Jahr
Where Europe does business Lück, JDZB | Seite © GfW NRW 252 a.
Wir üben die Malsätzchen
Syntaxanalyse Bottom-Up und LR(0)
Kennwerte und Boxplots
STATISIK LV Nr.: 0028 SS Mai 2005.
Addieren und Subtrahieren von Dezimalzahlen
Aufgabensammlung Thermodynamik Frank-Michael Barth ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures.
Das entscheidende Kriterium ist Schönheit; für häßliche Mathematik ist auf dieser Welt kein beständiger Platz. Hardy.
Der Ablauf eines Clear Rex Klärzyklus
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Eine lllustration der Herausforderungen des Stromsystems der Zukunft
Symmetrische Blockchiffren DES – der Data Encryption Standard
Retuschen.ppt Die folgende Schau zeigt die Möglichkeiten, mit PhotoDraw Digitalbilder zu retuschieren. Vergleichen Sie jeweils zwei Bildpaare durch fleissiges.
Szenisches Lernen Wie Theaterelemente den Unterricht bereichern
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Parkplatz-Orga Diese Version ist vom finale Version!
Sachbezugswerte 2007 (SV-Entgeltverordnung) Sachbezugswerte für freie Verpflegung FrühstückMittagessenAbendessen 1,50 2,67 Monatlicher Wert Verpflegung.
Kamin- und Kachelöfen in Oberösterreich
Zusammengestellt von OE3DSB
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
1 Arbeitsgemeinschaft Biologische Psychiatrie Verordnungsgewohnheiten von Psychopharmaka Statuserhebung 2005 W.Günther G.Laux T.Messer N.Müller M.Schmauss.
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Projekt Messendorferstraße Graz TOP 1-33 /EG Wohnhaus 1 Grundstück 2 Schlafen10,28 m² Wohnen /Kochen 15,35 m² Diele 2,50 m² Bad mit WC 4,40m² Terrasse.
AGOF facts & figures: Branchenpotenziale im Internet Q2 2014: Parfum & Kosmetik Basis: internet facts / mobile facts 2014-I.
Bürgermeister Absolute Stimmen Gesamt. Bürgermeister Prozentuale Aufteilung Gesamt.
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
 Präsentation transkript:

„schlecht“ „gut“

Unterschiede messen Median ist der Punkt, bei dem die eine Hälfte der Werte oberhalb und die andere unterhalb dieses Punktes liegt Median Mean 0 1 2 3 4 5 6 7 8 9 10 Der Mittelwert wird berechnet durch die Summe aller Werte geteilt durch die Anzahl der Werte

∑ ∑ Mathematisch wird die Berechnung des Mittelwertes so dargestellt: X = ∑ xi n X ausgesprochen: X Strich oder x quer ist das Symbol für den Mittelwert ∑ dies ist der griechische Großbuchstabe für Sigma und das sog. Summenzeichen, d.h. alle Messwerte müssen addiert werden xi dieses Zeichen steht für sämtliche Einzelmesswerte n und n steht schließlich für die Anzahl der durchgeführten Messungen

Unterschiede messen Zwei weit verbreite, einfache Methoden: Zwischen zwei Klassen unterscheiden: Gut ↔ Schlecht Zwischen vier (oder einer anderen Anzahl von) Perzentilen unterscheiden

Einfache Aussage über Reihenfolge 1 Rangreihe: Einfache Aussage über Reihenfolge Hohe Reliabilität, etwa durch Paarvergleich Keine Informationen über Abstände Vergleichbarkeit nur bei identischen N‘s 2 3 4 5 6 7 8

Grobe Aussage über die Stellung in einer Reihe Quartile: Grobe Aussage über die Stellung in einer Reihe Hohe Reliabilität, weil recht ‚simpel‘ Sehr grobe Informationen über Abstände Einfache Vergleichbarkeit über verschiedene Bereiche hinweg 1 I. Quartil 2 3 II. Quartil 4 5 III. Quartil 6 7 VI. Quartil 8

Werte Quartil Prozentrang 30 4 100,00 28 90,00 21 3 80,00 16 70,00 12 60,00 11 2 50,00 6 40,00 5 30,00 1 20,00 10,00 Prozentrang („RANG“): Aussage über die Stellung in einer Reihe Reliabilität von der Messung abhängig Keine Informationen über Abstände Einfache Vergleichbar- keit über verschiedene Bereiche hinweg

Relativer Prozentrang Werte Relativer Prozentrang 30 100,00 28 93,33 21 70,00 16 53,33 12 40,00 11 36,67 6 20,00 5 16,67 1 3,33 ,00 Relativer Prozentrang: (100*Wert)/MaxWert Genaue Aussage über die Stellung in einer Reihe Reliabilität von der Messung abhängig Informationen über Abstände Einfache Vergleichbar- keit über verschiedene Bereiche hinweg

Werte Rel. % Z-Werte Note 30 100,00 1,59844 2 28 93,33 1,41039 21 70,00 ,75221 3 16 53,33 ,28208 12 40,00 -,09403 4 11 36,67 -,18805 6 20,00 -,65818 5 16,67 -,75221 1 3,33 -1,12831 ,00 -1,22234

Unterschiede messen Keine Variation vorhanden

Erste Ebene: Spannbreite (R für range) Unterschiede messen In welchem Maß ist Variation vorhanden? Erste Ebene: Spannbreite (R für range) R = Xmax – Xmin

Zweite Ebene: Summe der quadrierten Fehler (Abweichungen) Unterschiede messen In welchem Maß ist Variation vorhanden? Zweite Ebene: Summe der quadrierten Fehler (Abweichungen) ∑ ( ) 2 xi - X σ² = n - 1 Mean

Dritte Ebene: Standardabweichung Unterschiede messen In welchem Maß ist Variation vorhanden? Dritte Ebene: Standardabweichung √ ∑ ( ) 2 xi - X σ = n - 1 Mean

z = σx xi Unterschiede messen In welchem Maß ist Variation vorhanden? Vierte Ebene: z-Transformation Abstand jeder Messung zum Mittelwert, geteilt durch die Standardabweichung xi - X z = σx Mean 0 Mean 0 Alle Mittewerte werden Null, die Abstände werden standardisiert; die relative Lage jeder Messung kann verglichen werden

(leicht hinkender Vergleich) Sie wollen verschieden formatige, verschieden große Bilder auf eine Seite bringen

(leicht hinkender Vergleich) Sie wollen verschieden formatige, verschieden große Bilder auf eine Seite bringen

Mittelwerte: 64,55 49,26 Std.-Abw.: 11,623 29,831

Wirkung der Z-Transformation:

Mit Hilfe dieser Grafik wird erkennbar, was die Prozentränge im Unterschied zu den Z-standardisierten Werten angeben: Am linken Rand sind die Rohwerte abgetragen, am oberen Rand die Prozentränge und am unteren Rand die z-standardisierten Werte. Wie ersichtlich, hat der höchste Rohwert den Prozentrang 100 und den Z-Wert +3. Der niedrigste Rohwert hingegen den Prozentrang 1,25 und den Z-Wert -2.

Prozentränge cum f cum f % = 100 N (N = 300) Rohwert Fälle f cum f 80 .. 5 25 98 4 18 73 24,3 24 3 19 55 18,3 2 15 36 12,0 12 1 21 7,0 7 9 3,0 300 = 100 % 9 = x %

sog. ‚Absoluter Rangwert‘: 1. Rang + 2. Rang/2 = 1,5 Werte mal 100/Max-Wert: 2*100 = 200/30 = 6,66666 Relative Rangfolge in %: 20 = 100 % 1,5 = x % Z-Transformation

Umwandlung eines numerischen Wertes in einen kategorialen Wert

Deskriptive Statistik (School perfomance) Gült. N Mittelw. Median Minimum Maximum Stdabw. WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652 Deskriptive Statistik (School perfomance)

Mittelwert: Arithmetisches Mittel = Summe aller beobachteten Merkmalswerte dividiert durch die Anzahl der Beobachtungen Median (auch Zentral- oder 50% Wert): Der Median ist der Wert für den gilt, dass 50% aller Werte größer oder gleich sind. Der Median halbiert die Stichprobenverteilung

Deskriptive Statistik (School perfomance) Gült. N Mittelw. Median Minimum Maximum Stdabw. WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269 Deskriptive Statistik (School perfomance)

Gült. N Mittelw. Median Minimum Maximum Stdabw. WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652 Gült. N Mittelw. Median Minimum Maximum Stdabw. WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269

Umwandlung eines numerischen Wertes in einen kategorialen Wert

Deskriptive Statistik (School perfomance) Gült. N Mittelw. Median Minimum Maximum Stdabw. WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652 Deskriptive Statistik (School perfomance)

Mittelwert: Arithmetisches Mittel = Summe aller beobachteten Merkmalswerte dividiert durch die Anzahl der Beobachtungen Median (auch Zentral- oder 50% Wert): Der Median ist der Wert für den gilt, dass 50% aller Werte größer oder gleich sind. Der Median halbiert die Stichprobenverteilung

Deskriptive Statistik (School perfomance) Gült. N Mittelw. Median Minimum Maximum Stdabw. WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269 Deskriptive Statistik (School perfomance)

Gült. N Mittelw. Median Minimum Maximum Stdabw. WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652 Gült. N Mittelw. Median Minimum Maximum Stdabw. WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269

Gruppenzugehörigkeit: A Gruppenzugehörigkeit: B Gruppenzugehörigkeit: C

Gibt es „Muster“ in der Verteilung?

Durch was unterscheiden sich die drei Iristypen? Kelchlänge Kelchbreite Blattlänge Blattbreite Iristyp 1 5 3,3 1,4 0,2 Setosa 2 6,4 2,8 5,6 2,2 Virginic 3 6,5 4,6 1,5 Versicol 4 6,7 3,1 2,4 6,3 5,1 6 3,4 0,3 7 6,9 2,3 8 6,2 4,5 9 5,9 3,2 4,8 1,8 10 3,6 11 6,1 12 2,7 1,6 13 5,2 14 2,5 3,9 1,1 15 5,5 16 5,8 1,9 17 6,8 18 1,7 0,5 19 5,7 1,3 20 5,4 21 7,7 3,8 22 4,7 23 24 7,6 6,6 2,1 25 4,9 Fisher (1936) Irisdaten: Länge und Breite von Blättern und Kelchen für 3 Iristypen Durch was unterscheiden sich die drei Iristypen?

CART (classification and regression trees) Kategoriale Werte (gut/schlecht) Metrische Werte (1, 2, 3, 4, ..) [Nominale, Ordinale Werte] CART (classification and regression trees) Split: Welche Variable trennt am besten bei welchem Wert?

Fehlklassifikationsmatrix Lernstichprobe (Irisdat) Matrix progn Fehlklassifikationsmatrix Lernstichprobe (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150 Klasse - Setosa Klasse - Versicol Klasse - Virginic Setosa Versicol 4 Virginic 2 Prognost. Klasse x Beob. Klasse n's (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150 Klasse - Setosa Klasse - Versicol Klasse - Virginic Setosa 50 Versicol 48 4 Virginic 2 46

Split-Bedingung (Irisdat) Split-Bedingung je Knoten Split - Konst. Split - Variable 1 -2,09578 Blattlänge 2 3 -1,64421 Blattbreite

Zwei, von vielen Problemen: Feature Choise Overfitting, Underfitting

Zwei, von vielen Problemen: Feature Choise Overfitting, Underfitting

Kategoriale Splits Bivariate Splits Multivariate Splits a b < 0,5 > 0,5 Multivariate Splits < 0,5 > 0,5, < 1,8 > 1,8

Analyse und Modellbildung Wie kann man dieses Problem lösen? Etwa mit Hilfe einer sog. „Kreuzvalidierung“: Alle Daten Teilmenge Anwendung auf andere Teilmenge Analyse und Modellbildung

Daten Trainings-daten Daten teilen Validierungs-daten Modell- bewertung

Vierter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig Vierter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig? Güte der erreichten Aufklärung überprüfen

Practical Significance Statistical Significance

Was, wenn kein Zusammenhang? Practical Significance 50% Datensatz Datensatz Modell/Zusammenhang 50% Datensatz Statistical Significance Modell/Zusammenhang = Zufall? Zufall Modell/Zusammenhang >/< Zufall? Was, wenn kein Zusammenhang?

Zusammenfassung der behandelten methodischen Ansätze: Eine bislang unbehandelte Frage lautet: Wie aussagekräftig sind die jeweils gewonnenen Befunde?

H0 Person A besitzt keine hellseherischen Fähigkeiten Folgende Hypothese soll geprüft werden: H0 Person A besitzt keine hellseherischen Fähigkeiten H1 Person A verfügt über hellseherische Fähigkeiten Unter welchen Bedingungen kann H0 bestätigt/verworfen werden? Unter welchen Bedingungen kann H1 bestätigt/verworfen werden? Es gibt Konventionen, die als Grundlage der Entscheidung genutzt werden können/sollten: Das Signifikanzniveau. Irrtumswahrscheinlichkeit Bedeutung Symbolisierung p > 0,05 nicht signifikant ns p <= 0,05 signifikant * p <= 0,01 sehr signifikant ** p <= 0,001 höchst signifikant ***

Wie groß ist die Wahrscheinlichkeit dreimal „Kopf“ zu erhalten, wenn drei mal eine Münze geworfen wird? Dazu müssen wir uns die Möglichkeiten vor Augen führen: (K = Kopf; W = Wappen) WWW, WWK, WKW, KWW, WKK, KWK, KKW und KKK Wir haben folglich 8 Möglichkeiten, davon erfüllt eine unsere Bedingung. Die Wahrscheinlichkeit p ist demnach 1/8 oder 0,125.

Wahrscheinlichkeit p bei drei Würfen

Wie groß ist die Wahrscheinlichkeit viermal „Kopf“ zu erhalten, wenn vier mal eine Münze geworfen wird? Dazu erneut die Möglichkeiten: (K = Kopf; W = Wappen) W W W W K K K K W W K K K W K W W W W K K K K W W K K W W K W K W W K W K K W K K K W W W K W W K W K K K W W K K W W W W K K K Wir haben folglich 16 Möglichkeiten, davon erfüllt eine unsere Bedingung. Die Wahrscheinlichkeit p ist demnach 1/16 oder 0,0625.

Signifikanzstufen Irrtumswahrscheinlichkeit Bedeutung Symbolisierung p > 0,05 nicht signifikant ns p <= 0,05 signifikant * p <= 0,01 sehr signifikant ** p <= 0,001 höchst signifikant ***

„Ein Wert von p = 0.05 besagt unter der Annahme, dass kein Effekt existiert, dass – vereinfacht aus- gedrückt, puristische Methodiker mögen mit der Stirn runzeln – bei dieser Stichprobengröße ein mindestens so großer Effekt nur in 5% aller vergleichbar angelegter Studien beobachtet werden kann.“ Rost 2007, 81

Irrtumswahrscheinlichkeit: Ein p = 0,03 bedeutet: Die Wahrscheinlichkeit, dass unter der Annahme, die Nullhypothese sei richtig, das gegebene Untersuchungsergebnis oder ein noch extremeres auftritt, beträgt 0,03 oder 3%. Signifikanzstufen p <= 0,05 signifikant * p <= 0,01 sehr signifikant ** p <= 0,001 höchst signifikant ***

Partner Partnerin Vorzeichen + - = Ergebnis einer hypothetischen Studie, in der die Ausbildung von Paaren verglichen wird (aus: Sedlmeier & Renkewitz 2008, 370): Partner Partnerin Vorzeichen Studium Realschule + Gymnasium - = Es finden sich somit 7 positive Vorzeichen. Ist das Ergebnis auf dem 5% Niveau signifikant? Wie hoch ist die Wahrscheinlichkeit für 0, 1, 2 etc. positive Vorzeichen? Vorzeichentest nach Fischer

Wenn, wie im vorliegenden Fall, von zehn Paaren sieben ein positives Vorzeichen aufweisen (Bildungsabschluss des männlichen Partners höher als der des weiblich), dann liegt die Wahrscheinlichkeit dafür: 0,1 % + 1,0 % + 4,4 % + 11,7 % = 17,2 % Es wäre gemäß der Konvention also falsch, daraus irgendwelche Schlussfolgerungen zu ziehen, weil ns.

Erstellen einer einfachen Probedatei mit folgendem Inhalt:

Bei zwei Beobachtungen pro Schulform ergeben sich damit 3 mal 8 = 24 Kombinationsmöglichkeiten: № Schulform Abschluss 1 2 3 4 5 6 7 8

Die Wahrscheinlichkeit p ist demnach für eine ‚Abweichung‘ von einem Fall bei sechs Beobachtungen 01/06 entspricht der Wahrscheinlichkeit vom 8/24 p = 0,33333

N = 80

N = 4

N = 8

N = 16

N = 80

N = 4

N = 4

N = 8

N = 16