Data Mining 8.5.2007 Georg Pölzlbauer.

Slides:



Advertisements
Ähnliche Präsentationen
Quanti Tutorium
Advertisements

Univariate Statistik M. Kresken.
Was ist Testtheorie?.
Lagemaße kritische Fragen
Berechnung des Korrelationskoeffizienten Vorbemerkung. Der Korrelationskoeffizient ist im Grunde ein Bruch aus 3 unvollständig berechneten statistischen.
Streuungsmaß 3: absolute Abweichung vom Mittelwert
Philosophische Fakultät 3: Empirische Humanwissenschaften Fachrichtung Erziehungswissenschaft Statistik I Anja Fey, M.A.
Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.
Die t-Verteilung Jonathan Harrington.
Forschungsstatistik I
Forschungsstatistik I
Der Produkt-Moment- Korrelationskoeffizient Der Produkt-Moment Korrelationskoeffizient gibt Stärke und Richtung des linearen Zusammenhanges zweier Variablen.
K. Desch - Statistik und Datenanalyse SS05
Nachholung der Vorlesung vom Freitag
Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.
Vorlesung Die Vorlesung Statistische Methoden II nächste Woche vom 6. Juni ( nächste Woche ) wird auf den 4. Juni (Mittwoch) vorverlegt ! 14 – 16 Zeit:
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.
Statistische Methoden II SS 2008 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Makarenkostraße (Kiste)
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Datenmatrix.
Streuungsparameter für Median Mittlere Abweichung vom Median Die Ungleichung gilt für jede Konstante c.
Probeklausur Die Probeklausur findet am anstelle der Vorlesung statt. 13. Juni 2003 Nächste Woche!!
Test auf Normalverteilung
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Univariate Statistik M. Kresken.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Vorlesung: Biometrie für Studierende der Veterinärmedizin Helmut Küchenhoff 1 Zusammenfassung zur Vorlesung Begriff der biologischen Variabilität.
Diskrete Wahrscheinlichkeitsmodelle
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Stetige Zufallsgrößen
Wiederholung und Beispiele
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Binomialverteilung: Beispiel
Vorlesung: ANOVA I
Vorlesung: ANOVA II.
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Histogramm/empirische Verteilung Verteilungen
Ausgleichungsrechnung I
Ausgleichungsrechnung II
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Aufgabenzettel V Statistik I
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
STATISIK LV Nr.: 0028 SS Mai 2005.
Multivariate Statistische Verfahren
Multivariate Statistische Verfahren
Statistische Methoden in der Wirtschafts- und Sozialgeographie
Forschungsmethodik II, SS 2010 Vesna Pavlovski & Julia Pichlhöfer
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Statistik – Regression - Korrelation
Veranstaltung 4.
Messen Zuordnung von Zahlen zu Objekten/Ereignissen gemäß Regeln
Mathematik für BiologInnen WS 05
setzt Linearität des Zusammenhangs voraus
2.5.2 Multivariate Monte Carlo-Simulation
K. Desch - Statistik und Datenanalyse SS05 1 Zusammenfassung 2. Vorlesung (22.4.) Schiefe (Skewness): Maß für die Asymmetrie der Verteilung um den Mittelwert.
K. Desch - Statistik und Datenanalyse SS05
Datenmatrix HKI Proseminar Philipp Cielen.
Verteilungen, Varianz Tamara Katschnig.
Deskriptive Statistik, Korrelationen, Mittelwertvergleiche, Graphiken
Geoinformationssysteme
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
Ökonometrie und Statistik Wiederholung
Ökonometrie und Statistik Wiederholung
Ökonometrie und Statistik Wiederholung
Korrelation & Skalentransformation
 Präsentation transkript:

Data Mining 8.5.2007 Georg Pölzlbauer

Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte xi (samples, patterns) D Spalten sind Merkmale (features, variables)

Datenmatrix (2) Beispiel: Umfrage; es werden 100 Personen zu ihrer Einstellung zu 5 politischen Parteien gefragt (Bewertung auf Skala von 0 bis 10) 100 Zeilen, 5 Spalten Es gibt auch andere Arten von Daten (z.B. Zeitreihen, strukturierte Daten, …), diese sind aber nicht Thema dieser Vorlesung

Geometrische Interpretation (1) Samples xi sind Punkte in einem Vektorraum "Datenpunkte" bilden Datenwolke

Geometrische Interpretation (2) 1,50 1,60 1,70 1,80 1,90 40 50 60 70 80 90 100 Gewicht (kg) Größe (m)

Skalentypen (1) Nominalskala Ordinalskala Werte stehen in keiner Ordnung zueinander, unterschiedliche Werte sind sich alle gleich unähnlich z.B. Haarfarbe (blond, brünett, schwarz, …) Ordinalskala numerische Skala, aber Abstände zwischen den Werten haben keine Bedeutung z.B. Noten (ist der Abstand zw. 4 und 5 genau so groß wie der zwischen 2 und 3?)

Skalentypen (2) Intervallskala Verhältnisskala Abstand zwischen 2 Werten kann gemessen und mit anderen Abständen verglichen werden z.B. Temperatur (in Celsius, Fahrenheit) Verhältnisskala wie Intervallskala, man kann aber Verhältnisse berechnen, hat sinnvollen Nullpunkt z.B. Gewicht, Größe (Person A ist 1,2x so groß wie B)

Metriken (1) Welche Datenpunkte sind ähnlich? Euklidische Distanz (L2-Metrik) Manhattan Distanz (L1-Metrik, City-Block)

Metriken (2) Abstand?

Metriken (2) Euklidische Distanz

Metriken (2) City Block

Mittelwert, Varianz (1) Arithmetisches Mittel (Mittelwert, mean) kann pro Merkmal gebildet werden Streuungsmaße wie Varianz bzw. Standardabweichung können ebenfalls für jedes Merkmal berechnet werden

Mittelwert, Varianz (2) 1,50 1,60 1,70 1,80 1,90 40 50 60 70 80 90 100 Gewicht (kg) Größe (m)

Mittelwert, Varianz (2) 1,50 1,60 1,70 1,80 1,90 40 50 60 70 80 90 100 Gewicht (kg) Größe (m) s2 s1

1-zu-N Kodierung (1) Die meisten Data Mining Algorithmen benötigen intervallskalierte Daten Problem v.a. bei kategorischen Daten (nominalskaliert) Lösung: Eine binäre Variable für jede mögliche Ausprägung

1-zu-N Kodierung (2) feature red blue green red blue green 1

Fehlende Werte Oft vorkommendes Problem bei Data Mining Mögliche Lösungen: Verfahren verwenden, die damit umgehen können (Decision Trees, SOMs) Diese Samples weglassen Werte interpolieren (missing value prediction)

Ausreißer Ausreißer können Fehlmessungen oder einfach stark untypische Samples sein Problem bei Berechnung von Varianz, Kovarianz etc. Robuste Statistik: Median, Quartile, etc.

Normalisierung von Daten (1) 1,50 1,60 1,70 1,80 1,90 40 50 60 70 80 90 100 Gewicht (kg) Größe (m) Abstand = sqrt(0,3^2 + 45^2) = sqrt(2025,09) = 45 45 0,3

Normalisierung von Daten (1) 1500 1600 1700 1800 1900 40 50 60 70 80 90 100 Gewicht (kg) Größe (mm) Abstand = sqrt(300^2 + 45^2) = sqrt(92025) = 303 45 300

Normalisierung von Daten (2) Die Abstandsmeßung sollte von der Maßeinheit der Merkmale unabhängig gemacht werden Standardisierung (zero-mean-unit-variance):

Normalisierung von Daten (3) 1,50 1,60 1,70 1,80 1,90 40 50 60 70 80 90 100 Gewicht (kg) Größe (m)

Normalisierung von Daten (3) -2 -1 1 2 -3 3 Gewicht Größe 5,5 4,5

Normalisierung von Daten (4) Chebyshevs Ungleichung 75% der standardisierten Werte zwischen -2 und +2 89% der Werte zwischen -3 und +3 94% der Werte zwischen -4 und +4

Dichtefunktion Es wird angenommen, daß den gemessenen Werten (Datenmatrix) eine Dichtefunktion zu Grunde liegt Diese Funktion ist unbekannt, es ist eine unserer Aufgaben sie zu schätzen

Normalverteilung (1) Die Normalverteilung nimmt in der Statistik eine besondere Rolle ein Eine Zufallsvariable X ist normalverteilt:

Normalverteilung (2)

Multivariate Verteilungen (1) MV Zufallsvariable werden durch mehrdimensionale Dichtefunktionen beschrieben Für MV Normalverteilung schreibt man z.B. Zufallsvektor Vektor von Mittelwerten Kovarianzmatrix

Multivariate Verteilungen (2)

Stichproben (1) Die konkreten Ausprägungen, die gemessen werden, sind Stichproben der Population Die Stichprobe besteht aus N Samples, Population wird durch kontinuierliche Dichtefunktion beschrieben

Stichproben (2)

Population vs. Stichprobe Mittelwert Varianz

Bayes Theorem (1) Oft stehen Zufallsereignisse mit einander in Verbindung Wenn man z.B. die Ereignisse „die Erde ist naß“ (A) und „es regnet“ (B) betrachtet: Wahrscheinlichkeiten P(A) = 0,15 und P(B) = 0,12 Mit der Information, daß der Boden naß ist (also A eingetreten ist), scheint es wahrscheinlicher, daß es regnet

Bayes Theorem (2) Bedingte Wahrscheinlichkeit: P(B|A) = 0,8 D.h. unter der Voraussetzung, dass der Boden naß ist, regnet es mit W. von 80% (ohne dieser Information: 12%) Das Bayes Theorem erlaubt die Berechnung der W. in die andere Richtung (d.h. wenn man die Bedingung vertauscht)

Bayes Theorem (3) Bayes Theorem: Z.B.: P(A|B)… W. daß der Boden naß ist wenn es regnet P(A|B) = 0,15*0,8/0,12 = 1

Kovarianz Kovarianz mißt die Stärke des linearen Zusammenhangs zweier Variablen 1,50 1,60 1,70 1,80 1,90 40 50 60 70 80 90 100 Gewicht (kg) Größe (m)

Kovarianzmatrix Die Kovarianzmatrix hat die Varianzen der Variablen in der Diagonale, und die Kovarianzen außerhalb der Diagonale Beispiele:

Korrelation Standardisierte Kovarianz (dimensionslos, zwischen -1 und +1, ähnlich Normalisierung) Negative Korrelation: Wenn x1 steigt, sinkt x2 Positive Korrelation: Wenn x1 steigt, steigt auch x2 Korrelation = 0: Kein linearer Zusammenhang

Schiefe (1) Weiteres „statistisches Moment“ (neben Mittelwert, Varianz) Schiefe ist ungleich 0 wenn Verteilung nicht symmetrisch

Schiefe (2)

Informationstheorie: Entropie

Datenanalyse: Scatterplots

Hauptkomponentenanalyse