Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Ähnliche Präsentationen


Präsentation zum Thema: "Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)"—  Präsentation transkript:

1 Data Mining 8.5.2007 Georg Pölzlbauer

2 Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns) D Spalten sind Merkmale (features, variables)

3 Datenmatrix (2) Beispiel: Umfrage; es werden 100 Personen zu ihrer Einstellung zu 5 politischen Parteien gefragt (Bewertung auf Skala von 0 bis 10) 100 Zeilen, 5 Spalten Es gibt auch andere Arten von Daten (z.B. Zeitreihen, strukturierte Daten, …), diese sind aber nicht Thema dieser Vorlesung

4 Geometrische Interpretation (1) Samples x i sind Punkte in einem Vektorraum "Datenpunkte" bilden Datenwolke

5 Geometrische Interpretation (2) 1,501,601,701,801,90 40 50 60 70 80 90 100 Gewicht (kg) Größe (m)

6 Skalentypen (1) Nominalskala Werte stehen in keiner Ordnung zueinander, unterschiedliche Werte sind sich alle gleich unähnlich z.B. Haarfarbe (blond, brünett, schwarz, …) Ordinalskala numerische Skala, aber Abstände zwischen den Werten haben keine Bedeutung z.B. Noten (ist der Abstand zw. 4 und 5 genau so groß wie der zwischen 2 und 3?)

7 Skalentypen (2) Intervallskala Abstand zwischen 2 Werten kann gemessen und mit anderen Abständen verglichen werden z.B. Temperatur (in Celsius, Fahrenheit) Verhältnisskala wie Intervallskala, man kann aber Verhältnisse berechnen, hat sinnvollen Nullpunkt z.B. Gewicht, Größe (Person A ist 1,2x so groß wie B)

8 Metriken (1) Welche Datenpunkte sind ähnlich? Euklidische Distanz (L2-Metrik) Manhattan Distanz (L1-Metrik, City-Block)

9 Metriken (2) Abstand?

10 Metriken (2) Euklidische Distanz

11 Metriken (2) City Block

12 Mittelwert, Varianz (1) Arithmetisches Mittel (Mittelwert, mean) kann pro Merkmal gebildet werden Streuungsmaße wie Varianz bzw. Standardabweichung können ebenfalls für jedes Merkmal berechnet werden

13 Mittelwert, Varianz (2) 1,501,601,701,801,90 40 50 60 70 80 90 100 Gewicht (kg) Größe (m)

14 Mittelwert, Varianz (2) 1,501,601,701,801,90 40 50 60 70 80 90 100 Gewicht (kg) Größe (m) s1s1 s2s2

15 1-zu-N Kodierung (1) Die meisten Data Mining Algorithmen benötigen intervallskalierte Daten Problem v.a. bei kategorischen Daten (nominalskaliert) Lösung: Eine binäre Variable für jede mögliche Ausprägung

16 1-zu-N Kodierung (2) feature red blue green red green blue redbluegreen 100 010 001 100 100 001 010

17 Fehlende Werte Oft vorkommendes Problem bei Data Mining Mögliche Lösungen: –Verfahren verwenden, die damit umgehen können (Decision Trees, SOMs) –Diese Samples weglassen –Werte interpolieren (missing value prediction)

18 Ausreißer Ausreißer können Fehlmessungen oder einfach stark untypische Samples sein Problem bei Berechnung von Varianz, Kovarianz etc. Robuste Statistik: Median, Quartile, etc.

19 Normalisierung von Daten (1) 1,501,601,701,801,90 40 50 60 70 80 90 100 Gewicht (kg) Größe (m) Abstand = sqrt(0,3^2 + 45^2) = sqrt(2025,09) = 45 45 0,3

20 Normalisierung von Daten (1) 15001600170018001900 40 50 60 70 80 90 100 Gewicht (kg) Größe (mm) Abstand = sqrt(300^2 + 45^2) = sqrt(92025) = 303 45 300

21 Normalisierung von Daten (2) Die Abstandsmeßung sollte von der Maßeinheit der Merkmale unabhängig gemacht werden Standardisierung (zero-mean-unit- variance):

22 Normalisierung von Daten (3) 1,501,601,701,801,90 40 50 60 70 80 90 100 Gewicht (kg) Größe (m)

23 Normalisierung von Daten (3) -2012 -3 -2 0 1 2 3 Gewicht Größe 5,5 4,5

24 Normalisierung von Daten (4) Chebyshevs Ungleichung 75% der standardisierten Werte zwischen -2 und +2 89% der Werte zwischen -3 und +3 94% der Werte zwischen -4 und +4

25 Dichtefunktion Es wird angenommen, daß den gemessenen Werten (Datenmatrix) eine Dichtefunktion zu Grunde liegt Diese Funktion ist unbekannt, es ist eine unserer Aufgaben sie zu schätzen

26 Normalverteilung (1) Die Normalverteilung nimmt in der Statistik eine besondere Rolle ein Eine Zufallsvariable X ist normalverteilt:

27 Normalverteilung (2)

28 Multivariate Verteilungen (1) MV Zufallsvariable werden durch mehrdimensionale Dichtefunktionen beschrieben Für MV Normalverteilung schreibt man z.B. Zufallsvektor Vektor von Mittelwerten Kovarianzmatrix

29 Multivariate Verteilungen (2)

30 Stichproben (1) Die konkreten Ausprägungen, die gemessen werden, sind Stichproben der Population Die Stichprobe besteht aus N Samples, Population wird durch kontinuierliche Dichtefunktion beschrieben

31 Stichproben (2)

32 Population vs. Stichprobe StichprobePopulation Mittelwert Varianz

33 Bayes Theorem (1) Oft stehen Zufallsereignisse mit einander in Verbindung Wenn man z.B. die Ereignisse die Erde ist naß (A) und es regnet (B) betrachtet: –Wahrscheinlichkeiten P(A) = 0,15 und P(B) = 0,12 –Mit der Information, daß der Boden naß ist (also A eingetreten ist), scheint es wahrscheinlicher, daß es regnet

34 Bayes Theorem (2) Bedingte Wahrscheinlichkeit: P(B|A) = 0,8 D.h. unter der Voraussetzung, dass der Boden naß ist, regnet es mit W. von 80% (ohne dieser Information: 12%) Das Bayes Theorem erlaubt die Berechnung der W. in die andere Richtung (d.h. wenn man die Bedingung vertauscht)

35 Bayes Theorem (3) Bayes Theorem: Z.B.: P(A|B)… W. daß der Boden naß ist wenn es regnet P(A|B) = 0,15*0,8/0,12 = 1

36 Kovarianz Kovarianz mißt die Stärke des linearen Zusammenhangs zweier Variablen 1,501,601,701,801,90 40 50 60 70 80 90 100 Gewicht (kg) Größe (m)

37 Kovarianzmatrix Die Kovarianzmatrix hat die Varianzen der Variablen in der Diagonale, und die Kovarianzen außerhalb der Diagonale Beispiele:

38 Korrelation Standardisierte Kovarianz (dimensionslos, zwischen -1 und +1, ähnlich Normalisierung) Negative Korrelation: Wenn x 1 steigt, sinkt x 2 Positive Korrelation: Wenn x 1 steigt, steigt auch x 2 Korrelation = 0: Kein linearer Zusammenhang

39 Schiefe (1) Weiteres statistisches Moment (neben Mittelwert, Varianz) Schiefe ist ungleich 0 wenn Verteilung nicht symmetrisch

40 Schiefe (2)

41 Informationstheorie: Entropie

42 Datenanalyse: Scatterplots

43 Hauptkomponentenanalyse


Herunterladen ppt "Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)"

Ähnliche Präsentationen


Google-Anzeigen