Techniken des Maschinellen Lernens für Data Mining Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr)

Slides:



Advertisements
Ähnliche Präsentationen
Techniken des Maschinellen Lernens für Data Mining Norbert Fuhr.
Advertisements

Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Schwierigkeit von Aufgabenstellungen
Claudio Moraga; Gisbert Dittrich
Datenmodellierung Externe Phase Informationsstruktur
Data Mining Anwendungen und Techniken
Was ist Testtheorie?.
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
Kapitel 4 Datenstrukturen
Philosophische Fakultät 3: Empirische Humanwissenschaften Fachrichtung Erziehungswissenschaft Statistik I Anja Fey, M.A.
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Kapitel 5 Stetigkeit.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Fakten, Regeln und Anfragen
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Vorlesung 2 SWS WS 99/00 Gisbert Dittrich FBI Unido
Oberseminar Datenbanken Carsten Severin Tobias Sorgatz
PKJ 2005/1 Stefan Dissmann Rückblick auf 2005 Was zuletzt in 2005 vorgestellt wurde: Klassen mit Attributen, Methoden und Konstruktoren Referenzen auf.
Access 2000 Datenbanken.
Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung
Was sind Histogramme? (1)
Statistische Methoden I WS 2004/2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße.
Statistische Methoden I WS 2002/2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße.
Classification of Credit Applicants Using Data Mining. Thema.
Manpower Associates is a $14
Grundschutztools
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Maschinelles Lernen und automatische Textklassifikation
Machine Learning Decision Trees (2).
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Objektmodellierung Objekte und Klassen Ein Objekt ist ein Exemplar.
11. Vorlesung: Dynamische Konzepte am Fallbeispiel
Daten auswerten Boxplots
20:00.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Kontexte und Modelle 25 Februar.
Self Organizing Tree Algorithm
TWS/Graph HORIZONT Produkt-Präsentation Software für Rechenzentren
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
GIS - Seminar Wintersemester 2000/2001
Polynome und schnelle Fourier-Transformation
Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
Statistik: Mehr zur Regression.
WS 2013/14 Datenbanksysteme D0 15:15 – 16:45 R Vorlesung #5 SQL (Teil 2)
Vorlesung #4 Überführung des ER-Modells in das relationale Modell
Analyse von Ablaufdiagrammen
Erfindervon Fuzzy Logic
Einführung in die Programmierung Prof. Dr. Bertrand Meyer
00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Data Mining Georg Pölzlbauer.
Studentisches Seminar
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Klassen und Klassenstruktur
Erstellen einer Arff-Datei
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Kapitel 5Strukturen Information aus der realen Welt werden in einem informationsverarbeitenden System als Daten abgelegt. Diese stellen also eine (vereinfachte)
Messen Zuordnung von Zahlen zu Objekten/Ereignissen gemäß Regeln
Funktionale Unifikations-Grammatik (FUG)  Hauptmerkmale der FUG.
Mathematik für BiologInnen WS 05
Weitere Informationen zur Vorlesung 1)In den Übungen werden die Aufgaben besprochen, die Sie im Internet auf der Seite meines Lehrstuhls finden. 2) Die.
Lineare Gleichungen Allgemeine Einführung Äquivalenzumformungen
Der Wiener Prozess und seltene Ereignisse
Dr. Wolfram Amme, Semantik funktionaler Programme, Informatik II, FSU Jena, SS Semantik funktionaler Programme.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Ökonometrie und Statistik Wiederholung
 Präsentation transkript:

Techniken des Maschinellen Lernens für Data Mining Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr)

Eingabe: Konzepte, Instanzen, Attribute 2 Eingabe: Konzepte, Instanzen, Attribute Terminologie Was ist ein Konzept? Klassifikation, Assoziation, Clustering, nummerische Vorhersage Woraus besteht ein Beispiel? Relationen, flache Dateien, Rekursion Was steckt in einem Attribut? Nominal-, Ordinal, Intervall-, Verhältnis-Skalen Vorbereitung der Eingabe ARFF, Attribute, fehlende Werte, die Daten kennenlernen

Vorbereitung zum Lernen Komponenten der Eingabe: Konzepte: Arten von Dingen, die gelernt werden können Ziel: verständliche und operationale Konzeptbeschreibung Instanzen: individuelle, unabhängige Beispiele eines Konzepts Anmerkung: komplexere Formen der Eingabe sind möglich Attribute: Messwerte für Aspekte einer Instanz Hier: Beschränkung auf nominale und ordinale Werte Praktisches Problem: Dateiformat für die Eingabe

Was ist ein Konzept? Arten von Lernen: Konzept: Das zu Lernende Lernen von Klassifikationen: Vorhersage einer diskreten Klasse Lernen von Assoziationen: Entdecken von Assoziationen zwischen Merkmalen Clustering: Gruppieren ähnlicher Instanzen in Clustern Nummerische Vorhersage: Vorhersage einer nummerischen Größe Konzept: Das zu Lernende Konzeptbeschreibung: Ausgabe des Lernverfahrens

Lernen von Klassifikationen Beispielprobleme: Wetterdaten, Kontaktlinsen, Irisblumen, Tarifverhandlungen Klassifikationslernen ist überwachtes Lernen Klassifikationsschema vorgegeben durch die Trainingsbeispiele Ergebnis ist jeweils die Klasse einer Instanz Qualität kann gemessen werden an neuen Daten, für die die Klassenzuordnungen bekannt sind (Testdaten) In der Praxis wird die Qualität oft subjektiv bewertet

Lernen von Assoziationen Anwendung, wenn keine Klasse spezifiziert wurde oder jegliche Struktur als “interessant” angesehen wird Unterschiede zum Klassifikationslernen: Kann die Werte beliebiger Attribute vorhersagen, und mehr als einen Attributwert auf einmal Daraus folgt: weit mehr Assoziationsregeln als Klassifikationsregeln Ergo: Einschränkungen notwendig: minimale Abdeckung und minimale Präzision

Clustering Finde Gruppen von ähnlichen Instanzen Clustering ist unüberwachtes Lernen Klasse eines Beispiels ist nicht bekannt Qualität des Clustering wird oft subjektiv beurteilt Beispiel: Iris-Daten ohne Klassen: Sepal length Sepal width Petal length Petal width Type 1 5.1 3.5 1.4 0.2 Iris setosa 2 4.9 3.0 … 51 7.0 3.2 4.7 Iris versicolor 52 6.4 4.5 1.5 101 6.3 3.3 6.0 2.5 Iris virginica 102 5.8 2.7 1.9

Nummerische Vorhersage Wie Klassifikationslernen, aber mit nummerischer “Klasse” Lernen ist überwacht Schema ist durch die nummerischen Zielwerte gegeben Qualität wird auf den Testdaten gemessen (oder subjektiv, falls die Konzeptbeschreibung verständlich ist) Beispiel: modifizierte Version der Wetterdaten: Outlook Temperature Humidity Windy Play-time Sunny Hot High False 5 True Overcast 55 Rainy Mild Normal 40 …

Woraus besteht ein Beispiel? Instanz: spezifischer Typ von Beispiel Objekt, das klassifiziert, assoziiert oder geclustert werden soll Individuelles, unabhängiges Beispiel für das Zielkonzept Charakterisiert durch eine vorgegebene Menge von Merkmalen Eingabe für das Lernverfahren: Menge von Instanzen/Datensatz Repräsentiert als einzelne Relation/flache Datei Stark eingeschränkte Form der Eingabe Keine Beziehungen zwischen den Objekten Am meisten verbreitete Form des Data Mining

Ein Stammbaum Peter M Peggy F Grace F Ray M = = Steven M Graham M Pam Ian M Pippa F Brian M = Anna F Nikki F

Stammbaum repräsentiert als Tabelle Name Gender Parent1 parent2 Peter Male ? Peggy Female Steven Graham Pam Ian Grace Ray Pippa Brian Anna Nikki

Die “Schwester-von”-Relation First person Second person Sister of? Peter Peggy No Steven … Graham Pam Yes Ian Pippa Anna Nikki yes First person Second person Sister of? Steven Pam Yes Graham Ian Pippa Brian Anna Nikki All the rest No geschlossene-Welt Annahme

Darstellung in einer Tabelle First person Second person Sister of? Name Gender Parent1 Parent2 Steven Male Peter Peggy Pam Female Yes Graham Ian Grace Ray Pippa Brian Anna Nikki All the rest No If second person’s gender = female and first person’s parent = second person’s parent then sister-of = yes

Generieren einer flachen Datei Abbildung auf eine flache Datei wird auch “Denormalisierung” genannt c Vorlesung Datenbanken Join über mehrere Relationen, um eine einzige Relation zu generieren Für jede endliche Menge von endlichen Relationen möglich Problematisch: Beziehungen ohne vorspezifizierte Anzahl von Objekten Konzept der Kernfamilie Denormalisierung kann merkwürdige Regularitäten produzieren, die die Struktur der Datenbasis wiedergeben Beispiel: “supplier” bestimmt “supplier address”

Die “Vorfahr”-Relation First person Second person Ancestor of? Name Gender Parent1 Parent2 Peter Male ? Steven Peggy Yes Pam Female Anna Ian Nikki Grace Ray Other positive examples here All the rest No

Rekursion Unendliche Relationen erfordern Rekursion If person1 is a parent of person2 then person1 is an ancestor of person2 If person1 is a parent of person2 and person2 is an ancestor of person3 then person1 is an ancestor of person3 Entsprechende Techniken werden als “induktive logische Programmierung” bezeichnet (z.B. Quinlan's FOIL) Probleme: verrauschte Daten Berechnungsaufwand

Multi-Instanz-Probleme Jedes Beispiel besteht aus mehreren Instanzen Beispiel: Vorhersage der Wirksamkeit von pharmazeutischen Wirkstoffen Beispiele sind Moleküle, die aktiv/inaktiv sind Jedes Molekül besteht aus mehreren Gruppen (Instanzen) Molekül aktiv c zumindest eine seiner Gruppen ist aktiv (positiv) Molekül inaktiv c alle seiner Gruppen sind inaktiv (negativ) Problem: Identifikation der wirklich positiven Instanzen (Gruppen)

Attribute Jede Instanz wird durch eine feste, vordefinierte Menge von Merkmalen beschrieben, seinen “Attributen” Aber: Anzahl der Attribute kann in der Praxis schwanken Mögliche Lösung: “irrelevanter Wert”-Flag (wie Nullwerte in Datenbanken) Verwandtes Problem: Existenz eines Attributs kann vom Wert eines anderen Attributs abhängen Mögliche Attributtypen (“Skalenniveau”): Nominal-, Ordinal-, Intervall-, Verhältnis-Skala

Nominal skalierte Werte Werte sind unterschiedliche Symbole Werte selbst dienen nur als Labels oder Namen Nominal kommt von lateinischen Wort für Name Beispiel: Attribut “outlook” bei den Wetterdaten Werte: “sunny”,”overcast”, und “rainy” Es werden keine Beziehungen zwischen den einzelnen Werten angenommen (keine Ordnung oder Distanzen) Nur Tests auf Gleichheit möglich

Ordinal skalierte Werte Es existiert eine (lineare) Ordnung auf den Werten Aber: keine Distanzen zwischen den Werten definiert Beispiel: Attribut “temperature” bei den Wetterdaten Werte: “hot” > “mild” > “cool” Anmerkung: Addition und Subtraktion nicht anwendbar Beispielregel: temperature < hot c play = yes Unterscheidung zwischen nominalen und ordinalen Werten nicht immer klar (z.B. Attribut “outlook”)

Intervall-skalierte Werte Skalenwerte sind nicht nur geordnet, sondern die Skala ist auch in feste Einheiten gleicher Größe unterteilt Beispiel 1: Attribut “temperature”, gemessen in Grad Fahrenheit Beispiel 2: Attribut “year” Differenz zwischen zwei Werten stellt sinnvolle Größe dar Summe oder Produkt nicht sinnvoll Nullpunkt nicht definiert!

Verhältnisskalen Bei Verhältnisskalen ist ein Nullpunkt definiert Beispiel: Attribut “Distanz” Distanz eines Objekts zu sich selbst ist 0 Werte einer Verhältnisskala werden als reelle Zahlen behandelt Alle mathematischen Operationen sind möglich Aber: gibt es einen inhärenten Nullpunkt? Antwort hängt von der wissenschaftlichen Erkenntnis ab (z.B. Fahrenheit kannte keine untere Schranke für die Temperatur)

Attributtypen in der Praxis Die meisten Verfahren berücksichtigen nur zwei Skalenniveaus: nominal und ordinal Nominale Attribute werden auch als “kategorisch”, “diskret” oder “Aufzählungstyp” bezeichnet Aber: “diskret” und “Aufzählungstyp” implizieren eine Ordnung Spezialfall: Dichotomie (“boolesches” Attribut) Ordinale Attribute werden als “nummerisch” oder “stetig” bezeichnet Aber: “stetig” impliziert mathematische Stetigkeit

Transformation ordinal c boolesch Einfache Transformation erlaubt die Darstellung eines ordinalen Attributs mit n Werten durch n-1 boolesche Attribute Beispiel: Attribut “temperature” Besser als Codierung durch nominales Attribut Original data Transformed data Temperature Cold Medium Hot Temperature > cold Temperature > medium False True c

Metadaten Information über die Daten, die Hintergrundwissen darstellt Kann ausgenutzt werden, um den Suchraum einzuschränken Beispiele: Berücksichtigung der Dimension (z.B. Ausdrücke müssen korrekt bzgl. der Dimensionen sein) (z.B. Vergleich von Länge und Temperatur sinnlos) Zirkulare Ordnungen (z.B. Gradeinteilung beim Kompass) Partielle Ordnungen (z.B. Generalisierungen/Spezialisierungen)

Aufbereitung der Eingabe Denormalisierung ist nicht das einzige Problem Problem: verschiedene Datenquellen (z.B. Vertriebsabteilung, Rechnungsabteilung, ...) Unterschiede: Arten der Datenverwaltung. Konventionen, Zeitabstände, Datenaggregation, Primärschlüssel, Fehler Daten müssen gesammelt, integriert und bereinigt werden “Data warehouse”: konsistenter, integrierter Datenbestand Zusätzlich können externe Daten benötigt werden (“overlay data”) Kritisch: Typ und Ebene der Datenaggregation

Das ARFF-Format % % ARFF file for weather data with some numeric features @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature numeric @attribute humidity numeric @attribute windy {true, false} @attribute play? {yes, no} @data sunny, 85, 85, false, no sunny, 80, 90, true, no overcast, 83, 86, false, yes ...

Attributtypen ARFF unterstützt nummerische und ordinale Werte Interpretation hängt vom Lernverfahren ab nummerische Attribute werden interpretiert als ordinale Werte, falls Vergleiche < und > benutzt werden verhältnisskalierte Werte, falls Distanzberechnungen benutzt werden (evtl. müssen die Werte vorher normalisiert/standardisiert werden) Instanz-basierte Verfahren definieren Distanzen zwischen nominalen Werten (0 bei Gleichheit, 1 bei Ungleichheit) Integer: nominal, ordinal, oder Verhältnisskala?

Nominal vs. ordinal Attribut “age” nominal Attribut “age” ordinal (z.B. “young” < “pre-presbyopic” < “presbyopic”) If age = young and astigmatic = no and tear production rate = normal then recommendation = soft If age = pre-presbyopic and astigmatic = no and tear production rate = normal then recommendation = soft If age  pre-presbyopic and astigmatic = no and tear production rate = normal then recommendation = soft

Fehlende Werte Häufig dargestellt als Wert außerhalb des Wertebereichs Arten von fehlenden Werten: unbekannt, nicht erfasst, irrelevant Gründe: Erfassungsfehler, Änderungen in der Versuchsanordnung, Vereinigung von Datenmengen, Messung nicht möglich fehlender Wert an sich kann spezielle Bedeutung haben (z.B. fehlende Erhebung bei medizinischer Untersuchung) Die meisten Verfahren berücksichtigen dies nicht c “fehlt” sollte als spezieller Wert codiert werden

Ungenaue Werte Grund: Daten wurden nicht für Data Mining gesammelt Ergebnis: Fehler und fehlende Werte, die den ursprünglichen Zweck nicht beeinflussen (z.B. Alter des Kunden) Tippfehler bei nominalen Attributen c Werte müssen auf Konsistenz geprüft werden Tipp- und Messfehler bei nummerischen Attributen c Ausreißer müssen identifiziert werden Fehler können willkürlich sein (z.B. falsche Postleitzahl) andere Probleme: Duplikate, veraltete Daten

Die Daten kennen lernen Einfache Visualisierungswerkzeuge sehr nützlich, um Probleme zu identifizieren Nominale Attribute: Histogramme (Verteilung konsistent mit dem Hintergrundwissen?) Nummerische Attribute: Verteilungskurven (Offensichtliche Ausreißer?) 2-D und 3-D-Visualisierungen zeigen Abhängigkeiten Anwendungsexperten sollten hinzugezogen werden Datenbestand zu umfangreich? Betrachte Stichprobe!