Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining.

Ähnliche Präsentationen


Präsentation zum Thema: "Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining."—  Präsentation transkript:

1 Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

2 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Überblick " 1. Einleitung " 2. Eingaben " 3. Ausgaben " 4. Algorithmen " 5. Glaubwürdigkeit " 6. Maschinelles Lernen in der Praxis

3 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 1.0. Beispiele " Beispiel 1: Künstliche Befruchtung – Eigenschaften definieren, die größte Überlebenschance garantieren

4 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 1.1. Beispiele " Beispiel 2: Vieh wird geschlachtet – Gesundheit – Lebenserwartung – Fruchtbarkeit – Gewicht

5 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 1.2. Situation " Immer mehr Daten werden gespeichert " Internet " Preiswerte Speichermedien " Mehr Anwendungen: Bilder, Filme " Alle 20 Monate Verdopplung der Daten

6 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 1.3. Lösung: Data Mining " Es ist eine Möglichkeit gesucht, die Datenflut zu analysieren " Daten sollen ausgewertet werden " Lösung: Data Mining

7 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Datamining " Verarbeitung elektronisch gespeicherter Daten " Lernen: Wissen durch Studium aneignen " Prozess der autom. oder halbautom. Mustererkennung " Maschinelles Lernen: Lernen automatisieren

8 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Data Mining " Aneignen von Wissen " Fähigkeit es zu verwenden " Gezielte Suche in Datenbanken " Analyse bereits vorhandener Daten " Suche nach Mustern " Ergebnisse ein weiteres Handeln einbeziehen

9 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 1.5. Data Mining und Ethik " problematisch sind rassische und sexuelle Informationen " Undurchschaubarkeit von Daten (unvorhersehbare Auswertungen) " Viele Daten werden für neue Analysen zusammengefasst

10 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 1.6. Bias: Lernverfahren " Zur Bestimmung des Lernverfahrens " Sprachbias: – Ist die Beschreibung universal? – Wird domänenwissen genutzt " Suchbias: – bestmögliche Beschreibung finden " Bias zur Vermeidung der Überanpassung

11 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 2. Eingabe " Wie werden die Daten zur Analyse eingegeben?

12 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 2.1. Eingabe der Daten " Konzepte " Instanzen " Attribute

13 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Konzepte " Unabhängig von Art des Lernens " Beschreibt was gelernt werden soll " Ausgabe des Lernverfahrens: – Baum – Regelmenge

14 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Instanzen " Jede Instanz ist ein eigenes Beispiel " Zeile in einer Tabelle

15 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Attribute " Attribut ist Spalte einer Tabelle " Problem: Instanzen mit unterschiedlichen Attributen -> Möglichst viele Attribute

16 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Attribute " Numerische Attribute " Nominale Attribute " Ordinale Attribute

17 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 2.2. Beispiel " Wie sehen einzulesende Datenmengen aus? " Wie sehen Regelmengen aus?

18 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Beispiel: Datensatz

19 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Beispiel: Baum

20 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Beispiel: Regelmenge

21 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 2.3. Aufbereitung " Aufbereitung der Eingabedaten " Integration von verschiedenen Datenquellen " Datacleaning " Data Warehousing " ARFF-Dateien

22 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Data Warehousing " Zusammenfassung von Datenquellen " Unternehmensweite Datenbankintegration " Keine Abteilungsgrenzen " Aggregation von Daten

23 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 2.4. Eingabe: Fehlende Daten " Einträge außerhalb Gültigkeit (-1) " Unterscheidung von fehlenden Daten(-1,-2) " Wegen verändertes Experiment " Wegen Messfehlern " Wegen Verweigerung " Ist Auftreten zufällig oder wichtig für Analyse?

24 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 2.5. Eingabe: Genauigkeit " Daten für andere Zwecke gespeichert " Ungenauigkeiten plötzlich von anderer Bedeutung " Schreibfehler (sind Daten gleich?) " Bewusste Manipulation

25 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 2.6. Arten des Lernens " Klassifizierendes Lernen – Vorhandene Daten in Klassen fassen " Numerische Vorhersage – Numerische statt diskrete Werte " Clustering – Gruppieren von Instanzen

26 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 3. Ausgabe 3.1 Entscheidungstabellen 3.2 Entscheidungsbäume 3.3 Klassifikationsregeln 3.4 Assoziationsregeln 3.5 Regeln mit Ausnahmen 3.6 Bäume für numerische Vorhersage 3.7 Instanzbasierte Darstellung 3.8 Cluster

27 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 3.1 Entscheidungstabellen " Einfachste, elementarste Methode " weniger einfach bei spezieller Auswahl von Attributen " Kompliziert: Auswahl der die Entscheidung nicht beeinflussenden Attribute

28 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 3.2 Entscheidungsbäume " Ansatz: Teile und Herrsche " Knoten eines Baumes bedingen Auswertung eines Attributs " Blätter stellen Klassifikationen dar

29 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 3.3 Klassifikationsregeln " Anwendung einer Regel verlangt Auswertung einer Menge von Attributen " Allgemein logische UND Verknüpfung der Bedingungen " Aus Baum: pro Blatt eine Regel, Auswertung jeder Regel eines Knotens auf dem Pfad von Wurzel zu Blatt

30 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 3.4 Assoziationsregeln " Können nicht nur Klassen vorhersagen, sondern auch Attribute " Damit Vorhersage beliebiger Attributkombinationen " if temperatur =kalt " then luftfeuchtigkeit = normal

31 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 3.5 Regeln mit Ausnahmen " Vermeidung falscher Klassifikation durch Zulassen von Ausnahmen " Schaffen einer neuen Entscheidungsebene " Bei Fortsetzung erhält man Baumstruktur " if stimme = hoch then Frau " except if eunuch then Mann

32 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 3.6 Bäume für numerische Vorhersagen " Auswertung eines numerischen Attributes

33 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 3.7 Instanzbasierte Darstellung " Auswendiglernen durch Merken von Trainingsinstanzen " Neue Instanz wird mit vorhandenen verglichen und der Klasse der ähnlichsten vorhandenen Instanz zugeordnet " BSP: Buchstabenerkennung

34 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 3.8 Cluster " Ausgabe eines Diagramms: Anzeige der in die Cluster eingeordneten Instanzen " Einfachster Fall: Zuweisung einer Clusternummer zu jeder Instanz

35 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 4. Algorithmen 4.1 Ableitung elementarer Regeln 4.2 statistische Modellierung 4.3 Teile und Herrsche 4.4 Abdeckungs- algorithmen

36 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 4.1 Ableitung elementarer Regeln " Baum auf einer Ebene " Auswertung einer Regelmenge eines Attributes " für jedes attribut " für jeden wert des attributes " zählen, wie oft jede klasse erscheint " klasse mit häufigsten auftreten ermitteln " regel aufstellen die diesem attributwert klasse zuordenet " fehlerrate der regeln berechnen " regelmenge mit kleinsten fehler auswählen

37 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 4.2 Statistische Modellierung " Nutzung aller Attribute " Gewichtung für alle Attribute gleich " Attribute werden als unabhängig voneinander angesehen " Rechnen mit Wahrscheinlichkeiten " Auswertung von Hypothesen und zugehörigen Ereignissen

38 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 4.3 Teile und Herrsche Wahl eines Wurzelattributes " Anlegen einer Verzweigung für jeden Wert " Zerlegung der Beispielmenge in Untermengen, eine für jeden Wert des Attr. " Rekursive Anwendung für jede Verzweigung, nur Instanzen die Verzweigung erreichen " Alle Instanzen eines Knotens gleiche Klasse: Konstruktion des Baumabschn. fertig

39 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 4.4 Abdeckungs-Algorithmen " Betrachtung einzelner Klassen nacheinander " Abdeckung aller Instanzen " Auschluss klassenfremder Instanzen " Ableitung einer Regel in jedem Schritt die einige Instanzen abdeckt

40 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 5. Glaubwürdigkeit " 5.1 Trainieren und Testen " 5.2 Leistungsvorhersage " 5.3 Kreuzvalidierung " Leave one out " 5.4 Vorhersage von Wahrscheinlichkeiten

41 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 5.1 Trainieren und Testen " Bei richtiger Klassifikation: Erfolg " Andernfalls : Fehler " Angabe des Verhältnisses zwischen Erfolg und Fehler: Gesamtleistung des Klassifizierers " Nicht effektiv, da mit alten Daten gearbeitet wird, Vorhersage schwer möglich

42 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 5.2 Leistungsvorhersage " Fehlerrate (fr) sei bestimmt (5.1) " Bestimmung von Erfolgsrate (er): 1-fr " Mit Mitteln der Wahrscheinlichkeitsrechnung Bestimmung der Wahrscheinlichkeit von er. " Bei grossen Testreihen: Normalverteilung

43 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 5.3 Kreuzvalidierung " Aufteilung der Datenmenge in Test und Trainingsmenge, feste Partitionen (Bsp3) " Garantiert beste Mischung der Beispiele aller Klassen " Nacheinander Ausführung von: – Testen einer Partition, trainieren mit den zwei Anderen

44 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Leave-one-out " N-fache Kreuzvalidierung " N ist Anzahl der Instanzen in der Datenmenge " Nacheinander: – Weglassen einer Instanz – Training mit restlichen Instanzen Auswertung aller N Ergebnisse durch Mittelwertbildung

45 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 5.4 Vorhersage von Wahrscheinlichkeiten " Bisheriges Ziel: hohe Erfolgsrate für Vorhersage " Nicht mehr wahr oder falsch (Vorhersage hat tatsächlichen Wert der Instanz) " Einführung beliebig vieler Abstufungen " Verschiedene Gewichtung von unterschiedlichen Vorhersageergebnissen

46 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 6. Maschinelles Lernen in der Praxis " Algorithmen sind in Praxis viel komplexer " Behandlung realer Probleme " Schwerpunkte: numerische Attribute Fehlerbehandlung " Anwendung von Statistiken

47 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 6.1 Entscheidunsbäume " Erweiterung des Teile-und-herrsche Algo: – Behandlung numerischer und fehlender Werte – Beschneidung (wegen Überanpassung) – Umwandlung der Entscheidungsäume in Klassifikationsregeln

48 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Numerische Werte " Anpassung an nominale (boolsche) Struktur " Beispiel: Temperaturabfrage noyes no yesnoyes noyes

49 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Fehlende Werte " Zerlegung der Instanz, unter Verwendung numerischer Gewichtung, und Bearbeitung mit allen Verzweigungen des Baumes " Bei Erreichen eines Blattknotens: Zusammenfügen der Entscheidungen des Blattknotens unter Verwendung der Gewichtung, die mit durchgesickert ist

50 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Pruning Postpruning: Nachträgliches Beschneiden des fertigen Baumes ( z usammengehörige Attribute ) Prepruning Beschneidung während der Baumbildung (Arbeitseinsparung)

51 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Von Bäumen zu Regeln " Pro Blatt eine Regel " Alle Auswertungen von Wurzel zum Blatt werden UND-verknüpft " Löschen von Bedingungen, die keinen, oder schlechten, Einfluß auf Regel haben " Entfernen von Regelduplikaten

52 Oberseminar Datenbanken: Datamining, Severin, Sorgatz 6.2 Clustering " Ziel: Einteilung der Instanzen in natürliche Gruppen " Arten von Clustern: – Ausschliessende – Überlappende – Wahrscheinlichkeitsverteilte – Hierarchisch (Vererbungsebenen)

53 Oberseminar Datenbanken: Datamining, Severin, Sorgatz k-Mittelwert Clustering " Bildung von k Clustern in numerischen Domänen, durch Aufteilung der Instanzen in disjunkte (elementefremd) Cluster " Wahl von Zentren und Zuweisung der Instanzen zum nächstliegenden Zentrum " Mittelwertbildung aller Instanzen-neues Zentrum " Wiederholung bis keine neuen Zentren entstehen

54 Oberseminar Datenbanken: Datamining, Severin, Sorgatz inkrementelles Clustering " Hierarchische Gruppierung der Instanzen aufgrund eines „ Quallitätsmasses “ (auch Kategorienützlichkeit) für Cluster " Inkrementell (feinere Aufteilung Instanz für Instanz)

55 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Statistisches Clustering " Mischmodell aus verschiedenen Wahrscheinlichkeitsverteilungen " Eine Verteilung pro Cluster " Jede Verteilung gibt Wahrscheinlichkeit für Clusterzugehörigkeit einer Instanz an (jede Instanz genau zu einem Cluster)

56 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Vielen Dank für die Aufmerksamkeit " Wir wünschen ein allseits schönes Wochenende. " Noch Fragen? (rhetorische Frage)

57 Oberseminar Datenbanken: Datamining, Severin, Sorgatz Quellen " Titel: Data Mining " Praktische Werkzeuge und Techniken für das maschinelles Lernen " Autoren: Ian H. Witten, Eibe Frank


Herunterladen ppt "Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining."

Ähnliche Präsentationen


Google-Anzeigen