Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Oberseminar Datenbanken Carsten Severin Tobias Sorgatz

Ähnliche Präsentationen


Präsentation zum Thema: "Oberseminar Datenbanken Carsten Severin Tobias Sorgatz"—  Präsentation transkript:

1 Oberseminar Datenbanken Carsten Severin Tobias Sorgatz
Datamining

2 Überblick 1. Einleitung 2. Eingaben 3. Ausgaben 4. Algorithmen
5. Glaubwürdigkeit 6. Maschinelles Lernen in der Praxis

3 1.0. Beispiele Beispiel 1: Künstliche Befruchtung
Eigenschaften definieren, die größte Überlebenschance garantieren

4 1.1. Beispiele Beispiel 2: Vieh wird geschlachtet Gesundheit
Lebenserwartung Fruchtbarkeit Gewicht

5 1.2. Situation Immer mehr Daten werden gespeichert Internet
Preiswerte Speichermedien Mehr Anwendungen: Bilder, Filme Alle 20 Monate Verdopplung der Daten

6 1.3. Lösung: Data Mining Es ist eine Möglichkeit gesucht, die Datenflut zu analysieren Daten sollen ausgewertet werden Lösung: Data Mining

7 1.4.1. Datamining Verarbeitung elektronisch gespeicherter Daten
Lernen: Wissen durch Studium aneignen Prozess der autom. oder halbautom. Mustererkennung Maschinelles Lernen: Lernen automatisieren

8 1.4.2. Data Mining Aneignen von Wissen Fähigkeit es zu verwenden
Gezielte Suche in Datenbanken Analyse bereits vorhandener Daten Suche nach Mustern Ergebnisse ein weiteres Handeln einbeziehen

9 1.5. Data Mining und Ethik problematisch sind rassische und sexuelle Informationen Undurchschaubarkeit von Daten (unvorhersehbare Auswertungen) Viele Daten werden für neue Analysen zusammengefasst

10 1.6. Bias: Lernverfahren Zur Bestimmung des Lernverfahrens Sprachbias:
Ist die Beschreibung universal? Wird domänenwissen genutzt Suchbias: bestmögliche Beschreibung finden Bias zur Vermeidung der Überanpassung

11 2. Eingabe Wie werden die Daten zur Analyse eingegeben?

12 2.1. Eingabe der Daten Konzepte Instanzen Attribute

13 2.1.1. Konzepte Unabhängig von Art des Lernens
Beschreibt was gelernt werden soll Ausgabe des Lernverfahrens: Baum Regelmenge

14 2.1.2. Instanzen Jede Instanz ist ein eigenes Beispiel
Zeile in einer Tabelle

15 2.1.3.1. Attribute Attribut ist Spalte einer Tabelle
Problem: Instanzen mit unterschiedlichen Attributen -> Möglichst viele Attribute

16 2.1.3.2. Attribute Numerische Attribute Nominale Attribute
Ordinale Attribute

17 2.2. Beispiel Wie sehen einzulesende Datenmengen aus?
Wie sehen Regelmengen aus?

18 Beispiel: Datensatz

19 Beispiel: Baum

20 Beispiel: Regelmenge

21 2.3. Aufbereitung Aufbereitung der Eingabedaten
Integration von verschiedenen Datenquellen Datacleaning Data Warehousing ARFF-Dateien

22 2.3.1. Data Warehousing Zusammenfassung von Datenquellen
Unternehmensweite Datenbankintegration Keine Abteilungsgrenzen Aggregation von Daten

23 2.4. Eingabe: Fehlende Daten
Einträge außerhalb Gültigkeit (-1) Unterscheidung von fehlenden Daten(-1,-2) Wegen verändertes Experiment Wegen Messfehlern Wegen Verweigerung Ist Auftreten zufällig oder wichtig für Analyse?

24 2.5. Eingabe: Genauigkeit Daten für andere Zwecke gespeichert
Ungenauigkeiten plötzlich von anderer Bedeutung Schreibfehler (sind Daten gleich?) Bewusste Manipulation

25 2.6. Arten des Lernens Klassifizierendes Lernen Numerische Vorhersage
Vorhandene Daten in Klassen fassen Numerische Vorhersage Numerische statt diskrete Werte Clustering Gruppieren von Instanzen

26 3. Ausgabe 3.1 Entscheidungstabellen 3.2 Entscheidungsbäume
3.3 Klassifikationsregeln 3.4 Assoziationsregeln 3.5 Regeln mit Ausnahmen 3.6 Bäume für numerische Vorhersage 3.7 Instanzbasierte Darstellung 3.8 Cluster

27 3.1 Entscheidungstabellen
Einfachste, elementarste Methode weniger einfach bei spezieller Auswahl von Attributen Kompliziert: Auswahl der die Entscheidung nicht beeinflussenden Attribute

28 3.2 Entscheidungsbäume Ansatz: Teile und Herrsche
Knoten eines Baumes bedingen Auswertung eines Attributs Blätter stellen Klassifikationen dar

29 3.3 Klassifikationsregeln
Anwendung einer Regel verlangt Auswertung einer Menge von Attributen Allgemein logische UND Verknüpfung der Bedingungen Aus Baum: pro Blatt eine Regel, Auswertung jeder Regel eines Knotens auf dem Pfad von Wurzel zu Blatt

30 3.4 Assoziationsregeln Können nicht nur Klassen vorhersagen, sondern auch Attribute Damit Vorhersage beliebiger Attributkombinationen if temperatur =kalt then luftfeuchtigkeit = normal

31 3.5 Regeln mit Ausnahmen Vermeidung falscher Klassifikation durch Zulassen von Ausnahmen Schaffen einer neuen Entscheidungsebene Bei Fortsetzung erhält man Baumstruktur if stimme = hoch then Frau except if eunuch then Mann

32 3.6 Bäume für numerische Vorhersagen
Auswertung eines numerischen Attributes

33 3.7 Instanzbasierte Darstellung
Auswendiglernen durch Merken von Trainingsinstanzen Neue Instanz wird mit vorhandenen verglichen und der Klasse der ähnlichsten vorhandenen Instanz zugeordnet BSP: Buchstabenerkennung

34 3.8 Cluster Ausgabe eines Diagramms: Anzeige der in die Cluster eingeordneten Instanzen Einfachster Fall: Zuweisung einer Clusternummer zu jeder Instanz

35 4. Algorithmen 4.1 Ableitung elementarer Regeln
4.2 statistische Modellierung 4.3 Teile und Herrsche 4.4 Abdeckungs algorithmen

36 4.1 Ableitung elementarer Regeln
Baum auf einer Ebene Auswertung einer Regelmenge eines Attributes für jedes attribut für jeden wert des attributes zählen, wie oft jede klasse erscheint klasse mit häufigsten auftreten ermitteln regel aufstellen die diesem attributwert klasse zuordenet fehlerrate der regeln berechnen regelmenge mit kleinsten fehler auswählen

37 4.2 Statistische Modellierung
Nutzung aller Attribute Gewichtung für alle Attribute gleich Attribute werden als unabhängig voneinander angesehen Rechnen mit Wahrscheinlichkeiten Auswertung von Hypothesen und zugehörigen Ereignissen

38 4.3 Teile und Herrsche Wahl eines Wurzelattributes
Anlegen einer Verzweigung für jeden Wert Zerlegung der Beispielmenge in Untermengen, eine für jeden Wert des Attr. Rekursive Anwendung für jede Verzweigung, nur Instanzen die Verzweigung erreichen Alle Instanzen eines Knotens gleiche Klasse: Konstruktion des Baumabschn. fertig

39 4.4 Abdeckungs-Algorithmen
Betrachtung einzelner Klassen nacheinander Abdeckung aller Instanzen Auschluss klassenfremder Instanzen Ableitung einer Regel in jedem Schritt die einige Instanzen abdeckt

40 5. Glaubwürdigkeit 5.1 Trainieren und Testen 5.2 Leistungsvorhersage
5.3 Kreuzvalidierung 5.3.1 Leave one out 5.4 Vorhersage von Wahrscheinlichkeiten

41 5.1 Trainieren und Testen Bei richtiger Klassifikation: Erfolg
Andernfalls : Fehler Angabe des Verhältnisses zwischen Erfolg und Fehler: Gesamtleistung des Klassifizierers Nicht effektiv, da mit alten Daten gearbeitet wird, Vorhersage schwer möglich

42 5.2 Leistungsvorhersage Fehlerrate (fr) sei bestimmt (5.1)
Bestimmung von Erfolgsrate (er): 1-fr Mit Mitteln der Wahrscheinlichkeitsrechnung Bestimmung der Wahrscheinlichkeit von er. Bei grossen Testreihen: Normalverteilung

43 5.3 Kreuzvalidierung Aufteilung der Datenmenge in Test und Trainingsmenge, feste Partitionen (Bsp3) Garantiert beste Mischung der Beispiele aller Klassen Nacheinander Ausführung von: Testen einer Partition, trainieren mit den zwei Anderen

44 5.3.1 Leave-one-out N-fache Kreuzvalidierung
N ist Anzahl der Instanzen in der Datenmenge Nacheinander: Weglassen einer Instanz Training mit restlichen Instanzen Auswertung aller N Ergebnisse durch Mittelwertbildung

45 5.4 Vorhersage von Wahrscheinlichkeiten
Bisheriges Ziel: hohe Erfolgsrate für Vorhersage Nicht mehr wahr oder falsch (Vorhersage hat tatsächlichen Wert der Instanz) Einführung beliebig vieler Abstufungen Verschiedene Gewichtung von unterschiedlichen Vorhersageergebnissen

46 6. Maschinelles Lernen in der Praxis
Algorithmen sind in Praxis viel komplexer Behandlung realer Probleme Schwerpunkte: numerische Attribute Fehlerbehandlung Anwendung von Statistiken

47 6.1 Entscheidunsbäume Erweiterung des Teile-und-herrsche Algo:
Behandlung numerischer und fehlender Werte Beschneidung (wegen Überanpassung) Umwandlung der Entscheidungsäume in Klassifikationsregeln

48 6.1.1 Numerische Werte Anpassung an nominale (boolsche) Struktur
Beispiel: Temperaturabfrage no yes 85 83 81 80 75 72 71 70 69 68 65 64

49 6.1.2 Fehlende Werte Zerlegung der Instanz, unter Verwendung numerischer Gewichtung, und Bearbeitung mit allen Verzweigungen des Baumes Bei Erreichen eines Blattknotens: Zusammenfügen der Entscheidungen des Blattknotens unter Verwendung der Gewichtung, die mit “durchgesickert” ist

50 6.1.3 Pruning Postpruning: Nachträgliches Beschneiden des fertigen Baumes („zusammengehörige Attribute“) Prepruning Beschneidung während der Baumbildung (Arbeitseinsparung)

51 6.1.4 Von Bäumen zu Regeln Pro Blatt eine Regel
Alle Auswertungen von Wurzel zum Blatt werden UND-verknüpft Löschen von Bedingungen, die keinen, oder schlechten, Einfluß auf Regel haben Entfernen von Regelduplikaten

52 6.2 Clustering Ziel: Einteilung der Instanzen in natürliche Gruppen
Arten von Clustern: Ausschliessende Überlappende Wahrscheinlichkeitsverteilte Hierarchisch (Vererbungsebenen)

53 6.2.1 k-Mittelwert Clustering
Bildung von k Clustern in numerischen Domänen, durch Aufteilung der Instanzen in disjunkte (elementefremd) Cluster Wahl von Zentren und Zuweisung der Instanzen zum nächstliegenden Zentrum Mittelwertbildung aller Instanzen-neues Zentrum Wiederholung bis keine neuen Zentren entstehen

54 6.2.2 inkrementelles Clustering
Hierarchische Gruppierung der Instanzen aufgrund eines „Quallitätsmasses “(auch Kategorienützlichkeit) für Cluster Inkrementell (feinere Aufteilung Instanz für Instanz)

55 6.2.3 Statistisches Clustering
Mischmodell aus verschiedenen Wahrscheinlichkeitsverteilungen Eine Verteilung pro Cluster Jede Verteilung gibt Wahrscheinlichkeit für Clusterzugehörigkeit einer Instanz an (jede Instanz genau zu einem Cluster)

56 Vielen Dank für die Aufmerksamkeit
Wir wünschen ein allseits schönes Wochenende. Noch Fragen? (rhetorische Frage)

57 Quellen Titel: Data Mining
Praktische Werkzeuge und Techniken für das maschinelles Lernen Autoren: Ian H. Witten, Eibe Frank


Herunterladen ppt "Oberseminar Datenbanken Carsten Severin Tobias Sorgatz"

Ähnliche Präsentationen


Google-Anzeigen