Oberseminar Datenbanken Carsten Severin Tobias Sorgatz

Slides:



Advertisements
Ähnliche Präsentationen
GrafStat Ausgabe 2009 Ein kurzer Überblick.
Advertisements

Techniken des Maschinellen Lernens für Data Mining Norbert Fuhr.
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Vorlesung Programmieren II
Der k-d-Baum Richard Göbel.
Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung
Data Mining Anwendungen und Techniken
FH-Hof Der B-Baum Richard Göbel. FH-Hof Wahl des Verzweigungsgrad Verzweigungsgrad kann größer als 2 sein v Nachfolger für einen Knoten v-1 Werte in einem.
Der B-Baum Richard Göbel.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
7. Natürliche Binärbäume
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
Sortierverfahren Richard Göbel.
Der R-Baum Richard Göbel.
Effizienz: Indexstrukturen
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Algorithmen und Komplexität
Access 2000 Datenbanken.
Was sind Histogramme? (1)
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Wismar Business School
Tutorium
Themenfeld „Daten und Zufall“ – arithmetisches Mittel – Klassenstufe 5/6 Ariane Dubiel, Azida Shahabuddin, Sandra Mense.
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Machine Learning Decision Trees (2).
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Wahrscheinlichkeitsrechnung
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Datenbanken Mehr als Tabellen.
Self Organizing Tree Algorithm
Effiziente Algorithmen
Datenbanken Mehr als Tabellen. Datenbank Abfragen mit SQL: Eine Tabelle filtern Tabellen realer Datenbanken können sehr viele Informationen speichern:
EXCEL PROFESSIONAL KURS
DataMining Von Daten zu Informationen und Wissen
Einführung in die Programmierung
Datenbank.
Smart Features b Relationen b Regeln. Relationen b Definition: b Eine Relation ist eine Verbindung zwischen zwei Objekten. Diese Objekte können entweder.
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Polynome und schnelle Fourier-Transformation
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
Einführung in die Programmierung Wintersemester 2009/10 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Datenbanken Dantenbanksystem Data Base System Datenbasis (Daten)
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
Wahrscheinlichkeitsrechnung
Vom Kontext zum Projekt V Carina Berning Sabrina Gursch Pierre Streicher Intelligente Dateisysteme.
Ein Vortrag von Elisa Beyer und Melanie Erker
Klassifikation und Regression mittels neuronaler Netze
SWT-Übung WS 11/ SA-SA/RT.
Analyse der Laufzeit von Algorithmen
Die Binomialverteilung
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Studieneinstiegstest – Motivation, Hintergrund und Aufbau
Induktion von Entscheidungsbäumen Seminar Data Mining am Fachgebiet Datenbanken und Informationssysteme Sommersemester 2007 Betreuer: Hendrik Warneke.
Geoinformationssysteme
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
 Präsentation transkript:

Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Überblick 1. Einleitung 2. Eingaben 3. Ausgaben 4. Algorithmen 5. Glaubwürdigkeit 6. Maschinelles Lernen in der Praxis

1.0. Beispiele Beispiel 1: Künstliche Befruchtung Eigenschaften definieren, die größte Überlebenschance garantieren

1.1. Beispiele Beispiel 2: Vieh wird geschlachtet Gesundheit Lebenserwartung Fruchtbarkeit Gewicht

1.2. Situation Immer mehr Daten werden gespeichert Internet Preiswerte Speichermedien Mehr Anwendungen: Bilder, Filme Alle 20 Monate Verdopplung der Daten

1.3. Lösung: Data Mining Es ist eine Möglichkeit gesucht, die Datenflut zu analysieren Daten sollen ausgewertet werden Lösung: Data Mining

1.4.1. Datamining Verarbeitung elektronisch gespeicherter Daten Lernen: Wissen durch Studium aneignen Prozess der autom. oder halbautom. Mustererkennung Maschinelles Lernen: Lernen automatisieren

1.4.2. Data Mining Aneignen von Wissen Fähigkeit es zu verwenden Gezielte Suche in Datenbanken Analyse bereits vorhandener Daten Suche nach Mustern Ergebnisse ein weiteres Handeln einbeziehen

1.5. Data Mining und Ethik problematisch sind rassische und sexuelle Informationen Undurchschaubarkeit von Daten (unvorhersehbare Auswertungen) Viele Daten werden für neue Analysen zusammengefasst

1.6. Bias: Lernverfahren Zur Bestimmung des Lernverfahrens Sprachbias: Ist die Beschreibung universal? Wird domänenwissen genutzt Suchbias: bestmögliche Beschreibung finden Bias zur Vermeidung der Überanpassung

2. Eingabe Wie werden die Daten zur Analyse eingegeben?

2.1. Eingabe der Daten Konzepte Instanzen Attribute

2.1.1. Konzepte Unabhängig von Art des Lernens Beschreibt was gelernt werden soll Ausgabe des Lernverfahrens: Baum Regelmenge

2.1.2. Instanzen Jede Instanz ist ein eigenes Beispiel Zeile in einer Tabelle

2.1.3.1. Attribute Attribut ist Spalte einer Tabelle Problem: Instanzen mit unterschiedlichen Attributen -> Möglichst viele Attribute

2.1.3.2. Attribute Numerische Attribute Nominale Attribute Ordinale Attribute

2.2. Beispiel Wie sehen einzulesende Datenmengen aus? Wie sehen Regelmengen aus?

2.2.1. Beispiel: Datensatz

2.2.2. Beispiel: Baum

2.2.3. Beispiel: Regelmenge

2.3. Aufbereitung Aufbereitung der Eingabedaten Integration von verschiedenen Datenquellen Datacleaning Data Warehousing ARFF-Dateien

2.3.1. Data Warehousing Zusammenfassung von Datenquellen Unternehmensweite Datenbankintegration Keine Abteilungsgrenzen Aggregation von Daten

2.4. Eingabe: Fehlende Daten Einträge außerhalb Gültigkeit (-1) Unterscheidung von fehlenden Daten(-1,-2) Wegen verändertes Experiment Wegen Messfehlern Wegen Verweigerung Ist Auftreten zufällig oder wichtig für Analyse?

2.5. Eingabe: Genauigkeit Daten für andere Zwecke gespeichert Ungenauigkeiten plötzlich von anderer Bedeutung Schreibfehler (sind Daten gleich?) Bewusste Manipulation

2.6. Arten des Lernens Klassifizierendes Lernen Numerische Vorhersage Vorhandene Daten in Klassen fassen Numerische Vorhersage Numerische statt diskrete Werte Clustering Gruppieren von Instanzen

3. Ausgabe 3.1 Entscheidungstabellen 3.2 Entscheidungsbäume 3.3 Klassifikationsregeln 3.4 Assoziationsregeln 3.5 Regeln mit Ausnahmen 3.6 Bäume für numerische Vorhersage 3.7 Instanzbasierte Darstellung 3.8 Cluster

3.1 Entscheidungstabellen Einfachste, elementarste Methode weniger einfach bei spezieller Auswahl von Attributen Kompliziert: Auswahl der die Entscheidung nicht beeinflussenden Attribute

3.2 Entscheidungsbäume Ansatz: Teile und Herrsche Knoten eines Baumes bedingen Auswertung eines Attributs Blätter stellen Klassifikationen dar

3.3 Klassifikationsregeln Anwendung einer Regel verlangt Auswertung einer Menge von Attributen Allgemein logische UND Verknüpfung der Bedingungen Aus Baum: pro Blatt eine Regel, Auswertung jeder Regel eines Knotens auf dem Pfad von Wurzel zu Blatt

3.4 Assoziationsregeln Können nicht nur Klassen vorhersagen, sondern auch Attribute Damit Vorhersage beliebiger Attributkombinationen if temperatur =kalt then luftfeuchtigkeit = normal

3.5 Regeln mit Ausnahmen Vermeidung falscher Klassifikation durch Zulassen von Ausnahmen Schaffen einer neuen Entscheidungsebene Bei Fortsetzung erhält man Baumstruktur if stimme = hoch then Frau except if eunuch then Mann

3.6 Bäume für numerische Vorhersagen Auswertung eines numerischen Attributes

3.7 Instanzbasierte Darstellung Auswendiglernen durch Merken von Trainingsinstanzen Neue Instanz wird mit vorhandenen verglichen und der Klasse der ähnlichsten vorhandenen Instanz zugeordnet BSP: Buchstabenerkennung

3.8 Cluster Ausgabe eines Diagramms: Anzeige der in die Cluster eingeordneten Instanzen Einfachster Fall: Zuweisung einer Clusternummer zu jeder Instanz

4. Algorithmen 4.1 Ableitung elementarer Regeln 4.2 statistische Modellierung 4.3 Teile und Herrsche 4.4 Abdeckungs- algorithmen

4.1 Ableitung elementarer Regeln Baum auf einer Ebene Auswertung einer Regelmenge eines Attributes für jedes attribut für jeden wert des attributes zählen, wie oft jede klasse erscheint klasse mit häufigsten auftreten ermitteln regel aufstellen die diesem attributwert klasse zuordenet fehlerrate der regeln berechnen regelmenge mit kleinsten fehler auswählen

4.2 Statistische Modellierung Nutzung aller Attribute Gewichtung für alle Attribute gleich Attribute werden als unabhängig voneinander angesehen Rechnen mit Wahrscheinlichkeiten Auswertung von Hypothesen und zugehörigen Ereignissen

4.3 Teile und Herrsche Wahl eines Wurzelattributes Anlegen einer Verzweigung für jeden Wert Zerlegung der Beispielmenge in Untermengen, eine für jeden Wert des Attr. Rekursive Anwendung für jede Verzweigung, nur Instanzen die Verzweigung erreichen Alle Instanzen eines Knotens gleiche Klasse: Konstruktion des Baumabschn. fertig

4.4 Abdeckungs-Algorithmen Betrachtung einzelner Klassen nacheinander Abdeckung aller Instanzen Auschluss klassenfremder Instanzen Ableitung einer Regel in jedem Schritt die einige Instanzen abdeckt

5. Glaubwürdigkeit 5.1 Trainieren und Testen 5.2 Leistungsvorhersage 5.3 Kreuzvalidierung 5.3.1 Leave one out 5.4 Vorhersage von Wahrscheinlichkeiten

5.1 Trainieren und Testen Bei richtiger Klassifikation: Erfolg Andernfalls : Fehler Angabe des Verhältnisses zwischen Erfolg und Fehler: Gesamtleistung des Klassifizierers Nicht effektiv, da mit alten Daten gearbeitet wird, Vorhersage schwer möglich

5.2 Leistungsvorhersage Fehlerrate (fr) sei bestimmt (5.1) Bestimmung von Erfolgsrate (er): 1-fr Mit Mitteln der Wahrscheinlichkeitsrechnung Bestimmung der Wahrscheinlichkeit von er. Bei grossen Testreihen: Normalverteilung

5.3 Kreuzvalidierung Aufteilung der Datenmenge in Test und Trainingsmenge, feste Partitionen (Bsp3) Garantiert beste Mischung der Beispiele aller Klassen Nacheinander Ausführung von: Testen einer Partition, trainieren mit den zwei Anderen

5.3.1 Leave-one-out N-fache Kreuzvalidierung N ist Anzahl der Instanzen in der Datenmenge Nacheinander: Weglassen einer Instanz Training mit restlichen Instanzen Auswertung aller N Ergebnisse durch Mittelwertbildung

5.4 Vorhersage von Wahrscheinlichkeiten Bisheriges Ziel: hohe Erfolgsrate für Vorhersage Nicht mehr wahr oder falsch (Vorhersage hat tatsächlichen Wert der Instanz) Einführung beliebig vieler Abstufungen Verschiedene Gewichtung von unterschiedlichen Vorhersageergebnissen

6. Maschinelles Lernen in der Praxis Algorithmen sind in Praxis viel komplexer Behandlung realer Probleme Schwerpunkte: numerische Attribute Fehlerbehandlung Anwendung von Statistiken

6.1 Entscheidunsbäume Erweiterung des Teile-und-herrsche Algo: Behandlung numerischer und fehlender Werte Beschneidung (wegen Überanpassung) Umwandlung der Entscheidungsäume in Klassifikationsregeln

6.1.1 Numerische Werte Anpassung an nominale (boolsche) Struktur Beispiel: Temperaturabfrage no yes 85 83 81 80 75 72 71 70 69 68 65 64

6.1.2 Fehlende Werte Zerlegung der Instanz, unter Verwendung numerischer Gewichtung, und Bearbeitung mit allen Verzweigungen des Baumes Bei Erreichen eines Blattknotens: Zusammenfügen der Entscheidungen des Blattknotens unter Verwendung der Gewichtung, die mit “durchgesickert” ist

6.1.3 Pruning 6.1.3.1 Postpruning: Nachträgliches Beschneiden des fertigen Baumes („zusammengehörige Attribute“) 6.1.3.2 Prepruning Beschneidung während der Baumbildung (Arbeitseinsparung)

6.1.4 Von Bäumen zu Regeln Pro Blatt eine Regel Alle Auswertungen von Wurzel zum Blatt werden UND-verknüpft Löschen von Bedingungen, die keinen, oder schlechten, Einfluß auf Regel haben Entfernen von Regelduplikaten

6.2 Clustering Ziel: Einteilung der Instanzen in natürliche Gruppen Arten von Clustern: Ausschliessende Überlappende Wahrscheinlichkeitsverteilte Hierarchisch (Vererbungsebenen)

6.2.1 k-Mittelwert Clustering Bildung von k Clustern in numerischen Domänen, durch Aufteilung der Instanzen in disjunkte (elementefremd) Cluster Wahl von Zentren und Zuweisung der Instanzen zum nächstliegenden Zentrum Mittelwertbildung aller Instanzen-neues Zentrum Wiederholung bis keine neuen Zentren entstehen

6.2.2 inkrementelles Clustering Hierarchische Gruppierung der Instanzen aufgrund eines „Quallitätsmasses “(auch Kategorienützlichkeit) für Cluster Inkrementell (feinere Aufteilung Instanz für Instanz)

6.2.3 Statistisches Clustering Mischmodell aus verschiedenen Wahrscheinlichkeitsverteilungen Eine Verteilung pro Cluster Jede Verteilung gibt Wahrscheinlichkeit für Clusterzugehörigkeit einer Instanz an (jede Instanz genau zu einem Cluster)

Vielen Dank für die Aufmerksamkeit Wir wünschen ein allseits schönes Wochenende. Noch Fragen? (rhetorische Frage)

Quellen Titel: Data Mining Praktische Werkzeuge und Techniken für das maschinelles Lernen Autoren: Ian H. Witten, Eibe Frank