Data Mining Anwendungen und Techniken

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Kohonennetze für Information Retrieval mit User Feedback
Apriori-Algorithmus zur Entdeckung von Assoziationsregeln
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Übersicht zu Verfahren des Soft Computing
Rechnergestützte Musikanalyse Einführung Projektseminar Musikwissenschaftliches Institut Hamburg WS 2005/06 Leitung: Klaus Frieler.
Berg-Schlosser : VL : Vergleichende Politikwissenschaft Vergleichende Methoden Ausgangsbasis : Fälle: begrenzte Auswahl auf der Makro-Ebene, abhängig.
Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
Eine Fallstudie zur Wirtschaftsinformatik
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.
Datenbankdesign und Normalisierung
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 16: Grundlagen des Data Mining.
Hypothesen testen: Grundidee
Grundlegende Analysen & Zwischendarstellungen
WAS WILL WISSENSCHAFT? - Sagen: Was WIE ist
Herzlich willkommen beim 1. Workshop der AG Methodik
Access 2000 Datenbanken.
Classification of Credit Applicants Using Data Mining. Thema.
Die Bank von morgen - eine neue Welt für IT und Kunden? 23. Oktober 2001.
Tutorium
Kontrollfragen zu Kapitel 1
Konzeption und Realisierung von DSS
Wiederholung und Beispiele
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen und automatische Textklassifikation
Machine Learning Decision Trees (2).
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Betrügern auf der Spur WIN-Treffen 2010 Falko Meyer 04 BW.
11. Vorlesung: Dynamische Konzepte am Fallbeispiel
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Self Organizing Tree Algorithm
EXCEL PROFESSIONAL KURS
Zur Veranstaltung Business Intelligence
des Business Intelligence Projekts
Ausgleichungsrechnung II
DataMining Von Daten zu Informationen und Wissen
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
GIS - Seminar Wintersemester 2000/2001
Fundamente der Computational Intelligence
Data und Web Mining KFK Semantic Web: Knowledge Management
Erfindervon Fuzzy Logic
CEF 2001, New Haven Genetic Neural Fuzzy Explorer GENEFER Konzeption, Technologien und Einsatzmöglichkeiten Eric Ringhut Muenster Institute for Computational.
Replikation und Synchronisation
Marktübersicht Die Linusbank Problembeschreibung Projektplan
Lernen durch Vergleiche
Klassifikation und Regression mittels neuronaler Netze
Information Retrieval, Vektorraummodell
Kompetenzzentrum für Befragungen Trigon Entwicklungberatung
Neuronale Netze - Anwendungen in Chemie und Verfahrenstechnik
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Arbeitsblatt I: Workshop Naturwissenschaften – Welche fachspezifischen Elemente sind bei der Umsetzung Forschenden Lernens zu berücksichtigen? Titel Modul/
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
DOAG DWH-SIG/Ralf BrüggemannFolie 1/ Data Mining-Verfahren: Theorie und Anwendungsgebiete Ralf Brüggemann PROMATIS AG.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Intelligent Data Mining
 Präsentation transkript:

Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH

Entdecken von Wissen in Datenbanken Unternehmen sammeln ungeheure Datenmengen Daten enthalten wettbewerbs-relevantes Wissen Ziel: Entdecken dieses verborgenen Wissens Allgemeine Kriterien an das zu findende Wissen nicht-trivial bisher unbekannt potentiell nützlich Daten Wissen

Beispiel aus der Automobilindustrie 7 - 10 Jahre Historie für ca. 7.000.000 Fahrzeuge Fahrzeugdaten (Produktionsdaten; Daten über Motor, Getriebe, ...) Beanstandungen (Schadensteil, Schadensart, ...) Werkstattaufenthalte Frage: Wie kann man das Auto zuverlässiger machen? Suche in Datenbank nach möglichen Gründen für Ausfälle mögliche Umsetzung des Wissens: Änderung in Konstruktion Wechsel des Zulieferers Kundendienst: vorbeugende Wartung usw.

Data Mining ist eine Phase im Prozess der Wissensentdeckung aus Datenbanken Interpretation/ Evaluation Wissen Data Mining Transformation Vorverarbeitung Auswahl Muster --- --- --- Transformierte Daten Vorverarbeitete Daten Zieldaten Daten

Prozeßschritte der Wissensentdeckung Anforderungsanalyse Ziele, Kriterien festlegen Auswahl Fokussierung, Auswahl relevanter Daten Vorverarbeitung Bereinigung der Daten Transformation Anzahl der Variablen reduzieren, Datenformat vereinheitlichen Data Mining Auswahl von Techniken und Methoden evtl. viele Testläufe mit verschiedenen Parametern Interpretation/Evaluierung Beurteilung der Ergebnisse bzgl. festgelegter Kriterien Dokumentation, Visualisierung der Ergebnisse Überführung in die Anwendung

Probleme beim Data Mining Datenbank muß gut organisiert sein Ungeeignete Daten: inkonsistente Einträge redundante Einträge Lücken in den Daten Freitextfelder mit relevanten Informationen Daten müssen zugreifbar sein Einheitliches Format der Daten Lösungen: Bereinigung der Daten, Fokussierung evtl. Vereinheitlichung der Daten in einem Data Warehouse

Data Warehouse und Wissensentdeckung in Datenbanken Interpretation/ Evaluation zyklischer Update Wissen Data Mining Transformation Vorverarbeitung Auswahl Muster Transformierte Daten Data Warehouse Zieldaten Daten

Mögliche Unterscheidung von Data-Mining-Verfahren Einsatz des Systems Überprüfung einer Hypotheses des Benutzers Autonomes Entdecken von Regeln bzw. Mustern Techniken, z.B. Maschinelles Lernen Statistik Datenvisualiserung Art des zu erkennenden Wissens

Erkennung verschiedener Arten von Wissen Abhängigkeiten Lernen von Abhängigkeiten zwischen Variablen Klassifikation Lernen einer Menge von Regeln, die Objekte aufgrund ihrer Attribute vorgegebenen Klassen zuordnen Clustering Zusammenfassung ähnlicher Objekte Abweichungen Entdecken der signifikantesten Abweichungen von vorherigen oder normalen Werten Zeitreihenanalyse Lernen von Regeln zeitlicher Veränderungen

Entdecken von Abhängigkeiten Gegeben ist eine Menge von Datensätzen Lernen von Regeln der Form A Þ B: A und B sind Mengen von Attributwerten Bedeutung der Regel: “Wenn ein Datensatz die Attributwerte A1 und ... und An enthält, dann enthält er auch die Werte B1 und ... und Bm” Beispiel: Gegeben eine Kunden-Datenbasis, z.B. Versicherungen Gesucht sind Regeln der Art: Leben Þ Unfall Wenn ein Kunde eine Lebensversicherung abschließt, dann schließt er oft auch eine Unfallversicherung ab Anwendung der Regeln: Entwicklung gezielter Verkaufsmethoden (Cross-Selling)

Beurteilung der Güte einer Abhängigkeitsregel Angenommen man hat eine Regel X Þ Y gelernt. Konfidenz bezeichnet die Stärke einer Regel: Eine Regel X Þ Y hat Konfidenz c, wenn c% der Datensätze in D, die X enthalten, auch Y enthalten. Unterstützung bezeichnet die Häufigkeit der Muster: Eine Regel X Þ Y hat Unterstützung s, wenn für s% der Datensätze in D sowohl X als auch Y gilt Interessant sind Regeln mit hoher Konfidenz und großer Unterstützung Wichtig: Unabhängigkeit der Attribute: Beispiel: 75% aller Studenten essen Cerealien, 60% aller Studenten spielen Basketball, 40% essen Cerealien und spielen Basketball Obwohl die Regel Basketball Þ Cerealien hohe Konfidenz (66%) hat, ist sie irreführend: der Anteil der Cerealien-Esser an der Gesamtheit aller Studenten ist höher als der an Basketballspielern.

Lernen von Klassifikationsregeln Gegeben ist eine Menge von Datensätzen Jedem Datensatz ist eine Klasse zugeordnet Welche Attributwerte bestimmen die Klassenzugehörigkeit? Vorgehensweise: Aufteilung der Daten in zwei Teilmengen Trainingsmenge zum Lernen der Regeln Testmenge zum Überprüfen der gelernten Regeln: Eine Menge von Klassifikationsregeln ist gut, wenn ein gewisser Anteil der Datensatze korrekt klassifiziert wird

Beispiel für Klassifikation: Kreditwürdigkeitsprüfung Gegeben ist eine Menge von Daten über eine Firma: Bilanzdaten, z.B. U: Umsatz G: Gewinn E: Eigenkapital F: Fremdkapital Kennzahlen, z.B. UG: Gewinnanteil am Umsatz FE: Fremdkapital/Eigenkapital Jeder Datensatz ist einer von zwei Klassen zugeordnet: kw: “kreditwürdig” nkw: “nicht-kreditwürdig” Welche Attributwerte bestimmen, daß eine Firma kreditwürdig ist?

Ergebnisdarstellung: Entscheidungsbaum U < 5 Mio U > 50 Mio 5 Mio < U < 50 Mio UG < 20 UG > 20 UG < 5 UG > 5 UG < 5 UG > 5 nkw kw kw nkw kw FE < 50 UG > 50 nkw kw Ein Entscheidungsbaum ist eine graphische Darstellung einer Menge von Regeln: die Knoten im Baum entsprechen Entscheidungen an den Wurzeln sind Klassen Beispiel: U < 5 Mio und UG < 5 Þ nkw “Wenn der Umsatz kleiner als 5 Mio DM ist und der Gewinn weniger als 20% des Umsatzes beträgt, dann ist die Firma nicht kreditwürdig”

Techniken für Klassifikation Entscheidungsbaumverfahren Maschinelles Lernen, Regelinduktion Neuronale Netze Fuzzy-Regeln statistische Verfahren Fallbasiertes Schließen

Clustering: Lernen von Klassen Clustering teilt Datensätze/Objekte aufgrund von Ähnlichkeiten in Klassen (Cluster) ein: ähnliche Datensätze bilden eine Klasse möglichst große Ähnlichkeit mit anderen Objekten der Klasse möglichst geringe Ähnlichkeit mit Objekten außerhalb der Klasse Voraussetzung: Definition von Ähnlichkeit zwischen Datensätzen Beispiel: Gegeben: Datenbank mit Verkaufszahlen Gesucht: Typische Kundenprofile Verwendung: Entwicklung gezielter Marketingstrategien

Entdecken von Abweichungen Erkennen von Abweichungen von normalen Werten Typische Muster von Abweichungen sind bekannt Gesucht sind Vorkommen dieser Muster in einer Menge von Datensätzen Die Muster müssen nicht exakt vorkommen, so daß ein Ähnlichkeitsmaß definiert werden muß Beispiel: Erkennen von Kreditkartenbetrug

Zeitreihenanalyse Lernen zeitlicher Verläufe aus bekannten Entwicklungen Anwendung: Prognose zeitlicher Veränderungen Beispiele: Kontenentwicklung, Liquiditätsverlauf, Aktienkurse Analyse von Messdaten zur Vorbeugung von Systemausfällen

Zusammenfassung Data Mining ist Teil eines komplexeren Prozesses: Wissensentdeckung aus Datenbanken Es gibt keine universellen Data Mining Algorithmus. Die Wahl der Techniken hängt ab von dem zu lernenden Wissen (Klassifikator, Abhängigkeiten, ...) der Beschaffenheit der Daten Daten müssen gut organisiert sein Data Mining setzt Wissen über die Anwendung voraus. Ein großer Aufwand besteht in der richtigen Formulierung des Problems