Data Mining. © Prof. T. Kudraß, HTWK Leipzig 2 Data Mining ist, wenn man vorher nicht so genau weiß, wonach man eigentlich sucht! Definition des Data.

Slides:



Advertisements
Ähnliche Präsentationen
Einführung "Datenbanksysteme"
Advertisements

Einfluss von Web Services Technologien auf organisatorische Strukturen Referent: Sergej Groß
Stichprobe im qualitativen Forschungsprozess
Kohonennetze für Information Retrieval mit User Feedback
Heterogene Informationssysteme
Daten- und Informationsqualität. © Prof. T. Kudraß, HTWK Leipzig Management der Informationsqualität Keine verbindlichen Standards oder Vorgaben für Informationsqualität.
Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung
Apriori-Algorithmus zur Entdeckung von Assoziationsregeln
Data Mining Anwendungen und Techniken
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Erschließen von semantischen Referenzen mit Ontology-Reasoning-Werkzeugen Das Ziel dieser Masterarbeit war die Erweiterung des ORBI Systems um ein Inferenz-System.
Nutzung und Bedeutung von Business Intelligence und Business Intelligence Methoden und -Werkzeugen Durch die Analyse des BI mit dem Fokus der Managementunterstützung.
Customer Relationship Management
Philosophische Fakultät 3: Empirische Humanwissenschaften Fachrichtung Erziehungswissenschaft Statistik I Anja Fey, M.A.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/9 Data Mining Ist die Wissensgewinnung aus Datensammlungen (Knowledge Discovery in Database).
Markplätze für Agenten Seminar Softwareagenten Timo Hoelzel.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 16: Grundlagen des Data Mining.
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
PinK Plattform für intelligente Kollaborationsportale Dr. Joachim Quantz, e.V. Berlin, 13. September 2005.
Internet facts 2006-I Graphiken zu dem Berichtsband AGOF e.V. September 2006.
Internet facts 2006-III Graphiken zum Berichtsband AGOF e.V. März 2007.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.
Modellbildung in der Geoökologie (G5, 103) SS 2004
Was sind Histogramme? (1)
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Manpower Associates is a $14
1. Einleitung Inhalt dieses Kapitels


Fast Algorithm for Mining Association Rules
... und alles was dazugehört
Multikollinearität Wann spricht man von Multikollinearität?
Betrügern auf der Spur WIN-Treffen 2010 Falko Meyer 04 BW.
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Objektmodellierung Objekte und Klassen Ein Objekt ist ein Exemplar.
Spezifikation von Anforderungen
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
© DVS System Software GmbH & Co. KG
EXCEL PROFESSIONAL KURS
Zur Veranstaltung Business Intelligence
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
DataMining Von Daten zu Informationen und Wissen
Ausgangslage Mangelhafte Führungs-kompetenz Schlechtes Betriebsklima
Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.
Einführung in die Programmierung Wintersemester 2013/14 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Data und Web Mining KFK Semantic Web: Knowledge Management
Vorlesung #4 Überführung des ER-Modells in das relationale Modell
Vorlesung #4 Überführung des ER-Modells in das relationale Modell
Allgemeines zu Datenbanken
DI (FH) DI Roland J. Graf MSc (GIS) U N I V E R S I T Ä T S L E H R G A N G Geographical Information Science & Systems UNIGIS.
00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung.
Mehr Zeit für den Kunden und wirtschaftlicher Arbeiten mit BIB-Control
Pki Informationssysteme für Marktforschung präsentiert...
Lernen durch Vergleiche
Die Ganze Welt im Computer? Informationsbeschaffung im Internet
Auswertung von Web- Server-Zugriffen: Mechanismen und Vergleich von Lösungen Alexander Maier.
Datenbanken im Web 1.
© Fraunhofer-Institut für Angewandte Informationstechnik FIT Social Search.
Open Data als Businessgrundlage Andreas Woditschka CFO |
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.
Intelligent Data Mining
 Präsentation transkript:

Data Mining

© Prof. T. Kudraß, HTWK Leipzig 2 Data Mining ist, wenn man vorher nicht so genau weiß, wonach man eigentlich sucht! Definition des Data Mining: nicht triviale Entdeckung gültiger, neuer, potentiell nützlicher und verständlicher Muster in großen Datenbeständen [Fayyad] besteht, aus mathematisch-statistischen Rechenverfahren, kombiniert mit selbstlernenden Systemen intelligente Anwendung auf Basis einer Data Warehouse- Architektur Analyseziel: Finde Gold in Deinen Daten! Was bedeutet Data Mining?

© Prof. T. Kudraß, HTWK Leipzig 3 Klassisches Data Mining – Strukturierte Daten (z.B. relationale Datenbanken) Multimedia Mining – Text Mining – Image Mining – Audio Mining – Video Mining Web Mining Spatial Data Mining (Geodaten) Data Mining Facetten

© Prof. T. Kudraß, HTWK Leipzig 4 Evolution / Geschichte

© Prof. T. Kudraß, HTWK Leipzig 5 Drastischer Anstieg des Datenvolumens – Alle 18 Jahre verdoppelt sich Speicherkapazität im Unternehmen [IBM 2009] Dauerhafte Speicherung von Daten wird immer günstiger steigende Anzahl an Data-Warehouse-Anwendungen riesige Datenfriedhöfe in Wissenschaft und Wirtschaft manuelle Sichtung unmöglich Unzufriedenheit mit existierenden Analysemethoden (mehr Automatismus) SQL-,OLAP-Queries nicht ausreichend, da die Datenqualität oft nicht hoch ist Ausgangssituation

© Prof. T. Kudraß, HTWK Leipzig 6 Aussagen über Grundgesamtheit treffen, wenn nur eine zufällige Stichprobe zur Verfügung steht gewachsene Strukturen ausschöpfen Aufdeckung latenter Zusammenhänge zwischen Daten, Daten Wissen aus Daten Informationen gewinnen (meist Wettbewerbs- vorteile) und Entscheidungen schneller treffen – Kundenzufriedenheit – Marktkenntnis – Vorsprung vor der Konkurrenz – Erschließung neuer Vertriebskanäle Motivation

© Prof. T. Kudraß, HTWK Leipzig 7 Data Mining vs. KDD Data Mining – Teilschritt des KDD-Prozesses – besteht aus Algorithmen die in akzeptabler Rechenzeit aus einer vorgegebenen Datenbasis eine Menge von Mustern liefern. Knowledge Discovery in Databases (KDD) – nichttrivialen Prozess der Identifikation valider, neuartiger, potentiell nützlicher und klar verständlicher Muster in Daten

© Prof. T. Kudraß, HTWK Leipzig 8 Der Prozess des KDD (Knowledge Discovery in Databases)

© Prof. T. Kudraß, HTWK Leipzig Auswahl (Selektion) Auswahl der zu analysierenden Daten aus einer Rohdatenmenge Zusammenfügen von Daten aus mehreren Quellen, z.B. in ein Data Warehouse Problem: heterogene Daten – Redundanzen – Wie kann man sicher sein, dass einzelne Attribute denselben Inhalt haben? (z.B. cust_id und cust_number )

© Prof. T. Kudraß, HTWK Leipzig Vorverarbeitung (1) Warum Vorverarbeitung? – 10% des Zeitaufwandes im KDD entfallen auf die Ausführung von Data-Mining-Methoden – 90% des Aufwandes für Datenaufbereitung und Nachbearbeitung – Untersuchungen belegen Fehlerwahrscheinlichkeit in Rohdaten von bis zu 30% [Cabena u.a. 1997] Ziel: einheitliche Struktur und Format, Steigerung der Datenqualität besonders bei heterogenen Quellen

© Prof. T. Kudraß, HTWK Leipzig Vorverarbeitung (2) Semantische Probleme – Synonyme, Homonyme Lösung mit Hilfe von Metadaten und bereichsspezifischem Wissen Syntaktische Probleme – Verschiedene Schreibweisen Nutzung eines einheitlichen Schemas und von Katalogen (z.B. Straßenverzeichnis) Redundanzen Fehlende Werte (unbestimmbar bzw. unbestimmt) Säubern (verschiedene Varianten …) Falsche Werte Transformation Zu genaue Werte Aggregation

© Prof. T. Kudraß, HTWK Leipzig Transformation Glättung. d.h. Ausreißer entfernen – Nützlich für Entscheidungsbäume, Hierarchien Erzeugen abgeleiteter Attribute (z.B. Aggregationen für bestimmte Dimensionen, Umsatzänderungen) Diskretisierung numerischer Attribute (Aufteilung von Wertebereichen in Intervalle, z.B. Altersgruppen) Normierung - Vergleichbarkeit herstellen Datenreduktion – Dimensionalität – Werteanzahl – Beispiel: Land Bundesland Stadt Straße

© Prof. T. Kudraß, HTWK Leipzig Data Mining Verfahren Clustering Zusammenfassen ähnlicher Objekte Assozationsanalyse Auffinden von Regeln ( Ausführliches Anwendungsbeispiel) Klassifikation Zuordnen von Datenobjekten zu vorgegebenen Klassen Anomalieentdeckung Auffinden von Ausreißern

© Prof. T. Kudraß, HTWK Leipzig 14 Ziel: Objekte einer Eingabedatenmenge zu (vorgegebenen) Klassen zuzuordnen (lernt anhand von Daten) Problem: Merkmale der Objekte in einen funktionalen Zusammenhang bringen, dass deren Abbildung auf eine Klasse möglich wird Schritte: Training - Lernen der Kriterien zur Zuordnung von Objekten Anwendung - Zuordnung von Objekten zu Klassen … Beispiel: Kreditwürdigkeit Klassifikation

© Prof. T. Kudraß, HTWK Leipzig Klassifikation – Beispiel Beispiel: Kreditwürdigkeit von Bankkunden feststellen – Entscheidungsbäume – Nearest Neighbour – …. Berufstätig? 30 < Alter < 45Vermögen Einkommen < Schulden > Kein Kredit … … … …… JN J J J N N N N J

© Prof. T. Kudraß, HTWK Leipzig Clustering – Beispiel Gruppeneinteilung von Kunden Anzahl Ferngespräche Anzahl Ortsgespräche

© Prof. T. Kudraß, HTWK Leipzig Spatial Data Mining - Beispiel im Jahr 1854 kam es in London zu einer Cholera- Epidemie der englische Arzt John Snow fand mittels Spatial Data Mining-Methoden die Ursache für diese Krankheit

© Prof. T. Kudraß, HTWK Leipzig

Spatial Data Mining – Beispiel (Forts.) Trinkwasserbrunnen in der Broad Street

© Prof. T. Kudraß, HTWK Leipzig Assoziationsanalyse - Beispiel Definition Assoziationsanalyse: – Auffinden von Assoziationsregeln, die das Auftreten eines Items in Abhängigkeit vom Auftreten anderer Items vorhersagen. Anwendung: Warenkorbanalyse Beispiele für Assoziationsregeln: {Käse} {Butter} (s = 0.6, k = 0.75) {Brot} {Käse, Butter, Eier} (s = 0.2, k = 0.25) {Butter, Brot} {Wurst}(s = 0.2, k = 0.5)

© Prof. T. Kudraß, HTWK Leipzig Assoziationsanalyse - Grundbegriffe Item-Menge Kollektion von einem oder mehreren Items, z.B. {Milch, Brot, Wurst} k-Item-Menge: Item-Menge mit k Elementen Support-Anzahl einer Item-Menge absolute Häufigkeit des Auftretens dieser Menge Support s einer Item-Menge relative Häufigkeit, z.B. s ({Brot,Wurst}) = 3/5 Assoziationsregel X Y mit X, Y als Item-Mengen Support s der Assoziationsregel X Y: s(X Y):= (X Y) / |T| relative Häufigkeit der Transaktionen, in denen beide Item-Mengen X und Y auftreten Konfidenz k der Assoziationsregel X Y: k(X Y):= (X Y) / (X) Häufigkeit des Auftretens von Items in Y in den Transaktionen, die X enthalten

© Prof. T. Kudraß, HTWK Leipzig A-Priori-Algorithmus A-Priori-Prinzip: Ist eine Item-Menge häufig auftretend, dann sind es auch alle ihre Teilmengen A-Priori-Algorithmus k=1 Generiere häufig auftretende Item-Mengen der Länge 1 Wiederhole bis keine häufig auftretenden Item-Mengen mehr identifiziert werden: Generiere aus den häufig auftretenden k-Item-Mengen Kandidaten Item-Mengen Länge k+1 Entferne Kandidaten Item-Mengen, die nicht häufig auftretende Teilmengen der Länge k enthalten Ermittle den Support jedes Kandidaten Entferne Kandidaten, die nicht häufig vorkommend sind

© Prof. T. Kudraß, HTWK Leipzig A-Priori-Algorithmus (Beispiel) Zum Vergleich: 6 1-Item-Mengen Item-Mengen Item-Mengen = 41 zu untersuchende Mengen (wäre Brute-Force- Algorithmus) 1-Item-Mengen 2-Item-Mengen (keine Kombinationen mit Milch und Eiern mehr bilden) 3-Item-Mengen Annahme: Minimale Support-Anzahl 3

© Prof. T. Kudraß, HTWK Leipzig 27 Ablauf Visualisierungen der gefundenen Muster Einordnung/Bewertung der Muster Handelt es sich um bekannte oder überraschende Muster? Verallgemeinerung für zukünftige Daten möglich? Vorhersagekraft steigt mit Größe und Repräsentativität der Stichprobe! schlechte Bewertung: erneutes Data Mining mit anderem Verfahren, anderen Parametern oder anderen Daten gute Bewertung: Integration des gefundenen Wissens in die Wissensbasis und Nutzung für zukünftige KDD- Prozesse Interpretation

© Prof. T. Kudraß, HTWK Leipzig Anwendungen in der Industrie (Beispiel)

© Prof. T. Kudraß, HTWK Leipzig 29 Einzelhandel oft gemeinsam gekaufte Produkte treue Kunden, Premium-Kunden und Schnäppchen- Jäger Spezifische Interessensgruppen Erfolg einer Marketing-Aktion Absatzchancen neuer Produktsegmente Cross-Selling (Partnerschaft mit anderen Anbietern) Bestandsplanung: Wann kaufen Kunden wieviel wovon? Anwendungsbeispiele (1)

© Prof. T. Kudraß, HTWK Leipzig 30 Banken Finden von Kriterien für die Kreditwürdigkeit von Kunden Prognose von Aktienkursen Wissenschaft Wirksamkeit von Medikamenten Zusammenhang von Umwelteinflüssen und Krankheiten Finden von Genen in DNA-Strängen Anwendungsbeispiele (2)

© Prof. T. Kudraß, HTWK Leipzig 31 Web (Clickstream Analysis) Identifikation von Web-Transaktionen Häufigkeit des Seitenbesuchs Verweildauer auf einer Seite Häufige Navigationspfade durch Web-Site Welche Faktoren führen zu Abbruch? Welche Navigationspfade führen zu erfolgreichen Abschlüssen? Profiling in Social Networks Ansätze: Inhaltsanalyse - Web Content Mining Strukturanalyse - Web Structure Mining Nutzungsanalyse - Web Usage Mining Anwendungsbeispiele (3)

© Prof. T. Kudraß, HTWK Leipzig 32 Behauptung: Data Mining diene dazu, Zusammenhänge automatisch zu entdecken, an die bisher noch nicht einmal jemand gedacht hat, und Fragen zu beantworten, die nicht einmal noch jemand gestellt hat. verständlicher Wunsch… z.B. Nutzung der riesigen Datenbestände einer Firma Problem hierbei: Qualität der gefundenen Muster Probleme (1)

© Prof. T. Kudraß, HTWK Leipzig 33 Verständlichkeit – keine Zahlenkolonnen, Visualisierungen wichtig Interessantheit / Trivialität – keine Trivialitäten, die auch durch Datenbankabfragen oder Statistiken zu erhalten wären Bedeutungslosigkeit – Aussage bezieht sich auf 1 Element, keine Repräsentativität Bekanntheit – Aussage ist einem Benutzer mit Fachwissen längst bekannt Irrelevanz – unbeeinflussbare Faktoren (z.B. Exportzölle) Effizienz – Rechenzeit Probleme (2)

© Prof. T. Kudraß, HTWK Leipzig 34 Data Mining Tools ProduktHersteller SPSSSPSS Scenario, 4ThougthCognos Enterprise MinerSAS MS SQL Server (Analytics Services)Microsoft Intelligent Miner for DataIBM Data Mining Suite (Darwin)Oracle Teradata Warehouse MinerNCR Waikato (WEKA) mit Schwerpunkt Maschinelles LernenOpen Source RapidMiner Open Source (ehemals YALE, Uni Dortmund)

© Prof. T. Kudraß, HTWK Leipzig 35 Als Data Mining bezeichnet man die softwaregestützte Ermittlung bisher unbekannter Zusammenhänge, Muster und Trends in sehr großen Datenbanken. Dabei kann der Benutzer bestimmte Ziele vorgeben, für die das System angemessene Beurteilungskriterien ableitet und damit die Objekte der Datenbank(en) analysiert. zahlreiche Nutzungsmöglichkeiten: Kundensegmentierung, Vorhersage des Kundenverhaltens, Warenkorbanalyse, … Problem: Interpretation der Ergebnisse nicht immer einfach zunehmende Unterstützung durch kommerzielle DBS, z.B. über MS-SQL Server 2005 mit Data Mining Funktionalität Zusammenfassung

© Prof. T. Kudraß, HTWK Leipzig 36 Was Data Mining nicht ist… SQL / Ad Hoc Queries / Reporting Softwareagentensystem Online Analytical Processing (OLAP) Datenvisualisierung Verzicht auf exakte Kenntnis der zugrundeliegenden Daten (Semantik) Datenschutz Vorsicht ;)