1. Einleitung Inhalt dieses Kapitels

Slides:

Advertisements

Ähnliche Präsentationen

Der R-Baum Richard Göbel.

Advertisements

Programmieren im Großen von Markus Schmidt und Benno Kröger.

Kohonennetze für Information Retrieval mit User Feedback

PG402 Wissensmanagement Zeitreihen in Datenbanken 1 PG-402 Wissensmanagement: Zeitreihen in Datenbanken Klaus Unterstein.

Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz

Prof. Dr. Liggesmeyer, 1 Software Engineering: Dependability Prof. Dr.-Ing. Peter Liggesmeyer.

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.

K-Modeler Engineering

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Data Mining Anwendungen und Techniken

Übersicht zu Verfahren des Soft Computing

Forum Information and Communication in Mathematics Jahrestagung der ÖMG/DMV Graz.

Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.

1-1 Schlank und schnell zum Datawarehouse Marc Bastien Oracle Deutschland GmbH BTW Leipzig,

Inhaltlich orientierter Zugriff auf unstrukturierte Daten

Einführung in Informationssysteme

Datenbankzugriff im WWW (Kommerzielle Systeme)

Mehrwert aus Daten gewinnen mit Datamining und Textmining

Stefanie Selzer - Pascal Busch - Michael Kropiwoda

Java: Objektorientierte Programmierung

Einführung Richard Göbel.

K-Modeler Engineering

Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 16: Grundlagen des Data Mining.

Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme

Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.

Data Mining. © Prof. T. Kudraß, HTWK Leipzig 2 Data Mining ist, wenn man vorher nicht so genau weiß, wonach man eigentlich sucht! Definition des Data.

Fortgeschrittenen-Praktikum: Entwicklung und Implementierung eines webbasierten Fußball-Tippspiels mit.

Datenbanksystementwicklung – Praktikum & Vorlesung – WS 2004/2005

Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Aufgabe GBIS (TPCW-Benchmark) Boris.

Access 2000 Datenbanken.

Datenbanken Einführung Merkmale dateiorientierte Datenverwaltung

Seminar: Verteilte Datenbanken

Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.

Informationssysteme SS Informationssysteme Grundvorlesung Informatik Sommersemester 2004 Universität des Saarlandes, Saarbrücken Dr. Ralf Schenkel.

Classification of Credit Applicants Using Data Mining. Thema.

Universität Karlsruhe (TH) © 2008 Univ,Karlsruhe, IPD, Prof. LockemannDBI 0 Datenbankimplementierung und -tuning Einführung.

Datenbankentwurfsprozess

Die Bank von morgen - eine neue Welt für IT und Kunden? 23. Oktober 2001.

M A P K I T Management eines J2EE basierten eCommerce Systems am Beispiel des ATG Dynamo Applikationsservers und BMC Patrol als Managementframework.

Grundschutztools

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Andere Paradigmen Inhalt dieses Kapitels 8.1 Induktive Logik-Programmierung.

Forschungszentrum Informatik, Karlsruhe Objektorientierte Systeme unter der Lupe Markus Bauer Oliver Ciupke.

Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1

Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.

Entitäten Extraktion Einführung

Betrügern auf der Spur WIN-Treffen 2010 Falko Meyer 04 BW.

Simulation komplexer technischer Anlagen

Christian Schulz, Marc Thielbeer, Sebastian Boldt

Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,

Zur Veranstaltung Business Intelligence

DataMining Von Daten zu Informationen und Wissen

Binde & Wallner Engineering GmbH

Einsatz von Anwendungssystemen WS 2013/14 Prof. Dr. Herrad Schmidt

Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.

Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie II (Teil I): Simulation und 3D Programmierung Prof.

Volumenorientierte Modellierung als Grundlage einer vernetzt- kooperativen Planung im konstruktiven Ingenieurbau Antragsteller: Prof. E. Rank, Prof. H.-J.

Data und Web Mining KFK Semantic Web: Knowledge Management

Überblick über die Datenbankproblematik

Kompetenz -, Lern - und Prüfungsbereiche Anforderungsbereiche

CEF 2001, New Haven Genetic Neural Fuzzy Explorer GENEFER Konzeption, Technologien und Einsatzmöglichkeiten Eric Ringhut Muenster Institute for Computational.

ASTROnomie Interaktiv & Dynamisch ASTROID C. Reimers Institut für Astronomie, Universität Wien Projektleitung: E. Dorfi, Institut für Astronomie, Universität.

LS 8 – Künstliche Intelligenz

Eike Schallehn, Martin Endig

Möglichkeiten der Visualisierung

Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie II (Teil I): Simulation und 3D Programmierung Prof.

Datenbanken im Web 1.

OOSE nach Jacobson Sebastian Pohl/ST7 Betreuer: Prof. Dr. Kahlbrandt.

Ludwig Maximilians Universität München

Workflowsysteme und Datenbanksysteme Gliederung Motivation Basis- funktionalitäten Klassifikations- merkmale Referenz-Modell MQ Workflow Zusammenfassung.

Intelligent Data Mining

Präsentation transkript:

1. Einleitung Inhalt dieses Kapitels 1.1 Grundbegriffe des Knowledge Discovery in Databases Motivation, Begriffe, Schritte des KDD-Prozesses, Fokussieren, Vorverarbeitung, Transformation, Data Mining, Evaluation 1.2 Typische KDD-Anwendungen Astronomie, Erdwissenschaften, Marketing, Investment, Betrugserkennung, Individualisierte Werbeanzeigen, Electronic Commerce, Datenschutz 1.3 Inhalt und Aufbau der Vorlesung Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1. 1 Motivation riesige Datenmengen werden automatisch gesammelt Bei welchen Telefonkunden besteht der Verdacht eines Betrugs? Zu welcher Klasse gehört dieser Stern? Welche Assoziationen bestehen zwischen den in einem Supermarkt gekauften Waren? solche Analysen lassen sich nicht mehr manuell durchführen Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

1.1 Definition KDD Bemerkungen [Fayyad, Piatetsky-Shapiro & Smyth 96] Knowledge Discovery in Databases (KDD) ist der Prozeß der (semi-)automatischen Extraktion von Wissen aus Datenbanken, das gültig bisher unbekannt und potentiell nützlich ist. Bemerkungen (semi)-automatisch: im Unterschied zu manueller Analyse. Häufig ist trotzdem Interaktion mit dem Benutzer nötig. gültig: im statistischen Sinn. bisher unbekannt: bisher nicht explizit, kein „Allgemeinwissen“. potentiell nützlich: für eine gegebene Anwendung. Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1.1 Abgrenzung KDD Statistik modellbasierte Inferenzen Schwerpunkt auf numerischen Daten [Berthold & Hand 1999] Maschinelles Lernen Suchverfahren Schwerpunkt auf symbolischen Daten [Mitchell 1997] Datenbanksysteme Skalierbarkeit für große Datenmengen neue Datentypen (z.B. Webdaten) Integration mit kommerziellen Datenbanksystemen [Chen, Han & Yu 1996] Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1.1 KDD-Prozeß Prozeßmodell nach Han Data Cleaning Data Integration Selection Data Mining Data Warehouse Task-relevant Data Pattern Evaluation Knowledge Databases Prozeßmodell nach Fayyad, Piatetsky-Shapiro & Smyth Vorverar-beitung Trans- formation Datenbank Fokussieren Data Mining Evaluation Muster Wissen Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1.1 Fokussieren Verständnis der gegebenen Anwendung z.B. Tarifgestaltung in der Telekommmunikations-Branche Definition des Ziels des KDD z.B. Segmentation der Kunden Beschaffung der Daten z.B. aus operationaler DB zur Abrechnung Klärung der Verwaltung der Daten File System oder DBS? Selektion der relevanten Daten z.B. 100 000 ausgewählte Kunden mit allen Anrufen in 1999 Bsp.-Anwendung Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1.1 Fokussieren “File Mining” Daten meist in Datenbanksystem (DBS) Data Mining bisher auf speziell vorbereiteten Files Integration des Data Mining mit DBS Vermeidung von Redundanzen und Inkonsistenzen Nutzung der DBS-Funktionalität (z.B. Indexstrukturen) Basisoperationen zum Data Mining Standard-Operationen für eine Klasse von KDD Algorithmen effiziente DBS - Unterstützung schnellere Entwicklung neuer KDD Algorithmen bessere Portabilität der Algorithmen Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1.1 Vorverarbeitung Integration von Daten aus unterschiedlichen Quellen einfache Übersetzungen von Attributnamen (z.B. KNr --> KundenSchl) Nutzen von Anwendungswissen um ähnliche Daten zusammenzufassen (z.B. regionale Zuordnung von Postleitzahlen) Konsistenzprüfung Test anwendungsspezifischer Konsistenzbedingungen Bereinigung von Inkonsistenzen Vervollständigung Ersetzen von unbekannten Attributwerten durch Defaults Verteilung der Attributwerte soll i.A. erhalten bleiben! Vorverarbeitung ist häufig einer der aufwendigsten KDD-Schritte Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1.1 Vorverarbeitung Data Warehouse [Chaudhuri & Dayal 1997] dauerhafte integrierte Sammlung von Daten aus unterschiedlichen Quellen zum Zweck der Analyse bzw. Entscheidungsunterstützung Data Warehouse Operationelle DB Integrieren Laden Aktualisieren Bedient OLAP Data Mining Report Generator Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1.1 Transformation Diskretisierung numerischer Attribute unabhängig von der Data-Mining-Aufgabe z.B. Aufteilung des Wertebereichs in Intervalle gleicher Länge abhängig von der Data-Mining-Aufgabe z.B. Aufteilung in Intervalle so, daß der Informationsgewinn in Bezug auf die Klassenzugehörigkeit maximiert wird Erzeugen abgeleiteter Attribute durch Aggregation über Mengen von Datensätzen z.B. von einzelnen Anrufen zu „Gesprächsminuten tagsüber, Wochentag, Stadtgespräch“ durch Verknüpfung mehrerer Attribute z.B. Umsatzänderung = Umsatz 2000 - Umsatz 1999 Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1.1 Transformation Attribut-Selektion manuell wenn Anwendungswissen über die Bedeutung der Attribute und über die gegebene Data-Mining-Aufgabe bekannt ist automatisch Bottom-Up (ausgehend von der leeren Menge jeweils ein Attribut hinzufügen) Top-Down (ausgehend von der Gesamtmenge der Attribute jeweils ein Attribut entfernen) z.B. so, daß die Diskriminierung der Klassen optimiert wird zuviele Attribute führen zu Ineffizienz und evtl. Ineffektivität des Data Mining manche Transformationen können durch OLAP-Systeme realisiert werden Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1.1 Data Mining Definition [Fayyad, Piatetsky-Shapiro, Smyth 96] Data Mining ist die Anwendung effizienter Algorithmen, die die in einer Datenbank enthaltenen Muster liefern. Data-Mining-Aufgaben a b • Clustering Klassifikation • A und B --> C Assoziationsregeln Generalisierung andere Aufgaben: Regression, Entdecken von Ausreißern . . . Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1.1 Data Mining Anwendungen Clustering Customer Segmentation, Strukturierung von Mengen von Webdokumenten Klassifikation Bewertung der Kreditwürdigkeit, Automatische Analyse astronomischer Beobachtungen Assoziationsregeln Reorganisation eines Supermarkts, Cross-Selling der Produkte einer Firma Generalisierung Beschreibung von Clustern, Kundengruppenanalyse Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 1.1 Evaluation Ablauf Präsentation der gefundenen Muster häufig durch entsprechende Visualisierungen Bewertung der Muster durch den Benutzer falls schlechte Bewertung: erneutes Data Mining mit anderen Parametern anderem Verfahren anderen Daten falls gute Bewertung: Integration des gefundenen Wissens in die Wissensbasis Nutzung des neuen Wissens für zukünftige KDD-Prozesse Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

1.1 Evaluation Bewertung der gefundenen Muster Vorhersagekraft der Muster Verwendete Daten sind Stichprobe aus der Grundgesamtheit aller Daten. Wie gut lassen sich die in diesen „Trainingsdaten“ gefundenen Muster auf zukünftige Daten verallgemeinern? Vorhersagekraft wächst mit Größe und Repräsentativität der Stichprobe. Interessantheit der Muster Muster schon bekannt? Muster überraschend? Muster für viele Fälle anwendbar? Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

1.2 Typische KDD-Anwendungen Astronomie SKICAT-System [Fayyad, Haussler & Stolorz 1996] Architektur Technik der Klassifikation: Entscheidungsbaum-Klassifikator Evaluation wesentlich schneller als manuelle Klassifikation Klassifikation auch von sehr entfernten (lichtschwachen) Objekten Entfernen von Rauschen Bildsegmentierung Manuelle Analyse Klassifikation Feature-Extraktion Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

1.2 Typische KDD-Anwendungen Marketing Kundensegmentierung [Piatetsky-Shapiro, Gallant & Pyle 2000] Ziel: Aufteilung der Kunden in Segmente mit ähnlichem Kaufverhalten Nutzen Ideen für Produkt-Pakete (Product Bundling) Entwickeln einer neuen Preispolitik (Pricing) Projektablauf Entwicklung verschiedener automatischer Modelle (Bayesian Clustering) zu komplex, keine Berücksichtigung von Anwendungswissen manuelle Entwicklung einer Entscheidungsliste aufgrund der gewonnenen Erkenntnisse Umsetzung der Erkenntnisse im Marketing der Firma Integration der Entscheidungsliste in Software-Umgebung Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

1.2 Typische KDD-Anwendungen Electronic Commerce Elektronische Vergabe von Kreditkarten [Himelstein, Hof & Kunii 1999] Bisher manuelle Analyse der Kreditwürdigkeit erfordert Zugriffe auf verschiedene Datenbanken dauert u.U. Wochen Mit Data-Mining Analyse des Kunden in wenigen Sekunden wesentlich schnellerer Service erlaubt es einer Kreditkartenfirma, zahlreiche neue Kunden zu gewinnen Technik: Entscheidungsbaum-Klassifikator Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

1.2 Typische KDD-Anwendungen Purchase Circles [Beck 1999] Idee Methode Gruppieren der Käufe nach PLZen und Domains Aggregation dieser Daten Konstruktion von Bestseller-Listen, die in dieser Kundengruppe populärer sind als in der Gesamtheit aller Kunden Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

1.2 Typische KDD-Anwendungen Datenschutz große Gefahren des Mißbrauchs der Data-Mining-Techniken insbesondere dann, wenn persönliche Daten ohne Kenntnis der betreffenden Person gesammelt und analysiert werden Datenschutz (privacy) muß im Kontext des KDD neu diskutiert werden! Beispiel Amazon.com [http://www.amazon.com/exec/obidos/subst/misc/policy/privacy.html] sammelt persönliche Daten „... when you search, buy, bid, post, participate in a contest or questionnaire, or communicate with customer service.“ erlaubt dem Kunden, die persönlichen Daten zu überprüfen und zu korrigieren bildet z.B. Purchase Circles nur für mindestens 200 Kunden Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

1.3 Inhalt und Aufbau der Vorlesung Inhalt der Vorlesung Lehrziele Überblick über KDD Kenntnis der wichtigsten Aufgaben und Verfahren mit Vor- und Nachteilen Auswahl und Einsatz eines Verfahrens für eine gegebene Anwendung Entwicklung eigener Verfahren für eine gegebene Anwendung kurze Einführung der Grundlagen aus den Bereichen Statistik und Datenbanksysteme (DBS) Schwerpunkt auf dem zentralen KDD-Schritt des Data Mining Betonung der Fragestellungen aus DBS-Sicht Skalierbarkeit für große Datenmengen neue Datentypen (z.B. Webdaten) Integration mit kommerziellen Datenbanksystemen Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

1.3 Inhalt und Aufbau der Vorlesung 1. Einleitung 2. Grundlagen des KDD Statistik, Datenbanksysteme 3. Clustering partitionierende und hierarchische Verfahren, Verfahren aus DBS-Sicht, neue Anforderungen und Techniken des Clustering 4. Klassifikation Bayes-, nächste-Nachbarn- und Entscheidungsbaum-Klassifikatoren, skalierbare Entscheidungsbaum-Klassifikatoren Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

1.3 Inhalt und Aufbau der Vorlesung 5. Assoziationsregeln einfache Assoziationsregeln, Algorithmus Apriori, Einbeziehung von Taxonomien, numerische Attribute 6. Generalisierung Data Warehouses, Data Cubes, effiziente Anfragebearbeitung, attributorientierte Induktion, inkrementelle Generalisierung 7. Besondere Datentypen und -anwendungen Temporal Data Mining, Spatial Data Mining, Text und Web Mining 8. Andere Paradigmen induktive Logik-Programmierung, genetische Algorithmen, neuronale Netze Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

1.3 Inhalt und Aufbau der Vorlesung Literatur Textbuch der Vorlesung Ester M., Sander J., „Knowledge Discovery in Databases: Techniken und Anwendungen“, Springer Verlag, September 2000. Weitere Bücher Berthold M., Hand D. J. (eds.), „Intelligent Data Analysis: An Introduction“, Springer Verlag, Heidelberg, 1999. Han J., Kamber M., „Data Mining: Concepts and Techniques“, Morgan Kaufmann Publishers, August 2000. Mitchell T. M., „Machine Learning“, McGraw-Hill, 1997. Witten I. H., Frank E., „Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations“, Morgan Kaufmann Publishers, 2000. Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001

1.3 Inhalt und Aufbau der Vorlesung Organistaion der Lehrveranstaltung Vorlesung PD Dr. Martin Ester, www.dbs.informatik.uni-muenchen.de/~ester Mi, 8.30 Uhr - 11.00 Uhr, Raum 0.37, Oettingenstr. 67 Übung Markus Breunig, www.dbs.informatik.uni-muenchen.de/~breunig Mo, 14.00 Uhr - 16.00 Uhr, Raum 1.27, Oettingenstr. 67 Besonderheiten praktische Übungen mit Data-Mining-Tool Clementine (SPSS) Vorträge zu Data-Mining-Projekten von SPSS, Siemens, DaimlerChrysler Schein erfolgreiche Bearbeitung von mindestens 3 von 4 bewerteten Übungsblättern mündliche Prüfung oder Klausur Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001