Data Mining Sascha Enders / Tim Dreesen Wintersemester 07/08

Slides:



Advertisements
Ähnliche Präsentationen
IT-Projektmanagement
Advertisements

Abbildungen Kapitel 4 Einführung in die Wirtschaftsinformatik von:
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Data Mining Anwendungen und Techniken
Umfrage zum Thema Taschengeld
Übersicht zu Verfahren des Soft Computing
Streuung Bezeichnung Streuung=Dispersion=Variabilität Fragestellung:
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
„Netzwerk Medizin und Geschlecht“ an der Medizinischen Hochschule Hannover Projektleitung: Dr. phil. Bärbel Miemietz Projektkoordination: Larissa Burruano,
Nutzung und Bedeutung von Business Intelligence und Business Intelligence Methoden und -Werkzeugen Durch die Analyse des BI mit dem Fokus der Managementunterstützung.
Scratch Der Einstieg in das Programmieren. Scatch: Entwicklungsumgebung Prof. Dr. Haftendorn, Leuphana Universität Lüneburg,
Klicke Dich mit der linken Maustaste durch das Übungsprogramm! Vereinfachung von Termen Ein Übungsprogramm der IGS - Hamm/Sieg © IGS-Hamm/Sieg 2006 Dietmar.
© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 16: Grundlagen des Data Mining.
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
Internet facts 2006-I Graphiken zu dem Berichtsband AGOF e.V. September 2006.
Internet facts 2006-III Graphiken zum Berichtsband AGOF e.V. März 2007.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Internet facts 2005-IV Graphiken zu dem Berichtsband AGOF e.V. Juli 2006.
Internet facts 2005-III Graphiken aus dem Berichtsband AGOF e.V. März 2006.
Vorlesung: 1 Betriebssysteme 2007 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebssysteme Hochverfügbarkeit (Einführung) 3. Quartal.
Vorlesung: 1 Betriebssysteme 2008 Prof. Dr. G. Hellberg Studiengang Mechatronik FHDW Vorlesung: Betriebssysteme Hochverfügbarkeit (Einführung) 2. Quartal.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Betreuerin: Kathleen Jerchel
Differentieller Stromverstärker
Kennlinie Lichtregelung in JavaNNS Version 1.1
Die Bank von morgen - eine neue Welt für IT und Kunden? 23. Oktober 2001.
Was machen wir besser als die Wettbewerber
Vorabinformationen zum Experteninterview
Marketing, Handel und Electronic Business
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
TWS/Graph HORIZONT Produkt-Präsentation Software für Rechenzentren
Zur Veranstaltung Business Intelligence
1 Fachtagung am Seniorenorientiertes Design und Marketing ThyssenKrupp Immobilien Design for all - Anpassungen im Wohnungsbestand 1.Demographie.
Folie 1 © IAB Austria, Presseinformation Roland M. Kreutzer, 4/2005.
Reise-Bilder Ditmar Schädel (DGPh)
Einsatz von Anwendungssystemen WS 2013/14 Prof. Dr. Herrad Schmidt
Die Betriebliche Altersvorsorge: Versprochen ist noch nicht gehalten Dr. Maximilian Arbesser Vorstandsmitglied des Schutzverbands der Pensionskassenberechtigten.
Data und Web Mining KFK Semantic Web: Knowledge Management
Auslegung eines Vorschubantriebes
Geg.: Zeichnungsdaten, O Ges.: F´, O´, Strahlengang
© J.Heigert 2005 Betriebliche Informations- und Steuerungssysteme II Prof. Dr. Johannes Heigert Fachhochschule München Es ist nicht genug, zu wissen,
Analyse von Ablaufdiagrammen
HORIZONT 1 XINFO ® Das IT - Informationssystem HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 /
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
Managemententscheidungsunterstützungssysteme (Ausgewählte Methoden und Fallstudien) ( Die Thesen zur Vorlesung 3) Thema der Vorlesung Lösung der linearen.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.
Großer Altersunterschied bei Paaren fällt nicht auf!
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Analyseprodukte numerischer Modelle
Marktübersicht Die Linusbank Problembeschreibung Projektplan
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Vortrag von Rechtsanwältin Verena Nedden, Fachanwältin für Steuerrecht zur Veranstaltung Wege zum bedingungslosen Grundeinkommen der Piratenpartei Rhein-Hessen.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Grafische Visualisierung von Softwarestrukturen
Einfu ̈ hrung in die Weltwirtschaftspolitik Helmut Wagner ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH, Mu ̈ nchen Abbildungsübersicht.
Abbildung IV-1: Konkretisierung der potenzialbezogenen Marketingziele im Hinblick auf die einzelnen Teilbereiche des Marketingmix.
Werbung und Marketing: Worauf muss geachtet werden?
Qualitative Interviews Sabina Misoch ISBN: © 2015 Walter de Gruyter GmbH, Berlin/Mu ̈ nchen/Boston Abbildungsübersicht / List of Figures.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Monatsbericht Ausgleichsenergiemarkt Gas – November
Intelligent Data Mining
 Präsentation transkript:

Data Mining Sascha Enders / Tim Dreesen Wintersemester 07/08 Version 1.0 Lehrstuhl für Wirtschaftsinformatik und Betriebliche Kommunikationssysteme Prof. Dr. Reinhard Jung

Wegweiser Ausgangslage Data Mining Prozess Überblick Techniken Ausprägungen Anwendung Fazit

Wegweiser Ausgangslage Data Mining Prozess Überblick Techniken Ausprägungen Anwendung Fazit

Einleitung Was ist Data Mining? "Als Data Mining (engl.: data mining; deutsch: Daten-Bergbau, Daten schürfen) bezeichnet man die softwaregestützte Ermittlung bisher unbekannter Zusammenhänge, Muster und Trends aus dem Datenbestand sehr großer Datenbanken bzw. des Data Warehouse. […] “ [HaNe2005] „Data Mining ist die Anwendung spezifischer Algorithmen zur Extraktion von Mustern und Daten“ (nach Fayyad) [AlNi] 4

Ausgangslage Wieso Data Mining? Automatische DV auf dem Vormarsch Datenflut! Entscheidungsfindung über Unternehmensgrenze hinweg Data Warehouse als Lösung Aber was mit dem ganzen Datenwust anstellen??? Herkömmliche Methoden nicht mehr ausreichend Hilfsmittel: Data Mining

Ausgangslage Wo ist Data Mining einzusortieren? Ad-Hoc Abfragen Auswertungssysteme z.B. SQL OLAP, Data Mining Data Warehouse Operative Systeme Abb.: in Anlehnung an [AlNi]

Ausgangslage Data Mining als wachsendes Forschungsgebiet Web Mining Data Warehouse Data Mining Abfragesprachen DBMS KI 1960 1970 1980 1990 2000 Abb.: in Anlehnung an [FrKö] 7

Wegweiser Ausgangslage Data Mining Prozess Überblick Techniken Ausprägungen Anwendung Fazit

Auswahl / Datenexploration Data Mining Prozess Überblick Daten Auswahl / Datenexploration Transformation Zieldaten / Vorverarbeitete Daten Data Mining Transformierte Daten Abb.: in Anlehnung an [AlNi] 9

? Data Mining Prozess Auswahl Welche Informationsquellen sollen genutzt werden Die Auswahl erfolgt auf einem vorhandenen Datenbestand Relevante Datenfelder / Datensätze werden ausgewählt 10

Data Mining Prozess Datenexploration Ausreißer analysieren und eliminieren z.B. Herr Prof. Dr. Reinhard Jung ist 30 cm groß. Behandlung fehlender Werte z.B. ist Birgitt weiblich? Ziel: Ein möglichst fehlerfreier / konsistenter Datenbestand als Basis für das Data Mining zu schaffen. 11

Data Mining Prozess Transformation Daten werden bei Bedarf… …verändert. …normiert. …kategorisiert. Datenfelder werden neu angelegt z.B. bei Aggregation von Daten Bei den meisten Transformationen werden Daten reduziert 12

Data Mining Prozess Zwischenstand Die ersten drei Phasen sind laut Experten die aufwendigsten innerhalb des Data Mining Prozesses. Sie nehmen ca. 75-85 % des Data Mining ein. Quelle: in Anlehnung an [AlNi] 13

Data Mining Prozess Data Mining Selektion der inhaltlichen Data Mining Techniken z.B. Segmentierung Klassifikation Selektion des konkret anzuwendenden Data Mining Algorithmus Lineare Diskriminanzanalyse Ablauf des Algorithmus über die transformierten Daten 14

Data Mining Prozess Wissen Interpretation Ergebnisse 15

Wegweiser Ausgangslage Data Mining Prozess Überblick Techniken Ausprägungen Anwendung Fazit

Abhängigkeits-analyse Methoden Methoden - Überblick Abhängigkeits-analyse Abweichungs-analyse Klassifikation Segmentierung Prognose Operative Systeme Abb.: in Anlehnung an [AlNi]

Methoden Klassifikation Zuordnung von Elementen in bekannte Klassen, z.B. Entscheidungsbaumverfahren > 10tsd Flugmeilen < 10tsd > 2 Woche 1-2 Woche > 2 Woche 1-2 Woche Frequenz Frequenz Platinkunde Goldkunde Kunde Kunde

Methoden Segmentierung Zerlegung einer Gesamtheit in kleinere Teile, z.B. Clusterverfahren (1/2) Beispiel: Lebensmittelvertrieb Erkenntnis: Fleisch- und Fischesser Nächster Schritt: Gruppenbildung Kundennr. Milchprodukte Fleischwaren Waschmittel Gebäck Fisch 1004589 4 10 5 12 2 1017123 8 6 3

Methoden Segmentierung Zerlegung einer Gesamtheit in kleinere Teile, z.B. Clusterverfahren (2/2) Gruppiert: Nutzung des neuen Wissen z.B. für Personalisierung der Werbung Gruppe Milchprodukte Fleischwaren Waschmittel Gebäck Fisch Fleischesser 3,75 11,2 3,7 10,2 1,7 Fischesser 9,2 6,4 4,2 2,75 12,25 Quelle: in Anlehnung an [HaNe2005]

Methoden Prognose auf Basis bestehender Werte auf Zukünftige schließen, Künstliche Neuronale Netze (KNN) Stammt aus der KI Neuronen = Verarbeitungseinheiten Muss erst angelernt werden Einsatz z.B. Kreditrisikorechnung, Käuferklassen, Wertpapiere… Quelle.: in Anlehnung an [ChGl]

Methoden Abhängigkeitsanalyse Beziehungen zwischen zwei Merkmalen aufdecken Assoziationsregeln Beispiel für das Aufdecken von Affinitäten : „Wenn ein Kunde eine Immobilie länger als zwei Jahre mietet und älter als 25 Jahre ist, wird er in 40% aller Fälle eine Immobilie kaufen. Diese Assoziation gilt für 35% aller Kunden, die eine Immobilie mieten.“ Quelle.: in Anlehnung an [ToBo]

Methoden Abhängigkeitsanalyse Beziehungen zwischen zwei Merkmalen aufdecken Assoziationsregeln (1/2) Einkäufe Artikel E1 Saft, Cola, Bier E2 Saft, Cola, Wein E3 Saft, Wasser E4 Cola, Bier, Saft E5 Saft, Cola, Bier, Wein E6 Wasser Artikel Einkäufe Saft E1,E2,E3,E4,E5 Cola E1,E2,E4,E5 Bier E1,E4,E5 Wein E2,E5 Wasser E3,E6 Quelle.: in Anlehnung an [ToBo]

Methoden Abhängigkeitsanalyse Beziehungen zwischen zwei Merkmalen aufdecken Assoziationsregeln (2/2) Regeln Einkäufe Konfidenz Support Saft  Cola E1,E2,E4,E5 80% 66% Cola  Saft 100% Cola  Bier E1,E4,E5 75% 50% Bier  Cola Quelle.: in Anlehnung an [ToBo]

Methoden Abweichungsanalyse Ausreißer identifizieren z.B. mit Ausreißertests Allgemein: Gegenteil der Assoziationsanalysen Versuch der Ursachenentdeckung Ausreißer entweder fehlerhafte Daten oder interessante Ausprägungen! z.B. für Schadensfällen bei Versicherungen, QM, Kreditkartenbetrug oder allg. bei Verfolgung von Defekten Quelle.: in Anlehnung an [ToBo]

Wegweiser Ausgangslage Data Mining Prozess Überblick Techniken Ausprägungen Anwendung Fazit

Ausprägungen Text Mining Web Mining 27

Ausprägungen TextMining - Aufgaben Entdecken von Interessanten Beziehungen zwischen Dokumenten Klassifikation von Dokumenten Segmentierung von Dokumenten (Clustering) Erstellen von Abstracts Aufbau von begrifflichen Netzen 28

Ausprägungen Data Mining Text Mining Der grundlegendste Unterschied zwischen Data Mining und Text Mining besteht in den vorliegenden Daten, die zur Verfügung stehen. Stark strukturierte Daten im Data Mining vs. Kaum strukturierte Daten im Text Mining 29

Ausprägungen Web Mining – Aufgaben / Unterscheidung Dieselben Aufgaben die auch Data Mining ausführt, aber mit dem Bezug zum Internet / Intranet. Verarbeitung / Analyse von sekundären Daten die ein Nutzer hinterlässt. Entdecken von Interessanten Beziehungen zwischen Dokumenten –> Durch Analyse der Kundenkorrespondenz stellt sich heraus das Gemeinsamkeiten zwischen dem Kunden von Produktdivision A und dem Kunden von Produktdivision B bestehen. Dadurch könnte man ein evtl. vorhandenes Cross Selling Potenzial nutzen. Klassifikation von Dokumenten  TextMining kann große Dokumentenbasen nach bestimmten Kritieren Kategorisieren, welche gewünscht sind. Segmentierung von Dokumenten  in Anlehnung an Datamining (hat Tim dann schon erklärt. Erstellen von Abstracts  Automatische Generierung einer Zusammenfassung eines Textes. Aufbau von begrifflichen Netzen  entspricht den Neuronalen Netzen im Datamining. 30

Wegweiser Ausgangslage Data Mining Prozess Überblick Techniken Ausprägungen Anwendung Fazit

Anwendung Beispiele Neuronalen Netze im Data Mining. Microsoft analysiert mit Hilfe des Verfahren der Neuronalen Netze im Data Mining. Wieso die einen Kunden auf ihr Postanschreiben antworten und die Anderen nicht. Antwortquote von 2 auf 8% erhöht, mit gleichzeitiger Senkung der Portokosten. Quelle.: in Anlehnung an [WiBu] 32

Anwendung Beispiele Eine Firma in den USA, mit 5 Millionen Aufrufe im Monat, analysierte mit Hilfe von Web Mining Methoden, das Verhalten der Nutzer im Bezug auf Bannerwerbung. Durch nun Zielgerichtete Bannerwerbung konnte die Klickrate von 1% auf 2% erhöht werden. Damit erhöhte sich der Erlös pro Banner, was zu einer Umsatzsteigerung der Firma um 1,2 Millionen Dollar führte. Quelle.: in Anlehnung an [WiBu] 33

Wegweiser Ausgangslage Data Mining Prozess Überblick Techniken Ausprägungen Anwendung Fazit

Fazit Kritik Kontext und Handlungsbezug nur durch Individuum möglich! Lediglich gutes Hilfsmittel zur Mustererkennung Hohe HW-Anforderungen Wirtschaftliche Aspekte berücksichtigen Ausblick Data Mining im großen Unternehmen „Standard“ Markt ist zukunftsträchtig Forschung, vor allem im Bereich Realitätsnaher Interpretation Neue Anwendungsgebiete

Fragen

Literatur [AlNi] Alpar, P; Niedereichholz, J.: Data Mining im praktischen Einsatz Braunschweig / Wiesbaden 2000 [ChGl] Chamoni, P.; Gluchowski, P.: Analytische Informationssysteme Berlin 2006 [DaKe] Keim, D.: Datenvisualisierung und Data Mining Universität Konstanz und AT&T Shannon Research Labs 2004 [FrKö] Köster, F.: Data Warehousing and Knowledge Discovery in Databases Universität Oldenburg 2003 [GrGe] Grothe, M.; Gentsch, P.: Business Intelligence München 2000 [GrBe] Heinz L. Grob; Frank Bensberg: Das Data Mining Konzept Universität Münster 1999 37

Literatur [HaNe2005] Hansen, R.; Neumann, G.: Wirtschaftsinformatik Band 1 + 2, Stuttgart 2005 [MeBo] Mertens; Bodendorf; König; Picot; Schumann; Hess: Grundzüge der Wirtschaftsinformatik, Berlin 2005 [MeWi] Mertens, P.; H.-W. Wieczorrek: Data-X Strategien, Berlin 2000 [RaWa] Walther, R.: Web Mining, Berlin 2001 (Informatik Spektrum 24) [ToBo] Bollinger, T.: Assoziationsregeln – Analyse eines Data Mining Verfahrens, Berlin 1996 (Informatik Spektrum 19 - Hauptbeitrag) [WiBu] Wiedmann, K.; Buckler, F.: Neuronale Netze im Marketing Management Braunschweig / Wiesbaden 2003 38