Ludwig Maximilians Universität München

Slides:



Advertisements
Ähnliche Präsentationen
LS 8 Künstliche Intelligenz Prof. Dr
Advertisements

Kohonennetze für Information Retrieval mit User Feedback
Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz
Adaptive Systeme Prof. Rüdiger Brause WS 2011.
Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung
Apriori-Algorithmus zur Entdeckung von Assoziationsregeln
Data Mining Anwendungen und Techniken
Übersicht zu Verfahren des Soft Computing
Rechnergestützte Musikanalyse Einführung Projektseminar Musikwissenschaftliches Institut Hamburg WS 2005/06 Leitung: Klaus Frieler.
Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.
3. Kapitel: Komplexität und Komplexitätsklassen
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Genetische Algorithmen für die Variogrammanpassung
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
der Universität Oldenburg
Harmonisierung von Ontologien Martin Zobel. Was versteht man in der Informatik unter einer Ontologie? Wikipedia: Unter Ontologie versteht man in der Informatik.
Philosophische Fakultät 3: Empirische Humanwissenschaften Fachrichtung Erziehungswissenschaft Statistik I Anja Fey, M.A.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Tobias Lauer.
Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 16: Grundlagen des Data Mining.
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
Query Reformulation Seminar Multimedia-Datenbanken Sommersemester 2002 Marcus Denecke.
Herzlich willkommen beim 1. Workshop der AG Methodik
Access 2000 Datenbanken.
-LABORPRAKTIKUM- SOMMERSEMESTER 2005
Informationssysteme SS Informationssysteme Grundvorlesung Informatik Sommersemester 2004 Universität des Saarlandes, Saarbrücken Dr. Ralf Schenkel.
Classification of Credit Applicants Using Data Mining. Thema.
Universität Karlsruhe (TH) © 2006 Univ,Karlsruhe, IPD, Prof. Lockemann/Prof. BöhmTAV 0 Transaktionsverwaltung Einführung.
Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/ Andere Paradigmen Inhalt dieses Kapitels 8.1 Induktive Logik-Programmierung.
1. Einleitung Inhalt dieses Kapitels
Seminar: Informationstechnik in der Medizin Universität Dortmund Skin Detection Fakultät für Elektrotechnik und Informationstechnik Lehrstuhl für Kommunikationstechnik.
Machine Learning KNN und andere (Kap. 8).
Machine Learning Was wir alles nicht behandelt haben.
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Entitäten Extraktion Einführung
Vorlesung: ANOVA I
Betrügern auf der Spur WIN-Treffen 2010 Falko Meyer 04 BW.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
DataMining Von Daten zu Informationen und Wissen
Chi Quadrat Test Tamara Katschnig.
Einführung in die Programmierung
Entstehung & Einflüsse Ideen, Wünsche, eigene Überlegungen bisheriges Dateisystem Einschrän- kungen: - technisch - zeitlich - fachlich Literatur, ältere.
Einführung in die Programmierung Wintersemester 2009/10 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
CEF 2001, New Haven Genetic Neural Fuzzy Explorer GENEFER Konzeption, Technologien und Einsatzmöglichkeiten Eric Ringhut Muenster Institute for Computational.
Statistische Methoden in der Wirtschafts- und Sozialgeographie
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 3: Potenzreihen und kontextfreie Sprachen (Vgl. Buch von A. Salomaa)
SOTA Andrej Gisbrecht
LS 8 – Künstliche Intelligenz
Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.
Möglichkeiten der Visualisierung
The PicSOM Retrieval System 1 Christian Steinberg.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung Suche des kürzesten Weges in einem Netz.
Diskrete Mathe II Übung IKG - Übung Diskrete Mathe II – Jörg Schmittwilken 2 Gruppeneinteilung Gruppe A: Mo 12:00 – 12:45 Uhr –bis einschließlich.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik
Induktion von Entscheidungsbäumen Seminar Data Mining am Fachgebiet Datenbanken und Informationssysteme Sommersemester 2007 Betreuer: Hendrik Warneke.
Geoinformationssysteme
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Lehrstuhl für Wirtschaftsinformatik Univ.-Prof. Dr. Johannes Ruhland Referent: Vogel, Stephan Business Intelligence Distanzmaße
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Erprobung von Interpolationsmethoden für plan-polare Antennenmesstechnik von Michael Delissen Michael Delissen, IHF, RWTH Aachen University.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
DOAG DWH-SIG/Ralf BrüggemannFolie 1/ Data Mining-Verfahren: Theorie und Anwendungsgebiete Ralf Brüggemann PROMATIS AG.
TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.
Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.
 Präsentation transkript:

Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2003/2004 Kapitel 1: Einleitung Vorlesung: Christian Böhm Übungen: Karin Kailing und Peer Kröger Skript © 2003 Christian Böhm, Martin Ester, Eshref Januzaj, Karin Kailing, Peer Kröger, Jörg Sander und Matthias Schubert http://www.dbs.informatik.uni-muenchen.de/Lehre/KDD

Vorlesungs-Team Peer Kröger Karin Kailing Christian Böhm Oettingenstr. 67, Zimmer E 1.08 Tel. 089/2180-9327 Sprechstunde: Mi, 1000-1100 Karin Kailing Oettingenstr. 67, Zimmer E 1.06 Tel. 089/2180-9325 Sprechstunde: Fr, 1000-1100 Christian Böhm Oettingenstr. 67, Zimmer 1.58 Tel. 089/2180-9194 Sprechstunde: Do, 1100-1200

Motivation Riesige Datenmengen werden in Datenbanken gesammelt Kreditkarten Scanner-Kassen Telefongesellschaft Astronomie Riesige Datenmengen werden in Datenbanken gesammelt Analysen können nicht mehr manuell durchgeführt werden

Von den Daten zum Wissen Methode Wissen Verbindungsd. Rechnungserst. Outlier Detection Betrug Transaktionen Abrechnung Klassifikation Kreditwürdigkeit Transaktionen Lagerhaltung Assoziationsregeln Gemeinsam gekaufte Produkte Bilddaten Kataloge Klassifikation Klasse eines Sterns

Definition KDD gültig bisher unbekannt und potentiell nützlich ist. [Fayyad, Piatetsky-Shapiro & Smyth 1996] Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das gültig bisher unbekannt und potentiell nützlich ist. Bemerkungen: (semi-) automatisch: im Unterschied zu manueller Analyse. Häufig ist trotzdem Interaktion mit dem Benutzer nötig. gültig: im statistischen Sinn. bisher unbekannt: bisher nicht explizit, kein „Allgemeinwissen“. potentiell nützlich: für eine gegebene Anwendung.

KDD Teilbereiche KDD Statistik Machine Learning Datenbanksysteme modellbasierte Inferenzen Schwerpunkt auf numerischen Daten Suchverfahren Schwerpunkt auf symbolischen Daten [Berthold & Hand 1999] [Mitchell 1997] KDD Datenbanksysteme Skalierbarkeit für große Datenmengen Neue Datentypen (Webdaten, Micro-Arrays, ...) Integration mit kommerziellen Datenbanksystemen [Chen, Han & Yu 1996]

Das KDD-Prozessmodell Selektion relevanter Merkm. Selektion relevanter Daten Ableitung neuer Merkmale Bewertung der Interessant- heit durch den Benutzer Integration von Daten aus unterschiedlichen Quellen Validierung: Statistische Prüfung der Modelle Diskretisierung numeri- scher Merkmale Generierung der Muster bzw. Modelle Beschaffung der Daten Verwaltung (File/DB) Vorverarbeitung: Konsistenzprüfung Vervollständigung Transformation Fokussieren: Data Mining Evaluation Prozessmodell nach Fayyad, Piatetsky-Shapiro & Smyth Vorverar-beitung Trans- formation Datenbank Fokussieren Data Mining Evaluation Muster Wissen

Merkmale („Features“) von Objekten Oft sind die betrachteten Objekte komplex Eine Aufgabe des KDD-Experten ist dann, geeignete Merkmale (Features) zu definieren bzw. auszuwählen, die für die Unter-scheidung (Klassifikation, Ähnlichkeit) der Objekte relevant sind. Beispiel: CAD-Zeichnungen: Mögliche Merkmale: Höhe h Breite w Kurvatur-Parameter (a,b,c) ax2+bx+c

Merkmals-Vektoren (h, w, a, b, c) Objekt-Raum Merkmals-Raum ax2+bx+c Im Kontext von statistischen Betrachtungen werden die Merkmale häufig auch als Variablen bezeichnet Die ausgewählten Merkmale werden zu Merkmals-Vektoren (Feature Vector) zusammengefasst Der Merkmalsraum ist häufig hochdimensional (im Beispiel 5-dim.)

Weitere Beispiele für Merkmale Bilddatenbanken: Farbhistogramme Häufigk Farbe Gen-Datenbanken: Expressionslevel Text-Datenbanken: Begriffs-Häufigkeiten Data 25 Mining 15 Feature 12 Object 7 ... Der Feature-Ansatz ermöglicht einheitliche Behandlung von Objekten verschiedenster Anwendungsklassen

Ähnlichkeit von Objekten Spezifiziere Anfrage-Objekt und… … suche ähnliche Objekte – Range-Query (Radius e) … suche die k ähnlichsten Objekte – Nearest Neighbor

Ähnlichkeit von Objekten Euklidische Norm (L1): d1 = ((p1-q1)2+(p2-q2)2+...)1/2 Manhattan-Norm (L2): d2 = |p1-q1|+|p2-q2|+... Maximums-Norm (L¥): d¥ = max{|p1-q1|, |p2-q2|,...} p p p q q q Natürlichstes Distanzmaß Die Unähnlichkeiten der einzelnen Merkmale werden direkt addiert Die Unähnlichkeit des am wenigsten ähnlichen Merkmals zählt Verallgemeinerung Lp-Abstandsmaß: dp = (|p1-q1|p + |p2-q2|p + ...)1/p

Anpassbare Ähnlichkeitsmaße Gewichtete Euklidische Norm: d = (w1(p1-q1)2 + w2(p2-q2)2+...)1/2 Quadratische Form: d = ((p - q) M (p - q)T )1/2 p p q q Häufig sind die Wertebereiche der Merkmale deutlich unterschiedlich. Beispiel: Merkmal M1 Î[0.01 .. 0.05] Merkmal M2 Î[3.1 .. 22.2] Damit M1 überhaupt berücksichtigt wird, muss es höher gewichtet werden Bei den bisherigen Ähnlichkeitsmaßen wird jedes Merkmal nur mit sich selbst verglichen (p1 nur mit q1 usw.) Besonders bei Farbhistogrammen müssen auch verschiedene Merkmale verglichen werden, z.B. pHellblau mit qDunkelblau Statt mit Distanzmaßen, die die Unähnlichkeit zweier Objekte messen, arbeitet man manchmal auch mit positiven Ähnlichkeitsmaßen

Skalen-Niveaus von Merkmalen Nominal (kategorisch) Charakteristik: Nur feststellbar, ob der Wert gleich oder verschieden ist. Keine Richtung (besser, schlechter) und kein Abstand. Merkmale mit nur zwei Werten nennt man dichotom Beispiele: Geschlecht (dichotom) Augenfarbe Gesund/krank (dichotom) Ordinal Charakteristik: Es existiert eine Ordnungsrelation (besser/schlechter) zwischen den Kategorien, aber kein einheitlicher Abstand Beispiele: Schulnote (metrisch?) Güteklasse Altersklasse Metrisch Charakteristik: Sowohl Differenzen als auch Verhältnisse zwischen den Werten sind aussagekräftig. Die Werte können diskret oder stetig sein. Beispiele: Gewicht (stetig) Verkaufszahl (diskret) Alter (stetig oder diskret)

Data Mining Aufgaben Wichtigste Data-Mining-Verfahren auf Merkmals-Vektoren: Clustering Outlier Detection Klassifikation Regression Supervised: Ein Ergebnis-Merkmal soll gelernt/geschätzt werden Unsupervised: Die Datenmenge soll lediglich in Gruppen unterteilt werden Darüber hinaus gibt es zahlreiche Verfahren, die nicht auf Merkmalsvektoren, sondern z.B. auf Texten, Mengen, Graphen arbeiten. Unsupervised Learning Supervised Learning

Clustering Cluster 1: Klammern Cluster 2: Nägel Clustering heisst: Zerlegung einer Menge von Objekten (bzw. Feature-Vektoren) so in Teilmengen (Cluster), dass die Ähnlichkeit der Objekte innerhalb eines Clusters maximiert die Ähnlichkeit der Objekte verschiedener Cluster minimiert wird Idee: Die verschiedenen Cluster repräsentieren meist unterschiedliche Klassen von Objekten; bei unbek. Anzahl und Bedeutung der Klassen

Anwendung: Thematische Karten Aufnahme der Erdoberfläche in 5 verschiedenen Spektren Pixel (x1,y1) Wert in Band 2 Pixel (x2,y2) Wert in Band 1 Cluster-Analyse Rücktransformation in xy-Koordinaten Farbcodierung nach Cluster-Zugehörigkeit Wert in Band 2 Wert in Band 1

Anwendung: Gewebeklassifikation CBV Schwarz: Ventrikel + Hintergrund Blau: Gewebe 1 Grün: Gewebe 2 Rot: Gewebe 3 Dunkelrot: Große Gefäße TTP Blau Grün Rot TTP 20.5 18.5 16.5 (s) CBV 3.0 3.1 3.6 (ml/100g) CBF 18 21 28 (ml/100g/min) RV 30 23 21 RV RV Ergebnis: Klassifikation cerebralen Gewebes anhand funktioneller Parameter mittels dynamic CT möglich.

Outlier Detection Outlier Detection bedeutet: Datenfehler? Betrug? Outlier Detection bedeutet: Ermittlung von untypischen Daten Anwendungen: Entdeckung von Missbrauch etwa bei Kreditkarten Telekommunikation Datenfehler

Klassifikation Aufgabe: Schrauben Nägel Klammern Neue Objekte Trainings- daten Aufgabe: Lerne aus den bereits klassifizierten Trainingsdaten die Regeln, um neue Objekte nur aufgrund der Merkmale zu klassifizieren Das Ergebnismerkmal (Klassenvariable) ist nominal (kategorisch)

Anwendung: Neugeborenen-Screening Blutprobe des Neugeborenen Massenspektrometrie Metabolitenspektrum 14 analysierte Aminosäuren: alanine phenylalanine arginine pyroglutamate argininosuccinate serine citrulline tyrosine glutamate valine glycine leuzine+isoleuzine methionine ornitine Datenbank

Anwendung: Neugeborenen-Screening PKU subgroup 2 PKU subgroup 1 Ergebnis: Neuer diagnostischer Test Glutamin als bisher unbekannter Marker

Regression Grad der Erkrankung Neue Objekte 5 Aufgabe: Ähnlich zur Klassifikation, aber das Ergebnis-Merkmal, das gelernt bzw. geschätzt werden soll, ist metrisch

Überblick über die Vorlesung 1 Einleitung 2 Grundlagen Datenbanksysteme Statistik Clustering und Outlier Hierarchische Verfahren Partitionierende Verf. Subspace Clustering Correlation Clustering Klassifikation Bayes-Klassifikation Nächste-Nachbarn Support Vector Machines Assoziationsregeln A Priori Algorithmus Taxonomien Besondere Anwendungen Temporales Data Mining Verteiltes/paralleles DM Text-Mining Web-Mining Molekularbiologie Andere Paradigmen Neuronale Netze Genetische Algorithmen Induktive Logik

Literatur Lehrbuch zur Vorlesung (deutsch): Ester M., Sander J. Knowledge Discovery in Databases: Techniken und Anwendungen ISBN: 3540673288, Springer Verlag, September 2000, € 39,95 Weitere Bücher (englisch): Berthold M., Hand D. J. (eds.) Intelligent Data Analysis: An Introduction ISBN: 3540430601, Springer Verlag, Heidelberg, 1999, € 63,24 Han J., Kamber M. Data Mining: Concepts and Techniques ISBN: 1558604898, Morgan Kaufmann Publishers, August 2000, € 54,30 Mitchell T. M. Machine Learning ISBN: 0071154671, McGraw-Hill, 1997, € 61,30 Witten I. H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations ISBN: 1558605525, Morgan Kaufmann Publishers, 2000, € 50,93