Data Mining Definition, Anwendungsbespiele Data Mining Prozess

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Einführung in die Informatik: Programmierung und Software-Entwicklung
aus informationsökonomischer Sicht -
Data Mining Anwendungen und Techniken
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Streuung Bezeichnung Streuung=Dispersion=Variabilität Fragestellung:
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
Seniorenbefragung zum Thema: Wohnen im Alter
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
„Netzwerk Medizin und Geschlecht“ an der Medizinischen Hochschule Hannover Projektleitung: Dr. phil. Bärbel Miemietz Projektkoordination: Larissa Burruano,
Sortierverfahren Richard Göbel.
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.
Internet facts 2006-I Graphiken zu dem Berichtsband AGOF e.V. September 2006.
Internet facts 2006-III Graphiken zum Berichtsband AGOF e.V. März 2007.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Klausur „Diskrete Mathematik II“
Vererbung Spezialisierung von Klassen in JAVA möglich durch
PKJ 2005/1 Stefan Dissmann Rückblick auf 2005 Was zuletzt in 2005 vorgestellt wurde: Klassen mit Attributen, Methoden und Konstruktoren Referenzen auf.
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
Datenquellen, Datensenken und die Wüste
Was sind Histogramme? (1)
Classification of Credit Applicants Using Data Mining. Thema.
Univariate Statistik M. Kresken.
Heute: Scherenzange zeichnen
AWA 2007 Natur und Umwelt Natürlich Leben
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
Daten auswerten Boxplots
20:00.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
© Gabriele Sowada © Gabriele Sowada 2 Manuell Beispiel 1 demonstriert die Vorgehensweise bei der manuellen Programm- Eingabe am.
Selbsttest zum Modul 2 Informationstechnik
SK / , , in Hochkössen und der Wildschönau flow Ski- und Snowboardschule Intersport Menzel.
Einführung in die beurteilende Statistik
TWS/Graph HORIZONT Produkt-Präsentation Software für Rechenzentren
1 Fachtagung am Seniorenorientiertes Design und Marketing ThyssenKrupp Immobilien Design for all - Anpassungen im Wohnungsbestand 1.Demographie.
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Übung Datenbanksysteme II Index- strukturen
STATISIK LV Nr.: 1375 SS März 2005.
NEU! 1 2. Wo kommt diese Art von Rezeptor im Körper vor?
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
Referat über das Thema STOCHASTIK.
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Symmetrische Blockchiffren DES – der Data Encryption Standard
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.
Großer Altersunterschied bei Paaren fällt nicht auf!
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
1 Mathematical Programming Nichtlineare Programmierung.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Möbelhaus Mustermann Möbelhaus Mustermann Revision 0 Seite Nr
Formulare in HTML.
Bildergalerie PRESEASON CAMP Juni 2014 Romanshorn Get ready for the Season!
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Es war einmal ein Haus
Analyse der Laufzeit von Algorithmen
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Monatsbericht Ausgleichsenergiemarkt Gas – November
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Geoinformationssysteme
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
 Präsentation transkript:

Data Mining Definition, Anwendungsbespiele Data Mining Prozess Data Mining Cup 2001 2002 2003

Datenquellen, Datensenken und die Wüste vorhandene Daten benötigte Daten Nachfrage Vorhanden, benötigt und gewünscht: das ist der Idealzustand. Eine Aufgabe des Informationmanagements ist es, diesen Durchschnitt zu maximieren. Vorhanden und benötigt, aber nicht gewünscht: Dieser Bereich kann durch Aufbereitung der Informationen nutzbargemacht werden. Hier kann das Data Mining ansetzen und die Inforamtionen dem Bedarfsträger erschliessen. Vorhanden und gewünscht, aber nicht benötigt: Hier ist die Gefahr sehr groß, dass Geld, Personal und Zeit verschwendet werden. Benötigt und gewünscht, aber nicht vorhanden: Dieser Zustand sollte so schnell wie möglich abgestellt werden. Vorhanden und weder benötigt noch gewünscht: Hier werden Daten erhoben oder erzeugt und gespeichert, die von niemandem benötigt werden. Dieser Zustand tritt häufig ein, wenn sich die Organisationsform ändert und der alte Datenfluß beibehalten wird. Gewünscht aber weder benötigt noch vorhanden: Auch hier ist die Gefahr sehr groß, dass Geld, Personal und Zeit verschwendet werden. Benötigt, aber weder vorhanden noch gewünscht: Ein objektiver Informationsbedarf ist schwer zu definieren. Information hängt immer von der Person ab, die informiert werden möchte. Nachgefragt: Der Bedarfsträger kann oder will in der Regel nicht seinen Bedarf decken. Er hat Vorbehalte bezüglich der Möglichkeit, die Information in vorgegebener Zeit mit vertretbarem Aufwand und in der notwendigen Qualität zu bekommen. gewünschte Daten

Definition Data Mining „ is the nontrivial extraction of implicit, previous unknown and potentially useful information from data“ William J. Frawley Gregory Piatetsky-Shapiro, Diese Definition stammt aus dem Jahr 1991 als der Begriff Data Mining noch nicht geboren war. Es wurde von „Knowledge discovery“ gesprochen. Weitere Synonyme sind: Knowledge Extraction, Database Exploration, Information Harvesting, Datenmustererkennung.

Leistungsmerkmale Hypothesenfreiheit Automatisierte Vorhersage von Trends, Verhalten und Mustern Automatisierte Aufdeckung unbekannter Strukturen Zusatzkomponenten für Preprocessing und Ergebnisaufbereitung Der methodische Kernaspekt von Data Mining liegt in Verfahren, die selbständig Annahmen generieren (maschinelles Lernen), diese prüfen und dem Anwender relevante Ergebnisse in verständlicher Form präsentieren. Automatisierte Vorhersage von Trends, Verhalten und Mustern auf der Basis von bekannten Verhaltensschemata aus der Vergangenheit (überwachtes Lernen) Automatisierte Aufdeckung unbekannter Strukturen aus bisher ungeordneten Datenhalden (unüberwachtes Lernen) Zusatzkomponenten für Preprocessing : Datenübernahme, Datenbereinigungsmaßnahmen, analytische Grundfunktionalitäten wie z.B. das Erkennen von Ausreißern und Ergebnisaufbereitung (Visualisierung).

Anwendungsbeispiele Klassisches Beispiel: Wer Windeln kauft, kauft auch Bier. Welche Kunden unterschiedlicher Sparten sind identisch? Welche meiner Kunden haben noch Geld und noch einen Mangel?

Anwendungsbeispiele Astronomie Erdwissenschaften Marketing Investment Betrugserkennung Individualisierte Werbeanzeigen Electronic Commerce Datenschutz Astronomie: Solar Wind Electron Moments Erdwissenschaften: Satellitenaufnahmen Marketing: Preisfindung, Warenkorbanalysen Investment: Betrugserkennung: Ist diese Buchung mit dieser Kreditkarte ein Betrugsversuch Individualisierte Werbeanzeigen Electronic Commerce: Reihenfolge und Verweildauer auf den Internetseiten Datenschutz: Ist diese Folge von Signalen ein Einbruchsversuch?

Ansatz Tradi- tionell Hypothesen festlegen Methode entwickeln Datenbasis analysieren Ergebnisse verdichten Ergebnisse interpretieren Anwender Computer Experte Computer System Statistiker Anwender Data Mining Datenbasis analysieren Interessante Muster finden Ergebnisse interpretieren Anwender Data Mining System

Definition Data Mining „in databases is the non-trivial process of identifying valid, novel, potential useful, and ultimately understandable patterns in data“ William J. Frawley Gregory Piatetsky-Shapiro, An die Stelle von „extraction“ ist „process“ getreten, weil verwertbare Ergebnisse in der Regel noch nicht mit einer einmaligen Analyse zu erhalten sind. „non-trivial“ meint, dass es sich um enen neuartigen Analyseansatz handelt. „valid“ soll andeuten, dass eine statistische Sicherheit für die gefundene Aussage gegeben sein muss. Die Neuigkeit „novel“ tritt an sie Stelle von „previous unknown“: die Fokussierung auf neue Erkenntnisse Die nur möglicherweise vorhandene Nützlichkeit „potential useful“ sagt, dass große Schwierigkeiten bestehen, die Nützlichkeit durch eine Rechenmaschine bewerten zu lassen. Die Verständlichkeit „ultimately understandable“ ist ein neuer Bestandteil in der Definition. Erste Systeme hatten häufig große Defizite bei der Darstellung der Ergebnisse. Statt nach Informationen wird jetzt nach Mustern „pattern“ gesucht. Die Bewertung, ob es sich um eine Information handelt, kann ein System nicht leisten.

Informationsbedarf abhängig von der Aufgabe Veränderlichkeit Strukturiertheit Der Informationsbedarf für hoch strukturierte, stabile Aufgaben kann vorab ermittelt werden

Data Mining Prozeßmodell Ext Daten OLTP Data Warehouse Preprocessing Validierung Interpretation Analyse Datenbereitstellung: Es muß geklärt werden, welche Daten in welchem Umfang benötigt werden. Weiterhin muß geklärt werden, ob und in welchem Umfang aktuellen Daten in den aktuelle Daten in den Prozeß eingebunden werden sollen. Preprocessing: Die Daten müssen so aufbereitet werden, dass das Analysewerkzeug die Daten verarbeiten kann. Häufig müssen normalisierte Tabellen wieder denormalisiert werden und in eine flache Tabelle überführt werden. Analyse, Verfahrenswahl: Die Wahl des Verfahrens und des Analysewerkzeuges kann sich abhängig von den Ergebnissen und deren Interpretation ändern. Ebenso kann eine veränderte Fragestellung das Verfahren ändern. Interpretation: Die Ergebnisse müssen vom Methoden- und vom Fachspezialisten interpretiert werden. Validierung: Die gewonnen Erkenntnisse müssen validiert werden, bevor sie freigegeben werden. Häufig ist eine statistisch gesicherte Validierung nicht möglich. Ergebnisverwertung: Die Ergebnisse können einen Einfluß auf die Struktur des Datawarehous haben. Insbesondere dann, wenn eine anschliessende Auswertung zusätzliche oder anders strukturierte Daten benötigt.

Data Mining Cup 2001 Aufgabe Ein Versandhändler von Büromaterialien sendet regelmäßig allen seinen Kunden Informationsmaterial. Außerdem führt er größere Werbeaktionen durch, in die er jedoch nur einen Teil seiner Kunden einbezieht. Nach Möglichkeit sollen nur diejenigen Kunden beworben werden, die auf die Werbeaktion mit einer Bestellung reagieren. Bisher wurden 10.000 Kunden in eine Werbeaktion einbezogen, für 18.128 weitere Kunden ist noch zu entscheiden, ob sie in künftige Aktionen einbezogen werden. http://www.dfki.de/~damit/DMC2001/index.html

Kundenwertmatrix Die durchschnittlichen Kosten und Gewinne, die aus Werbung und den Bestellungen resultieren, können folgender Matrix entnommen werden: Aufwendige Werbeveranstaltung, z.B. Roadshow, Seminar http://www.dfki.de/~damit/DMC2001/aufgabe_01.html

Mögliche Auswirkungen Alle Kunden (18.128) angeschrieben, alle bestellen => 20 Mio Gewinn Alle Kunden angeschrieben, keiner bestellt => 5 Mio Verlust Die Hälfte angeschrieben, keiner davon bestellt, die andere Hälfte bestellt => 3.6 Mio Gewinn Die Hälfte angeschrieben, alle bestellen, von der anderen Hälfte bestellt keiner => 10 Mio Gewinn

Vorhersage Ideal: Dieser Kunde wird bestellen, jener Kunde wird nicht bestellen Real: Dieser Kunde wird mit einer Wahrscheinlichkeit von p bestellen => Bei welcher Bestellwahrscheinlichkeit p soll der Kunde angeschrieben werden?

Optimale Bestellwahrscheinlichkeit Kunde wird einbezogen K1: p * 1.100 + (1-p)* (-265) Kunde wird nicht einbezogen K2: p * 625 + (1-p)* (-25) K1= K2 715 p = 240 => p = 0,33

Gegebene Daten

Vorgehen Datenexploration Behandlung fehlender Werte Klassifikation mittels fallbasierten Schließens Klassifikation mittels Bayes‘scher Netze Klassifikation mittels Entscheidungsbäumen Aggregation der Ergebnisse

Merkmale AKTIV 0/1 Zielmerkmal http://www.data-mining-cup.de/2001/aufgabe.html AKTIV 0/1 Zielmerkmal 0 positiv (ist aktiver Kunde) 1 negativ (ist kein aktiver Kunde) WO Text West/Ost/Fehlend Standort des Kunden (Merkmale mit unterschiedlicher Skalierung in Abhängigkeit dieses Merkmals sind in der Beschreibung angegeben; konkret ist dies hier nur bei Kaufkraft differenziert) Regiotyp 11,...,16 Regionaltyp 11 Kern von Ballungsgebieten 12 Rand von Ballungsgebieten 13 Kernstadt einer Region 14 Randgebiet einer Kernstadt 15 ländliche Zentren 16 Orte auf dem Land …

Fehlende Werte Zur Behandlung einzelner fehlender Werte boten sich drei Wege an: Datensätze, in denen einer oder mehrere Werte fehlen, werden weggelassen. Die fehlenden Werte werden durch die Mittelwerte beziehungsweise die Modalwerte des jeweiligen Merkmals ersetzt. Es wird ein separates Vorhersagemodell zur Rekonstruktion der fehlenden Werte entwickelt und angewandt. Aufwand-Nutzen-Erwägungen folgend, wurde der zweite Weg beschritten: Fehlende Werte kategorischer Merkmale wurden durch den Modalwert, fehlende Werte numerischer Merkmale durch den arithmetischen Mittelwert des jeweiligen Merkmals ersetzt.

Aufteilung

Fallbasiertes Schließen Fallbasiertes Schließen ist eine Methode zum Einsatz gesammelten Erfahrungswissens. Es beruht auf einer sehr einfachen Grundidee: Beim Lösen von Problemen entstehen Lösungen, die auch auf ähnliche Probleme angewandt werden können. Jedes gelöste Problem wird zusammen mit seiner Lösung in einer Falldatenbank gespeichert. Beim Auftreten eines neuen Problems wird die Falldatenbank nach ähnlichen Problemen durchsucht. Die Lösungen dieser ähnlichen Probleme kann dann auf das neue, noch ungelöste Problem übertragen werden.

Bayes‘sches Netz Ein Bayes'sches Netz ist ein gerichteter, azyklischer Graph; jeder Knoten des Graphen ist mit einer (bedingten) Wahrscheinlichkeitsverteilung attributiert. Die Knoten entsprechen Zufallsvariablen (Merkmalen); die Kanten des Graphen entsprechen kausalen Beziehungen zwischen den Zufallsvariablen. Die bedingten Wahrscheinlichkeitsverteilungen quantifizieren die kausalen Beziehungen. Sowohl die Struktur als auch die Attribute Bayes'scher Netze sind aus Daten erlernbar. Mittels geeigneter Verfahren kann über einem Bayes'schen Netz inferiert, also von bekannten Ausprägungen einiger Zufallsvariabler auf unbekannte Ausprägungen anderer Zufallsvariabler geschlossen werden. http://www.dfki.de/~damit/DMC2001/vorgehen_07.html

Bayes‘sches Netz

Entscheidungsbäume Entscheidungsbäume ordnen Objekte, die durch Mengen von Merkmalen beschrieben werden, einer Klasse zu. Alle Knoten und Kanten eines Entscheidungsbaumes sind markiert: die Blätter des Baumes mit der Klasse, die als Ergebnis zurückgegeben wird, die inneren Knoten mit dem Merkmal, nach dessen Ausprägung verzweigt wird, und die Kanten mit den Ausprägungen, die das Merkmal annehmen kann, das im Anfangsknoten der Kante steht. http://www.dfki.de/~damit/DMC2001/vorgehen_09.html

Ergebnisse Fallbasiertes Schließen für große Ähnlichkeiten Fünf unterschiedliche Entscheidungsbäume, dann nach Anzahl der Klassifikation „aktiv“

Ergebnisse

Data Mining Cup 2002 Aufgabe Ein Energieversorger möchte mit zielgerichteten Kundenbindungsmaßnahmen seine Kunden halten. Dazu möchte er potenziellen Kündigern einen günstigeren Tarif (Tarif "Rabatt") anbieten. Da dieser Tarif für den Energieversorger einen geringeren Gewinn bedeutet, will er die vorraussichtlich treuen Kunden von diesem Angebot nicht infor-mieren, um nicht zu vielen von diesen Kunden den Tarif "Rabatt„ gewähren zu müssen. Ziel des Einsatzes von Data Mining ist es hierbei, die potenziellen Kündiger von den treuen Kunden zu unterscheiden. Potenziellen Kündigern wird dann der Tarif "Rabatt" angeboten, um sie damit zu binden. Insgesamt ist es für den Energieversorger deutlich günstiger, einen potenziellen Kündiger weiterhin im Tarif "Rabatt" zu versorgen als ihn ganz zu verlieren. http://www.dfki.de/~damit/DMC2002/index.html

Gegebene Daten Eigene Daten Gekaufte Daten payment_type (Art der Bezahlung) power_consumption (letzter jährlicher Stromverbrauch in kWh) hhh (Anzahl Haushalte im Haus) hgew (Anzahl Gewerbe im Haus) Gekaufte Daten Mikroselections-Merkmale (z.B. Kaufkraft, Straßentyp, Bebauungstyp, Familienstand, usw.) PKW-Indices (z.B. PKW-Dichte, PKW-Leistungsindex, PKW-Kleinbusindex, usw.) Psychonomics-Versicherungstypologien (z.B. Kundentypen, usw.) Pharmatypologien (z.B. gesunder Kraftprotz, usw.)

Kundenwertmatrix Kündiger Kunde Kunde erhält Angebot 43,80 EUR Kunde erhält keine Angebot 0,00 EUR 72,00 EUR

Kündigerwahrscheinlichkeit

Datensichtung Aus Trainings- und Klassifikationsdaten gemeinsame Datenmenge Für fehlende Werte Indikatorvariablen eingeführt Umkodierung Modalwert, Ausreißer abschneiden Faktorenanalyse

Haushalte im Haus

Statistische Verfahren Clusteranalyse Kreuztabellen Logistische Regression in Clustern

Test der Ergebnisse Mit einer Stichprobe aus den Trainingsdaten wurden Entscheidungsparameter bestimmt. Damit wurden die restlichen Daten der Trainingsmenge klassifiziert und der Kundenwert berechnet. Das Verfahren wurde mit 10 unterschiedlichen Stichproben wiederholt.

Ergebnisse

Data Mining Cup 2003 Aufgabe Um zumindest die durch Sichten und Löschen der Spams bei den Mitarbeitern verursachten Kosten zu minimieren, kann man Spam-Filter einsetzen. Diese können entweder bereits auf den Mail-Servern (wie etwa SpamAssassin) arbeiten oder auch in das E-Mail-Programm eines Nutzers integriert sein (ein Beispiel hierfür sind die aktuellen Versionen von Mozilla). Ziel dieser Programme ist eine möglichst gute Erkennung unerwünschter Mails, während erwünschte nicht herausgefiltert werden sollten. Im Rahmen des Wettbewerbs sollten Verfahren des Data-Mining angewandt werden, um eine möglichst gute Klassifikation in Spams und Nicht-Spams bei den Wettbewerbsdaten zu erreichen. http://www.dfki.de/~damit/DMC2003/index.html

Szenario Den Teilnehmern des Data-Mining-Cups wurden 8000 Datensätze mit Klassenzugehörigkeit zum Lernen eines Klassifikators zur Verfügung gestellt, sowie 11177 zu klassififizierende Datensätze, deren Klassenzugehörigkeit nur der Jury bekannt war. Ziel war es, aus diesen 11177 E-Mails möglichst gut alle Spam-Mails herauszufiltern. Die letztendliche Platzierung ergab sich aus der Anzahl der zugestellten Spams (Falsch-Negative), wobei als Nebenbedingung die Anzahl der versehentlich herausgefilterten Nicht-Spams (Falsch-Positive) 1% aller Nicht-Spam-Mails nicht überschreiten durfte. Teilnehmer, die diesen Prozentsatz überschritten, wurden in der Endwertung nicht berücksichtigt. Die Teilnehmer erhielten jedoch nicht die E-Mails selbst, sondern eine Reihe beschreibender Merkmale, wie sie der Open-Source Spam-Filter Spam Assassin verwendet.

Datensichtung 832 Merkmale ID-Anomalie: In hohen ID‘s nur noch Spam

Spam Assassin SpamAssassin prüft für jede E-Mail zunächst das Vorhandensein einer Reihe von Merkmalen. Dieser Merkmalsvektor entspricht den im Wettbewerb vorliegenden Daten. SpamAssassin ordnet jedem dieser Merkmale eine Gewichtung zu. Merkmale, die eher in Spams anzutreffen sind erhalten ein positives Gewicht, Merkmale, die eher dagegen sprechen, dass es sich um Spam handelt, ein negatives. Die genaue Höhe der Gewichte wird vom Autor des Programms mittels eines genetischen Algorithmus und einer großen Datenbank an E-Mails bestimmt, so dass sich eine möglichst gute Klassifikationsleistung mit diesen Daten ergibt.

Verwendete Verfahren Verfahren Algorihmus Klasse in Weka Entscheidungsbaum (EB) C4.5 weka.classifiers.trees.j48.J48 Naive Bayes (NB)   weka.classifiers.bayes.NaiveBayes Methode der nächsten Nachbarschaft (NN) (weka.classifiers.lazy.IBk)* Support-Vector Maschine (SVM) SMO weka.classifiers.functions.supportVector.SMO Logistische Regression (LR) weka.classifiers.functions.Logistic Boosting AdaBoostM1 weka.classifiers.meta.AdaBoostM1 Stacking weka.classifiers.meta.Stacking

Support-Vektor-Maschinen Da das Siegermodell letztlich eine Support-Vektor-Maschine war, sei im Folgenden noch kurz die Funktionsweise dieser Methode beschrieben. Beim Lernen wird hier versucht, die Daten mittels einer Hyperebene so zu trennen, dass der Abstand der Datensätze der einzelnen Klassen von dieser Ebene maximal wird. Die folgende Abbildung soll dies für den zweidimensionalen Fall darstellen, wo die Hyperebene eine Gerade ist. Die Gerade stellt dabei die Entscheidungsgrenze dar. Sie wird definiert durch die 3 umrandeten Datensätze, den Support Vektoren. Alle anderen Datenpunkte haben keinen Einfluss auf die Lage der Geraden. Mittels eines mathematischen Tricks (Kernelfunktionen) ist es möglich, auch nichtlineare Entscheidungsgrenzen zu erreichen, da intern dann mit einem weitaus höherdimensionalen Merkmalsraum als dem der zu lernenden Daten gearbeitet wird. Dieser wird zwar auch mittels einer Hyperebene getrennt, zurücktransformiert in den ursprünglichen Merkmalsraum ergibt sich jedoch eine nichtlineare Grenze zwischen den Klassen.

Data Mining Cup 2004 Zeitplan Sofort: Anmeldung 15.4. Ausgabe der Aufgabe und der Daten 13.5. Abgabe der Ergebnisse 22.6. bis 24.6. Data Mining Cup