Techniken des Maschinellen Lernens für “Data Mining” Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr)

Slides:



Advertisements
Ähnliche Präsentationen
Techniken des Maschinellen Lernens für Data Mining Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr)
Advertisements

Techniken des Maschinellen Lernens für Data Mining Norbert Fuhr.
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Einführung in die Informatik: Programmierung und Software-Entwicklung
Normalverteilte Zufallsvariablen
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Data Mining Anwendungen und Techniken
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Telefonnummer.
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Übung 6.6Schranken 1.Angenommen, Ihr Algorithmus habe einen Aufwand von g(n) = 5n 3 + n für alle n a)Geben sie eine obere Schranke O(g(n)) an. b)Beweisen.
„Netzwerk Medizin und Geschlecht“ an der Medizinischen Hochschule Hannover Projektleitung: Dr. phil. Bärbel Miemietz Projektkoordination: Larissa Burruano,
= = = = 47 = 47 = 48 = =
Algorithmentheorie 6 – Greedy-Verfahren
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 4 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Fakten, Regeln und Anfragen
Internet facts 2006-I Graphiken zu dem Berichtsband AGOF e.V. September 2006.
Internet facts 2009-IV Grafiken zu dem Berichtsband AGOF e.V. März 2010.
Internet facts 2006-III Graphiken zum Berichtsband AGOF e.V. März 2007.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Internet facts 2005-IV Graphiken zu dem Berichtsband AGOF e.V. Juli 2006.
Internet facts 2005-III Graphiken aus dem Berichtsband AGOF e.V. März 2006.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Modellbildung in der Geoökologie (G5, 103) SS 2004
Prof. Dr. Bernhard Wasmayr
Schieferdeckarten Dach.ppt
Classification of Credit Applicants Using Data Mining. Thema.
AWA 2007 Natur und Umwelt Natürlich Leben
Distanzbasierte Sprachkommunikation für Peer-to-Peer-Spiele
Maschinelles Lernen und automatische Textklassifikation
Machine Learning Decision Trees (2).
Maschinelles Lernen und automatische Textklassifikation
1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.
20:00.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Die Geschichte von Rudi
Geschlecht der Befragten Alter der Befragten Warum gehst du in ein Einkaufszentrum ?
1 Fachtagung am Seniorenorientiertes Design und Marketing ThyssenKrupp Immobilien Design for all - Anpassungen im Wohnungsbestand 1.Demographie.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Where Europe does business Lück, JDZB | Seite © GfW NRW 252 a.
1 Ein kurzer Sprung in die tiefe Vergangenheit der Erde.
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Syntaxanalyse Bottom-Up und LR(0)
Erfindervon Fuzzy Logic
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Szenisches Lernen Wie Theaterelemente den Unterricht bereichern
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Basisdokumentation Erhebungszeitraum Rehabilitationsträger Zuweiser
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Numbers Greetings and Good-byes All about Me Verbs and Pronouns
Lernmodelle und Experimentelle Untersuchungen
Erstellen einer Arff-Datei
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
Biraveenmaks Ponnu Benjamin Zumbrunn
 Präsentation transkript:

Techniken des Maschinellen Lernens für “Data Mining” Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr)

1 Problemstellungen Data vs. Information Data Mining und Maschinelles Lernen Strukturelle Beschreibungen Regeln: Klassifikation und Assoziation Entscheidungsbäume Datensätze Wetter, Kontaktlinsen, CPU-Performance, Tarifverhandlungen, Klassifikation von Sojabohnen Feldstudien Kreditanträge, Bildanalyse, Lastvorhersage, Diagnose von Maschinenfehlern, Warenkorbanalyse Generalisierung als Suche Data Mining und Ethik

1 Daten vs. Information Unsere Gesellschaft produziert riesige Datenmengen Quellen: Naturwissenschaften, Medizin, Wirtschaft, Geografie, Umwelt, Sport, … Potenziell wertvolle Ressourcen Rohdaten sind nutzlos: Techniken zur automatischen Extraktion von Information benötigt: Daten: aufgezeichnete Fakten Information: den Daten zugrundeliegende Muster

Information ist entscheidend Beispiel 1: künstliche Befruchtung Gegeben: Embryonen, beschrieben durch 60 Merkmale Problem: Auswahl der Embryonen, die überleben werden Daten: gesammelte Fakten über bisherig Embryonen und deren Schicksal Beispiel 2: Haltung von Milchkühen Gegeben: Kühe, beschrieben durch 700 Merkmale Probleme: Auswahl der Kühe, die geschlachtet werden sollten Daten: Aufzeichnungen über Kühe in den zurückliegenden Jahren und die Entscheidungen der Bauern

Data Mining Extraktion von Information aus Daten impliziter, bislang unbekannter, potenziell nützlicher Information aus Daten Gesucht: Programme, die Muster und Regularitäten in den Daten entdecken Ausgeprägte Muster können für Vorhersagen genutzt werden: Problem 1: Die meisten Muster sind uninteressant Problem 2: Muster können unscharf sein (oder extrem fragwürdig), falls die Daten unvollständig oder fehlerhaft sind

Techniken des Maschinellen Lernens Technische Basis für Data Mining: Algorithmen zum Lernen von strukturellen Beschreibungen aus Beispielen Strukturelle Beschreibungen repräsentieren implizit Muster: Nutzung zur Vorhersage in neuen Situationen Nutzung, um die Vorhersage zu verstehen und zur Erklärung des Zustandekommens der Vorhersage (evtl. sogar wichtiger) Methoden stammen aus der künstlichen Intelligenz, Statistik und der Datenbank-forschung

Strukturelle Beschreibungen Beispiel: Wenn-Dann-Regeln If tear production rate = reduced then recommendation = none Otherwise, if age = young and astigmatic = no then recommendation = soft Age Spectacle prescription Astigmatism Tear production rate Recommended lenses Young Myope No Reduced None Hypermetrope Normal Soft Pre-presbyopic Presbyopic Yes Hard …

Können Maschinen lernen? Lexikon-Definition von “Lernen”: Wissen sammeln durch Studium, Erfahrung, oder durch einen Lehrer Bewusst werden durch Informieren oder durch Beobachtung Im Gedächtnis abspeichern Informiert werden, sich vergewissern, Anleitung erhalten Schwierig zu messen Trivial für Computer Wesen lernen, wenn sie ihr Verhalten in einer Weise so ändern, dass sie in Zukunft erfolgreicher agieren Operationale Definition: Lernt ein Schuh? Muss Lernen bewusst erfolgen?

Das Wetterproblem Bedingungen, um ein unspezifiziertes Spiel zu spielen: Outlook Temperature Humidity Windy Play Sunny Hot High False No True Overcast Yes Rainy Mild Normal … If outlook = sunny and humidity = high then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes If humidity = normal then play = yes If none of the above then play = yes

Ross Quinlan Machine learning researcher from 1970’s University of Sydney, Australia 1986 “Induction of decision trees” ML Journal 1993 C4.5: Programs for machine learning. Morgan Kaufmann 199? Started

Klassifikations- vs. Assoziationsregeln Klassifikationsregeln: Vorhersage des Wertes einer spezifischen Attributs (die Klassifikation des Beispiels) Assoziationsregeln: Vorhersage des Wertes eines beliebigen Attributs, oder einer Attributkombination If outlook = sunny and humidity = high then play = no If temperature = cool then humidity = normal If humidity = normal and windy = false then play = yes If outlook = sunny and play = no then humidity = high If windy = false and play = no then outlook = sunny and humidity = high

Wetterdaten mit gemischten Attributen Zwei Attribute mit numerischen Werten Outlook Temperature Humidity Windy Play Sunny 85 False No 80 90 True Overcast 83 86 Yes Rainy 75 … If outlook = sunny and humidity > 83 then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes If humidity < 85 then play = yes If none of the above then play = yes

Die Kontaktlinsen-Daten Age Spectacle prescription Astigmatism Tear production rate Recommended lenses Young Myope No Reduced None Normal Soft Yes Hard Hypermetrope hard Pre-presbyopic Presbyopic

Eine vollständige und korrekte Regelmenge If tear production rate = reduced then recommendation = none If age = young and astigmatic = no and tear production rate = normal then recommendation = soft If age = pre-presbyopic and astigmatic = no and tear production rate = normal then recommendation = soft If age = presbyopic and spectacle prescription = myope and astigmatic = no then recommendation = none If spectacle prescription = hypermetrope and astigmatic = no and tear production rate = normal then recommendation = soft If spectacle prescription = myope and astigmatic = yes and tear production rate = normal then recommendation = hard If age young and astigmatic = yes and tear production rate = normal then recommendation = hard If age = pre-presbyopic and spectacle prescription = hypermetrope and astigmatic = yes then recommendation = none If age = presbyopic and spectacle prescription = hypermetrope and astigmatic = yes then recommendation = none

Ein Entscheidungsbaum für dasselbe Problem

Klassifikation von Irisblumen Sepal length Sepal width Petal length Petal width Type 1 5.1 3.5 1.4 0.2 Iris setosa 2 4.9 3.0 … 51 7.0 3.2 4.7 Iris versicolor 52 6.4 4.5 1.5 101 6.3 3.3 6.0 2.5 Iris virginica 102 5.8 2.7 1.9 If petal length < 2.45 then Iris setosa If sepal width < 2.10 then Iris versicolor ...

Vorhersage der CPU-Performanz Beispiele: 209 verschiedene Computer-Konfigurationen Lineare Regressionsfunktion Cycle time (ns) Main memory (Kb) Cache (Kb) Channels Performance MYCT MMIN MMAX CACH CHMIN CHMAX PRP 1 125 256 6000 16 128 198 2 29 8000 32000 32 8 269 … 208 480 512 67 209 1000 4000 45 PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX + 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX

Daten aus Tarifverhandlungen Attribute Type 1 2 3 … 40 Duration (Number of years) Wage increase first year Percentage 2% 4% 4.3% 4.5 Wage increase second year ? 5% 4.4% 4.0 Wage increase third year Cost of living adjustment {none,tcf,tc} none tcf Working hours per week (Number of hours) 28 35 38 Pension {none,ret-allw, empl-cntr} Standby pay 13% Shift-work supplement 4 Education allowance {yes,no} yes Statutory holidays (Number of days) 11 15 12 Vacation {below-avg,avg,gen} avg gen Long-term disability assistance no Dental plan contribution {none,half,full} full Bereavement assistance Health plan contribution half Acceptability of contract {good,bad} bad good

Entscheidungs- bäume für die Tarifdaten

Klassifikation von Sojabohnen Attribute Number of values Sample value Environment Time of occurrence 7 July Precipitation 3 Above normal … Seed Condition 2 Normal Mold growth Absent Fruit Condition of fruit pods 4 Fruit spots 5 ? Leaves Abnormal Leaf spot size Stem Stem lodging Yes Roots Diagnosis 19 Diaporthe stem canker

Die Rolle von Domänenwissen If leaf condition is normal and stem condition is abnormal and stem cankers is below soil line and canker lesion color is brown then diagnosis is rhizoctonia root rot If leaf malformation is absent and stem condition is abnormal and stem cankers is below soil line and canker lesion color is brown then diagnosis is rhizoctonia root rot Aber (bei dieser Anwendung): “leaf condition is normal” impliziert “leaf malformation is absent”!

Feld-Anwendungen Das Lernergebnis oder die Lernmethode selbst wird in praktischen Anwendungen eingesetzt Reduzierung der Verzögerungen beim Rotationsdruck Formgebung von Flugzeugteilen Automatische Klassifikation von Flugobjekten Automatische Vervollständigung von sich wiederholenden Formularen Text-Retrieval …

Entscheidung von Kreditanträgen Gegeben: Fragebogen mit Angaben zur Person und deren finanzielle Situation Problem: soll der Kredit gewährt werden? Einfache statistische Methode deckt 90% aller Fälle ab Aber: 50% aller Grenzfälle führen zu Kreditausfällen Lösung(?): alle Grenzfälle zurückweisen Nein! Grenzfälle gehören zu den umsatzstärksten Kunden

Anwendung von maschinellem Lernen 1000 Trainingsbeispiele für Grenzfälle 20 Attribute: Alter, Beschäftigungsdauer beim aktuellen Arbeitgeber, Wohndauer an der gegenwärtigen Adresse, Dauer der Kundenbeziehung zur Bank, andere gewährte Kredite, … Gelernte Regelmenge sagt 2/3 der Grenzfälle korrekt voraus! Außerdem: Firma mag die Regeln, da sie benutzt werden können, um den Kunden gegenüber die Kreditentscheidung zu erläutern

Analyse von Luftbildern Gegeben: Satellitenbilder von Küstengewässern Problem: Auffinden von Ölflecken in diesen Bildern Ölflecken erscheinen als dunkle Regionen unterschiedlicher Größe und Gestalt Schwierigkeit: ähnliche dunkle Flecken können durch bestimmte Wetterbedingungen verursacht werden (z.B. starke Winde) Aufwändige Analyse, erfordert lange geschultes Personal

Anwendung von maschinellem Lernen Dunkle Regionen werden aus normalisierten Bildern extrahiert Attribute: Größe der Region, Gestalt, Fläche, Intensität, Schärfe und Zackung der Grenzen, Nähe zu anderen Regionen, Informationen über den Hintergrund Randbedingungen: Wenige Trainingsbeispiele (Ölflecken treten selten auf) Unbalancierte Daten: die meisten dunklen Regionen sind keine Ölflecken Regionen aus einem Bild werden gemeinsam prozessiert Anforderung: einstellbare Quote für Fehlalarme

Last-Vorhersage Elektrizitätswerke benötigen Vorhersagen über den zukünftigen Energiebedarf zu bestimmten Zeitpunkten Präzise Vorhersagen über die minimale und die maximale Last innerhalb jeder Stunde führen zu beachtlichen Einsparungen Gegeben: manuell konstruiertes statisches Modell, das “normale” Wetterbedingungen voraussetzt Problem: Anpassung an konkrete Wetterbedingungen Parameter des statischen Modells: Grundlast im laufenden Jahr, Jahreszeitliche Lastschwankungen, Einfluss von Feiertagen

Anwendung von maschinellem Lernen verbesserte Vorhersage durch Suche nach den “ähnlichsten Tagen” Attribute: Temperatur, Luftfeuchtigkeit, Windgeschwindigkeit, Bewölkungsgrad, zusätzlich Differenz zwischen tatsächlicher und vorhergesagter Last Zum statischen Modell wird mittlere Differenz der drei ähnlichsten Tage addiert Koeffizienten der linearen Regressions-funktion stellen Attributgewichtungen in der Ähnlichkeitsfunktion dar

Diagnose von Maschinenausfällen Diagnose: klassisches Anwendungsgebiet der Expertensysteme Gegeben: Fourier-Analyse von Vibrationen an verschiedenen Stellen des Gehäuses Problem: Welcher Fehler liegt vor? Vorbeugende Wartung der elektromechanischen Motoren und Generatoren Daten sind stark verrauscht Bisher: Diagnose durch Experten/manuell erstellte Regeln

Anwendung von maschinellem Lernen Ausgangsdaten: 600 Fehler mit Expertendiagnosen ~300 ungeeignet, restliche Fälle als Trainingsmenge genutzt Attribute angereichert um höhere Konzepte, die kausales Domänenwissen repräsentieren Experte unzufrieden mit den initialen Regeln, da sie sich nicht auf sein Anwendungswissen bezogen Weiteres Hintergrundwissen führte zu komplexeren Regeln, die zufriedenstellend waren Gelernte Regeln besser als die manuell erstellten

Marketing und Verkauf I Firmen sammeln große Mengen an Verkaufs- und Marketingdaten Mögliche Anwendungen: Kundentreue: Identifikation von Kunden, die potenziell bald “abspringen”, durch Erkennen von Änderungen in deren Verhalten (z.B. Banken, Telefongesellschaften) Spezielle Angebote: Identifikation von profitablen Kunden (z.B. zuverlässige Kunden von Kreditkartenunternehmen, die ein höheres Limit in der Urlaubszeit benötigen)

Marketing und Verkauf II Warenkorb-Analyse Assoziationstechniken, um Gruppen von Waren zu finden, die häufig zusammen gekauft werden Analyse von Einkaufsmustern in der Vergangenheit Identifikation von guten Kunden Fokussierung von Werbesendungen (gezielte Kampagnen sind billiger als Massen-Werbesendungen)

Maschinelles Lernen und Statistik Historische Unterschiede (vereinfacht): Statistik: Hypothesen-Tests Maschinelles Lernen: Suche nach den richtigen Hypothesen Aber: große Überlappungen Entscheidungsbäume (C4.5 und CART) Nächster-Nachbar-Methoden Heute: ähnliche Ziele Die meisten ML-Algorithmen benutzen statistische Techniken

Statisticians Sir Ronald Aylmer Fisher Born: 17 Feb 1890 London, England Died: 29 July 1962 Adelaide, Australia Numerous distinguished contributions to developing the theory and application of statistics for making quantitative a vast field of biology Leo Breiman Developed decision trees 1984 Classification and Regression Trees. Wadsworth.

Generalisierung als Suche Induktives Lernen: Suche nach einer Konzeptbeschreibung, die zu den Daten passt Beispiel: Regelmenge als Beschreibungssprache Riesiger, aber endlicher Suchraum Einfache Lösung: Aufzählen der Elemente des Konzeptraums Eliminieren aller Beschreibungen, die nicht zu den Beispielen passen Verbleibende Beschreibung stellt das gesuchte Konzept dar

Aufzählen der Elemente des Konzeptraums Suchraum für das Wetterproblem: 4 x 4 x 3 x 3 x 2 = 288 mögliche Regeln Beschränkung auf maximal 14 Regeln in der Beschreibung  2.7x1034 mögliche Regelmengen Möglicher Ausweg: Algorithmus zur Eliminierung von Kandidaten Weitere praktische Probleme: Mehr als eine Beschreibung kann übrig bleiben Keine Beschreibung bleibt übrig Beschreibungssprache ist ungeeignet, um das Zielkonzept zu beschreiben Daten können verrauscht sein

Der Versionsraum Raum von konsistenten Konzeptbeschreibungen Komplett bestimmt durch 2 Mengen: L: spezifischste Beschreibungen, die alle positiven und keine negativen Beispiele abdecken G: generellste Beschreibungen, die keine negativen und alle positiven Beispiele abdecken Nur L und G müssen verwaltet und aktualisiert werden Aber: immer noch hoher Berechnungsaufwand Und: löst die anderen praktischen Problem nicht

Versionsraum: Beispiel Gegeben: Rote oder grüne Kühe oder Hühner L={} G={<*, *>} <green,cow>: positive L={<green, cow>} G={<*, *>} <red,chicken>: negative L={<green, cow>} G={<green,*>,<*,cow>} <green, chicken>: positive L={<green, *>} G={<green, *>}

Algorithmus zur Kandidaten-Eliminierung Initialize L and G For each example e: If e is positive: Delete all elements from G that do not cover e For each element r in L that does not cover e: Replace r by all of its most specific generalizations that 1. cover e and 2. are more specific than some element in G Remove elements from L that are more general than some other element in L If e is negative: Delete all elements from L that cover e For each element r in G that covers e: Replace r by all of its most general specializations that 1. do not cover e and 2. are more general than some element in L Remove elements from G that are more specific than some other element in G

Bias (systematische Fehler) Die wichtigsten Entscheidungen in Lernsystemen: Konzept-Beschreibungssprache Reihenfolge, in der der Raum durchsucht wird Vermeidung der Überadaption an die Trainingsdaten Diese Eigenschaften bestimmen den “Bias” der Suche Beschreibungssprachen-Bias Such-Bias Überadaptions-Vermeidungs-Bias

Beschreibungssprachen-Bias Wichtigste Frage: Ist die Sprache universell oder beschränkt sie das zu Lernende? Universelle Sprache kann beliebige Teilmengen der Beispiele beschreiben Wenn die Sprache die Oder-Verknüpfung von Aussagen zulässt, ist sie universell Domänenwissen kann benutzt werden, um einige Konzeptbeschreibungen von vornherein von der Suche auszuschließen

Such-Bias Such-Heuristik Richtung der Suche “Greedy”-Suche: wähle jeweils den besten Einzelschritt aus “Beam”-Suche: Behalte mehrere Alternativen im Auge … Richtung der Suche Vom Allgemeinen zum Speziellen Z.B. Spezialisieren einer Regel durch Hinzufügen von Bedingungen Vom Speziellen zum Allgemeinen Z.B. Generalisierung einer einzelnen Instanz zu einer Regel

Überadaptions-Vermeidungs-Bias Kann als Teil des Such-Bias gesehen werden Modifiziertes Bewertungskriterium Z.B. Balance zwischen Einfachheit und Fehleranzahl Modifizierte Suchstrategie Z.B. Pruning (Vereinfachen einer Beschreibung) Pre-Pruning: Stoppt bei einer einfachen Beschreibung, bevor übermäßig komplexe Beschreibungen generiert werden Post-Pruning: Generiert zunächst eine komplexe Beschreibung, die anschließend vereinfacht wird

Data Mining und Ethik I Viele ethische Fragen werden bei praktischen Anwendungen aufgeworfen Data Mining wird oft zur Diskriminierung benutzt Z.B. Kreditanträge: Berücksichtigung bestimmter Attribute (z.B. Geschlecht, Rasse, Religion) ist unethisch Die Frage der Ethik ist anwendungsabhängig z.B. ist die Verwendung obiger Attribute in medizinischen Anwendungen ok Attribute können problematische Informationen beinhalten Z.B. kann die Postleitzahl mit der Rasse korrelieren

Data Mining und Ethik II Wichtige Fragen in praktischen Anwendungen: Wer hat Zugriff auf die Daten? Für welchen Zweck wurden die Daten gesammelt Welche Schlüsse können legitimerweise daraus gezogen werden? Ergebnisse müssen unter Vorbehalt betrachtet werden Rein statistische Argumente sind nie ausreichend! Werden Ressourcen sinnvoll verwendet?