Slides:



Advertisements
Ähnliche Präsentationen
Christian Scheideler SS 2009
Advertisements

Christian Scheideler SS 2009
Kohonennetze für Information Retrieval mit User Feedback
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Data Mining Anwendungen und Techniken
Julia Antoniuk Jessica Gottschalk Susana de Miguel
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Maschinelles Lernen   Präsenzübung.
Suche in Texten (Stringsuche )
Seminar „Extrapolationsmethoden für zufällige Felder“
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken IX Christian Schindelhauer
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
Überwachte Klassifizierung - Kartierschlüssel
Hypothesen testen: Grundidee
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Prof. Dr. Bernhard Wasmayr
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse
Statistische Methoden II
Statistische Methoden II SS 2008
Konfidenzintervalle Intervallschätzung
M-L-Schätzer Erwartungswert
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur nächste Woche - statt Vorlesungen -
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Bedingte Wahrscheinlichkeiten
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Classification of Credit Applicants Using Data Mining. Thema.
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
Tutorium
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Machine Learning KNN und andere (Kap. 8).
Maschinelles Lernen und automatische Textklassifikation
Machine Learning Decision Trees (2).
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Wahrscheinlichkeitsrechnung
Eigenschaften der OLS-Schätzer
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Histogramm/empirische Verteilung Verteilungen
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung 1 SS 2001 Algorithmus von Dijkstra.
Effiziente Algorithmen
Eine Einführung in die CD-ROM
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Wahrscheinlichkeitsrechnung
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Data Mining Georg Pölzlbauer.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Klassifikation und Regression mittels neuronaler Netze
Information Retrieval, Vektorraummodell
Folie Einzelauswertung der Gemeindedaten
Analyse der Laufzeit von Algorithmen
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken VIII Christian Schindelhauer
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Gliederung der Vorlesung
Geoinformationssysteme
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
 Präsentation transkript:

Inhalt dieses Kapitels 3. Klassifikation Inhalt dieses Kapitels 3.1 Einleitung Das Klassifikationsproblem, Bewertung von Klassifikatoren 3.2 Bayes-Klassifikatoren Optimaler Bayes-Klassifikator, Naiver Bayes-Klassifikator, Anwendungen 3.3 Nächste-Nachbarn-Klassifikatoren Grundbegriffe, Parameterwahl, Anwendungen 3.4 Entscheidungsbaum-Klassifikatoren Grundbegriffe, Splitstrategien, Overfitting, Pruning von Entscheidungsbäumen 3.5 Support Vector Machines maximal trennende Hyperebenen, strukturelle Risiko Minierung, Kernel Maschienen

Das Klassifikationsproblem 3.1 Einleitung Das Klassifikationsproblem Gegeben: eine Menge O von Objekten des Formats (o1, . . ., od) mit Attributen Ai, 1 £ i £ d, und Klassenzugehörigkeit ci, ci Î C = {c1 , . . ., ck} Gesucht: die Klassenzugehörigkeit für Objekte aus D \ O ein Klassifikator K : D ® C Abgrenzung zum Clustering Klassifikation: Klassen apriori bekannt Clustering: Klassen werden erst gesucht Verwandtes Problem: Vorhersage (Prediction) gesucht ist der Wert für ein numerisches Attribut Methode z.B. Regression

Einleitung Beispiel Einfacher Klassifikator if Alter > 50 then Risikoklasse = Niedrig; if Alter  50 and Autotyp=LKW then Risikoklasse=Niedrig; if Alter  50 and Autotyp  LKW then Risikoklasse = Hoch.

Der Prozess der Klassifikation Konstruktion des Modells Klassifikations- Algorithmus Trainings- daten Klassifikator if rank = ‘professor’ or years > 6 then tenured = ‘yes’

Der Prozess der Klassifikation Anwendung des Modells manchmal: keine Klassifikation unbekannter Daten sondern „nur“ besseres Verständnis der Daten Klassifikator Unbekannte Daten (Jeff, Professor, 4) Tenured? yes

Bewertung von Klassifikatoren Grundbegriffe Sei K ein Klassifikator und sei TR Í O die Trainingsmenge. O Í D ist die Menge der Objekte, bei denen die Klassenzugehörigkeit bereits bekannt ist . Problem der Bewertung: gewünscht ist gute Performanz auf ganz D. Klassifikator ist für TR optimiert. Test auf TR erzeugt in der Regel viel bessere Ergebnisse, als auf D\TR. Daher kein realistisches Bild der Performanz auf D.  Overfitting

Bewertung von Klassifikatoren Train-and-Test Bewertung ohne Overfitting durch Aufteilen von O in : Trainingsmenge TR zum Lernen des Klassifikators (Konstruktion des Modells) Testmenge TE zum Bewerten des Klassifikators

Bewertung von Klassifikatoren Grundbegriffe Train-and-Test nicht anwendbar, wenn nur wenige Objekte mit bekannter Klassenzugehörigkeit Stattdessen: m-fache Überkreuz-Validierung (m-fold Cross-Validation) m-fache Überkreuz-Validierung - teile die Menge O in m gleich große Teilmengen - verwende jeweils m-1 Teilmengen zum Training und die verbleibende Teilmenge zur Bewertung - kombiniere die erhaltenen m Klassifikationsfehler (und die m gefundenen Modelle!)

Gesamtklassifikations- Bewertung von Klassifikatoren 1 a 2 3 b c Sei n = 3 : Menge aller Daten mit Klasseniformation die zur Verfügung stehen 1 fold: 1 a 2 b 3 c Testmenge Klassifikator Trainingsmenge Modell und Klassifikationsfehler 2 fold: 1 a 3 c 2 b Testmenge Klassifikator Trainingsmenge Modell und Klassifikationsfehler Gesamtklassifikations- fehler 3 fold: 2 b 3 c 1 a Testmenge Klassifikator Trainingsmenge Modell und Klassifikationsfehler

Bewertung von Klassifikatoren Ergebnis des Tests : Konfusionsmatrix (confusion matrix) Klasse1 Klasse 2 Klasse 3 Klasse 4 other Klasse 1 Klasse 2 Klasse 3 Klasse 4 other 35 1 3 31 50 9 4 5 2 10 15 13 klassifiziert als ... tatsächliche Klasse ... korrekt klassifizierte Objekte Aus der Konfusionsmatrix lassen sich folgende Kennzahlen berechnen : Accuracy, Classification Error, Precision und Recall.

Bewertung von Klassifikatoren Gütemaße für Klassifikatoren Sei K ein Klassifikator, TR Í O die Trainingsmenge, TE Í O die Testmenge. Bezeichne C(o) die tatsächliche Klasse eines Objekts o. Klassifikationsgenauigkeit (classification accuracy) von K auf TE: Tatsächlicher Klassifikationsfehler (true classification error) Beobachteter Klassifikationsfehler (apparent classification error)

Bewertung von Klassifikatoren Gütemaße für Klassifikatoren Precision : Anzahl der Objekte aus einer Klasse, die richtig erkannt wurden. Sei Ti= {o TE| C(o) = i}, dann ist Recall : Anzahl der zu einer Klasse zugeordneten Objekte, die richtig erkannt wurden. Sei Ci= {o TE| K(o) = i}, dann ist

Bewertung von Klassifikatoren weitere Gütemaße für Klassifikatoren Kompaktheit des Modells z.B. Größe eines Entscheidungsbaums Interpretierbarkeit des Modells wieviel Einsichten vermittelt das Modell dem Benutzer? Effizienz der Konstruktion des Modells der Anwendung des Modells Skalierbarkeit für große Datenmengen für sekundärspeicherresidente Daten Robustheit gegenüber Rauschen und fehlenden Werten

3.2 Bayes-Klassifikatoren Was sind Bayes-Klassifikatoren? Statistische Klassifikatoren Vorhersage der Class-Membership-Probability für verschiedene Klassen Beruht auf dem Satz von Bayes Verschiedene Verfahren: Naiver Bayes-Klassifikator: Relativ einfach zu implementierendes Verfahren, beruhend auf Annahme der Unabhängigkeit zwischen den einzelnen Merkmalen (deshalb naiv) Bayes-Netzwerk (Bayesian Belief Network): Mögliche Abhängigkeiten zwischen Merkmalen werden in Form eines Graphen modelliert, der entweder durch den Benutzer vorgegeben wird oder durch das System selbst „gelernt“ wird.

Bayes-Klassifikatoren Grundlagen Regeln und Fakten zur Klassifikation werden mit Hilfe des Satzes von Bayes als bedingte Wahrscheinlichkeiten formuliert A-Priori-Wahrscheinlichkeiten modellieren Faktenwissen über die Häufigkeit einer Klasse und das Auftreten von Merkmalen, z.B. 20% der Objekte sind Äpfel 30% sind Orangen 50% der Objekte sind rund 40% haben Farbe orange Bedingte Wahrscheinlichkeiten („A-Posteriori“) modellieren Zusammenhänge zwischen Klassen und Merkmalen: 100% der Orangen sind rund: P (rund | Orange) = 100% 100% der Äpfel sind rund: P (rund | Apfel) = 100% 90% der Orangen sind orange: P (orange | Orange) = 90% A-Priori Wahrsch. f. Klassenzugehörigk. A-Priori Merkmalshäufigkeit

Bayes-Klassifikatoren Bei einem gegebenen Merkmals-Vektor M lässt sich die Wahrscheinlichkeit der Klassenzugehörigkeit zu Klasse C mit dem Satz von Bayes ermitteln: Im Beispiel: Wahrscheinlichkeit, dass ein oranges Objekt eine Orange ist: Die entsprechenden Wahrscheinlichkeiten werden aus den Trainingsdaten geschätzt

Bayes-Klassifikatoren Kontinuierliche metrische Merkmale können… …diskret approximiert werden: P ( 9.0 < Durchmesser £ 9.5 | Orange) = 10% P ( 9.5 < Durchmesser £ 10.0 | Orange) = 30% P (10.0 < Durchmesser £ 10.5 | Orange) = 30% P (10.5 < Durchmesser £ 11.0 | Orange) = 10% P (11.0 < Durchmesser £ 11.5 | Orange) = 5% …oder als Wahrscheinlichkeits-Dichtefunktion definiert werden: Orangen haben einen Durchmesser von 10±1 cm: p (Durchmesser | Orange) = N (10, 1) (meist unter Annahme der Normalverteilung)

Bayes-Klassifikation Der Bayes-Klassifikator schätzt die Wahrscheinlichkeit der Klassenzugehörigkeit eines Merkmalsvektors Zur eindeutigen Zuordnung eines Klassen-Labels geht man meist nach dem Prinzip „Maximum Likelihood“ vor: Da P(M) bei allen Ci gleich ist, ist nur das Produkt zu optimieren Beispiel: P(Apfel | M) = 32% P(Orange | M) = 32% Þ C = Kiwi P(Kiwi | M) = 36%

Naive Bayes-Klassifikation Motivation Bei hochdimensionalen Merkmalsvektoren schwierige Schätzung der bedingten Wahrscheinlichkeiten P(M | C) und damit P(C | M): M besteht aus vielen einzelnen Komponenten, die UND-verknüpft sind: Bei d verschiedenen Merkmalen und jeweils r verschiedenen Werten ergeben sich rd verschiedene Merkmalskombinationen Probleme: Die Wahrscheinlichkeiten lassen sich nicht mehr abspeichern Man bräuchte >> rd Trainingsdatensätze, um die Wahrscheinlichkeit der einzelnen Merkmalskombinationen überhaupt ermitteln zu können

Naive Bayes-Klassifikation Lösung dieses Problems beim naiven Bayes-Klassifikator: Annahme der Bedingten Unabhängigkeit d.h. bei jeder einzelnen Klasse werden die Merkmale so behandelt als wären sie voneinander statistisch unabhängig: P (M1 Ù M2 | C) = P (M1 | C) × P (M2 | C) Was bedeutet dies? Klasse=Orange: Annahme kann falsch sein Dies führt nicht unbedingt dazu, dass die Klassifikation versagt Aber schlechte Leistung, wenn… alle Merkmale bei mehreren Klassen etwa gleich verteilt sind Unterschiede nur in „Relationen“ der Merkmale zueinander M1 = Durchmesser M2 = Gewicht

Naive Bayes-Klassifikation Damit ist die Wahrscheinlichkeit der Zugehörigkeit zu Klasse Ci: Auch hier ist der Nenner für alle Klassen gleich, so dass nur der Zähler zu maximieren ist:

Bayes-Netzwerke Grundbegriffe Graph mit Knoten = Zufallsvariable und Kante = bedingte Abhängigkeit Jede Zufallsvariable ist bei gegebenen Werten für die Vorgänger-Variablen bedingt unabhängig von allen Zufallsvariablen, die keine Nachfolger sind. Für jeden Knoten (Zufallsvariable): Tabelle der bedingten Wahrscheinlichkeiten Trainieren eines Bayes-Netzwerkes bei gegebener Netzwerk-Struktur und allen bekannten Zufallsvariablen bei gegebener Netzwerk-Struktur und teilweise unbekannten Zufallsvariablen bei apriori unbekannter Netzwerk-Struktur

bedingte Wahrscheinlichkeiten für LungCancer Bayes-Netzwerke Beispiel bei gegebenen Werten für FamilyHistory und Smoker liefert der Wert für Emhysema keine zusätzliche Information über LungCancer Family History Smoker ØFH, ØS FH, ØS ØFH,S FH,S LC 0.8 0.5 0.7 0.1 LungCancer Emphysema ~LC 0.2 0.5 0.3 0.9 bedingte Wahrscheinlichkeiten für LungCancer PositiveXRay Dyspnea

Klassifikation von Texten Grundlagen Anwendungen (z.B. [Craven et al. 1999], [Chakrabarti, Dom & Indyk 1998]) Filterung von Emails Klassifikation von Webseiten Vokabular T = {t1, . . ., td} von relevanten Termen Repräsentation eines Textdokuments o = (o1, . . ., od) oi: Häufigkeit des Auftretens von ti in o Methode Auswahl der relevanten Terme Berechnung der Termhäufigkeiten Konstruktion des Modells Anwendung des Modells zur Klassifikation neuer Dokumente

Klassifikation von Texten Auswahl der Terme Reduktion der auftretenden Worte auf Grundformen Stemming Abhängigkeit von der Sprache der Texte Einwort- oder Mehrwort-Terme? Elimination von Stoppwörtern weitere Reduktion der Anzahl der Terme bis zu 100 000 Terme

Klassifikation von Texten Reduktion der Anzahl der Terme optimaler Ansatz O(2AnzahlTerme) Teilmengen optimale Teilmenge läßt sich nicht effizient bestimmen Greedy-Ansatz bewerte jeden Terms einzeln welchen „Informationsgewinn“ liefert er in Bezug auf die Separation der gegebenen Klassen? sortiere die Terme nach dieser Maßzahl absteigend wähle die ersten  d Terme als Attribute aus

Klassifikation von Texten Konstruktion des Modells Anwendung des naiven Bayes-Klassifikators aber: Häufigkeiten der verschiedenen Terme typischerweise korreliert wichtigste Aufgabe: Schätzung der P(oi| c) aus den Trainingsdokumenten Generierung eines Dokuments o der Klasse c mit n Termen Bernoulli-Experiment: n mal eine Münze werfen, die für jeden Term ti eine Seite besitzt Wahrscheinlichkeit, daß ti nach oben kommt f(ti, c): relative Häufigkeit des Terms ti in der Klasse c

Klassifikation von Texten Konstruktion des Modells Dokument als „Bag of Words“ Reihenfolge der Terme spielt keine Rolle Bestimmung der P(oi| c) mit Hilfe der Bimonialverteilung Problem Term ti tritt in keinem Trainingsdokument der Klasse c auf ti tritt in einem zu klassifizierenden Dokument o auf in o treten aber auch „wichtige“ Terme der Klasse c auf vermeide P(oi| c) = 0 Glättung der beobachteten Häufigkeiten

Klassifikation von Texten Experimentelle Untersuchung [Craven et al. 1999] Trainingsmenge: 4127 Webseiten von Informatik-Instituten Klassen: department, faculty, staff, student, research project, course, other 4-fache Überkreuz-Validierung drei der Universitäten zum Training, vierte Universität zum Test Zusammenfassung der Ergebnisse - Klassifikationsgenauigkeit 70% bis 80 % für die meisten Klassen - Klassifikationsgenauigkeit 9% für Klasse staff aber 80% korrekt in Oberklasse person - schlechte Klassifikationsgenauigkeit für Klasse other große Varianz der Dokumente dieser Klasse

Interpretation von Rasterbildern Motivation automatische Interpretation von d Rasterbildern eines bestimmten Gebiets für jedes Pixel ein d-dimensionaler Grauwertvektor (o1, . . ., od) verschiedene Oberflächenbeschaffenheiten der Erde besitzen jeweils ein charakteristisches Reflexions- und Emissionsverhalten Ackerland Wasser Stadt

Interpretation von Rasterbildern Grundlagen Anwendung des optimalen Bayes-Klassifikators Schätzung der P(o | c) ohne Annahme der bedingten Unabhängigkeit Annahme einer d-dimensionalen Normalverteilung für die Grauwertvektoren einer Klasse Wahrscheinlichkeit der Klassen- zugehörigkeit Wasser Entscheidungsflächen Stadt Ackerland

Interpretation von Rasterbildern Methode Zu schätzen aus den Trainingsdaten mi: d-dimensionaler Mittelwertvektor aller Feature-Vektoren der Klasse ci Si: Kovarianzmatrix der Klasse ci Probleme der Entscheidungsregel - Likelihood für die gewählte Klasse sehr klein - Likelihood für mehrere Klassen ähnlich unklassifizierte Regionen Grenzwert

Bayes-Klassifikatoren Diskussion + hohe Klassifikationsgenauigkeit in vielen Anwendungen + Inkrementalität Klassifikator kann einfach an neue Trainingsobjekte adaptiert werden + Einbezug von Anwendungswissen - Anwendbarkeit die erforderlichen bedingten Wahrscheinlichkeiten sind oft unbekannt - Ineffizienz bei sehr vielen Attributen insbesondere Bayes-Netzwerke