11 Klassifikation One of the most interesting aspects of the world is that it can be considered to be made up from patterns. A pattern is essentially an.

Slides:



Advertisements
Ähnliche Präsentationen
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Advertisements

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Erkennen Sie die Kirchenkreise Heiteres Ratespiel Kirchen aus der Region.
Streuung Bezeichnung Streuung=Dispersion=Variabilität Fragestellung:
Telefonnummer.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Die Deutschen im Herbst 2008
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Statistiken und Tabellen
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Überwachte Klassifizierung - Kartierschlüssel
Differentielles Paar UIN rds gm UIN
Maxwell-Boltzmann Ausgewählte Themen des analogen Schaltungsentwurfs
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Univariate Statistik M. Kresken.
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Martin Kornmeier/Willy Schneider (Hrsg.): Reihe BA-kompakt
1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.
Daten auswerten Boxplots
20:00.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
„Küsse deine Freunde“ – FlexKom-App teilen
Zusatzfolien zu B-Bäumen
In der Schule.
Eine Einführung in die CD-ROM
Dokumentation der Umfrage
für Weihnachten oder als Tischdekoration für das ganze Jahr
Where Europe does business Lück, JDZB | Seite © GfW NRW 252 a.
Wir üben die Malsätzchen
Aufgabenzettel V Statistik I
Syntaxanalyse Bottom-Up und LR(0)
STATISIK LV Nr.: 0028 SS Mai 2005.
NEU! 1 2. Wo kommt diese Art von Rezeptor im Körper vor?
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Symmetrische Blockchiffren DES – der Data Encryption Standard
Retuschen.ppt Die folgende Schau zeigt die Möglichkeiten, mit PhotoDraw Digitalbilder zu retuschieren. Vergleichen Sie jeweils zwei Bildpaare durch fleissiges.
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Bevölkerungsentwicklung und –struktur der Stadt Bozen
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
1 Arbeitsgemeinschaft Biologische Psychiatrie Verordnungsgewohnheiten von Psychopharmaka Statuserhebung 2005 W.Günther G.Laux T.Messer N.Müller M.Schmauss.
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
3. Fachtagung im Projekt Pflegebegleiter am 24. November in Bad Honnef Projekt Pflegebegleiter 3. Fachtagung Ein Projekt fasst Fuß KURZVERSION DER PRÄSENTATION.
Folie Einzelauswertung der Gemeindedaten
Statistik – Regression - Korrelation
1.6.3 Test auf Verlustfreiheit (Verbundtreue) (4|10)
J-Team: Gymnasium Ulricianum Aurich und MTV Aurich Ein Projekt im Rahmen von UlricianumBewegt.de Euro haben wir schon…  8000 mal habt ihr bereits.
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Einführung in die Volkswirtschaftslehre, Mikroökonomie und Wettbewerbspolitik Lothar Wildmann ISBN: © 2014 Oldenbourg Wissenschaftsverlag.
Sehen, Hören, Schmecken: wenn uns unsere Sinne täuschen
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Geoinformationssysteme
 Präsentation transkript:

11 Klassifikation One of the most interesting aspects of the world is that it can be considered to be made up from patterns. A pattern is essentially an arrangement. It is characterized by the order of ist elements fo which is made rather than by the intristic nature of these elements Norbert Wiener

Einführung Segmentierung Klassifikation Erste Schritt der erkennenden Bildverarbeitung Zusammenfassen von Punkten zu größeren Einheiten Unterteilung des Bildes in Bereiche Bildpunkt orientiert Klassifikation Zuweisung von Bereichen in „Objektklassen“ Regionen orientiert

Muster Muster = Anordnungen von Elementen, welche eine “typische Ordnung” zeigen. Ordnung ist dabei wichtiger als die Elemente per-se

Bildverarbeitungssystem

Schritte bei der Klassifikation

Segmentierung Gegeben Bild B mit Bildpunkten f1,...,fn Gesucht Regionen Ri für die gilt:

Merkmalsextraktion „Merkmale“ beschreiben Eigenschaften von Regionen/Objekten, nicht mehr von einzelnen Pixeln Einfache Objektmerkmale Umschreibendes Rechteck Mittlerer Intensität Flächeninhalt Schwerpunkt Umfang Abgeleitete Merkmale Kompaktheit, Konvexheit Lage, Orientierung

Klassifizierung Klassifizierung von Objekten anhand ihrer Merkmale Notwendige Voraussetzung Merkmalsanalyse / Clustering des Merkmalraums Beispiel

Klassifikation Modellierung einer kognitiven Leistung mit dem Ziel einer Interpretation des Bildinhaltes Segmentierung ist ein „dummer“ Prozess, der lediglich Pixel anhand der Signalinformation nach Einheitlichkeits- oder Ähnlichkeitsprädikate zu Regionen zusammenfaßt, sprich das Bild lediglich dem Aussehen nach unterteilt Klassifikation ist ein „intelligenter“ Prozess, der Regionen zu Objekt(klassen) zuordnet und somit den Inhalt des Bildes erkennen will => Grenze fließend, Unterscheid eher quantitativ als qualitativ

Grundlegende Ansätze

Syntaktisch

Statistisch

Strukturell, Wissens-/Modellbasiert

Relation einfacher Merkmale (invariant?)

Schritte: Auflistung Auswahl Merkmale Kleinste Anzahl, voneinander unabhängig Klassenzuordnung ermöglichen Ggf. normiert/normierbar Definition von Klassen (Anzahl, Lage) Objektive Kriterien, sinnvolle Auswahl von Klassen Gut trennbar, keine fließende Grenzen Bestimmung von Klassengrenzen Zuordnungsmethode eines unbekannten Objektes zu einer der Klassen

Postulate Eine repräsentative Stichprobe liegt vor zur Sammlung von Information Ein (einfaches) Muster besitzt charakteristische Merkmale für seine Klassenzugehörigkeit Merkmale bilden kompakte Clusters, verschiedene Klassen sind „an sich“ getrennt Komplexes Muster läßt sich in einfachere Bestandteile zerlegen Komplexe Muster haben bestimmte Struktur (= keine beliebige Anordnung einfacherer Bestandsteile) Zwei (komplexe) Muster sind ähnlich, wenn deren einfache Bestandsteile sich wenig unterscheiden

Klassifizierung: Formal „Mehrkanaliges“ Bild (Merkmalsvektor) S = (g1, ... gn) Definition von Klassen Realisation/Stichprobe = Bei n-Beobachtungen „Häufungen“ oder „Muster“ im Merkmalsraum Bestimmung von Klassengrenzen Dimensionierung = Segmentierung/Unterteilung des Merkmalsraumes in Klassen Zuordnungsmethode Klassifizierung = Zuordnung eines Vektors zu einer Klasse Probleme Anzahl & Lage/Grenzen der Klassen im n-D Merkmalsraum unbekannt Zuordnungsfunktion von Merkmalen zu Klassen

Klassifizierungsvorgang

Schritte Auswahl Merkmale Kleinste Anzahl, voneinander unabhängig Klassenzuordnung ermöglichen Ggf. normiert/normierbar Definition von Klassen Objektive Kriterien, sinnvolle Auswahl von Klassen Gut trennbar, keine fließende Grenzen Bestimmung von Klassengrenzen Zuordnungsmethode eines unbekannten Objektes zu einer der Klassen

Auswahl der Merkmale Symbolische: Mitglieder eines endlichen Alphabets, „Symbolketten“ => syntaktische Klassifikatoren Numerische: In (reelle oder komplexe) Zahlen zu erfassende „Vektoren“ => numerische Klassifikatoren Zur Gewinnung von Merkmalen: Heuristisch: Intuition, Erfahrung, Beobachtung. Oft mangelhaft, insignifikant, wenig aussagefähig Analytisch: „optimale“ Merkmale bezüglich eines Kriteriums

Mehrkanaliges Bild

Mehrkanaliges Bild

A: Heuristische Methode

Beispiel

Beispiel: Ein Merkmal (Längenhistogramm)

Beispiel: Ein Merkmal (Helligkeitshistogramm)

Beispiel: BEIDE Merkmale

Beispiel: Klassentrennung?

Beispiel: Klasentrennung?

B: Analytische Methode Auswahl von M Merkmalen (m = 1...M), welche ein Kriterium am besten optimieren Zwei grundsätzliche Arten von Kriterien: Gruppierung von Merkmalen (clustering), Trennbarkeit von Klassen Klassifikationsfehlwahrscheinlichkeit

Auswahl von Merkmalen Merkmalsmenge so klein wie möglich Abstand der Clustermittelpunkte kein ausreichendes Kriterium

Auswahl von Merkmalen Theoretisch sinnvoll: Fehlwahrscheinlichkeit minimieren, Zuordnung zu der Klasse mit höchster a-posteriori Wahrscheinlichkeit Optimaler Bayes-Abstand Problem: bedingte Dichten p(x|Ci) i.d.R. unbekannt Nährung über Stichprobe

Strategien zur Merkmalsauswahl Jedes Merkmal allein bewerten, N beste auswählen Erst das best bewertete Merkmal, dann Paare, dann Tripel etc. Zuerst zwei schlechteste zu trennende Klassen ermitteln, Merkmale auswählen, die zur Trennung bestens beitragen Leaving-one-out: erst Klassifikation mit allen K Merkmalen, dann mit K-1 bis beste Kombination, dann K-2 etc. bis optimale Kombination erreicht => Auswertung heuristischer Merkmale aufwendig, daher besser Bewertung durch Lagebeurteilung der Vektoren im Merkmalsraum

Schritte Definition von Klassen Bestimmung von Klassengrenzen Auswahl Merkmale Kleinste Anzahl, voneinander unabhängig Klassenzuordnung ermöglichen Ggf. normiert/normierbar Definition von Klassen Objektive Kriterien, sinnvolle Auswahl von Klassen Gut trennbar, keine fließende Grenzen Bestimmung von Klassengrenzen Zuordnungsmethode eines unbekannten Objektes zu einer der Klassen

Auswahl der Klassen & -grenzen Ermittlung der Punktwolken (Cluster) im Merkmalsraum Trennung der Cluster Zuordnungsabbildungen für unbekannte Vektoren Nach Postulat 3 führen ähnliche Merkmale zu (einigermaßen) zusammenhängende Clusters Wie Cluster bestimmen?

Beispiel: Meßwerte

Beispiel: Cluster Bildung

Vorgehensweisen Dimensionierung: Wahl der Stichprobe Fest dimensionierte = konstante Lernmenge Lernende = sich erweiternde Lernmenge Übwewachung: Wahl der Klassen und deren Grenzen Überwachte: Klassenanzahl & -grenzen fest Unüberwachte: Klassenanzahl & -grenzen veränderlich Fest dimensionierte überwachte Strategie Fest dimensionierte unüberwachte Strategie Lernende überwachte Strategie Lernende unüberwachte Strategie

1: Fest-Dimensionierte überwachte Strategie Vorgabe Stichprobe bekannter Objekte (Testbilder) Musterklassen eindeutig durch die Stichproben festgelegt Wahrscheinlichkeiten a-priori bekannt/gemessen

Fest-Dimensionierte überwachte Strategie Repräsentative Stichprobe Definition der Klassen (z.B. per Hand)

Probleme Stichprobe (Realisation) ist immer eine Approximation einer Klasse Stichprobe „repräsentativ“? Nicht verfügbar Verfügbar, aber anders als in der aktuellen Beobachtung Keine vollständige Abdeckung des Merkmalraumes Überabdeckung des Merkmalraumes Dimensionierung „statisch“: Anzahl der Klassen vorab bekannt Grenzen unverschiebbar

Fehlerquellen Stichprobe ki umfasst nicht alle Merkmale der Klasse Ki => Vektoren können der Klasse nicht zugeordnet werden (dunkler Bereich) Stichprobe erfasst Merkmale, welche nicht zur Klasse gehören => „fremde“ Vektoren werden der Klasse zugeordnet (heller Bereich) Ki = Objekt ki = Stichprobe

2: Fest-Dimensionierte unüberwachte Strategie Feste Menge Trainingsvektoren, aber: Anzahl Klassen unbekannt Klassengrenzen unbekannt, wird während der Klassifikation generiert (clustering) Vorteile Stichprobe einfacher & weniger anfällig Grenzen flexibler Re-clustering (dynamische Dimensionierung)

K-Means Vorgehensweise Initiale Generierung (zufälligen, beliebigen, vordefinierten) von Clustern Für jeden Sample: Berechnung der Distanz zu allen Cluster Zuordnung jedes Samples zu Cluster, falls Distanz kleiner Schwelle ist Neubewertung Clusteranzahl, -Grenzen, -Schwerpunkte Wenn Vektor zu keinem Cluster zugehörig, neue Cluster Cluster, die „zu nahe“ kommen, werden vereinigt Cluster, die „zu groß“ werden, können geteilt werden Neuberechnung der (neuen) Cluster-Schwerpunkte Erneute Zuordnung aller Vektoren zu den neuen Cluster Berechne Summe der Distanzmaße für jeden Cluster Wiederhole 3, 4 & 5 bis Summe der Distanzmaße minimiert

k-Means Clustering Initialisierung der Clusterzentren Zufällig oder aufgrund von Beurteilung des Bildinhalts Zuordnung aller Daten xi zum nächsten Clusterzenrum Neuberechnung der Clusterzentren als „Datenschwerpunkte“ Schritte 2 und 3 werden so lange wiederholt, bis die Summe der Streuungsquadratsumme über alle Cluster minimiert

k-Means Beispiel

k-Means Beispiel

Lernende Strategien Stichprobe kann sich mit der Zeit verändern (z.B. neue Türkarten) Trenderkennung durch Rückkopplung (z.B. gebrauch der Türkarten) Jeden neuen Vektor wird klassifiziert Danach wird er zu der Trainingsmenge zugeführt (= Erweiterung!) Dadurch Neudefinition der Klassengrenzen (überwacht) und –Anzahl (unüberwacht)

3: Lernende Überwacht Erstdimensionierung: bekannte Stichprobe, # Klassen Probe wird klassifiziert und zur Stichprobe zugeführt, dadurch Erweiterung der Stichprobe Trendanpassung: Nach Klassifikation re-Dimensionierung der Klassengrenzen (nicht Anzahl, da überwacht)

4: Lernende unüberwacht train-on-the-job Initiale bzw. keine bekannte Stichprobe Anzahl und Grenzen der Klassen dynamisch durch Clustering

Schritte Auswahl Merkmale Kleinste Anzahl, voneinander unabhängig Klassenzuordnung ermöglichen Ggf. normiert/normierbar Definition von Klassen Objektive Kriterien, sinnvolle Auswahl von Klassen Gut trennbar, keine fließende Grenzen Bestimmung von Klassengrenzen Zuordnungsmethode eines unbekannten Objektes zu einer der Klassen

Metrik: Manhattan

Metrik: Euklidisch

Metrik: Quadratische Euklidisch

Minimum-Distance Klassifikator Geometrischer Ansatz Zuordnung zu der Klasse, welche „am nahesten“ zu dem Vektor liegt Größte Nähe = kleinster Abstand Verschiedene Metriken Abstand im Vergleich... zu einem Cluster-Vertreter (Mittelwert, Schwerpunkt, Median, Häufigster Wert) zu mehreren Cluster Elemente: Zuordnung zum nächsten klassifizierten Nachbar (NN) Zuordnung zur Mehrheit von mehreren klassifizierten Nachbarn (k-NN)

Minimum-Distance zum Clusterzentrum

Minimum-Distance zum Clusterzentrum Geeignet für „kompakte“ Cluster mit geringer Streuung (gültige Approximation mit einem Zentralelement)

Nächster Nachbar (NN), festdimensioniert Geeignet für „irreguläre“ Cluster, z.B. große Streuung, mehrere Ballungsanhäufungen im Merkmalsraum etc. Für jeden Vektor: Für alle i Cluster Ci : Für jeden der j Vertreter jedes der i Cluster: berechne j Distanzen Di,j des Vektors zu allen j Vertreter des jeweiligen Clusters Ci Distanz Di für Cluster Ci = Minimum der berechneten Distanzen Di,j Zuordnung zum Cluster Ci mit kleinster Distanz Di

Nächster-Nachbar (NN), lernernd Stichprobe: Es bestehen bereits j klassifizierten Vektoren Si,j, welche zu i bekannten Klassen Ci zugeordnet sind Für jeden neuen Vektor X berechne alle Distanzen D(X, Si,j), wobei D beliebiges geeignetes Distanzmaß Suche kleinstes Distanzmaß Dm = min {D(X, Si,j)} Ordne X zu der Klasse aus Ci zu der der vorklassifizierter Vektor Si,j mit dem kleinsten Distanzmaß Dm zu X bereits gehört X wird nach Klassifikation zu Si,j , d.h. es erweitert die klassifizierte Stichprobe Klassengrenzen werden dynamisch Verschoben (überwacht lernend)

Minimum-Distance Klassifikator Verbindungen der Klassenzentren: Delauny Triangulierung Klassengrenzen: Voronoi Diagramm

k-Nächster-Nachbar (k-NN) Berechne alle Distanzen D(X, Si,j) wie bei NN Bestimme k nächste Nachbarn zu X (k ungerade) Mehrheitsentscheidung, welche Klasse Ci „gewonnen“ hat Kleines k = Berücksichtigung nahe Klassen, Lokalverhalten Großes k = Berücksichtigung auch ferner Klassen, robuster Erweiterung: höhere Gewichtung näheren Nachbarn (z.B. quadratische Euklidische Metrik)

NN vs k-NN k = 1 k = 15

Maximum-Likehood-Klassifikator

Maximum-Likehood-Klassifikator Sonderfall des Bayes´schen Statistischer Ansatz p(x): Verteilungsdichte des Vektors x P(Ci): a-priori Wahrscheinlichkeit der Klasse Ci p(x|Ci): Verteilungsdichte von x in Cj = Wahrscheinlichkeit, daß der Wert x vorliegt, wenn Klasse Cj vorliegt P(Ci)*p(x|Ci) ist Maßstab (Likehood) für Zugehörigkeit von x zu Ci

Beispiel

Beispiel

Maximum-Likehood-Klassifikator Ordnet w zu der Klasse Ck so, daß der Erwartungswert der gesamten Fehlklassifikation minimiert wird: p(x) – P(Ci)*p(x|Ci) < p(x) – P(Cj)*p(x|Cj) Nachteil: Wahrscheinlichkeiten P(Ci) und Verteilungsdichten p(x|Ci) müssen a-priori bekannt sein P(Ci): i.d.R. kein Problem, Dimensionierung mit repräsentative Trainingsmenge p(x|Ci): i.d.R. Schwer! Annahme z.B. Gaus´schen Verteilung

Maximum-Likehood-Klassifikator Häufigkeit der Klasse P(C1) = Fläche unter p(x|C1) -- bzw. C2 Wenn Flächen gleich groß, Häufigkeit beider Klassen identisch Klassengrenze Punkt x0

Maximum-Likehood-Klassifikator

Ursachen für Fehlklassifikation

Wissen Berücksichtigung

Modellbasiertes Segmentieren Berücksichtigung von a priori Informationen über Art und Aussehen der zu segmentierenden Objekte Mensch besitzt ein „Modell“ des Objektes im Kopf, das Segmentieren vereinfacht: Die Kreisausschnitte werden zu durchgehenden Strecken ergänzt

Danksagung Dr. Andrea Miene, Bremen Prof. Hillen, Aachen/Jülich Prof. Franz, Konstanz Prof. Jiang, Münster