Einführung in die Objekterkennung im dreidimensionalen Raum Sind Objektrepräsentation und Segmentierung trennbar? Matthias Krause nach Ruzena Bajcsy, Franc Solina, Alok Gupta
Definition der Vorverarbeitung Jeder geometrische Signalverarbeitungsalgorithmus, der die Daten eines Sensors in eine anwendungsoptimierte Form übersetzt Frühverarbeitungsalgorithmen partitionieren oder segmentieren idealerweise die Rohdaten in geometrische Grundformen, so dass jeder Bilddatenpunkt zu einer geometrisch gedeuteten Gruppe gehört Ziel: Rauschen entfernen, Geometrie erhalten
Range Images - Tiefenbilder
Oberflächengeometrie Vorverarbeitung: Glätten und Entfernen von irrelevanten Daten.
Glättungsverfahren: Mittelwertglättung – linear oder nichtlinear Gute Rauschunterdrückung Abschwächung hoher Ortsfrequenzen Verwischen von Kanten Nichtlinearer Medianfilter Keine Kantenverwischung Rechenaufwand K-nearest-neighbor-Glättung Gute Alternative bei K=5 zur 3x3 Mittelwertglättung
Glättungsverfahren(2) Jede Aufnahme benötigt andere Verfahren Verfahren nicht vergleichbar -> individuell anpassen Bestrebung, von möglichst wenigen Parametern abhängig zu sein
Objekterkennung Beobachtung Modellierung Objekt Objekt Teile Teile Features Features Daten Daten
Objekterkennung – Aufgaben ALV – autonome Land-Fahrzeuge Viele, wahrscheinlich unbekannte Objekte der Natur Industrielle Roboter-Bilderkennung Wenige Objekte an einem Zeitpunkt Dennoch bis zu 150.000 verschiedene Bauteile im Repertoire Industrielle Inspektion Fehlerentdeckung Weltraumanwendungen On Board – gut beschrieben Planetenerforschung Heim- und Dienstroboter Komplexe Umgebung, komplexe Objekte Warenhausroboter Flexible Routen
Objekterkennung – Dimensionen Zahl der Objekte Variabilität der Modelle Komplexität des Hintergrundes Berechnungskomplexität
Einführung 1. Was sind die geometrischen Grundformen, die (möglicherweise eindeutig) die Daten beschreiben? 2. Welche Prozesse ermöglichen die Dekomposition? 3. Was ist die grundlegende Kontrollstrategie, um die gemessenen Daten zu erklären?
Die Rolle von Grundformen Die Welt ist zu komplex, um sie digital zu repräsentieren. Daher muss der visuelle Input auf ein Niveau reduziert werden, welches den jeweiligen Anforderungen genügt. Vereinfachung bedeutet, Bilder in Entitäten zu teilen, die den entsprechenden realen Objekten anwendungsgenügend entsprechen (Prinzip der Sparsamkeit).
Die Rolle von Grundformen (2) müssen Formanalyse ermöglichen Polyeder Kugeln verallgemeinerte Zylinder Superquadriken
Polyeder http://mathworld.wolfram.com/Polyhedron.html
Kugeln http://mathworld.wolfram.com/Sphere.html
Verallgemeinerte Zylinder http://mathworld.wolfram.com/GeneralizedCylinder.html
Superquadriken
Superquadriken(2) Zum Ausprobieren: http://www.gamedev.net/reference/programming/features/superquadric/superquadric.zip
Wahl der Grundform Eine Grundform: einfacher Segmentierungsprozess, aber nicht natürlich Bsp: Eine Gerade aus Kreisstücken darstellen oder umgekehrt Natürliche Grundformwahl: Kombinatorische Explosion -> Limitierung der Anzahl von Grundformen
Einflussfaktoren Manchmal möglich, zu wissen, dass eine bestimmte Klasse von geometrischen Modellen genügt, um die Welt zu beschreiben Lagerverwaltung – aus Kisten, also Quadern Weiß man die Komplexität der Szene, ist eine Vereinfachung der Kontrollstruktur möglich, da das Wissen um die Dimension der Objekte die Wahl des Formmodells vereinfacht
Einflussfaktoren(2) Unterschiedliche Ziele aufsteigender Komplexität Objektvermeidung Objektmanipulation Objektidentifikation
Repräsentationsarten Volumetrische Repräsentation Formbasierte Repräsentation Grenzenbasierte Repräsentation
Volumetrische Repräsentation Liefert umfassende Eigenschaften Gesamtform Klassifizierung der Grundformen nach Länglich, flach, rund, zugespitzt, gebogen oder verdreht
Formbasierte Repräsentation Liefert Details über Oberflächen, die Teile von größeren Volumenkörpern sind Differenziert zwischen flachen oder gebogenen, konkaven gegen konvexe, glatten gegen raue Oberflächen
Grenzenbasierte Repräsentation Repräsentiert die Oberfläche und Biegung nahe der Grenzen Trennt Objekte vom Hintergrund -> definiert dadurch das Objekt
Vereinfachen der Wahl Statt kombinatorischer Suche: Aus den Daten bestimmen, wo welches Modell eingesetzt werden sollte Möglicherweise eine “grob zu fein”-Strategie Ein umfassendes System sollte alle Grundformarten beinhalten
Kriterien der Auswahl von Grundformen Dreidimensional: Superquadriken Zweidimensional: Oberflächengrundformen Eindimensional: Konturgrundformen
Konturgrundformen Nachteile: Vorteile: Zu lokal, um Zusammenhänge zu erkennen Störungsempfindlich gegenüber lokalen Veränderungen Vorteile: Erkennen Konturdetails Beschreiben die globale Form Teilen Objekte auf
Oberflächengrundformen Unstetigkeiten werden als Begrenzungen gezählt Menschliche Wahrnehmung definiert Objekte als Ansammlung von Oberflächen werden Unstetigkeiten als Falten wahrgenommen, sind bessere Objektbeschreibungen möglich
Volumengrundformen Parametrische Modelle sehr beliebt Kompakte Beschreibung (wenige Parameter) komplexer Formen Vorteile von Superquadriken Überall differenzierbar Enthalten eine große Bandbreite von natürlichen Formen Einfach lösbare Parameter
Der Segmentierungsprozess Entscheidung, was zur Segmentierung benötigt wird Zwei Basisstrategien: Grob zu fein, Fein zu grob Beide vor- und nachteilbehaftet, beide benötigt Einteilung nach Repräsentationen ebenfalls möglich
Grob zu Fein Schnelle Abschätzung über Volumen/Grenzen/Oberflächen des Objekts Weitere Verfeinerung bis zum gewünschten Detailgrad Aber: die detektierbaren Details oft nur durch Repräsentationsänderung ermittelbar
Grundidee: Progressives blurring der Bilder klärt die Grobstruktur Details beeinflussen nicht die Grobstruktur, daher kein Backtracking erforderlich
Scale-Space Tiefpassfilter auf verschiedenen Auflösungen erzeugt einen Skalen-Raum Niedrige Skalen beschreiben Details Hohe Skalen beschreiben homogene Regionen
Fein zu Grob Einige Details können beim Klassifizierungsprozess helfen, da sie Objekte ausschließen können Zuviele Details enden in kombinatorischer Explosion
Segmentierung durch volumenbasierte Repräsentanten Binford und Nevatia: Basis = verallgemeinerte Zylinder Solina: Basis = Superquadriken
Solina Gegeben: Tiefenbild Fasse alle Objektpunkte in einem Elipsoid zusammen Minimierung des Ellipsoids: Beziehe rekursiv die Objektpunkte mit ein und finde Parameter, damit die Form die Objektpunkte schneidet oder nahe der Oberfläche ist Problem: mehrere Objekte nicht separierbar
Segmentierung durch Informationen über die Grenzen Basiert auf der Erkennung von Unstetigkeiten in Tiefenwerten und Orientierung Objektpunkte mit ähnlichen Eigenschaften werden verschmolzen Kurvenannäherung kann durchgeführt werden (Splines, etc)
Segmentierung durch Informationen über die Grenzen(2) Verdeckungen (und Unterbrechungen) erkennbar durch Weiterführung der Kurven Ramachandran zeigt: uneindeutige Oberflächeninformationen können durch die Kanteninformationen gelöst werden
Segmentierung durch Oberflächengrundformen Sehr beliebt, da einfacher handhabbar als Volumenkörper Der Prozess beginnt bei lokalen Nachbarschaften und wird ausgedehnt Wasserscheiden-Verfahren Problem: unwichtige lokale Minima Für den Gesamtkontext volumetrische Modelle besser geeignet
Kontrollstruktur Wie sollen die drei Strukturen verwoben werden? Zwei Extrema Parallele Abarbeitung Auftauchen von Konfliktsituationen, die gelöst werden müssen Sequenzielle Abarbeitung Bei Erreichen von „falschen Fährten“ wäre Backtracking nötig
Kontrollstruktur (2) Menschliche Erkennung kann Kanten ergänzen Ziel: Rechnerbasiert muss ein System ebenfalls anpassungsfähig sein
Vorschlag Paralleles Abarbeiten von volumen- und grenzbasierter Segmentierung da gegensätzlich Interaktion zwischen den Methoden zur Kontrolle und Präzisierung von Grenzen/Körpern Oberflächenanalyse für Details Konflikt-Lösungsmöglichkeit für „unsichtbare Kanten“ -> Ermittlung der Unstetigkeitstellen
Kontrollstruktur (3) Muss Verlässlichkeit der Informationen feststellen Muss Teil/Ganzes-Beziehungen entscheiden Braucht viele Parameter -> vorfestgelegt oder im Prozess ermittelt Z.B. Größe(-nbereich) der lokalen Nachbarschaften Größe(-nbereich) der volumetrischen Modelle Anzahl (oder Bereich) der erwarteten Einheiten Schwellenwerte für Partitionierung und Zusammenführung Detailgrad
Zusammenfassung Bei der Bilderkennung gibt es zwei grundlegende Verfahren Objektrepräsentation und Segmentierung Diese sollten zusammen angewendet werden, da sie einander ergänzen können Ein Vorschlag zur Zusammenarbeit wurde vorgestellt: Das Finden von Volumenkörpern wird einschränkend unterstützt durch Kantenfindung Feinere Details werden mittels Oberflächenrepräsentierung gefunden
Quellen: Objekte: Webquellen vom 27.7.2004 EarlyProcessing – EP discussion group Segmentation versus object representation - are they separable? Ruzena Bajcsy, Franc Solina, Alok Gupta Superquadriken http://www.gamedev.net/reference/articles/article1172.asp http://graphics.tu-bs.de/lvcg01-02/Vorlesung1/Superquadriken.pdf Skalenräume http://cyvision.if.sc.usp.br/msskeletons/ http://www.isip.uni-luebeck.de/~metzler/pdf/bvm99-metzler.pdf Segmentierung mit Superquadriken http://www.cs.caltech.edu/~arvo/papers/GenMod.pdf Objekte: http://mathworld.wolfram.com Webquellen vom 27.7.2004