Eine geschichtete Architektur zur reaktiven Verhaltenssteuerung Sven Behnke Freie Universität Berlin FB Mathematik und Informatik Institut für Informatik Arbeitsgruppe Künstliche Intelligenz
Überblick Problemstellung Ansätze zur Verhaltenssteuerung Dual Dynamics Hierarchische Architektur RoboCup-Beispiel einzelne Verhalten Pfadplanung Vorhersagen Verhaltensübersicht
Autonome Mobile Roboter vollständiger Agent Autonomie Selbsterhaltung Körperlichkeit Situiertheit ökologische Nische billig, ungenau „Fungus Eater“ by Isabelle Follath Masanao Toda 1962, Rolf Pfeifer 1994
RoboCup Fußballspiel als Benchmark der KI-Forschung seit 1997 jährliche WM, lokale Wettbewerbe Ligen: SmallSize Simulation MidSize Sony Hunde Humanoide
Problemstellung der Verhaltenssteuerung Gegeben: Agent, Situation Gesucht: Was soll ich jetzt tun? Agent Sensoren Kontrolle Aktuatoren Umwelt
Architekturen zur Verhaltenssteuerung deliberativ sense-plan-act langsam, komplex reaktiv sense-act schnell, primitiv hybrid deliberative und reaktive Schicht eventuell Zwischenschicht verhaltensbasiert mehrere einfache Verhalten Interaktion erzeugt Komplexität Architektur = Beschränkung der möglichen Lösungen Angemessene Beschränkung kann hilfreich sein, eine gute Lösung zu finden
Deliberative Verhaltenssteuerung Konstruktion eines vollständigen Weltmodells Ausarbeitung eines mehrstufigen Plans Durchführung des Plans Bsp.: Blocks World, Shakey Start Ziel The real world is full of distracting and obscuring detail: generally science progresses by focussing on artificially simple models of reality (in physics, frictionless planes and perfectly rigid bodies, for example). In 1970 Marvin Minsky and Seymour Papert, of the MIT AI Laboratory, proposed that AI research should likewise focus on developing programs capable of intelligent behaviour in artificially simple situations known as micro-worlds. Much research has focussed on the so-called blocks world, which consists of coloured blocks of various shapes and sizes arrayed on a flat surface. An early success of the micro-world approach was SHRDLU, written by Terry Winograd of MIT (details of the program were published in 1972). SHRDLU controlled a robot arm that operated above a flat surface strewn with play blocks (both the arm and the blocks were virtual). SHRDLU would respond to commands typed in natural English, such as "Will you please stack up both of the red blocks and either a green cube or a pyramid". The program would plan out a sequence of actions and in the virtual world the robot arm would arrange the blocks appropriately. SHRDLU could correctly answer questions about its world of blocks, for example "Can a pyramid be supported by a pyramid?" (SHRDLU attempts to stack up two pyramids and fails) and "Is there anything which is bigger than every pyramid but is not as wide as the thing that supports it?" (to which SHRDLU answered "Yes, the blue block"). SHRDLU could also answer questions about its own actions. Another product of the micro-world approach was Shakey, a mobile robot developed at the Stanford Research Institute by Bertram Raphael, Nils Nilsson and their group, during the period 1968-1972. (Shakey can now be viewed at the Boston Computing Museum.) The robot occupied a specially built micro-world consisting of walls, doorways, and a few simply-shaped wooden blocks. Each wall had a carefully painted baseboard to enable the robot to "see" where the wall met the floor (a simplification of reality that is typical of the micro-world approach). Shakey had about a dozen basic abilities, such as TURN, PUSH and CLIMB-RAMP. These could be combined in various ways by the robot's planning programs. Shakey's primary sensor was a black-and-white television camera. Other sensors included a "bump bar", and odometry that enabled the robot to calculate its position by "dead reckoning". A demonstration video showed Shakey obeying an instruction to move a certain block from one room to another by locating a ramp, pushing the ramp to the platform on which the block happened to be located, trundling up the ramp, toppling the block onto the floor, descending the ramp, and manoeuvring the block to the required room, this sequence of actions having been devised entirely by the robot's planning program without human intervention. Critics emphasise the highly simplified nature of Shakey's environment and point out that, despite these simplifications, Shakey operated excruciatingly slowly--the sequence of actions in the demonstration video in fact took days to complete. * Planen dauert zu lange Konstruktion eines vollständigen Weltmodells ist unmöglich und unnötig Unvorhergesehene Entwicklungen machen Pläne hinfällig a a f b d f e d c e g b c g Heuristische Suche erzeugt Plan: a->T; b->T; d->c; e->b; a->e; f->d
Reaktive Verhaltenssteuerung kein Weltmodell kein Plan direkte Kopplung von Sensoren und Aktuatoren Bsp.: Braitenberg Vehikel Valentino Braitenberg 1984 Taxis Valentino Braitenberg, Vehicles: experiments in synthetic psychology. MIT Press. (1984) „The world is ist own best model“
Hybride Verhaltenssteuerung Versuch, das Beste aus beiden Welten zu vereinen Bsp.: drei Schichten reaktive Schicht (Regler) zustandslos, schnell, sensorgetrieben Zwischenschicht (Sequenzer) Repräsentation der Vergangenheit, Abstraktion Fehlererkennung, Alternativverhalten deliberative Schicht (Planer) Repräsentation der Zukunft, langsam, zielgetrieben Erann Gat 1998: Alfred Errann Gat „On three-layer architectures“ Artificial Intelligence and Mobile Robots, AAAI Press, 1998. Beispiele: 3T, ATLANTIS, DD&P Alfred: - B12 (dual drive, Odometrie, Ultrashall) - 6800, Powerbook tasks: „escape from the office“, „deliver the coffee“ reactiv: obstacle avoidance, wall-finding, wall-alignment, wall-following, wandering Sequencing: Steuerung der primitiven Verhalten, Map-building Deliberativ: pfadplanung durch Suche Verschiedene Repräsentationen und Algorithmen auf den verschiedenen Ebenen Interface Problem
Subsumptionsarchitektur verhaltensbasiert, DEAs, Nachrichten Kompetenzebenen, steigende Komplexität Subsumption: Eingriff in niedrigere Ebene inkrementelles Design Kartierung Inkrementelles Design nur für die untersten Ebenen verwirklicht Subsumption erfordert genaue Kenntnis der unteren Ebene Reflexe funktionieren anders: Zurückzucken von der Herdplatte, ohne nachzudenken Aber: schnell funktionierenden Prototypen Exploration Herumfahren Hindernisvermeidung Sensoren Aktuatoren Rodney Brooks 1985
Dual Dynamics verhaltensbasiert dynamische Systeme zwei Verhaltensarten: elementar, komplex elementare Verhalten haben zwei Module: Aktivierungsdynamik: Soll ich jetzt etwas tun? Zieldynamik: Was soll ich tun? keine Zieldynamik bei komplexen Verhalten Modi, Bifurkationen, Multifunktionalität Baut auf Process Description Language (PDL, Steels Vertommen 1992) auf Modus: relativ stabil, erzeugen qualitativ verschiedenes Verhalten Bifurkationen: Moduswechsel Multifunktionalität: ein Mechanismus wird mehrfach für unterschiedliche Zwecke benutzt Elementare Verhalten: - sensomotorische Koordination direkter Zugriff auf sensorische Daten Direkter Einfluss auf Aktuatoren Komplexe Verhalten: Zugriff auf Sensoren Kein Zugriff auf Aktuatoren Zieldynamik: hochdimensional, keine Bifurkationen Daher: wenn man qualitativ unterschiedliche Verhalten braucht, muss man mehrere elementare Verhalten benutzen Aktivierungsdynamik: nur eine Variable pro Verhalten, der Aktivierungsfaktor zwischen 0 und 1 Bifurkationen erlaubt, induziert durch komplexe Verhalten auf höherer Ebene „Kontrollparameter“ Höhere Ebenen konfigurieren die elementaren Verhalten, kein Aufruf von Funktionen Langsamere Zeitskala auf höherer Ebene Aktivierung: Sensorgetrieben Hemmung Superposition Nicht nur Selektion von Aktionen Herbert Jaeger 1995
Hierarchie reaktiver Verhalten langsam Organisationsprinzip: Änderungsgeschwindigkeit schnell Sensoren Verhalten Aktuatoren
Aufbau einer Ebene höhere Ebene Sensoren Verhalten Aktuatoren Direkte Verbindung mit physikalischen Sensoren und Aktuatoren Aggregation von Sensoren Spiegelung von Aktuatoren auf niedrigerer Ebene tiefere Ebene
Hemmung von Verhalten mehrere Verhalten können gleichzeitig aktiv sein 1 Aktivierungswunsch Aktivierung 1 Aktivierungen werden berechnet Danach wirkt der Hemmmechanismus Hemmung nur direkt, nicht transitiv mehrere Verhalten können gleichzeitig aktiv sein gerichteter azyklischer Hemmgraph multiplikative Hemmung Testverhalten hemmen alle anderen Verhalten
Aktuatordynamik Typen Kombination Float Vektor Boolean Objekt Roboter Ball Tor Position Kombination gewichtetes Mittel gewichtete Mehrheit Verhalten stimmen mit Aktivierung für einen Wert Wert mit den meisten Stimmen gewinnt W_j: Aktuatorwunsch des Verhaltens j Alpha_j: Aktivierung des Verhaltens j A_i: Aktuatorwert Delta_i: Akkumulierte Änderungswünsche Sigma_i: Akkumulierte Änderungsstärken (Aktivierungen) Objektaktuatoren erlauben Verhalten relativ zu Objekten
Team-Ebenen Team- sensoren aktuatoren verhalten Roboter- sensoren Die Roboter sind dem Team untergeordnet Sie sehen die Teamebenen als höhere Ebenen. Das Team beeinflusst die Roboter über Aktuatoren, die in den Robotersensoren gespiegelt werden.
Anlauf Vollstrecken aktiv x/2 Ball Schußziel x
Ball abfangen Ballvorhersage Anlauf Haurein
Panikausweichen Weg vom Hindernis Nur die nächsten zwei Hindernisse Je näher, desto stärker Superposition mit Steuern Kann in Sackgassen fahren
Pfadplanung Dynamische Programmierung Best-First-Suche Start Ziel Knick Findet den Pfad mit den geringsten Kosten Dynamische Programmierung Best-First-Suche
Vorhersagen Problem: Regelverzögerung 100...150ms exakt und langsam oder schell und ungenau Ansatz: Vorhersage des Bewegungszustands für die Zeit der Regelverzögerung Verhaltenssteuerung, als ob keine Verzögerung Eingabe: letzte Bewegungsinformationen letzte Aktuatorwerte Neuronales Netz, trainiert mit Daten des Monitors Ergebnis: schnell und genau
Feldspielerverhalten TeamEbene 0: Angriff, Abwehr, Aufstellen, Elfmeter, Freistoß, ... Ebene 2: BallBewegen, Decken, Gruppenfahren, Positionieren, ... Ebene 1: Anlauf, Dribbeln, Vollstrecken, Haurein, Hauweg, Passen, Pfadplanen, Positionieren, ... Ebene 0: Steuern, PanikAusweichen, TorwartFlucht, ... Ebene –1: Bewegungsregelung
Torwartverhalten Ebene 0: Ebene –1: Stellen, Halten, Hauweg, Elfmeter, ... Ebene –1: Bewegungsregelung Stellen Halten
Schuss Pfadplanen Stellen Anlauf Pfadplanen Halten Vollstrecken Schussziel Stellen Ziel Anlauf Pfadplanen Halten Vollstrecken
Schuss Anlauf Stellen Anlauf Pfadplanen Halten Vollstrecken Schussziel
Schuss Anlauf Stellen Anlauf Pfadplanen Halten Vollstrecken Schussziel
Schuss Stellen Vollstrecken Anlauf Pfadplanen Halten Vollstrecken Schussziel Stellen Vollstrecken Anlauf Pfadplanen Halten Vollstrecken
Schuss Halten Vollstrecken Anlauf Pfadplanen Halten Vollstrecken Schussziel Halten Vollstrecken Anlauf Pfadplanen Halten Vollstrecken
Schuss Halten Vollstrecken Anlauf Pfadplanen Halten Vollstrecken Schussziel Halten Vollstrecken Anlauf Pfadplanen Halten Vollstrecken
Schuss Halten Anlauf Pfadplanen Halten Vollstrecken
Passen Ziel Anlauf Schussziel Positionieren Anlauf Positionieren
Passen Passen Positionieren Anlauf Positionieren Passen Ziel Schussziel Positionieren Anlauf Positionieren Passen
Passen Passen Haurein Anlauf Positionieren Passen Haurein Ziel Schussziel Haurein Anlauf Positionieren Passen Haurein
Passen Haurein Anlauf Positionieren Passen Haurein
Passen Haurein Anlauf Positionieren Passen Haurein
Passen Haurein Anlauf Positionieren Passen Haurein
Video
Resultate Hierarchische Architektur zur reaktiven Verhaltenssteuerung vorgeschlagen Entwicklungsumgebung mit Verhaltensrahmen, Vorhersagen, Monitor, Simulator Anwendung in RoboCup-Team FU-Fighters SmallSize 1999-2002: 3x Vizeweltmeister, 1x vierter Platz Europameister 2000 Gewinner GermanOpen 2002, zweiter Platz 2001 MidSize 2002: Teilnahme GermanOpen, WM in Fukuoka Nutzung durch CMU Hunde im RoboCup 2000
Ausblick Ausbau der höheren Ebenen Lernen Anwendung auf andere Domänen Mehr komplexe Verhalten Teamverhalten Lernen Verstärkungslernen Lernen von Vorhersagen Parameterlernen Anwendung auf andere Domänen Sony-Hunde, humanoide Roboter
Verhaltensgruppe Prof. Raúl Rojas Alexander Gloye, Lars Knipping, Daniel Szer Andreas Schebesch, Martin Sprengel, Wolf Lindstrot, Lars Wolter, Mark Simon, Kirill Koulechov, Fabian Wiesel