Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Eine geschichtete Architektur zur reaktiven Verhaltenssteuerung

Ähnliche Präsentationen


Präsentation zum Thema: "Eine geschichtete Architektur zur reaktiven Verhaltenssteuerung"—  Präsentation transkript:

1 Eine geschichtete Architektur zur reaktiven Verhaltenssteuerung
Sven Behnke Freie Universität Berlin FB Mathematik und Informatik Institut für Informatik Arbeitsgruppe Künstliche Intelligenz

2 Überblick Problemstellung Ansätze zur Verhaltenssteuerung
Dual Dynamics Hierarchische Architektur RoboCup-Beispiel einzelne Verhalten Pfadplanung Vorhersagen Verhaltensübersicht

3 Autonome Mobile Roboter
vollständiger Agent Autonomie Selbsterhaltung Körperlichkeit Situiertheit ökologische Nische billig, ungenau „Fungus Eater“ by Isabelle Follath Masanao Toda 1962, Rolf Pfeifer 1994

4 RoboCup Fußballspiel als Benchmark der KI-Forschung
seit 1997 jährliche WM, lokale Wettbewerbe Ligen: SmallSize Simulation MidSize Sony Hunde Humanoide

5 Problemstellung der Verhaltenssteuerung
Gegeben: Agent, Situation Gesucht: Was soll ich jetzt tun? Agent Sensoren Kontrolle Aktuatoren Umwelt

6 Architekturen zur Verhaltenssteuerung
deliberativ sense-plan-act langsam, komplex reaktiv sense-act schnell, primitiv hybrid deliberative und reaktive Schicht eventuell Zwischenschicht verhaltensbasiert mehrere einfache Verhalten Interaktion erzeugt Komplexität Architektur = Beschränkung der möglichen Lösungen Angemessene Beschränkung kann hilfreich sein, eine gute Lösung zu finden

7 Deliberative Verhaltenssteuerung
Konstruktion eines vollständigen Weltmodells Ausarbeitung eines mehrstufigen Plans Durchführung des Plans Bsp.: Blocks World, Shakey Start Ziel The real world is full of distracting and obscuring detail: generally science progresses by focussing on artificially simple models of reality (in physics, frictionless planes and perfectly rigid bodies, for example). In 1970 Marvin Minsky and Seymour Papert, of the MIT AI Laboratory, proposed that AI research should likewise focus on developing programs capable of intelligent behaviour in artificially simple situations known as micro-worlds. Much research has focussed on the so-called blocks world, which consists of coloured blocks of various shapes and sizes arrayed on a flat surface. An early success of the micro-world approach was SHRDLU, written by Terry Winograd of MIT (details of the program were published in 1972). SHRDLU controlled a robot arm that operated above a flat surface strewn with play blocks (both the arm and the blocks were virtual). SHRDLU would respond to commands typed in natural English, such as "Will you please stack up both of the red blocks and either a green cube or a pyramid". The program would plan out a sequence of actions and in the virtual world the robot arm would arrange the blocks appropriately. SHRDLU could correctly answer questions about its world of blocks, for example "Can a pyramid be supported by a pyramid?" (SHRDLU attempts to stack up two pyramids and fails) and "Is there anything which is bigger than every pyramid but is not as wide as the thing that supports it?" (to which SHRDLU answered "Yes, the blue block"). SHRDLU could also answer questions about its own actions. Another product of the micro-world approach was Shakey, a mobile robot developed at the Stanford Research Institute by Bertram Raphael, Nils Nilsson and their group, during the period (Shakey can now be viewed at the Boston Computing Museum.) The robot occupied a specially built micro-world consisting of walls, doorways, and a few simply-shaped wooden blocks. Each wall had a carefully painted baseboard to enable the robot to "see" where the wall met the floor (a simplification of reality that is typical of the micro-world approach). Shakey had about a dozen basic abilities, such as TURN, PUSH and CLIMB-RAMP. These could be combined in various ways by the robot's planning programs. Shakey's primary sensor was a black-and-white television camera. Other sensors included a "bump bar", and odometry that enabled the robot to calculate its position by "dead reckoning". A demonstration video showed Shakey obeying an instruction to move a certain block from one room to another by locating a ramp, pushing the ramp to the platform on which the block happened to be located, trundling up the ramp, toppling the block onto the floor, descending the ramp, and manoeuvring the block to the required room, this sequence of actions having been devised entirely by the robot's planning program without human intervention. Critics emphasise the highly simplified nature of Shakey's environment and point out that, despite these simplifications, Shakey operated excruciatingly slowly--the sequence of actions in the demonstration video in fact took days to complete. * Planen dauert zu lange Konstruktion eines vollständigen Weltmodells ist unmöglich und unnötig Unvorhergesehene Entwicklungen machen Pläne hinfällig a a f b d f e d c e g b c g Heuristische Suche erzeugt Plan: a->T; b->T; d->c; e->b; a->e; f->d

8 Reaktive Verhaltenssteuerung
kein Weltmodell kein Plan direkte Kopplung von Sensoren und Aktuatoren Bsp.: Braitenberg Vehikel Valentino Braitenberg 1984 Taxis Valentino Braitenberg, Vehicles: experiments in synthetic psychology. MIT Press. (1984) „The world is ist own best model“

9 Hybride Verhaltenssteuerung
Versuch, das Beste aus beiden Welten zu vereinen Bsp.: drei Schichten reaktive Schicht (Regler) zustandslos, schnell, sensorgetrieben Zwischenschicht (Sequenzer) Repräsentation der Vergangenheit, Abstraktion Fehlererkennung, Alternativverhalten deliberative Schicht (Planer) Repräsentation der Zukunft, langsam, zielgetrieben Erann Gat 1998: Alfred Errann Gat „On three-layer architectures“ Artificial Intelligence and Mobile Robots, AAAI Press, 1998. Beispiele: 3T, ATLANTIS, DD&P Alfred: - B12 (dual drive, Odometrie, Ultrashall) - 6800, Powerbook tasks: „escape from the office“, „deliver the coffee“ reactiv: obstacle avoidance, wall-finding, wall-alignment, wall-following, wandering Sequencing: Steuerung der primitiven Verhalten, Map-building Deliberativ: pfadplanung durch Suche Verschiedene Repräsentationen und Algorithmen auf den verschiedenen Ebenen Interface Problem

10 Subsumptionsarchitektur
verhaltensbasiert, DEAs, Nachrichten Kompetenzebenen, steigende Komplexität Subsumption: Eingriff in niedrigere Ebene inkrementelles Design Kartierung Inkrementelles Design nur für die untersten Ebenen verwirklicht Subsumption erfordert genaue Kenntnis der unteren Ebene Reflexe funktionieren anders: Zurückzucken von der Herdplatte, ohne nachzudenken Aber: schnell funktionierenden Prototypen Exploration Herumfahren Hindernisvermeidung Sensoren Aktuatoren Rodney Brooks 1985

11 Dual Dynamics verhaltensbasiert dynamische Systeme
zwei Verhaltensarten: elementar, komplex elementare Verhalten haben zwei Module: Aktivierungsdynamik: Soll ich jetzt etwas tun? Zieldynamik: Was soll ich tun? keine Zieldynamik bei komplexen Verhalten Modi, Bifurkationen, Multifunktionalität Baut auf Process Description Language (PDL, Steels Vertommen 1992) auf Modus: relativ stabil, erzeugen qualitativ verschiedenes Verhalten Bifurkationen: Moduswechsel Multifunktionalität: ein Mechanismus wird mehrfach für unterschiedliche Zwecke benutzt Elementare Verhalten: - sensomotorische Koordination direkter Zugriff auf sensorische Daten Direkter Einfluss auf Aktuatoren Komplexe Verhalten: Zugriff auf Sensoren Kein Zugriff auf Aktuatoren Zieldynamik: hochdimensional, keine Bifurkationen Daher: wenn man qualitativ unterschiedliche Verhalten braucht, muss man mehrere elementare Verhalten benutzen Aktivierungsdynamik: nur eine Variable pro Verhalten, der Aktivierungsfaktor zwischen 0 und 1 Bifurkationen erlaubt, induziert durch komplexe Verhalten auf höherer Ebene „Kontrollparameter“ Höhere Ebenen konfigurieren die elementaren Verhalten, kein Aufruf von Funktionen Langsamere Zeitskala auf höherer Ebene Aktivierung: Sensorgetrieben Hemmung Superposition Nicht nur Selektion von Aktionen Herbert Jaeger 1995

12 Hierarchie reaktiver Verhalten
langsam Organisationsprinzip: Änderungsgeschwindigkeit schnell Sensoren Verhalten Aktuatoren

13 Aufbau einer Ebene höhere Ebene Sensoren Verhalten Aktuatoren
Direkte Verbindung mit physikalischen Sensoren und Aktuatoren Aggregation von Sensoren Spiegelung von Aktuatoren auf niedrigerer Ebene tiefere Ebene

14 Hemmung von Verhalten mehrere Verhalten können gleichzeitig aktiv sein
1 Aktivierungswunsch Aktivierung 1 Aktivierungen werden berechnet Danach wirkt der Hemmmechanismus Hemmung nur direkt, nicht transitiv mehrere Verhalten können gleichzeitig aktiv sein gerichteter azyklischer Hemmgraph multiplikative Hemmung Testverhalten hemmen alle anderen Verhalten

15 Aktuatordynamik Typen Kombination Float Vektor Boolean Objekt
Roboter Ball Tor Position Kombination gewichtetes Mittel gewichtete Mehrheit Verhalten stimmen mit Aktivierung für einen Wert Wert mit den meisten Stimmen gewinnt W_j: Aktuatorwunsch des Verhaltens j Alpha_j: Aktivierung des Verhaltens j A_i: Aktuatorwert Delta_i: Akkumulierte Änderungswünsche Sigma_i: Akkumulierte Änderungsstärken (Aktivierungen) Objektaktuatoren erlauben Verhalten relativ zu Objekten

16 Team-Ebenen Team- sensoren aktuatoren verhalten Roboter- sensoren
Die Roboter sind dem Team untergeordnet Sie sehen die Teamebenen als höhere Ebenen. Das Team beeinflusst die Roboter über Aktuatoren, die in den Robotersensoren gespiegelt werden.

17 Anlauf Vollstrecken aktiv x/2 Ball Schußziel x

18 Ball abfangen Ballvorhersage Anlauf Haurein

19 Panikausweichen Weg vom Hindernis Nur die nächsten zwei Hindernisse
Je näher, desto stärker Superposition mit Steuern Kann in Sackgassen fahren

20 Pfadplanung Dynamische Programmierung Best-First-Suche Start Ziel
Knick Findet den Pfad mit den geringsten Kosten Dynamische Programmierung Best-First-Suche

21 Vorhersagen Problem: Regelverzögerung 100...150ms
exakt und langsam oder schell und ungenau Ansatz: Vorhersage des Bewegungszustands für die Zeit der Regelverzögerung Verhaltenssteuerung, als ob keine Verzögerung Eingabe: letzte Bewegungsinformationen letzte Aktuatorwerte Neuronales Netz, trainiert mit Daten des Monitors Ergebnis: schnell und genau

22 Feldspielerverhalten
TeamEbene 0: Angriff, Abwehr, Aufstellen, Elfmeter, Freistoß, ... Ebene 2: BallBewegen, Decken, Gruppenfahren, Positionieren, ... Ebene 1: Anlauf, Dribbeln, Vollstrecken, Haurein, Hauweg, Passen, Pfadplanen, Positionieren, ... Ebene 0: Steuern, PanikAusweichen, TorwartFlucht, ... Ebene –1: Bewegungsregelung

23 Torwartverhalten Ebene 0: Ebene –1: Stellen, Halten,
Hauweg, Elfmeter, ... Ebene –1: Bewegungsregelung Stellen Halten

24 Schuss Pfadplanen Stellen Anlauf Pfadplanen Halten Vollstrecken
Schussziel Stellen Ziel Anlauf Pfadplanen Halten Vollstrecken

25 Schuss Anlauf Stellen Anlauf Pfadplanen Halten Vollstrecken Schussziel

26 Schuss Anlauf Stellen Anlauf Pfadplanen Halten Vollstrecken Schussziel

27 Schuss Stellen Vollstrecken Anlauf Pfadplanen Halten Vollstrecken
Schussziel Stellen Vollstrecken Anlauf Pfadplanen Halten Vollstrecken

28 Schuss Halten Vollstrecken Anlauf Pfadplanen Halten Vollstrecken
Schussziel Halten Vollstrecken Anlauf Pfadplanen Halten Vollstrecken

29 Schuss Halten Vollstrecken Anlauf Pfadplanen Halten Vollstrecken
Schussziel Halten Vollstrecken Anlauf Pfadplanen Halten Vollstrecken

30 Schuss Halten Anlauf Pfadplanen Halten Vollstrecken

31 Passen Ziel Anlauf Schussziel Positionieren Anlauf Positionieren

32 Passen Passen Positionieren Anlauf Positionieren Passen Ziel
Schussziel Positionieren Anlauf Positionieren Passen

33 Passen Passen Haurein Anlauf Positionieren Passen Haurein Ziel
Schussziel Haurein Anlauf Positionieren Passen Haurein

34 Passen Haurein Anlauf Positionieren Passen Haurein

35 Passen Haurein Anlauf Positionieren Passen Haurein

36 Passen Haurein Anlauf Positionieren Passen Haurein

37 Video

38 Resultate Hierarchische Architektur zur reaktiven Verhaltenssteuerung vorgeschlagen Entwicklungsumgebung mit Verhaltensrahmen, Vorhersagen, Monitor, Simulator Anwendung in RoboCup-Team FU-Fighters SmallSize : 3x Vizeweltmeister, 1x vierter Platz Europameister 2000 Gewinner GermanOpen 2002, zweiter Platz 2001 MidSize 2002: Teilnahme GermanOpen, WM in Fukuoka Nutzung durch CMU Hunde im RoboCup 2000

39 Ausblick Ausbau der höheren Ebenen Lernen Anwendung auf andere Domänen
Mehr komplexe Verhalten Teamverhalten Lernen Verstärkungslernen Lernen von Vorhersagen Parameterlernen Anwendung auf andere Domänen Sony-Hunde, humanoide Roboter

40 Verhaltensgruppe Prof. Raúl Rojas
Alexander Gloye, Lars Knipping, Daniel Szer Andreas Schebesch, Martin Sprengel, Wolf Lindstrot, Lars Wolter, Mark Simon, Kirill Koulechov, Fabian Wiesel


Herunterladen ppt "Eine geschichtete Architektur zur reaktiven Verhaltenssteuerung"

Ähnliche Präsentationen


Google-Anzeigen