Eine geschichtete Architektur zur reaktiven Verhaltenssteuerung

Slides:



Advertisements
Ähnliche Präsentationen
Entscheiden unter Unsicherheit: Heuristiken und Biases
Advertisements

Selbstorganisation und Lernen
Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz
Heterogene Informationssysteme
Eingebettete Systeme Qualität und Produktivität
Emergente Koordination autonomer Roboter im engen physischen und sensorischen Kontakt. Ralf Der, Frank Hesse Universität Leipzig - Institut für Informatik.
Koordination von Fußballrobotern
Vergleichende Untersuchungen zur effizienten VHDL-Simulation
Soccer without Reason - Das RoboCup-Team der FU Berlin
Ralf Salomon, Frank Golatowski
Kooperierende autonome Fahrzeuge
Robotik Re-usable Content in 3D und Simulationssysteme
Universität des Saarlandes Fachbereich Informatik Lehrstuhl Prof. Dr
Technische Universität München Statusbericht Robosoccer Gruppe C
WIRTSCHAFTSINFORMATIK Westfälische Wilhelms-Universität Münster WIRTSCHAFTS INFORMATIK Seminar Software Agenten Agenten als Informationsfilter Referent.
Informatik WWU Münster / D. Lammers / HST-WiSe05 Robotfussball und Agenten Und was hat das mit der Informatik an der WWU zu tun?
Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie II (Teil 2): Simulation und 3D Programmierung Prof.
Kognitive Robotik. – oder – Wie spielt man Roboter-Fußball? Vortrag Allgemeine Psychologie Universität Tübingen 15. Mai 2002 Dirk Neumann
Informatik WWU Münster / D. Lammers / HST-WiSe04 Robotfussball und Agenten Und was hat das mit der Informatik an der WWU zu tun?
Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.
Kognitive Robotik Eine Einführung
Algorithmen und Komplexität
1/16 UNIVERSITY OF PADERBORN Projektgruppe KIMAS Projektgruppe KIMAS Agenten Andreas Goebels, Alexander Weimer.
Was sind Histogramme? (1)
1 Friedrich-Alexander-Universität Erlangen-Nürnberg Christoph Rager Modellbasierte Zuverlässigkeitsanalyse (Hauptseminar 1: Qualitäts- und Zuverlässigkeitsmangagement)
1 25 Jahre Informatik in Koblenz Veranstaltungen am Nachmittag Studiengänge Laborpräsentationen.
Innere Arbeitsmodelle – Was ist das?
Informatik WWU Münster / D. Lammers / HST-WiSe03 Robotfussball und Agenten Und was hat das mit der Informatik an der WWU zu tun?
Steuerungsarchitekturen für Stand-Alone-Robotersysteme
Neuronale Netzwerke am Beispiel eines MLP
Maschinelles Lernen und automatische Textklassifikation
Topologische Navigation: Der Routengraph
Einführung in die Agenten-Technologie
RFS Roboter Fussball Simulation. Projektdaten Warum gibt es dieses Projekt: Jahr der Informatik Anfrage des Fördervereins Fussballweltmeisterschaft in.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Layered Learning Kapitel 4. Voraussetzungen 1. Komplexe Domain realtime noisy limited communications viele bewegt Objekte (Ball, Mitspieler, Gegner) direktes.
Didaktik Fachtagung übergreifende Kompetenzförderung für SchülerInnen - RoboCupJunior.
Künstliches Neuronales Netz nach John Hopfield
Kompetenz -, Lern - und Prüfungsbereiche Anforderungsbereiche
EURO 2008 – Das Offensivspiel
Taktiktraining „Wir üben zuviel und spielen zu wenig!“
Können Maschinen handeln? Silvia Picey Dania Pfeifenberger
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken III Christian Schindelhauer
Hochschule Fulda – FB ET Sommersemester 2014
Klassifikation und Regression mittels neuronaler Netze
Artificial Intelligience
Agenten und Multi-Agenten-System
OOSE nach Jacobson Sebastian Pohl/ST7 Betreuer: Prof. Dr. Kahlbrandt.
Adaptive Modellierung und Simulation Kapitel 1: Einleitung
Roboter-Fußball: Die RoboCup- Initiative Prof. Dr. Raúl Rojas Freie Universität Berlin mit freundlicher Unterstützung von Prof. Bernhard Nebel Albert-Ludwigs-Universität.
Eine geschichtete Architektur zur reaktiven Verhaltenssteuerung
Team-Steuerung Robbi 1 Team-Ebenen Robbi 2Robbi 3Robbi 4Robbi 5.
Robocup: Roboter spielen Fußball Bernhard Frötschl, Wolf Lindstrot Freie Universität Berlin mit freundlicher Unterstützung von Prof. Bernhard Nebel Albert-Ludwigs-Universität.
FU-FIGHTERS FREIE UNIVERSITÄT BERLIN Das RoboCup-Team der Freien Universität Berlin Peter Ackers, Sven Behnke, Bernhard Frötschl, Wolf Lindstrot, Manuel.
AB TAMS Technische Aspekte Multimodaler Systeme Daniel Westhoff Universität Hamburg Fachbereich Informatik Proseminar:
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung Voronoi-Diagramme.
Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik
Design und Optimierung optischer Systeme durch Neuronale Netze und Genetische Algorithmen.
Industrielle Bildverarbeitung
GAME PROGRAMMING PATTERNS – FLYWEIGHT & OBSERVER Robert Nystrom Softwaretechnologie II Teil 2 Anike Schulz.
Spatial Partition Game Programming Patterns / Optimization Patterns AM3: Softwaretechnologie II (Teil 2): Simulation und 3D Programmierung Dozent: Prof.
Game Loop & Update Method Robert Nystrom – Game Programming Patterns Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung SS.
Übungen Ziele Struktur Besonderheiten Trainer Aspekte Methodische Aspekte ABC´s Quellen Übertrag Workshop.
TU Darmstadt FB 20 Informatik Wahr·neh·mung von Martin Tschirsich, Shuo Yang & Zijad Hausübung 2: Informationsextraktion (Kausalität, Raum und Bewegung)
BY : Bundesligalivestreams.orgBundesligalivestreams.org.
Mobile und kontextbezogene Datenbanktechnologien und Anwendungen
Simple Recurrent Networks
Roboter und Agenten HST 06 – Roboter und Agenten – D. Lammers - 1.
Deep Learning Simon Fankhauser, Donato Villani - AAI HS 17.
Ausbildungskonzept JFG Kronburg
 Präsentation transkript:

Eine geschichtete Architektur zur reaktiven Verhaltenssteuerung Sven Behnke Freie Universität Berlin FB Mathematik und Informatik Institut für Informatik Arbeitsgruppe Künstliche Intelligenz

Überblick Problemstellung Ansätze zur Verhaltenssteuerung Dual Dynamics Hierarchische Architektur RoboCup-Beispiel einzelne Verhalten Pfadplanung Vorhersagen Verhaltensübersicht

Autonome Mobile Roboter vollständiger Agent Autonomie Selbsterhaltung Körperlichkeit Situiertheit ökologische Nische billig, ungenau „Fungus Eater“ by Isabelle Follath Masanao Toda 1962, Rolf Pfeifer 1994

RoboCup Fußballspiel als Benchmark der KI-Forschung seit 1997 jährliche WM, lokale Wettbewerbe Ligen: SmallSize Simulation MidSize Sony Hunde Humanoide

Problemstellung der Verhaltenssteuerung Gegeben: Agent, Situation Gesucht: Was soll ich jetzt tun? Agent Sensoren Kontrolle Aktuatoren Umwelt

Architekturen zur Verhaltenssteuerung deliberativ sense-plan-act langsam, komplex reaktiv sense-act schnell, primitiv hybrid deliberative und reaktive Schicht eventuell Zwischenschicht verhaltensbasiert mehrere einfache Verhalten Interaktion erzeugt Komplexität Architektur = Beschränkung der möglichen Lösungen Angemessene Beschränkung kann hilfreich sein, eine gute Lösung zu finden

Deliberative Verhaltenssteuerung Konstruktion eines vollständigen Weltmodells Ausarbeitung eines mehrstufigen Plans Durchführung des Plans Bsp.: Blocks World, Shakey Start Ziel The real world is full of distracting and obscuring detail: generally science progresses by focussing on artificially simple models of reality (in physics, frictionless planes and perfectly rigid bodies, for example). In 1970 Marvin Minsky and Seymour Papert, of the MIT AI Laboratory, proposed that AI research should likewise focus on developing programs capable of intelligent behaviour in artificially simple situations known as micro-worlds. Much research has focussed on the so-called blocks world, which consists of coloured blocks of various shapes and sizes arrayed on a flat surface. An early success of the micro-world approach was SHRDLU, written by Terry Winograd of MIT (details of the program were published in 1972). SHRDLU controlled a robot arm that operated above a flat surface strewn with play blocks (both the arm and the blocks were virtual). SHRDLU would respond to commands typed in natural English, such as "Will you please stack up both of the red blocks and either a green cube or a pyramid". The program would plan out a sequence of actions and in the virtual world the robot arm would arrange the blocks appropriately. SHRDLU could correctly answer questions about its world of blocks, for example "Can a pyramid be supported by a pyramid?" (SHRDLU attempts to stack up two pyramids and fails) and "Is there anything which is bigger than every pyramid but is not as wide as the thing that supports it?" (to which SHRDLU answered "Yes, the blue block"). SHRDLU could also answer questions about its own actions. Another product of the micro-world approach was Shakey, a mobile robot developed at the Stanford Research Institute by Bertram Raphael, Nils Nilsson and their group, during the period 1968-1972. (Shakey can now be viewed at the Boston Computing Museum.) The robot occupied a specially built micro-world consisting of walls, doorways, and a few simply-shaped wooden blocks. Each wall had a carefully painted baseboard to enable the robot to "see" where the wall met the floor (a simplification of reality that is typical of the micro-world approach). Shakey had about a dozen basic abilities, such as TURN, PUSH and CLIMB-RAMP. These could be combined in various ways by the robot's planning programs. Shakey's primary sensor was a black-and-white television camera. Other sensors included a "bump bar", and odometry that enabled the robot to calculate its position by "dead reckoning". A demonstration video showed Shakey obeying an instruction to move a certain block from one room to another by locating a ramp, pushing the ramp to the platform on which the block happened to be located, trundling up the ramp, toppling the block onto the floor, descending the ramp, and manoeuvring the block to the required room, this sequence of actions having been devised entirely by the robot's planning program without human intervention. Critics emphasise the highly simplified nature of Shakey's environment and point out that, despite these simplifications, Shakey operated excruciatingly slowly--the sequence of actions in the demonstration video in fact took days to complete. * Planen dauert zu lange Konstruktion eines vollständigen Weltmodells ist unmöglich und unnötig Unvorhergesehene Entwicklungen machen Pläne hinfällig a a f b d f e d c e g b c g Heuristische Suche erzeugt Plan: a->T; b->T; d->c; e->b; a->e; f->d

Reaktive Verhaltenssteuerung kein Weltmodell kein Plan direkte Kopplung von Sensoren und Aktuatoren Bsp.: Braitenberg Vehikel Valentino Braitenberg 1984 Taxis Valentino Braitenberg, Vehicles: experiments in synthetic psychology. MIT Press. (1984) „The world is ist own best model“

Hybride Verhaltenssteuerung Versuch, das Beste aus beiden Welten zu vereinen Bsp.: drei Schichten reaktive Schicht (Regler) zustandslos, schnell, sensorgetrieben Zwischenschicht (Sequenzer) Repräsentation der Vergangenheit, Abstraktion Fehlererkennung, Alternativverhalten deliberative Schicht (Planer) Repräsentation der Zukunft, langsam, zielgetrieben Erann Gat 1998: Alfred Errann Gat „On three-layer architectures“ Artificial Intelligence and Mobile Robots, AAAI Press, 1998. Beispiele: 3T, ATLANTIS, DD&P Alfred: - B12 (dual drive, Odometrie, Ultrashall) - 6800, Powerbook tasks: „escape from the office“, „deliver the coffee“ reactiv: obstacle avoidance, wall-finding, wall-alignment, wall-following, wandering Sequencing: Steuerung der primitiven Verhalten, Map-building Deliberativ: pfadplanung durch Suche Verschiedene Repräsentationen und Algorithmen auf den verschiedenen Ebenen Interface Problem

Subsumptionsarchitektur verhaltensbasiert, DEAs, Nachrichten Kompetenzebenen, steigende Komplexität Subsumption: Eingriff in niedrigere Ebene inkrementelles Design Kartierung Inkrementelles Design nur für die untersten Ebenen verwirklicht Subsumption erfordert genaue Kenntnis der unteren Ebene Reflexe funktionieren anders: Zurückzucken von der Herdplatte, ohne nachzudenken Aber: schnell funktionierenden Prototypen Exploration Herumfahren Hindernisvermeidung Sensoren Aktuatoren Rodney Brooks 1985

Dual Dynamics verhaltensbasiert dynamische Systeme zwei Verhaltensarten: elementar, komplex elementare Verhalten haben zwei Module: Aktivierungsdynamik: Soll ich jetzt etwas tun? Zieldynamik: Was soll ich tun? keine Zieldynamik bei komplexen Verhalten Modi, Bifurkationen, Multifunktionalität Baut auf Process Description Language (PDL, Steels Vertommen 1992) auf Modus: relativ stabil, erzeugen qualitativ verschiedenes Verhalten Bifurkationen: Moduswechsel Multifunktionalität: ein Mechanismus wird mehrfach für unterschiedliche Zwecke benutzt Elementare Verhalten: - sensomotorische Koordination direkter Zugriff auf sensorische Daten Direkter Einfluss auf Aktuatoren Komplexe Verhalten: Zugriff auf Sensoren Kein Zugriff auf Aktuatoren Zieldynamik: hochdimensional, keine Bifurkationen Daher: wenn man qualitativ unterschiedliche Verhalten braucht, muss man mehrere elementare Verhalten benutzen Aktivierungsdynamik: nur eine Variable pro Verhalten, der Aktivierungsfaktor zwischen 0 und 1 Bifurkationen erlaubt, induziert durch komplexe Verhalten auf höherer Ebene „Kontrollparameter“ Höhere Ebenen konfigurieren die elementaren Verhalten, kein Aufruf von Funktionen Langsamere Zeitskala auf höherer Ebene Aktivierung: Sensorgetrieben Hemmung Superposition Nicht nur Selektion von Aktionen Herbert Jaeger 1995

Hierarchie reaktiver Verhalten langsam Organisationsprinzip: Änderungsgeschwindigkeit schnell Sensoren Verhalten Aktuatoren

Aufbau einer Ebene höhere Ebene Sensoren Verhalten Aktuatoren Direkte Verbindung mit physikalischen Sensoren und Aktuatoren Aggregation von Sensoren Spiegelung von Aktuatoren auf niedrigerer Ebene tiefere Ebene

Hemmung von Verhalten mehrere Verhalten können gleichzeitig aktiv sein 1 Aktivierungswunsch Aktivierung 1 Aktivierungen werden berechnet Danach wirkt der Hemmmechanismus Hemmung nur direkt, nicht transitiv mehrere Verhalten können gleichzeitig aktiv sein gerichteter azyklischer Hemmgraph multiplikative Hemmung Testverhalten hemmen alle anderen Verhalten

Aktuatordynamik Typen Kombination Float Vektor Boolean Objekt Roboter Ball Tor Position Kombination gewichtetes Mittel gewichtete Mehrheit Verhalten stimmen mit Aktivierung für einen Wert Wert mit den meisten Stimmen gewinnt W_j: Aktuatorwunsch des Verhaltens j Alpha_j: Aktivierung des Verhaltens j A_i: Aktuatorwert Delta_i: Akkumulierte Änderungswünsche Sigma_i: Akkumulierte Änderungsstärken (Aktivierungen) Objektaktuatoren erlauben Verhalten relativ zu Objekten

Team-Ebenen Team- sensoren aktuatoren verhalten Roboter- sensoren Die Roboter sind dem Team untergeordnet Sie sehen die Teamebenen als höhere Ebenen. Das Team beeinflusst die Roboter über Aktuatoren, die in den Robotersensoren gespiegelt werden.

Anlauf Vollstrecken aktiv x/2 Ball Schußziel x

Ball abfangen Ballvorhersage Anlauf Haurein

Panikausweichen Weg vom Hindernis Nur die nächsten zwei Hindernisse Je näher, desto stärker Superposition mit Steuern Kann in Sackgassen fahren

Pfadplanung Dynamische Programmierung Best-First-Suche Start Ziel Knick Findet den Pfad mit den geringsten Kosten Dynamische Programmierung Best-First-Suche

Vorhersagen Problem: Regelverzögerung 100...150ms exakt und langsam oder schell und ungenau Ansatz: Vorhersage des Bewegungszustands für die Zeit der Regelverzögerung Verhaltenssteuerung, als ob keine Verzögerung Eingabe: letzte Bewegungsinformationen letzte Aktuatorwerte Neuronales Netz, trainiert mit Daten des Monitors Ergebnis: schnell und genau

Feldspielerverhalten TeamEbene 0: Angriff, Abwehr, Aufstellen, Elfmeter, Freistoß, ... Ebene 2: BallBewegen, Decken, Gruppenfahren, Positionieren, ... Ebene 1: Anlauf, Dribbeln, Vollstrecken, Haurein, Hauweg, Passen, Pfadplanen, Positionieren, ... Ebene 0: Steuern, PanikAusweichen, TorwartFlucht, ... Ebene –1: Bewegungsregelung

Torwartverhalten Ebene 0: Ebene –1: Stellen, Halten, Hauweg, Elfmeter, ... Ebene –1: Bewegungsregelung Stellen Halten

Schuss Pfadplanen Stellen Anlauf Pfadplanen Halten Vollstrecken Schussziel Stellen Ziel Anlauf Pfadplanen Halten Vollstrecken

Schuss Anlauf Stellen Anlauf Pfadplanen Halten Vollstrecken Schussziel

Schuss Anlauf Stellen Anlauf Pfadplanen Halten Vollstrecken Schussziel

Schuss Stellen Vollstrecken Anlauf Pfadplanen Halten Vollstrecken Schussziel Stellen Vollstrecken Anlauf Pfadplanen Halten Vollstrecken

Schuss Halten Vollstrecken Anlauf Pfadplanen Halten Vollstrecken Schussziel Halten Vollstrecken Anlauf Pfadplanen Halten Vollstrecken

Schuss Halten Vollstrecken Anlauf Pfadplanen Halten Vollstrecken Schussziel Halten Vollstrecken Anlauf Pfadplanen Halten Vollstrecken

Schuss Halten Anlauf Pfadplanen Halten Vollstrecken

Passen Ziel Anlauf Schussziel Positionieren Anlauf Positionieren

Passen Passen Positionieren Anlauf Positionieren Passen Ziel Schussziel Positionieren Anlauf Positionieren Passen

Passen Passen Haurein Anlauf Positionieren Passen Haurein Ziel Schussziel Haurein Anlauf Positionieren Passen Haurein

Passen Haurein Anlauf Positionieren Passen Haurein

Passen Haurein Anlauf Positionieren Passen Haurein

Passen Haurein Anlauf Positionieren Passen Haurein

Video

Resultate Hierarchische Architektur zur reaktiven Verhaltenssteuerung vorgeschlagen Entwicklungsumgebung mit Verhaltensrahmen, Vorhersagen, Monitor, Simulator Anwendung in RoboCup-Team FU-Fighters SmallSize 1999-2002: 3x Vizeweltmeister, 1x vierter Platz Europameister 2000 Gewinner GermanOpen 2002, zweiter Platz 2001 MidSize 2002: Teilnahme GermanOpen, WM in Fukuoka Nutzung durch CMU Hunde im RoboCup 2000

Ausblick Ausbau der höheren Ebenen Lernen Anwendung auf andere Domänen Mehr komplexe Verhalten Teamverhalten Lernen Verstärkungslernen Lernen von Vorhersagen Parameterlernen Anwendung auf andere Domänen Sony-Hunde, humanoide Roboter

Verhaltensgruppe Prof. Raúl Rojas Alexander Gloye, Lars Knipping, Daniel Szer Andreas Schebesch, Martin Sprengel, Wolf Lindstrot, Lars Wolter, Mark Simon, Kirill Koulechov, Fabian Wiesel