Nichtdeterministische Planung - TZI

Nichtdeterministische Planung 

Vorlesung Handlungsplanung 

Stefan Edelkamp

1 Überblick 

- Transitionssysteme & Zustandsaktionstabellen 

- Ausführungsstrukturen und Pfade 

- Schwache, Starke und Stark-Zyklische Pläne 

- BDD Explorationsalgorithmen 

- Konformantes Planen 

- . . . mit BDDs 

- . . . mit SAT/QBF 

- . . . mit heuristischer Suche 

- . . . alternativ 

Überblick 1

2 Nichtdeterministisches Planen 

Eine nichtdeterministisches Planungsproblem wird oft in einem Transitionssystem 

über eine Transitionsrelation 

R ⊆ S × O × S 

Unterschiede zum deterministischen Planen 

• Ausführung einer Aktion in möglicherweise mehrere unterschiedliche Zustände 

• Mehrere Initialzustände, d.h. I ⊆ S, sind möglich 

• Pläne sind Ausführungseinheiten, eingebettet in einer Umgebung 

Nichtdeterministisches Planen 2

Pläne als Ausführungseinheiten 

Die ausführbaren Aktionen im Zustand S sind 

Die Ausführung von O ist die Menge 

Act(S) = {O | ∃S ′ : R(S, O, S ′ )}. 

Exec(S, O) = {S ′ | R(S, O, S ′ )} 

Pläne sind im nichtdeterministischen Kontext Ausführungseinheiten oder 

Zustandsaktionstabellen (von Cimatti et al. vorgeschlagen) 

Zustandsaktionstabellen ähneln universellen Plänen und Politiken 


Zustandsaktionstabellen 

Zustandsaktionstabelle π einer Planungsdomäne P: {(S, O) | S ∈ S, O ∈ O} 

- Gibt es nur eine Aktion O für jedes S, so ist das Problem deterministisch. 

- Die Zustände von π werden mit S(π) abgekürzt 

Die Ausführung von Plänen π geschieht in einer Schleife in einer umgebenden Welt. 

Solange der aktuelle Zustand S in S(π) liegt, 

1. wird die passende Aktion in π ausgewählt 

2. in der Umgebung ausgeführt und 

3. der resultierende Weltzustand erfragt 


Ausführungsstruktur 

Die von π induzierte Ausführungsstruktur K = (Q, T ) mit 

- Q ⊆ S und 

- T ⊆ S × S 

bzgl. dem Initialzustand I ist rekursiv definiert: 

• I ⊆ Q. 

• Falls mit jedem S ∈ Q und (S, O) ∈ π mit R(S, O, S ′ ) gilt, ist S ′ ∈ Q und 

T (S, S ′ ). 

. . . entsprechen Kripke-Strukturen. 


Ausführungspfad 

Ausführungspfad in K von S0 ∈ I: 

möglicherweise unendliche Folge S0, S1, S2, . . . von Zuständen in Q, so dass 

Für alle Zustände Si 

• entweder Si ein Endzustand ohne Nachfolger ist, oder 

• T (Si, S i+1) gilt 


3 Schwache und Starke bzw. Stark-Zyklische Pläne 

Für ein Planungsproblem P bzgl. I induzierter Ausführungsstruktur K = (Q, T ) 

nennen wir einen deterministischen Plan π 

schwache Lösung , falls für jeden Zustand in I ein Endzustand aus der 

Zielmenge G erreichbar ist; 

starke Lösung , falls K azyklisch ist und alle Endzustustände aus K in G 

enthalten sind; und 

stark-zyklische Lösung falls von jedem Zustand in Q ein Endzustand erreichbar 

ist und alle Endzustustände aus K in G enthalten sind. 

Schwache und Starke bzw. Stark-Zyklische Pläne 7

Intuition 

Schwache Pläne: Planziel kann aber muss nicht erreicht werden 

Starke Pläne: Planziel wird unabhängig vom Nichtdeterminismus immer erreicht 

Stark-Zyklische Pläne: Formalisieren die intuitive Notation von gültigen 

Versuch-und-Irrtum Strategien: 

Alle Ausführungspfade haben eine Möglichkeit zur Terminierung und sichern das 

Erreichen des Ziels. 


Nichtdeterministischer Plan 

Ein nichtdeterministischer Plan in Form einer Zustandsaktionstabelle ist schwach, 

stark, bzw. stark-zyklisch: 

wenn alle deterministischen Teilpläne mit gleicher Zustandsmenge schwach, stark 

bzw. stark-zyklisch sind. 

Es gilt: Stark-zyklische Pläne sind auch stark und starke Pläne sind auch schwach. 

Hier: Schwaches und starkes Planen. 


Implementation mit BDDs 

Allein die explizite Repräsentation der Übergangsmatrix der Größe |S| × |O| kann 

die zu Verfügung stehenden Resourcen sprengen. 

⇒ repräsentiere Pläne als BDDs 

Annahme: (monolithische oder partitionierte) BDDs für Transitionsrelation 


Rückwärtsexploration 

Exploration des Zustandsraumes: Am besten rückwärts beginnend mit den 

Zielknoten und einem leeren Plan. 

Berechnung der Vorgängermenge: Für das starke und schwache Planen 

unterschiedlich. 

Für schwache Pläne fordern wir nur die Existenz eines Nachfolgers, der das Ziel 

erreicht, . . . 

. . . während wir für starke Pläne, diese Bedingung von alle Nachfolgern einfordern. 


Starke und Schwache Urbilder 

WeakPreImage(S, O) = {S | R(S, O, S ′ ), S ′ ∈ S} 

Menge aller Zustände, von denen aus man mit O in S landen kann und 

SrongPreImage(S, O) = {S | ∅ = Exec(S, O) ⊆ S} 

Menge aller Zustände, in denen O anwendbar ist und jede Ausfürung in S landet. 

Procedure PreImage(S) 

if (Strong) return ∀e : (T → S) ∧ Applicable 

if (Weak) return ∃e : T ∧ S 


Algo. zur schwachen bzw. starken Planfindung 

Zustandsaktionstabelle wird in jedem Schritt um die Bildberechnung zum 

Vorgänger erweitert. 

Bezeichnungen 

• Alte Tabelle π ′ , 

• neue Tabelle mit π 

Algorithmus terminiert, falls sich keine weitere Veränderung von π ′ nach π ergibt. 

Alternativen Abbruch, wenn BFS vom Ziel ausgehend alle Initialzustände umfasst. 


Pseudo-Code Implementation 

Procedure Nondeterministic 

π ′ ← 1 

π ← 0 

S ← G ∨ S(π) 

while (π = π ′ ) ∧ (I ⊆ S) 

π ′ ← π 

Π ← PreImage(S) 

Π ← Π[p ↔ e] 

π ← π ∨ (Π ∧ ¬S) 

S ← G ∨ S(π) 


Temporale Ziele 

Stark zyklische Pläne können in den Kontext temporal erweiterter Ziele 

eingegliedert werden. 

Hierbei geht es darum mit dem Planziel eine temporallogische Formel zu 

verbinden, die den Gültigkeitsbereich des Zieles festlegt. 

Vorgeschlagen wurde der temporallogische Kalkül CTL (Branching Time Logic) 

In CTL steht A für always, G für generally, E für existential, und F für eventually. 

Die Überprüfung, ob eine temporallogische Formel φ in einem Modell M gilt, wird in 

der Modellprüfung untersucht. 

Alternative: Linear Temporal Logic (LTL) 


Schwache und Starke Pläne in CTL 

Forderung nach einem schwachen Plan zum Ziel φ, durch Formel EF φ. 

Forderung nach einem starken Plan zum Ziel φ, durch Formel AG φ. 

Forderung nach einem stark-zyklischer Plan zum Ziel φ, durch Formel AGEF φ. 

AGEF φ liest sich als: es ist für alle Auswahlen von Pfaden immer gegeben, dass es 

einen ausgehenden Weg gibt, bei dem Formel φ erfüllt ist. 


4 Konformantes Planen 

Aufgabe: Sequenz von Aktionen - Gegebene Unsicherheit über den Initialzustand 

und über Effekte von Aktionen - ohne Informationsgewinn über den aktuellen 

Zustand 

Ein konformanter Plan ist somit eine Welten das Planziel erreicht. 

Ein Plan ist konformant, falls 

• die Menge der Startzustände I in π enthalten ist, kurz I ⊆ S(π) und 

• die Ausführung von π in I das Ziel erreicht, also Exec(π, I) ⊆ G. 

Konformantes Planen 17

Konformantes Planen mit BDDs 

Der symbolische Ansatz zum konformanten Planen nutzt Zustandsplantabellen SP, 

die Paare (S, π) mit S ⊆ S und π ∈ O ∗ beschreiben. 

Dabei sei ɛ der leere Plan. 

Die Eingabe des Algorithmus sind die Mengen I und G. 

Menge aller konformanter Pläne in der Tabelle SP durch 

GetPlans(G, SP ) = {π | ∃(S, π) ∈ SP ∧ S ⊆ G} 


Weitere Teilroutinen 

ConformantImage generiert eine neue SP Tabelle, die alle Erweiterung der 

konformanter Pläne der Länge i − 1 betreffen. 

ConformantImage(SP ) = 

{((S, π), O)| ∃(S ′ , π) ∈ SP ∧ O ∈ Act(S ′ ) ∧ S = Exec(O, S ′ )} 

ConformantPrune: Löschungen neu generierter Tabelle SP von den Plänen, die 

entweder von anderen Plänen gleicher oder geringerer Länge subsumiert werden. 

ConformantPrune(SP, i) = 

{(S ′ , π ′ ) ∈ SPi | ∃(S, π) ∈ SPi : π = π ′ ∧ S ⊂ S ′ ∧ 

∀j 


Pseudo-Code: Symbolisch Konformantes Planen 

Procedure ConformantPlan(I, G) 

i ← 0 

SP0 ← {I, ɛ} 

Π ← GetPlans(G, SP0) 

while (SPi = ∅) ∧ (Π = ∅) 

i ← i + 1 

SPi ← ConformantImage(SPi−1) 

SPi ← ConformantPrune(SPi−1, i) 

Π ← GetPlans(G, SPi) 

if (SPi = ∅) 

exit 

else 

return Π 


Eigenschaften 

Terminierung: 

Satz ConformantPlan terminiert immer. 

Wird durch die Monotonie der Mengen konformanter Pläne gesichert. 

Optimalität: 

Satz ConformantPlan liefert optimal kurzen konformanten Plan. 

Breitendurchlaufordungung sichert, dass ein konformante Plan mit kürzester 

Planlänge als erstes gefunden wird. 


BDD Codierung 

Propositionen p: mit je einer Variablen codiert. 

Menge von Zuständen: Durch eine Boole’sche Formel φ codiert. 

Transitionsrelation: R(S, O, S ′ ) 

⇒ Pläne der Länge k in den SP-Tabellen über die Planvariablen o1, . . . , o k für 

O1, . . . , O k geschehen kann. 

So repräsentiert o1 ∧ ¬o2 mit k = 2 einen Plan (O1, O2). 

Die Formel ¬O1 mit k = 2 ist eine kompakte Repräsentation für die zwei Pläne 

(O2, O2) und (O2, O1). 

Implementation: Model Based Planner (MBP) 


Konformantes Planen als Erfüllbarkeitsproblem 

Eine Möglichkeit ist die Kodierung des Planungsproblems als quantifizierte 

Boole’sche Formel (QBF): 

Ist f ′ = Q1x1 . . . Qnxn f(x) mit Qi ∈ {∃, ∀} und Boole’scher Formel f erfüllbar? 

Dabei werden die Quantoren schon in sogenannter Pränexform nach vorn gestellt. 

Modellierung: Nichtdeterminismus sei es im Initialzustand oder bei der 

Operatorausführung jeweils durch Quantoren 

Satz: QBF Erfüllbarkeit ist PSPACE-vollständig 

⇒ Komplexitätstheorie 

Allerdings: 2-QBF polynomiell. 


Idee Polynomialität 

Jede 2-Sat Formel a ∨ b ist äquivalent zu ¬a → b bzw. ¬b → a. 

Bilde Graph G f mit Knotenmenge {x1, . . . , xn} ∪ {¬x1, . . . , ¬xn}, der diese 

Formeln als Kanten darstellt. 

Es existiert eine erfüllende Belegung für f ⇔ G f hat keinen Zyklus der Form 

xi → ∗ ¬xi → ∗ xi 

Linearzeit-Implementation über starken Zshg.-Komponenten und Anfragen der 

Form find(x) = find(¬x). 

Analog zur Belegung in 2-SAT erfolgen für 2-QBF die Festlegung der Variablen von 

links nach rechts. 


Planungsansätze 

QBF-Löser z.B. von Rintanen oder Giunchiglia et al. nutzen eine Erweitertung der 

Davis Dutnam Prozedur. 

Konformantes Planen: 

1. Generalisierung von SATPLAN auf nicht-deterministische Problemstellungen 

2. Generate-and-Test Ansatz von Ferraris & Giunchiglia, 

Im generate Schritt werden innerhalb der Davis-Putnam Prozedur nach 

und nach Pläne generiert, die (getestet) werden, ob sie die Menge der 

Initialzustände in den Zielzustand überführen. 


5 Alternative Ansätze zum Konformanten Planen 

Conformant Graphplan: Planungsgraph für jede mögliche Folge von möglichen 

Welten (Initialzuständen) gebildet. 

Konformanz-Bedingungen werden zwischen den Planungsgraphen propagiert. 

FragPlan: Behandelt Planfragmente verschiedener Welten, die nach und nach zu 

einem konformanten Plan ergänzt werden. 

Ein Fragment ist ein Plan zumindest für eine Welt. 

Hoffnung: Nur wenige Welten begründen den konformanten Plan 

Alternative Ansätze zum Konformanten Planen 26

Konformantes Planen als Heuristisch Suche 

Ohne konditionale Effekte: Anstatt die Propositionen zu betrachten, die wahr sind, 

muss er Propositionen betrachten, die gesichert wahr sind. 

Konditionale Effekte e einer STRIPS Aktion a = (P, A, D): 

Tripel (C(e), A(e), D(e)), die in Zustand S ∈ S anwendbar sind, wenn die 

Bedingungen P ⊆ S und C(e) ⊂ S erfüllt sind. 

Annahme: A ∩ D = ∅ und A(e) ∩ D(e) = ∅ 


Unsicherheit im Initialzustand 

Propositionen p werden als unbekannt markiert. 

Disjunktion: l 1 ∨ . . . ∨ l k von markierten Literalen l 1 , . . . , l k sagt aus, dass alle 

möglichen Initialzustände diese Formel erfüllen. 

⇒ Menge von Initialzuständen I ⊆ S mit bekannt positiven bzw. bekannt negativen 

und unbekannten Propositionen. 

π konformanter Plan: Wenn Anwendung für jedes I ∈ I einen Zustand liefert, der 

das Ziel erfüllt. 

Achtung: Konditionale Effekte können für unterschiedliche Zustände 

unterschiedliche Resultate liefern können. 


Unterscheidung 

Weltzuständen, die aus einer Menge von Propositionen bestehen und 

Suchzuständen, die aus einer Menge von möglichen Weltzuständen bestehen. 

Suchzustand S entspricht einem zum Teil ausgeführten Plan π k (als Prefix von π). 

• Proposition p ist in S positiv bekannt, falls für alle I ∈ I die Anwendung π(I) in 

einen Weltzustand führt, in dem p enthalten ist. 

• Proposition p ist in S negativ bekannt, falls für alle I ∈ I die Anwendung π(I) 

in einen Weltzustand führt, in dem p nicht enthalten ist. 

• Alle weder positiv oder negativ bekannten Propositionen sind unbekannt. 


Komplexität Bekanntheit 

Die Entscheidung, ob für ein gegebenen Suchzustand S und Teilplan π k eine 

Proposition p bekannt ist, ist co-NP vollständig. 

Beweis fehlt. 

Analog: Problem zu entscheiden, ob eine Proposition p negativ bekannt ist, co-NP 

vollständig ist. 

⇒ Problem zu entscheiden, ob eine Proposition p unbekannt ist, NP-vollständig. 

Beweis gilt übrigens auch für ein relaxierten Plan, d.h. in einem Plan ohne negative 

Effekte. 

. . . gibt bessere Möglichkeit, als die Generierung aller Initialzustände 


SAT Lösen 

In dem Algorithmus wird eine Boolesche Formel φ(π k) erzeugt, die Proposition p k 

genau dann impliziert, falls p im Suchzustand S = π k(I) positiv bekannt ist. 

Für jeden Zustand S und jede Proposition p wird ein SAT-Löser mit der Formel 

φ(π k) ∧ ¬p k aufgerufen. 

Ist die Formel unerfüllbar, so ist p positiv bekannt. 

Analog wird der Löser mit φ(π k) ∧ p k aufgerufen. 

Ist diese Formel unerfüllbar, so ist p unbekannt. 


Der Aufbau von φ(π k) 

Für die Menge von Initialzuständen wird Klausel p0 für alle positiv bekannten p und 

Klausel ¬p0 für alle negativ bekannten p gesetzt. 

Für die unbekannten Literale, die mit l 1 ∨ . . . l k die Unsicherheit im Initialzustand 

beschreiben, wird die Klausel l 1 0 ∨ . . . lk 0 gesetzt. 

Nun betrachten wir die erste Aktion O1 ∈ π k. 


Axiome 

Effekt Axiome Für jeden Effekt e in Aktion O1 mit Bedingung 

C(e) = {p 1 , . . . , p m } und jeder Proposition p ∈ A(e) fügen wir die Klausel 

¬p 1 0 ∨ . . . ∨ ¬pm 0 ∨ p1 hinzu. Für jede Proposition p ∈ D(e) fügen wir die 

Klausel ¬p 1 0 ∨ . . . ∨ ¬pm 0 ∨ ¬p1 hinzu 

Frame Axiome Für jede Proposition p seien e1, . . . , en die Effekte von O1 mit 

p ∈ D(ei). Für jedes Tupel p 1 , . . . , p m mit p i ∈ C(e) wird 

¬p0 ∨ p 1 0 ∨ . . . ∨ ¬pm 0 ∨ p1 eingefügt (p wahr und nicht gelöscht → p bleibt wahr) 

Analog seien für jede Proposition p, e1, . . . , en die Effekte von O1 mit 

p ∈ A(ei). Für jedes Tupel p 1 , . . . , p m mit p i ∈ C(e) wird nun die Klausel 

p0 ∨ p 1 0 ∨ . . . ∨ ¬pm 0 ∨ ¬p1 eingefügt (p falsch und nicht gesetzt → p bleibt 

falsch) 


Rest 

Die Konstruktion wird gleichermaßen für den Rest von π k, also die Aktionen 

O2, . . . , O k, durchgeführt 

Die Klauseln werden zu φ(π k) hinzugefügt. 

Sie sichern 

• dass für jeden gewählten Initialzustand I ∈ I und Proposition p exakt eine 

erfüllende Belegung existiert und 

• dass p nach Ausführung von φ(π k) in I gilt. 


Beispiel 

Angenommen ein Roboter ist initial an einer von zwei Positionen X und Y 

⇒ I entspricht Formel ((at X) ∨ ¬(at X)) ∧ ((at Y) ∨ ¬(at Y)). 

Das Ziel ist sicher in die Position Y zu gelangen. 

Die einzige Aktion ist (moveright) mit leerer Vorbedingungsliste und einem 

bedingten Effekt ((at X), (at Y), (at X)). 

Der konditionale Plan π1 bestehe nur aus der Aktion (moveright). 


Beispiel (ctd.) 

Die Formel φ(p1) besteht aus den Kauseln für den Initialzustand 

(at X) 0 ∨ ¬(at X) 0 

und ¬(at Y) 0 ∨ ¬(at Y) 0 . 

Desweiteren kommen zwei Klauseln Effekt-Axiome für (moveright): 

¬(at X) 0 ∨ (at Y) 1 (Add-Effekt) und 

¬(at X) 0 ∨ ¬(at X) 1 (Delete-Effekt). 


Frame-Axiome 

¬(at X) 0 ∨ (at X) 0 ∨ (at X) 1 (positiv für (at X)), 

¬(at Y) 0 ∨ ¬(at Y) 1 (positiv für (at Y)), 

(at X) 0 ∨ ¬(at X) 1 , (negativ für (at X)), und 

(at Y) 0 ∨ ¬(at X) 0 ∨ ¬(at Y) 1 (negativ für (at Y)). 


Test auf Bekanntheit 

Um zu prüfen, ob (at X) in S nach Ausführung von π1 positiv bekannt ist, lösen wir 

φ(π1) ∧ ¬(at X) 1 . 

Es gibt eine erfüllende Belegung, so dass (at X) nicht bekannt ist. 

Um zu prüfen, ob (at Y) in S nach Ausführung von π1 positiv bekannt ist, lösen wir 

φ(π1) ∧ ¬(at Y) 1 . Die Formel ist unerfüllbar, also ist (at Y) in S positiv bekannt. 

Analog ist (at X) in S negativ bekannt. 


Erweitere relaxierter Pläne 

. . . um bekannte Propositionen P + i und unbekannte Propositionen P − i in Schicht i 

- Ai: Menge der Aktionen mit Vorbedingungen in P + i 

- P + i+1 : Vereinigung der Add-Effekte in Ai 

- P − i+1 ← P − i \ P + i+1 

(nun bekannt) 

- Propositionen in P − i+1 , die erfüllt werden können: P (e) ∈ P − i ∪ P + i → 

A(e) ∈ P − i+1 

Zusätzlich: ∀p ∈ P − i+1 prüfe, ob inferierbar ⇒ Bewege p von P − i+1 nach P + i+1 


Reduktion der Komplexität 

Letzter Schritt eigentlich ein SAT Problem → NP vollständig 

Bekanntheit selbst ohne Delete-Listen NP vollständig 

→ Wähle nur 2 Literale in jeder SAT Klausel aus 

→ Polynomielle Komplexität 

→ Verwalte zusätzlich einen Abhängigkeitsgraphen 


Abhängigkeitsgraph 

Betrachte Schicht i im relaxierten Plan: 

Graph G I enthält Kanten (l(t), l ′ (t)) und (l(t), l ′ (t + 1)) zwischen zeitlichen 

Literalen mit −n ≤ t ≤ i 

- Zeiten t < 0 entsprechen ausgeführtem Plänen 

- Zeiten ≥ 0 entsprechen relaxiertem Plan 

Kanten (l(t), l ′ (t)) und (l(t), l ′ (t + 1)) werden gesetz falls l und l ′ zu den 

betrachteten Zeitpunkten unbekant sind 

- Es gibt wieder Initialkanten, Aktionskanten und Frame-Axiom-Kanten 

In G I kann in Lxinearzeit erschlossen werden, ob p ∈ P − i+1 

bekannt ist 


Conformant-FF 

Suche: Enforced Hill-Climbing oder Bestensuche 

Heuristik: Planlaänge relaxierter Plan 

SAT-Löser: Eigene Implementation 

Helpful Actions: Restriktion auf Aktionen, die in Schicht 1 des relaxierten Planes 

führen. 

Hier: Teilziel hinzugefügt, 

Experimente: Bombs-in-Toilet, Omlette, Ring, Safe, Blocks, Logistics, Grid, etc. 

Resultate: Wesentlich besser als BDD basierter Planer MBP in vielen aber nicht 

allen Problemen

Nichtdeterministische Planung - TZI

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?