AG平台真人 真人AG 平台官网AG平台真人 真人AG 平台官网AG平台真人 真人AG 平台官网AG真人 AG平台AG真人 AG平台。指的是在了解整个MDP的基础上求解最优策略,也就是清楚模型结构的基础上:包括状态行为空间、转换矩阵、奖励等。动态是个非常实用的思想,也很博大精深,这里不详细讨论这个。直接给出在MDP中的应用。
Policy Evaluation策略评估的问题就是说给定一个MDP和一个策略\pi,我们来评价这个策略有多好?
如何来判断这个策略有多好呢?根据基于当前策略\pi的价值函数V_{\pi}来决定,所以我们的关键就是给定一个MDP和一个策略\pi,如何求出价值函数V_{\pi}?不要怕,马上告诉你如何求解?
具体方法:同步反向迭代,即在每次迭代过程中,对于第k+1次迭代,所有的状态s的价值用v_k(s) 计算并更新该状态第k+1次迭代中使用的价值v_{k}(S),其中s’是s的后继状态。
此种方法通过反复迭代最终将收敛至V_{\pi}。收敛性在后面会进行证明~
在一次迭代过程中,状态s的价值等于前一次迭代该状态的即时奖励与所有s的下一个可能状态s 的价值与其概率乘积的和,如图所示:
状态空间S:如图。S1 - S14非终止状态,ST终止状态,灰色方格所示两个位置;
行为空间A:{n, e, s, w} 对于任何非终止状态可以有东南西北移动四个行为;
转移概率P:任何试图离开方格世界的动作其位置将不会发生改变,其余条件下将100%地转移到动作指向的状态;
即时奖励R:任何在非终止状态间的转移得到的即时奖励均为-1,进入终止状态即时奖励为0;
当前策略π:Agent采用随机行动策略,在任何一个非终止状态下有相等的概率采取任一移动方向这个行为,即π(n•) = π(e•) = π(s•) = π(w•) = 1/4。
该问题等同于:求解该方格世界在给定策略下的(状态)价值函数,也就是求解在给定策略下,该方格世界里每一个状态的价值,也就是我们求出每一个非终止状态的价值即可。
这里要注意的一点就是,比如在算k=2时候的迭代,-1.7状态的价值的计算的时候,该状态的下一状态的价值应该看k=1时刻的价值函数,-1,-1,-1,而不是看k=2时刻的-1.7,-2.0,-2.0,下图箭头所示:
状态价值在第153次迭代后收敛(叶强童鞋的实验结果),于是迭代后的每个状态的价值就是我们对该策略的评估,如下:
本讲讲了对策略的评估问题,下一讲总结Policy Iteration问题。