3.2 策略评估
策略评估要解决问题是,给定一个策略π,如何计算在该策略下的值函数Vπ。
因为实际中涉及的马尔可夫模型规模一般比较大,直接求解效率低,因此可使用迭代法进行求解。考虑应用贝尔曼(Bellman)期望方程进行迭代,公式如下:
可见,状态s处的值函数Vπ(s),可以利用后继状态s'的值函数Vπ(s')来表示,依此类推,这种求取值函数的方法称为自举法(Bootstrapping)。
如图3-1所示,初始所有状态值函数全部为0。第k+1次迭代求解Vπ(s)时,使用第k次计算出来的值函数Vk(s')更新计算Vk+1(s)。迭代时使用的公式如下:
图3-1 迭代法
对于模型已知的强化学习算法,上式中,、π(a|s)、都是已知数,唯一的未知数是值函数,因此该方法通过反复迭代最终将收敛。