3.2 策略评估

策略评估要解决问题是,给定一个策略π,如何计算在该策略下的值函数Vπ

因为实际中涉及的马尔可夫模型规模一般比较大,直接求解效率低,因此可使用迭代法进行求解。考虑应用贝尔曼(Bellman)期望方程进行迭代,公式如下:

可见,状态s处的值函数Vπs),可以利用后继状态s'的值函数Vπs')来表示,依此类推,这种求取值函数的方法称为自举法(Bootstrapping)。

如图3-1所示,初始所有状态值函数全部为0。第k+1次迭代求解Vπs)时,使用第k次计算出来的值函数Vks')更新计算Vk+1s)。迭代时使用的公式如下:

图3-1 迭代法

对于模型已知的强化学习算法,上式中,πa|s)、都是已知数,唯一的未知数是值函数,因此该方法通过反复迭代最终将收敛。