3.2 策略评估_强化学习-QQ阅读历史男生网

策略评估要解决问题是，给定一个策略π，如何计算在该策略下的值函数V_π。

因为实际中涉及的马尔可夫模型规模一般比较大，直接求解效率低，因此可使用迭代法进行求解。考虑应用贝尔曼（Bellman）期望方程进行迭代，公式如下：

可见，状态s处的值函数V_π（s），可以利用后继状态s'的值函数V_π（s'）来表示，依此类推，这种求取值函数的方法称为自举法（Bootstrapping）。

如图3-1所示，初始所有状态值函数全部为0。第k+1次迭代求解V_π（s）时，使用第k次计算出来的值函数V_k（s'）更新计算V_k₊₁（s）。迭代时使用的公式如下：

图3-1　迭代法

对于模型已知的强化学习算法，上式中，、π（a|s）、都是已知数，唯一的未知数是值函数，因此该方法通过反复迭代最终将收敛。