4.4 在线策略蒙特卡罗

根据产生采样的策略(行为策略)和评估改进的策略(原始策略)是否是同一个策略,蒙特卡罗方法又分为在线策略(on-policy)蒙特卡罗和离线策略(off-policy)蒙特卡罗。

在线策略是指产生数据的策略与要评估改进的策略是同一个策略。其基本思想是遵循一个已有策略进行采样,根据样本数据中的回报更新值函数。或者遵循该策略采取行为,根据行为得到的回报更新值函数。最后根据更新的值函数来优化这个已有的策略,以得到更优的策略。由于要优化改进的策略就是当前遵循的策略,所以此方法称为在线策略。

离线策略是指产生数据的策略与评估改进的策略不是同一个策略。其基本思想是,虽然已有一个原始策略,但是并不针对这个原始策略进行采样,而是基于另一个策略进行采样。这另一个策略可以是先前学习到的策略,也可以是人类的策略等一些较为成熟的策略。观察这类策略的行为和回报,并根据这些回报评估和改进原始策略,以此达到学习的目的。

先介绍在线策略蒙特卡罗方法,其算法流程如下。这里产生数据的策略和评估改进的策略都是ε-贪心策略。