4.4 在线策略蒙特卡罗_强化学习-QQ阅读男生中文玄幻网

书名：强化学习
作者名：邹伟鬲玲刘昱杓
本章字数：436字
更新时间：2025-02-17 22:37:31

4.4　在线策略蒙特卡罗

根据产生采样的策略（行为策略）和评估改进的策略（原始策略）是否是同一个策略，蒙特卡罗方法又分为在线策略（on-policy）蒙特卡罗和离线策略（off-policy）蒙特卡罗。

在线策略是指产生数据的策略与要评估改进的策略是同一个策略。其基本思想是遵循一个已有策略进行采样，根据样本数据中的回报更新值函数。或者遵循该策略采取行为，根据行为得到的回报更新值函数。最后根据更新的值函数来优化这个已有的策略，以得到更优的策略。由于要优化改进的策略就是当前遵循的策略，所以此方法称为在线策略。

离线策略是指产生数据的策略与评估改进的策略不是同一个策略。其基本思想是，虽然已有一个原始策略，但是并不针对这个原始策略进行采样，而是基于另一个策略进行采样。这另一个策略可以是先前学习到的策略，也可以是人类的策略等一些较为成熟的策略。观察这类策略的行为和回报，并根据这些回报评估和改进原始策略，以此达到学习的目的。

先介绍在线策略蒙特卡罗方法，其算法流程如下。这里产生数据的策略和评估改进的策略都是ε-贪心策略。

本周热推：

Spark大数据商业实战三部曲：内核解密|商业案例|性能调优网络管理工具实用详解三菱PLC编程技术及工程案例精选（第2版）中文版Photoshop CS5数码照片处理完全自学一本通 Microsoft Power BI Quick Start Guide