3.8 习题_强化学习-QQ阅读男生轻小说网

书名：强化学习
作者名：邹伟鬲玲刘昱杓
本章字数：136字
更新时间：2021-04-01 03:43:37

3.8　习题

1．动态规划是什么？它适合解决什么类型的问题？

2．什么是策略评估和策略改进？

3．简述策略迭代算法和值迭代算法。

4．策略迭代和值迭代这两个算法的区别和联系是什么？

5．假设在本章案例的迷宫问题中，对每个状态的立即奖赏加上一个常量C，这样对最终结果是否有影响？请给出解释。

上一章目录下一章