1.动态规划是什么?它适合解决什么类型的问题?
2.什么是策略评估和策略改进?
3.简述策略迭代算法和值迭代算法。
4.策略迭代和值迭代这两个算法的区别和联系是什么?
5.假设在本章案例的迷宫问题中,对每个状态的立即奖赏加上一个常量C,这样对最终结果是否有影响?请给出解释。