图4-1 宝盒

图4-15 两种方法计算出来的最优值函数对比图

图5-1 MC方法

图5-2 DP方法

图5-3 TD方法

图5-6 迷宫环境

图5-7 Sarsa方法得到的最优策略

图6-12 风格子世界

图6-13 后向Sarsa(λ)方法得到的最优策略

图6-14 后向Sarsa(λ)方法得到的最优路径

图6-15 后向Qλ)方法得到的最优策略

图6-16 后向Qλ)方法得到的最优路径

图7-3 DQN的神经网络结构

图7-7 驾驶汽车

图7-10 飞翔的小鸟

图7-11 删除游戏背景

图7-13 灰度化和二值化

图8-4 )及

图9-1 异步方法

图13-12 策略网络结构示意图

图13-13 价值网络结构示意图

图13-16 AlphaGo整体架构

图13-17 在线对弈过程

图13-18 AlphaGo Zero下棋原理