图4-1 宝盒
图4-15 两种方法计算出来的最优值函数对比图
图5-1 MC方法
图5-2 DP方法
图5-3 TD方法
图5-6 迷宫环境
图5-7 Sarsa方法得到的最优策略
图6-12 风格子世界
图6-13 后向Sarsa(λ)方法得到的最优策略
图6-14 后向Sarsa(λ)方法得到的最优路径
图6-15 后向Q(λ)方法得到的最优策略
图6-16 后向Q(λ)方法得到的最优路径
图7-3 DQN的神经网络结构
图7-7 驾驶汽车
图7-10 飞翔的小鸟
图7-11 删除游戏背景
图7-13 灰度化和二值化
图8-4 )及
图9-1 异步方法
图13-12 策略网络结构示意图
图13-13 价值网络结构示意图
图13-16 AlphaGo整体架构
图13-17 在线对弈过程
图13-18 AlphaGo Zero下棋原理