插图_强化学习-QQ阅读男生科幻网

书名：强化学习
作者名：邹伟鬲玲刘昱杓
本章字数：227字
更新时间：2021-04-01 03:43:29

图4-1　宝盒

图4-15　两种方法计算出来的最优值函数对比图

图5-1　MC方法

图5-2　DP方法

图5-3　TD方法

图5-6　迷宫环境

图5-7　Sarsa方法得到的最优策略

图6-12　风格子世界

图6-13　后向Sarsa（λ）方法得到的最优策略

图6-14　后向Sarsa（λ）方法得到的最优路径

图6-15　后向Q（λ）方法得到的最优策略

图6-16　后向Q（λ）方法得到的最优路径

图7-3　DQN的神经网络结构

图7-7　驾驶汽车

图7-10　飞翔的小鸟

图7-11　删除游戏背景

图7-13　灰度化和二值化

图8-4　）及

图9-1　异步方法

图13-12　策略网络结构示意图

图13-13　价值网络结构示意图

图13-16　AlphaGo整体架构

图13-17　在线对弈过程

图13-18　AlphaGo Zero下棋原理

上一章目录下一章