封面
版权信息
内容简介
译者序
前言
作者简介
审校者简介
第一部分 强化学习基础
第1章 强化学习简介
1.1 为什么选择强化学习
1.2 机器学习的三种范式
1.3 强化学习应用领域和成功案例
1.4 强化学习问题的元素
1.5 设置强化学习环境
1.6 总结
- APP免费
1.7 参考文献
- APP免费
第2章 多臂老虎机
- APP免费
2.1 探索-利用权衡
- APP免费
2.2 什么是多臂老虎机问题
- APP免费
2.3 案例研究:在线广告
- APP免费
2.4 A/B/n测试
- APP免费
2.5 ε-贪心策略行动
- APP免费
2.6 使用置信上界进行行动选择
- APP免费
2.7 汤普森(后)采样
- APP免费
2.8 总结
- APP免费
2.9 参考文献
- APP免费
第3章 上下文多臂老虎机
- APP免费
3.1 为什么我们需要函数近似
- APP免费
3.2 对上下文使用函数近似
- APP免费
3.3 对行动使用函数近似
- APP免费
3.4 多臂老虎机和上下文老虎机的其他应用
- APP免费
3.5 总结
- APP免费
3.6 参考文献
- APP免费
第4章 马尔可夫决策过程的制定
- APP免费
4.1 马尔可夫链
- APP免费
4.2 引入奖励:马尔可夫奖励过程
- APP免费
4.3 引入行动:马尔可夫决策过程
- APP免费
4.4 部分可观测的马尔可夫决策过程
- APP免费
4.5 总结
- APP免费
4.6 练习
- APP免费
4.7 参考文献
- APP免费
第5章 求解强化学习问题
- APP免费
5.1 探索动态规划
- APP免费
5.2 用蒙特卡罗法训练智能体
- APP免费
5.3 时间差分学习
- APP免费
5.4 了解模拟在强化学习中的重要性
- APP免费
5.5 总结
- APP免费
5.6 练习
- APP免费
5.7 参考文献
- APP免费
第二部分 深度强化学习
- APP免费
第6章 规模化的深度Q-学习
- APP免费
6.1 从表格型Q-学习到深度Q-学习
- APP免费
6.2 深度Q网络
- APP免费
6.3 DQN扩展:Rainbow
- APP免费
6.4 分布式深度Q-学习
- APP免费
6.5 使用Ray实现可扩展的深度Q-学习算法
- APP免费
6.6 使用RLlib实现生产级深度强化学习算法
- APP免费
6.7 总结
- APP免费
6.8 参考文献
- APP免费
第7章 基于策略的方法
- APP免费
7.1 为什么我们应该使用基于策略的方法
- APP免费
7.2 一般性策略梯度方法
- APP免费
7.3 Actor-Critic算法
- APP免费
7.4 信任域方法
- APP免费
7.5 异策略方法
- APP免费
7.6 Lunar Lander环境中基于策略的方法的比较
- APP免费
7.7 如何选择正确的算法
- APP免费
7.8 策略梯度方法的开源实现
- APP免费
7.9 总结
- APP免费
7.10 参考文献
- APP免费
第8章 基于模型的方法
- APP免费
8.1 技术要求
- APP免费
8.2 引入基于模型的方法
- APP免费
8.3 通过模型进行规划
- APP免费
8.4 学习世界模型
- APP免费
8.5 统一基于模型的和无模型的方法
- APP免费
8.6 总结
- APP免费
8.7 参考文献
- APP免费
第9章 多智能体强化学习
- APP免费
9.1 多智能体强化学习介绍
- APP免费
9.2 探索多智能体强化学习中存在的挑战
- APP免费
9.3 在多智能体环境中训练策略
- APP免费
9.4 通过自博弈来训练井字棋智能体
- APP免费
9.5 总结
- APP免费
9.6 参考文献
- APP免费
第三部分 强化学习中的高级主题
- APP免费
第10章 机器教学
- APP免费
10.1 技术要求
- APP免费
10.2 机器教学简介
- APP免费
10.3 设计奖励函数
- APP免费
10.4 课程表学习
- APP免费
10.5 热启动和演示学习
- APP免费
10.6 行动掩蔽
- APP免费
10.7 概念网络
- APP免费
10.8 机器教学的缺点和承诺
- APP免费
10.9 总结
- APP免费
10.10 参考文献
- APP免费
第11章 泛化和域随机化
- APP免费
11.1 泛化和部分可观测性概述
- APP免费
11.2 用于泛化的域随机化
- APP免费
11.3 使用记忆来克服部分可观测性
- APP免费
11.4 总结
- APP免费
11.5 参考文献
- APP免费
第12章 元强化学习
- APP免费
12.1 元强化学习简介
- APP免费
12.2 具有循环策略的元强化学习
- APP免费
12.3 基于梯度的元强化学习
- APP免费
12.4 元强化学习作为部分观测强化学习
- APP免费
12.5 元强化学习中的挑战
- APP免费
12.6 总结
- APP免费
12.7 参考文献
- APP免费
第13章 其他高级主题
- APP免费
13.1 分布式强化学习
- APP免费
13.2 好奇心驱动的强化学习
- APP免费
13.3 离线强化学习
- APP免费
13.4 总结
- APP免费
13.5 参考文献
- APP免费
第四部分 强化学习的应用
- APP免费
第14章 自主系统
- APP免费
14.1 PyBullet
- APP免费
14.2 熟悉KUKA环境
- APP免费
14.3 制定解决KUKA环境的策略
- APP免费
14.4 使用课程表学习训练KUKA机器人
- APP免费
14.5 超越PyBullet进入自动驾驶领域
- APP免费
14.6 总结
- APP免费
14.7 参考文献
- APP免费
第15章 供应链管理
- APP免费
15.1 优化库存采购决策
- APP免费
15.2 建模路由问题
- APP免费
15.3 总结
- APP免费
15.4 参考文献
- APP免费
第16章 营销、个性化和金融
- APP免费
16.1 超越老虎机进行个性化
- APP免费
16.2 使用强化学习制定有效的营销策略
- APP免费
16.3 在金融中应用强化学习
- APP免费
16.4 总结
- APP免费
16.5 参考文献
- APP免费
第17章 智慧城市与网络安全
- APP免费
17.1 交通灯控制以优化车流量
- APP免费
17.2 为电网提供辅助服务
- APP免费
17.3 检测智能电网中的网络攻击
- APP免费
17.4 总结
- APP免费
17.5 参考文献
- APP免费
第18章 强化学习领域的挑战和未来方向
- APP免费
18.1 你从本书中得到的收获
- APP免费
18.2 挑战和未来方向
- APP免费
18.3 对有抱负的强化学习专家的建议
- APP免费
18.4 结束语
- APP免费
18.5 参考文献
- APP免费
作者简介
- APP免费
文后
更新时间:2024-04-15 11:58:27