书名：强化学习
作者名：邹伟鬲玲刘昱杓
本章字数：1109字
更新时间：2025-02-17 22:37:29

自序

2015年笔者加入邹伟先生的团队，负责强化学习相关项目，第一次接触“强化学习”这门学科，便被强化学习的魅力深深吸引。

强化学习的原理并不复杂，但学习过程充满了挑战。因其融合了统计、信息、概率论、运筹学等多个学科的内容，故每个算法的基础理论均涉及大量的概念、公式以及数学推导，理解起来非常困难。每研究一个系列的算法都要查阅大量的文献资料。而市面上的相关资料良莠不齐，学习过程举步维艰，经历的困惑和陷阱数不胜数。

为了方便和邹伟先生讨论，笔者将所有算法按照自己的理解进行了整理。对整个强化学习方法进行了分类，对各类别下包含的算法进行了梳理，包括每个算法的具体推导过程。邹伟先生看了笔者整理的初稿，考虑到市面上缺少强化学习中文教材类书籍，仅有的几种强化学习中文著作大多讨论的是其背后的数学理论，很少涉及如何使用编程语言实现强化学习算法，并将其应用于工程实践，便建议笔者写一本面向科研工作者的强化学习实践著作，这就是写作本书的主要原因。虽然深知撰写需要耗费大量的时间和精力，但考虑到入门书籍的重要性，为了让读者避免像笔者一样深陷泥潭，困惑彷徨，难以为继，甚至是后续花费数倍时间成本来纠正偏差，笔者踌躇许久，决定动笔。

2016年年初开始和邹伟先生进入整书规划阶段，每周都会针对整本书的总体架构和章节安排进行交流和讨论。我们讨论每一章的叙述方式，写到什么程度，以及每一章应该配备什么样的案例和习题。经过一遍遍地推翻重写、修改打磨，于2016年7月终于确定书稿大纲。接着进入了漫长的写作阶段，写作的过程更是如履薄冰，唯恐有半点不当误人子弟。内容写作大约持续了两年半的时间，这期间的主要工作就是研读材料、推导公式，和刘昱杓讨论案例和代码，撰写内容并润色修改。一直到2019年年初，才完成了书稿的全部编写工作。

写作过程中，邹伟先生负责本书的整体架构和章节安排，以及书稿的审核、修改工作。笔者负责各章节具体内容的撰写，包括算法来源、原理、流程、算法之间的关系，以及案例编写、代码描述等。刘昱杓负责为各个章节提供代码，按照章节案例需求对代码进行修改。

本书在写作和修改过程中主要参考了David Silver的网络课程Reinforcement Learning，以及Richard S. Sutton的著作Reinforcement Learning: An Introduction，在此，向两位前辈致敬。同时，感谢网络上众多的优秀开发者和博主，感谢清华大学出版社的刘星老师对本书出版给予的支持，感谢北京信息科技大学的李航同学在校稿过程中的辛勤付出，正是他们认真、细致的工作才保证了本书的出版质量，没有他们，该书不会这么顺利出版。

最后，感谢笔者的家人、朋友对笔者长期的帮助和鼓励。三年来，笔者所有的节假日和业余时间都贡献给了此书，无暇顾及其他，并且此间多次感到压抑而彷徨，正是在他们的支持下，笔者才得以坚持。

鬲　玲

2019年12月