- 深度学习高手笔记(卷1):基础算法
- 刘岩(@大师兄)
- 1960字
- 2024-11-28 17:52:46
前言
目前人工智能(artificial intelligence,AI)在计算机界非常火热,而其中深度学习(deep learning,DL)无疑是更为火热的一个领域,它在计算机视觉、自然语言处理、语音识别、跨模态分析、风控建模等领域均取得了突破性的进展。而且近年来该领域的优秀论文、落地项目也层出不穷。密切关注深度学习领域的进展是每个深度学习工作者必不可少的工作内容之一,不仅为了找工作、升职加薪,还为了更好地跟随前沿科技,汲取算法奥妙。
2014年是深度学习蓬勃发展的一年,这一年计算机视觉方向诞生的算法有VGG、GoogLeNet、R-CNN、DeepLab,自然语言处理方向诞生的有注意力机制、神经图灵机、编码器-解码器架构。也就是在这一年,我开始了自己的研究生生涯,由此与人工智能和深度学习结下了不解之缘。度过了3年的求学生涯和4年的工作生涯,时间很快来到了2022年,我也有了8年的人工智能相关的科研与工作经历。在这8年的科研及工作中,我既见证了SVM、决策树、ELM等传统机器学习方法的没落,也了解了深度学习在各个方向的突破性进展。我既发表过使用传统机器学习方法解决神经机器翻译或者细胞检测问题的论文,也使用深度学习技术在OCR、公式识别、人像抠图、文本分类等方向实现了业务落地。在这8年的时间里,我读了很多论文和源码,也做了很多项目和实验。
在机缘巧合下,我听从朋友的建议将几篇学习笔记上传到了知乎,没想到得到了大量的收藏和关注,因此开通了本书同名专栏。截稿时,我在知乎上已更新了一百多篇文章,也有了几百万的阅读量和过万的粉丝数。为了能帮助更多的读者,我将知乎专栏下的文章经过整理、修改、精校、勘误之后完成了本套图书。
本套图书共两卷,分别是卷1基础算法和卷2经典应用。卷1由三篇组成,第一篇介绍深度学习在计算机视觉方向的一些卷积神经网络,从基础骨干网络(第1章)、轻量级CNN(第2章)、模型架构搜索(第3章)3个方向展开,介绍计算机视觉方向的30余个里程碑算法。第二篇主要介绍深度学习在自然语言处理方向的重要突破,主要介绍几个基础序列模型,如LSTM、注意力机制、Transformer等(第4章),以及近年来以BERT为代表的10余个预训练语言模型(第5章)。第三篇(第6章)将介绍模型优化的经典策略,分为两个方向,一个方向是Dropout及其衍生算法,另一个方向是以批归一化、层归一化为代表的归一化算法。
卷2会对专栏中的经典或者前沿应用进行总结,同样由三篇组成。第一篇介绍的应用是目标检测与分割,其中会介绍双阶段的R-CNN系列、单阶段的YOLO系列,以及Anchor-Free的CornerNet系列这3个方向的目标检测算法,也会介绍目标检测在特征融合和损失函数方向的迭代优化,最后会介绍与目标检测非常类似的分割算法。第二篇介绍深度学习中的OCR系列算法,用于场景文字检测、文字识别两个方向。第三篇会介绍其他深度学习经典或者前沿的应用,例如生成模型、图神经网络、二维信息识别、图像描述、人像抠图等。
阅读本书时有以下两点注意事项:本书的内容以经典和前沿的深度学习算法为主,并没有过多地介绍深度学习的基础知识,如果你在阅读本书时发现一些概念晦涩难懂,请移步其他基础类图书查阅相关知识点;本书源于一系列算法或者论文的读书笔记,不同章节的知识点存在相互依赖的关系,因此知识点并不是顺序展开的。为了帮助读者提前感知先验知识,本书会在每一节的开始给出相关算法依赖的重要章节,并在配套资源中给出两卷书整体的知识拓扑图。
我对本书有以下3个阅读建议。
● 如果你的深度学习基础较为薄弱,那么可以结合本书提供的知识拓扑图和章节先验知识,优先阅读拓扑图中无先验知识的章节,读懂该章节后便可以将这个章节在拓扑图中划掉,然后逐步将拓扑图清空。
● 如果你有一定的深度学习基础,对一些经典的算法(如VGG、残差网络、LSTM、Transformer、Dropout、BN等)都比较熟悉,那么你可以按顺序阅读本书,并在遇到陌生的概念时根据每一节提供的先验知识去阅读相关章节。
● 如果你只想了解某些特定的算法,你可以直接跳到相关章节,因为本书章节的内容都比较独立,而且会对重要的先验知识进行复盘,所以单独地阅读任何特定章节也不会有任何障碍。
本书是我编写的第一本图书,这是一个开始,但远不是一个结束。首先,由于个人的精力和能力有限,图书覆盖的知识点难免有所欠缺,甚至可能因为我的理解偏差导致编写错误,在此欢迎各位读者前去知乎专栏对应的文章下积极地指正,我也将在后续的版本中对本书进行修正和维护。随着深度学习的发展,无疑会有更多的算法被提出,甚至会有其他经典的算法被再次使用,我会在个人的知乎专栏继续对这些算法进行总结和分析。
本书的完成离不开我在求学、工作和生活中遇到的诸多“贵人”。首先感谢我在求学的时候遇到的诸位导师,他们带领我打开了人工智能的“大门”。其次感谢我在工作中遇到的诸位领导和同事,他们对我的工作给予了巨大的帮助和支持。最后感谢我的亲人和朋友,没有他们的支持和鼓励,本书是不可能完成的。
刘岩(@大师兄)
2022年5月28日