1.6 学术会议和工业界中的迁移学习

迁移学习是机器学习中重要的研究领域,ICML、NIPS、AAAI、ICLR等国际人工智能顶会上不断推出迁移学习相关主题的研讨会。图1.11简要展示了迁移学习在部分人工智能顶会上的发展历程。可以清晰地看到,迁移学习也是这些顶会中非常受关注的方向。

图1.11 迁移学习在部分人工智能顶会上的发展历程

从图中可以看出,迁移学习一直都是国际学术界的重要研究话题之一。并且,人们对于迁移学习的定义、研究内容、研究边界等的认知也一直在不断深化。甚至在100多年前的1901年,当计算机还是天方夜谭之时,国际心理学相关会议就在探究个体如何将其在一个情境中的行为迁移到另一个相似情境的课题[Woodworth and Thorndike,1901]。随着机器学习技术的日新月异,最早在1995年的人工智能顶会NIPS上就出现了学习如何学习:在归纳系统中的知识强化和迁移的研讨会[4]。随后的2005年,美国国防部高级研究计划局(DARPA)启动了一项关于迁移学习的研究,旨在探讨一个系统认知和将之前学过的知识应用于新任务的能力[5]。接下来,在机器学习顶级会议ICML 2006上,研究者们举办了结构知识迁移的研讨会[6]。接着,在另一个人工智能顶会——2008年的美国人工智能会议AAAI上,研究者们又举行了对于复杂任务的迁移学习这一研讨会[7]。2009年,杨强教授团队在数据挖掘顶级会议ICDM上组织了第一届迁移学习的workshop。在2011年的机器学习顶会ICML上,召开了无监督和迁移学习的研讨会[8]。2011年,国际权威神经网络会议IJCNN举办了无监督和迁移学习的挑战赛[9]。随后,NIPS又在2013年的研讨会上探究迁移学习和多任务学习的新方向[10]。最近的2017年[11]到2019年[12],在计算机视觉顶会ICCV和ECCV出现了相关的研讨会和国际比赛。2019年,ICML大会上来自UC Berkeley的学者做了关于元学习的讲座,另一顶会ICLR也在研讨会上探索从有限的标注数据中学习的新技术[13]

此外,迁移学习技术驱动的模型方法也多次获得顶级学术会议重量级奖项。2007年,ICDM室内定位大赛一等奖的方案来自迁移学习[14]。2018年,计算机视觉顶级学术会议CVPR将最佳论文奖颁给了以探究迁移学习中任务之间联系的论文Taskonomy: Disentangling Task Transfer Learning [Zamir et al.,2018]。同样是在2018年,在另一国际人工智能顶级会议IJCAI的国际广告算法大赛上,冠军方案也同样是由迁移学习技术驱动的[15]。2019年数据挖掘领域权威会议PAKDD的最佳论文颁给了迁移学习相关的研究Parameter Transfer Unitfor Deep Neural Networks [Zhang et al.,2018]。2019年,在国际语言学顶级会议ACL的开幕演讲上,ACL主席周明博士强调了基于预训练模型的迁移学习方法在语言学领域的重要价值[16]。一年后的2020年,同样是在ACL会议上,一篇探索预训练在语言模型中的应用的论文Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan et al.,2020]获得了会议最佳论文荣誉提名奖。迁移学习在国际顶级学术会议上的发展势头良好。可以预见的是,未来还会有更多的迁移学习话题出现在这些人工智能和机器学习顶会上,迁移学习技术一定会发展得更好。

特别地,杨强教授及其团队在2020年出版了第一本迁移学习专著[Yang et al.,2020a],全面覆盖了迁移学习理论和应用案例。本书的一个重要区别是囊括了众多的代码和数据集,让学生更加有落地实践的可能。

迁移学习这一研究领域不仅在学术上持续获得顶级会议的青睐,也受到了众多企业的青睐。2017年,由前海征信主办、科赛网承办的“好信杯”大数据算法大赛落下帷幕,共吸引了242支队伍共600多位选手参赛,来自第四范式的团队利用迁移学习获得了冠军[17]。2019年,平安科技举行了医疗科技疾病问答迁移学习比赛[18]。2020年,微软研究团队使用仿真环境到真实环境中的迁移学习,训练现实世界中的无人机[19]。随后,微软发布了史上最大的基于预训练的自然语言处理模型Turing-NLG[20]。OpenAI启动了一项强化迁移学习的比赛,针对“刺猬索尼克”游戏要求选手开发虚拟到现实环境的强化迁移学习算法,使得模型能够迁移到不同环境中[21]。谷歌和OpenAI也分别开发了基于自监督预训练的语言模型BERT、T5、和GPT系列,将迁移学习在自然语言处理中的作用发挥到极致。NVIDIA发布迁移学习工具包,用于特定领域深度学习模型快速训练的高级SDK[22]。阿里巴巴则利用迁移学习和元学习为其小样本数据的学习和系统安全保驾护航[23]。亚马逊的语音助手Alexa利用迁移学习迅速学会第二门语言,并且大大减少了训练数据量[24]

本小节所列举的迁移学习在学术会议和工业界中的例子仅是少数。期待未来会有更多的迁移学习学术研究和应用成果出现。更多的迁移学习应用请读者移步第15章。

[1]这些免费图像来源请见链接1-1。

[2]请见链接1-2。

[3]在本书中,数据分布大多指数据的概率分布。通常,数据分布含义较广泛,但在机器学习的语境中,我们所说的数据分布指的就是概率分布。书中对两种用法不再做细致的区分。

[4]请见链接1-3。

[5]请见链接1-4。

[6]请见链接1-5。

[7]请见链接1-6。

[8]请见链接1-7。

[9]请见链接1-8。

[10]请见链接1-9。

[11]请见链接1-10。

[12]请见链接1-11。

[13]请见链接1-12。

[14]请见链接1-13。

[15]请见链接1-14。

[16]请见链接1-15。

[17]请见链接1-16。

[18]请见链接1-17。

[19]请见链接1-18。

[20]请见链接1-19。

[21]请见链接1-20。

[22]请见链接1-21。

[23]请见链接1-22。

[24]请见链接1-23。