1.4.3 联邦迁移学习
联邦迁移学习是联邦学习和迁移学习的结合体。在学习联邦迁移学习之前,我们先来认识迁移学习。随着机器学习的广泛应用,在很多有监督学习场景中常常需要进行大量数据标注,这是一项十分耗时且乏味的工作,因此迁移学习就被引入了。迁移学习的出发点是减少人工标注数据的时间,使得模型可以通过已有的标注数据将已学知识迁移到未标注的数据中。目前,迁移学习主要应用在将训练好的模型参数迁移到新的模型中辅助新的模型进行训练(如图1-5所示)。
图1-5 迁移学习思想示意图
2010年,Pan等人在文献[34]中基于源域(Source Domain)和目标域(Target Domain)将迁移学习分为归纳迁移学习、直推式迁移学习和无监督迁移学习三种方向。在最近的研究中,对迁移学习的研究主要集中在基于特征表示的迁移学习方法,其已经在图像分类、文本分类、自然语言处理(NLP)等领域取得了很好的效果。
联邦迁移学习主要对应上面数据集中的第三种情况,即如果两个或者多个数据集中的用户样本和用户特征都不太相同,那么我们就按照迁移学习的方式从数据集中来弥补数据不足或者标签不足进行训练。简单来说,联邦迁移学习不对数据切分(如图1-6所示),是一种基于知识迁移的联邦学习方式。在文献[30]中,研究者将联邦迁移学习总结为
图1-6 联邦迁移学习示意图
假设现在有中国某银行的数据集和美国某外卖公司的数据集,因为在不同的国家,所以用户的交叉很少。因为银行业务和外卖公司业务相差很大,所以用户特征的交叉也很少。如果用户需要进行有效的联邦建模,就需要借助迁移学习技术,解决单边数据缺乏或者标签少的问题,从而更有效地进行联邦模型训练。