1.1 导读

机器学习技术的有效性在很大程度上不仅依赖于算法本身的设计,而且依赖于良好的数据表征(特征集)。由于缺少一些重要信息、包含不正确信息或存在大量冗余信息,无效数据表征会导致算法在处理不同任务时表现不佳。表征学习的目标是从数据中提取足够但最少的信息。传统上,该目标可以通过先验知识以及基于数据和任务的领域专业知识来实现,这也被称为特征工程。历史上,在部署机器学习和许多其他人工智能算法时,很大一部分人力需要投到预处理过程和数据转换中。更具体地说,特征工程是利用人类的聪明才智和现有知识的一种方式,旨在从数据中提取并获得用于机器学习任务的判别信息。例如,政治学家可能定义一个关键词列表用作社交媒体文本分类器的特征,以检测那些关于社会事件的文本。对于语音转录识别,人们可以通过相关操作(如傅里叶变换等)从原始声波中提取特征。尽管多年来特征工程得到了广泛应用,但其缺点也很突出,包括:(1)通常需要领域专家的密集劳动,这是因为特征工程可能需要模型开发者和领域专家之间紧密而广泛的合作;(2)不完整的和带有偏见的特征提取。具体来说,不同领域专家的知识限制了所提取特征的容量和判别能力。此外,在许多人类知识有限的领域,提取什么特征本身就是领域专家的一个开放性问题,如癌症早期预测。为了避免这些缺点,使得学习算法不那么依赖特征工程,一直是机器学习和人工智能领域的一个非常理想的目标,由此可以快速构建新的应用,并有望更有效地解决问题。

表征学习的技术见证了从传统表征学习到更先进表征学习的发展与演变。传统的表征学习方法属于“浅层”模型,旨在学习数据转换,使其在建立分类器或其他预测器时更容易提取有用的信息,如主成分分析(Principal Component Analysis,PCA)(Wold et al,1987)、高斯马尔可夫随机场(Gaussian Markov Random Field,GMRF)(Rue and Held,2005)以及局部保持投影(Locality Preserving Projections,LPP)(He and Niyogi,2004)。基于深度学习的表征学习则由多个非线性变换组成,目的是产生更抽象且更有用的表征。为了介绍更多的最新进展并聚焦本书的主题,本节主要关注基于深度学习的表征学习,具体可以分为以下三种类型:(1)监督学习,需要通过大量的标记数据训练深度学习模型。给定训练良好的网络,最后一个全连接层之前的输出总是被用作输入数据的最终表征。(2)无监督学习(包括自监督学习),有利于分析没有相应标签的输入数据,旨在学习数据的潜在固有结构或分布,通过代理任务可以从大量无标签数据中探索监督信息。基于这种方式构建的监督信息可以训练深度神经网络,从而为未来下游任务提取有意义的表征。(3)迁移学习(Transfer Learning,TL),涉及利用任何知识资源(如数据、模型、标签等)增加模型对目标任务的学习和泛化能力。迁移学习囊括不同的场景,如多任务学习(Multi-Task Learning,MTL)、模型适应、知识迁移、协变量偏移等。其他重要的表征学习方法还有强化学习、小样本学习和解耦表征学习等。

定义什么是好的表征很重要。正如Bengio(2008)所定义的那样,表征学习是关于学习数据的(底层)特征。在建立分类器或其他预测器时,基于表征更容易提取有用的信息。因此,对所学表征的评价与其在下游任务中的表现密切相关。例如,在基于生成模型的数据生成任务中,对于观察到的输入,好的表征往往能够捕捉到潜在解释因素的后验分布;而对预测任务来说,好的表征能够捕捉到输入数据的最少但足够的信息来正确预测目标标签。除从下游任务的角度进行评价以外,还可以基于好的表征可能具有的一般属性进行评价,如平滑性、线性、捕捉多个解释性的或因果性的因素、在不同任务之间保持共同因素以及简单的因素依赖性等。