- 基于机器学习的数据缺失值填补:理论与方法
- 赖晓晨 张立勇 刘辉 吴霞
- 2430字
- 2021-03-31 21:04:30
2.3.2 方法分类
数据质量对人工智能领域的算法与模型有着重要的影响,因此,缺失值问题受到了越来越多的关注。目前,缺失值填补方法数量众多并且应用广泛,为了从宏观上对各种填补方法加以区分和归纳,可以基于不同的角度对已有的填补方法展开分类。下面介绍几种缺失值填补方法的分类标准。
根据所用理论基础不同,缺失值填补方法可分为基于统计学的填补方法以及基于机器学习的填补方法。正如1.2节所述,基于统计学的填补方法根据统计学的理论知识对缺失值进行统计处理,主要包括均值填补、回归填补、期望最大化填补等。基于机器学习的填补方法借助机器学习算法对不完整数据进行建模,挖掘数据内的有效信息并以此估算缺失值。此类方法包括K最近邻填补法、基于聚类的填补方法和基于神经网络的填补方法等。
机器学习可看作是计算机科学与统计学的交叉学科,因此部分机器学习算法会借助统计学理论展开建模,例如贝叶斯网(Bayesian Network)、朴素贝叶斯分类器(Naive Bayes Classif ier)、期望最大化算法等均是在概率框架下实施决策的机器学习算法。鉴于机器学习与统计学之间的关联,诸如期望最大化填补等方法既可隶属于统计学方法,也可隶属于机器学习方法,故在此标准下方法的分类界限存在一定的模糊性。
根据同一缺失值的填补次数不同,缺失值填补方法可分为单一填补法和多重填补法。单一填补法为每个缺失值计算一次填补值,从而获得一个完整数据集;而多重填补法为每个缺失值计算多次填补值以得到若干个完整数据集,接着对每个填补数据集进行统计分析,并综合各分析结果以计算最终的填补值。单一填补法比较常见,例如,均值填补、回归填补、K最近邻填补、神经网络填补等大多数统计学与机器学习填补方法均可视为单一填补法。多重填补法所用的填补模型与单一填补法中的填补模型基本相同。例如,回归填补法可视为多重填补法的基础填补方法,在单次填补期间进行填补值的估算。为了使单次求解的填补值不相同,可考虑在回归填补法所得的填补值基础上加入一个随机误差项,进而生成若干个填补值。此外,在单次填补期间,也可根据重抽样法从完整样本集合中随机抽取部分样本,并根据所抽取的样本求解回归模型参数,接着利用所建模型计算填补值。重抽样法确保了每次参与回归建模的样本不同,进而保证了由所建模型求得的填补值也不相同。该方法将在3.4.1节详细介绍。
与多重填补法相比,单一填补法更加简单且易操作,但是所得的填补值是唯一的,无法体现缺失值的不确定性,若填补值不合理,则会导致分析结果的偏差。而在多重填补法的处理过程中,若干个填补值能够反映出缺失值的不确定性,某个不合理的填补值不会对最终的分析结果造成决定性的负面影响。
根据填补期间是否需要辅助信息,缺失值填补方法可分为不使用辅助信息的填补法和使用辅助信息的填补法。其中,前者仅通过对现有数据的分析为缺失值计算合理的填补值。此类方法包括均值填补、回归填补、K最近邻填补、神经网络填补等多种方法。后者在现有数据的基础上,结合辅助信息,甚至是领域内专家的经验指导填补值的求解。冷平台(Cold Deck)填补法是一类典型的使用辅助信息的填补方法,其借助以往的调查数据或者相关资料等信息进行缺失值的估算。例如,在家庭经济调查中,若某家庭的人均年收入数据不慎丢失,冷平台填补法将利用该家庭在往年调查中的人均年收入数据对该缺失值进行估算。由于家庭的历年调查数据能够客观反映该家庭的经济状况,因此借助相关的历史数据可以对缺失值做出合理的推断。此外,人机结合的方式也为使用辅助信息的填补方法提供了有效的设计思路。在填补期间,可根据人类的经验对模型求解实施必要的干预,将运算模型和真实情况进行有效链接,从而使模型在充分考虑真实情况的基础上计算出更为合理可靠的填补结果。
不使用辅助信息的填补法能够对数据集进行明确的建模,而使用辅助信息的填补法建立的模型相对模糊。以冷平台填补法为例,在应用该方法时,如何根据以往的调查数据或相关资料求解填补值是一个模糊的过程,需要根据实际情况进行具体设计,故此类方法所用到的模型较为模糊。相比之下,不使用辅助信息的填补法直接针对现有数据建模。例如,均值填补法利用每个属性中现有值的平均值填补缺失值,神经网络填补法通过网络模型拟合数据属性间的关联并以此求解填补值,此类方法的建模过程比较明确。
根据数据集的使用方式不同,常见的缺失值填补方法可分为基于样本间相似性的填补方法和基于属性间关联度的填补方法。基于样本间相似性的填补方法寻找与不完整样本相似性较高的一组样本,并利用这些样本在相应属性上的缺失值进行填补。正如2.2.3节所述,此类方法包括K最近邻填补法、基于聚类的填补法以及基于自组织映射网络的填补法等。此外,在统计学填补方法中,均值填补法针对不完整样本中的每个缺失值,将缺失值相应属性上为现有值的所有样本视为相似样本,接着利用相似样本在该属性上的均值填补缺失值。热平台填补法根据数据集中与不完整样本相似的一个完整样本展开缺失值填补。这两种方法均可视为基于样本间相似性的填补方法。基于属性间关联度的填补方法根据回归建模挖掘数据属性间的关联性,并以此指导缺失值填补。此类方法包括回归填补法、多层感知机与自编码器等神经网络填补法以及基于TS(Takagi-Sugeno)模型的填补法等。前两种方法已在2.2.3节介绍,在第三种方法中,TS模型是一种可解释强大的非线性建模工具,其基本思想是将整个输入数据集分解成若干个模糊子集,并为每个子集建立局部线性回归模型,接着将各个局部模型进行融合以形成全局的非线性模型。该模型可看作是线性回归模型的改进结构,能够实现理想的拟合效果。
对比基于样本间相似性的填补方法,基于属性间关联度的填补方法往往能够利用属性间关联对缺失值做出更合理的推算。然而,回归模型的拟合质量影响了填补值的准确性,因此在对属性间关联进行挖掘时,需根据实际情况选取行之有效的回归模型,从而对填补值进行估算。
上述几种分类标准从不同视角对填补方法进行区分和归纳,这些分类标准之间相互交叉重叠,共同构成了对缺失值填补方法的宏观描述。