- 基于机器学习的数据缺失值填补:理论与方法
- 赖晓晨 张立勇 刘辉 吴霞
- 517字
- 2021-03-31 21:04:40
3.5 本章小结
本章介绍了4类常见的缺失值填补方法,包括基于样本间相似度的填补方法、基于属性间相关性的填补方法、基于参数估计的期望最大化填补方法以及针对缺失数据不确定性的填补方法,各类方法可总结如下。
基于样本间相似度的填补方法采用与不完整样本相似度较高样本的现有值填补缺失值。基于该思路的常见方法包括均值填补法、热平台填补法、K最近邻填补法、基于聚类的填补方法等。基于属性间相关性的填补方法利用属性间的关联建立回归模型,并基于完整样本求解模型参数,进而估计缺失值。基于神经网络的填补方法是此类方法的代表,其能够有效挖掘数据属性间的非线性关系,从而获得精度较高的填补结果,在后续章节中将对该方法进一步展开研究。基于参数估计的期望最大化填补方法将参数估计法作为理论基础,并采用期望最大化算法填补缺失值。此类方法交替更新缺失值与极大似然估计的目标参数,能够充分利用数据集中的完整数据。针对缺失数据不确定性的填补方法基于多种可能的填补值对填补结果进行合理推断,从而有效应对缺失值的不确定性,其中,较为常见的包括多重填补法和基于证据理论的填补方法。
上述缺失值填补方法采用的理论和模型各具特点,适用场景也存在差异,在现实应用中,可根据实际情况合理选择。