- 基于机器学习的数据缺失值填补:理论与方法
- 赖晓晨 张立勇 刘辉 吴霞
- 748字
- 2021-03-31 21:04:28
2.1.2 随机缺失
随机缺失是指,数据的缺失概率仅与非缺失变量相关,与缺失变量无关。基于式(2-1)所定义的数据缺失情况描述,在随机缺失机制下,样本xi中xij的缺失概率如式(2-3)所示:
随机缺失机制下,某样本属性值是否缺失与样本中的现有值取值有关,与缺失值取值无关。在现实世界中,随机缺失问题较为常见,例如,由于男性比女性更愿意公布体重数据,样本的体重值是否缺失与该样本中性别的取值存在较大关联;在对人群的骨密度进行调查时,高龄者由于身体不便无法参与检查,因此骨密度属性的缺失情况往往与年龄属性相关。
在随机缺失中,不完整样本往往在部分属性取值上相似度较高。简单删除不完整样本容易导致数据集所含信息的大量丢失,降低分析结果的可靠性。例如,在骨密度调查时,代表高龄者的样本在骨密度属性上易出现缺失值,而高龄者数据对于骨密度分析有着较大影响,直接删除此类不完整样本易导致分析结果的偏差。
因此,数据预处理期间,通常需根据现有值对缺失值展开合理的估计。在基于统计学的缺失值填补方法中,回归填补、期望最大化填补和多重填补均能够有效处理此类缺失值问题。针对医疗数据中的随机缺失问题,研究人员将多种基于统计学的填补方法进行对比后发现,当数据缺失率低于10%时,回归填补和期望最大化填补的填补效果比较理想,而当数据缺失率在20%左右时,多重填补能够获得较高的填补精度[6]。
基于机器学习的缺失值填补方法同样能够有效处理随机缺失问题。以K最近邻填补和聚类填补法为例,鉴于不完整样本中缺失值与现有值的相关性,以及其与近邻样本在属性取值上的相似性,K近邻填补法根据近邻样本在缺失值相应属性上的取值填补不完整样本。在聚类填补法中,原型(Prototype)是对簇内样本相似性的归纳,也是最具代表性的一个样本点。利用原型填补不完整样本的缺失值,同样能够获得理想的填补结果。