3.3 特征工程_联邦学习技术及实战-QQ阅读男生都市网

书名：联邦学习技术及实战
作者名：彭南博王虎等
本章字数：5字
更新时间：2021-04-16 16:40:46

3.3 特征工程

3.3.1 错误及缺失处理

在进行机器学习建模之前，需要进行特征加工。特征加工的第一步就是对缺失和错误的数据进行处理。具体来说，对于数据有误的，如果整列特征大部分有误，就应该删除该特征，以避免噪声对模型训练的影响；如果个别样本在某一/某些重要特征上有误，就应该考虑删除该样本。需要特别注意的是，在面板数据中，在删除样本时不应该只删除一个观测点，而应该删除该样本在所有时间截面上的观测点。另外，有的错误数据是可以矫正的，比如格式不统一的数据。对于缺失的数据来说也一样，如果重要的特征缺失，我们就应该考虑删除这些样本（即删除所在行）；对于不重要的且大规模缺失的特征，我们就应该考虑删除这样的特征（即删除所在列）；对于不重要的但不是大规模缺失的特征，我们就可以考虑填充缺失值，例如使用特征的中位数/众数/平均数/滞后一期数/提前一期数/插值等进行填充，具体的填充方案应该视该特征的含义和经验而定。最后需要强调的一点是，我们应当明确缺失样本和缺失值为0的样本的区别，在实际处理中，我们常常会用0对缺失值进行填充，这导致了该特征本来就取0的样本和缺失样本被混为一谈，有时候通过独热来表明哪些是缺失样本，哪些是缺失值为0的样本是非常重要的。