3.3 特征工程
3.3.1 错误及缺失处理
在进行机器学习建模之前,需要进行特征加工。特征加工的第一步就是对缺失和错误的数据进行处理。具体来说,对于数据有误的,如果整列特征大部分有误,就应该删除该特征,以避免噪声对模型训练的影响;如果个别样本在某一/某些重要特征上有误,就应该考虑删除该样本。需要特别注意的是,在面板数据中,在删除样本时不应该只删除一个观测点,而应该删除该样本在所有时间截面上的观测点。另外,有的错误数据是可以矫正的,比如格式不统一的数据。对于缺失的数据来说也一样,如果重要的特征缺失,我们就应该考虑删除这些样本(即删除所在行);对于不重要的且大规模缺失的特征,我们就应该考虑删除这样的特征(即删除所在列);对于不重要的但不是大规模缺失的特征,我们就可以考虑填充缺失值,例如使用特征的中位数/众数/平均数/滞后一期数/提前一期数/插值等进行填充,具体的填充方案应该视该特征的含义和经验而定。最后需要强调的一点是,我们应当明确缺失样本和缺失值为0的样本的区别,在实际处理中,我们常常会用0对缺失值进行填充,这导致了该特征本来就取0的样本和缺失样本被混为一谈,有时候通过独热来表明哪些是缺失样本,哪些是缺失值为0的样本是非常重要的。