第4章 Sklearn之数据预处理

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。顾名思义,特征工程的本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。数据预处理作为特征工程中的一个主要部分,我们有必要先对其进行了解。

本章将根据机器学习的模型开发流程最初始的步骤——数据预处理进行详细介绍。简单来说,数据预处理就是将原始数据转化为便于机器学习模型学习的数据。但在实际生活场景中,文本及图像等非数字数据应当如何处理?数据本身的结构问题(如缺失、取值范围过大、结构不平衡等问题)又该如何解决?

通过学习本章,读者可以了解以下几方面内容。

·数据预处理的种类;

·数据预处理的常用方法及场景;

·用Sklearn如何实现数据预处理。