1.4.3 处理数据_Python数据分析从入门到精通（第2版）-QQ阅读男生历史网

书名：Python数据分析从入门到精通（第2版）
作者名：明日科技编著
本章字数：695字
更新时间：2024-12-27 20:10:36

1.4.3　处理数据

处理数据是指从大量的、杂乱无章的、难以理解的、缺失的数据中，抽取并推导出对解决问题有价值、有意义的数据的过程。处理数据主要包括数据规约、数据清洗、数据加工等处理方法，如图1.11所示。

图1.11　处理数据

1．数据规约

数据规约是指在接近或保持原始数据完整性的同时，将数据集规模减小，以提高数据处理的速度。

2．数据清洗

获取原始数据后，会发现其中很多数据不符合数据分析要求，此时就要对其进行清洗，操作步骤如下。

（1）数据探索分析，即分析数据是否存在缺失、异常等情况，分析数据的规律。Python中，describe（）函数可以自动计算非空值（count）、唯一值（unique）、最高值（top）、最高频值（freq）、平均值（mean）、方差（std）、最小值（min）、最大值（max）等，通过求得的值可以分析出有多少数据存在数据缺失和数据异常。

（2）重复数据处理。对于重复的数据，一般做删除处理，通常使用Python第三方模块Pandas中的drop_duplicates（）方法。

（3）缺失数据处理。对于缺失的数据，如果比例高于30%，则可以选择放弃这个指标，删除即可；如果缺失比例低于30%，则可以将这部分缺失数据进行填充，以0或均值等。

（4）异常数据处理。需要对具体业务进行分析和处理，对于不符合常理的数据可直接删除。

3．数据加工

数据加工包括数据抽取、数据计算、数据分组和数据转换。

　数据抽取：选取数据中的部分内容。

　数据计算：进行各种算术和逻辑运算，以便得到进一步的信息。

　数据分组：按照有关信息进行有效的分组。

　数据转换：数据标准化处理，以适应数据分析算法的需要，常用的有z-score标准化、最小／最大标准化和按小数定标标准化等。

经过上述标准化处理后，数据中各指标值将会处在同一个数量级别上，可以更好地对数据进行综合测评和分析。