1.5 数据分析常用模块库

数据分析的常用模块库有NumPy、Pandas、Matplotlib、Scikit-Learn等。

1.NumPy模块

NumPy是一个运行速度非常快的数学模块,是进行科学计算和数据分析时必不可少的基础模块。NumPy模块不仅支持大量的维度数组与矩阵运算,还针对数组运算提供大量的数学函数模块。例如:

 强大的N维数组对象ndarray()。

 成熟的(广播)函数库。

 整合C/C++/Fortran代码的工具。

 实用的线性代数、傅里叶变换和随机数生成函数。

2.Pandas模块

Pandas是一个开源且通过BSD许可的模块,主要为Python提供高性能、易于使用的数据结构和数据分析工具。

Pandas的数据结构中有两大核心,分别是Series与DataFrame。其中,Series是一维数组,和NumPy中的一维数组类似。这两种一维数组与Python中的基本数据结构List很相近,Series可以保存多种数据类型的数据,如布尔值、字符串、数字类型等;DataFrame是一种二维的表格型数据结构,类似Excel表格。

3.Matplotlib模块

Matplotlib是一个Python绘图模块,不仅可以绘制2D图表,还可以绘制3D图表。其名称中,“plot”表示绘图,“lib”表示它是一个集合。

使用Matplotlib绘制图表非常简单,只需几行代码即可快速绘制条形图、折线图、散点图、饼图等。matplotlib.pyplot子模块提供了类似MATLAB的界面,尤其是与IPython结合使用时。其每个函数都可以对图形进行更改,如创建图形,在图形中创建绘图区域,绘制线条样式,设置字体属性、轴属性等。

4.Scikit-Learn模块

Scikit-Learn是一个简单、有效的数据挖掘和数据分析工具,可以在各种环境下重复使用。Scikit-Learn是基于NumPy、SciPy和Matplotlib的,它将很多机器学习算法进行了封装,即使是不熟悉算法的用户,也可以通过调用函数的方式轻松建模。其中的sklearn模块可以实现数据的预处理、分类、回归、PCA降维、模型选择等,是数据分析中必不可少的一个模块。