2.1 Pandas的两大数据结构_Python电商数据分析实战-QQ阅读男生科幻网

2.1 Pandas的两大数据结构

首先，我们从Pandas的核心数据结构讲起。Pandas主要有两种类型的数据结构，分别是Series和DataFrame。这两种数据结构像两个可塑性极强的容器，能把遇到的各类数据都装进去，并按照容器的规则对数据进行高效处理。

为了便于理解，这里拿Excel表格来做类比，如表2-1所示。

表2-1 Excel类比样例表

Series可以看作表中的某一列，这里的语文、数学、英语成绩对应的列都是一个Series。DataFrame则是整张数据表，由多列构成。Pandas的几乎所有操作都是基于这些列和表进行的。下面分别认识一下Series和DataFrame。

1.表格的三要素

Series和DataFrame的存在是为了更有效率地容纳和处理数据。实际应用中，我们遇到的大部分数据是以表格形式存在的，而在处理的时候往往以列的方式来进行。

在介绍如何创建数据之前，先明确表格的基本要素，能够帮助我们更好地理解Series和DataFrame的特征与原理，知其然并知其所以然，更快地抓住重点。

想象一下，现在有一张数据表，我们需要知道哪些基本信息才能随心所欲地操作它？

1）想要自由地操作任意一列数据，首先要知道每一列数据叫什么，即列名。

2）知道数据的总行数及每一行对应的序号也很重要，毕竟处理10条数据与处理100万条数据需要的资源和工具是不一样的。

3）知道表格里的每个值具体是多少，这对于我们的统计分析结果来说至关重要。

总结一下，表格的三要素如下。

❑列名（column）：对应着列名，指定操作哪列数据。

❑索引（index）：代表索引，告诉我们有多少行数据，索引默认从0开始。

❑值（value）：指代具体的数据值。

这3个基本要素贯穿Pandas数据分析的始终，作用是让我们更加灵活地处理和分析数据。

接下来我们动手在Pandas中尝试创建数据。

2.创建DataFrame和Series

如果想在Pandas中创建一张如表2-2所示的表，应该如何操作？

表2-2 创建表样例

Pandas操作的第一步一定是导入库，命令为：import pandas as pd。

创建DataFrame最常用的方式是字典+列表，语句很简单，先用花括号{}创建一个字典，然后在其中依次输入每一列的列名及其对应的列值（此处一定要用列表）。这里对应关系重要，列的顺序并不重要。代码示例如下：

运行结果如下：

上面代码的结果对应到Excel表格中，如图2-1所示。值得注意的是，如果我们在创建时不指定index参数，系统会自动生成从0开始的索引。

图2-1 表格三要素样例

还可以通过改变索引、列名和值来控制数据，这和前文讲的表格三要素——列名、索引、值是对应的。

对于Series的创建，在创建好DataFrame之后选择对应的列即可。在上述实例中，选择刚创建好的df1中的工资列作为新的Series：

运行结果如下：

也可以通过指定值和索引的方式来单独创建一列：

运行结果如下：

DataFrame和Series的创建非常便捷，不过在实际运用中，单独创建数据的场景较少，更多是直接读取现有数据源。