前言

大数据时代给社会、经济等方面带来的影响是革命性的。在工作和生活中,数据无处不在,时时刻刻地影响着我们。大数据在让生活变得更加智能、更加便捷的同时,也产生了数据滥用等一系列问题。那么如何才能在数据的世界中不迷失方向呢?如何判断数据是反映实情还是另有所图呢?最有效的方法就是自己掌握“大数据”这一有力的武器,做数据的驾驭者。

办公自动化、机器人流程自动化(Robotic Process Automation,RPA)、人工智能(Artificial Intelligence,AI)、机器学习、深度学习、数据挖掘等概念和应用也在不断地深入人们生活和工作的各个方面。虽然本书并没有提及这些概念,但随着学习的深入,读者可以发现,本书的很多知识点都是这些领域的应用基础。

在数据分析工作中,最重要的是掌握各种数据处理工具和方法,并针对特定问题具体分析,了解数据背后的真实情况,只有讲好数据的故事,才能从数据中获取真正有用的信息。本书涵盖的内容包括从Excel到数据库,再到Python编程,整合数据处理全流程,并以基础统计学贯穿其中,相信能够帮助职场人士、自由职业者、在校大学生甚至是高中生掌握运用大数据的必要技能,充分发挥数据的能量,提高工作和学习效率,真正畅游大数据时代。

本书主要内容

本书主要内容可以划分为4个部分。第一部分包括第1章到第3章,主要讨论如何使用Excel整理数据,以及如何使用Excel进行基本的数据统计。

第1章首先介绍了如何通过Excel将数据整理为标准的二维表形式,包括如何处理空值、异常值和数据格式等;然后,讨论了定量与定性数据、绝对量与相对量的概念;最后,介绍了如何进行数据的排序、筛选,以及Excel和CSV数据的转换。

第2章介绍了常用的统计概念及其在Excel中的实现方法。此外还讨论了如何正确地使用折线图、饼图和条形图,以及如何从多个角度思考数据所反馈的信息。

第3章介绍了如何从多个维度观察数据的增长问题。当数据有多个来源,且数据量快速增长时,Excel在功能和性能等方面的不足也会体现出来,此时则需要更强大的数据处理工具。

第二部分包括第4章到第9章,主要介绍了Python编程基础、数据处理、常用的数学和统计库,还讨论了如何通过pandas模块处理数据集合、二维数据,绘制图表等,以及常用数据格式之间的转换。

第4章首先说明了如何在Windows 10操作系统中创建Python环境;然后,介绍了Python编程基础、函数与lambda表达式、面向对象编程、模块化管理、代码流程控制,以及代码运行错误的捕捉和处理。

第5章介绍了如何在Python中处理数据和集合,内容包括算术运算、随机数、序列、字典、集合、数学计算和统计资源、数据排序、按拼音排序、日期与时间处理等。

第6章介绍pandas模块的应用基础,以及如何使用Series对象处理数据集合。

第7章介绍如何使用pandas模块的DataFrame对象处理二维数据,以及如何进行数据的整理和统计等。

第8章介绍如何将Series和DataFrame对象中的数据绘制为统计图,如饼图、散点图、气泡图、折线图、条形图和箱线图。

第9章介绍了如何在Python中操作Excel文件、CSV数据,以及如何通过pandas模块操作Excel和CSV数据。

第三部分包括第10章到第13章,主要讨论了SQLite和MySQL数据库的应用,以及如何通过Python操作数据库。

第10章介绍了SQLite3数据库的应用。内容包括关系型数据库的基本概念,创建表及添加字段、创建索引,CSV数据的导入,以及如何添加、修改、删除和查询表中的数据,最后讨论了日期和时间数据的处理方式。

第11章讨论了如何使用Python内置的sqlite3模块操作SQLite数据库。内容包括数据库的连接、执行SQL语句、读取查询结果,以及如何通过Python扩展SQLite数据库的自定义函数、聚合函数和排序规则关键字,并对常用代码进行了封装。此外还介绍了如何使用pandas模块读写SQLite数据表。

第12章介绍了功能更多、性能更强的MySQL数据库及其操作方法。内容包括MySQL服务器的安装与配置,数据库和数据表的管理,CSV数据的导入,数据的添加、修改、删除和查询,以及索引、视图、存储过程和内置函数的应用等。

第13章介绍了如何在Python中通过MySQLdb模块操作MySQL数据库。内容包括数据库的连接、执行SQL、调用存储过程、读取查询结果等,并介绍了如何对常用操作进行封装。最后讨论了如何通过pandas模块读写MySQL数据表。

第四部分包括第14章到第16章,主要讨论如何综合使用Excel、数据库和Python编程等工具打造自动化的数据处理中心。

第14章讨论了如何打造自己的“数据中心”,以及如何将Excel数据进行标准化整理后自动导入数据库。此外还介绍了更多数据格式的处理,如HTML表格、JSON、从图片中识别数据等。

第15章讨论了文本数据的处理,包括字符串的处理和正则表达式的应用。此外,还讨论了如何从文本中提取关键信息,并根据这些信息实现商品推荐功能。

第16章讨论了如何在“数据中心”中自动生成报表,以及如何进一步学习数据分析。

本书读者对象

本书适合如下读者阅读。

需要进行数据处理和统计分析的职场人士、计算机爱好者等。

已有Excel应用经验,需要掌握Python、数据库等更多数据处理工具的读者。

需要学习Python编程,提高办公自动化水平的读者。

由于作者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。

祝大家在大数据世界中玩得开心!

作者