封面
版权信息
内容简介
如何使用本书开发资源库
前言
第1篇 基础知识
第1章 数据分析基础
1.1 数据分析概述
1.2 常见数据分析方法
1.2.1 对比分析法
1.2.2 同比分析法
1.2.3 环比分析法
1.2.4 回归分析法
1.2.5 聚类分析法
1.3 了解数据分析工具
1.4 数据分析的基本流程
1.4.1 确认目标
1.4.2 获取数据
1.4.3 处理数据
1.4.4 分析数据
1.4.5 验证结果
1.4.6 展示数据
1.4.7 应用数据
1.5 数据分析常用模块库
1.6 小结
第2章 搭建数据分析开发环境
2.1 强大的编程语言Python
2.1.1 Python概述
2.1.2 安装Python
2.1.3 创建第一个Python程序
2.2 安装Anaconda开发环境
2.3 JupyterNotebook开发工具
2.3.1 初识Jupyter Notebook
2.3.2 创建Jupyter Notebook文件
2.3.3 测试Jupyter Notebook
2.4 PyCharm集成开发环境
2.4.1 PyCharm的下载与安装
2.4.2 配置PyCharm
2.4.3 测试PyCharm
2.5 小结
第3章 NumPy模块之数组计算
3.1 NumPy模块概述
3.1.1 什么是NumPy模块
3.1.2 安装NumPy模块
3.1.3 NumPy的数据类型
3.1.4 ndarray()数组对象
3.1.5 dtype数据类型对象
3.2 创建数组
3.2.1 创建简单的数组
3.2.2 多种创建数组的方式
3.2.3 根据数值范围创建数组
3.2.4 生成随机数组
3.2.5 在已有的数组中创建数组
3.3 数组的基本操作
3.3.1 数组的多种运算方式
3.3.2 数组的索引和切片
3.3.3 数组的重塑
3.3.4 数组的增、删、改、查
3.4 矩阵的基本操作
3.4.1 创建矩阵
3.4.2 矩阵的运算
3.4.3 矩阵的转换
3.5 NumPy常用的数学运算函数
3.5.1 算术函数
3.5.2 舍入函数
3.5.3 三角函数
3.6 统计分析
3.6.1 求和函数sum()
3.6.2 平均值函数mean()
3.6.3 最大值与最小值函数max()、min()
3.6.4 中位数函数median()
3.6.5 加权平均函数average()
3.6.6 方差与标准差函数var()、std()
3.7 数组排序
3.7.1 sort()函数
3.7.2 argsort()函数
3.7.3 lexsort()函数
3.8 小结
第4章 Pandas模块基础
4.1 安装Pandas模块
4.2 了解Pandas模块
4.3 Pandas模块的两大数据结构
4.3.1 Series()对象
4.3.2 DataFrame()对象
4.4 数据中的索引
4.4.1 什么是索引
4.4.2 Series()对象的索引
4.4.3 DataFrame()对象的索引
4.5 小结
第5章 Pandas模块之数据的读取
5.1 读取文本文件中的数据
5.2 Excel文件的读取和写入
5.2.1 读取Excel文件中的数据
5.2.2 读取指定Sheet页中的数据
5.2.3 通过行列索引读取指定数据
5.2.4 将数据写入Excel文件中
5.3 CSV文件的读取和写入
5.3.1 读取CSV文件中的数据
5.3.2 将数据写入CSV文件中
5.4 读取HTML网页
5.5 读取数据库中的数据
5.5.1 读取MySQL数据库中的数据
5.5.2 读取MongoDB数据库中的数据
5.6 小结
第6章 Pandas模块之数据的处理
6.1 数据抽取
6.1.1 抽取指定行数据
6.1.2 抽取多行数据
6.1.3 抽取指定列数据
6.1.4 抽取指定的行、列数据
6.2 数据的增、删、改、查
6.2.1 增加数据
6.2.2 按行增加数据
6.2.3 删除数据
6.2.4 修改数据
6.2.5 查询数据
6.3 数据的排序和排名
6.3.1 数据的排序
6.3.2 数据排名
6.4 小结
第7章 Pandas模块之数据的清洗
7.1 缺失值的处理
7.1.1 了解数据中的缺失值
7.1.2 查看缺失值
7.1.3 处理缺失值
7.2 处理数据中的重复值
7.3 数据中异常值的检测与处理
7.4 数据中字符串的操作函数
7.4.1 字符串对象中的常见函数
7.4.2 替换字符串—replace()函数
7.4.3 数据切分—split()函数
7.4.4 判断字符串—contains()函数
7.5 数据转换
7.5.1 通过字典映射的方式实现数据转换—map()函数
7.5.2 数据分割—cut()函数
7.5.3 数据分类—get_dummies()函数
7.6 小结
第8章 数据的计算与格式化
8.1 常见的数据计算函数
8.1.1 求和—sum()函数
8.1.2 求平均值—mean()函数
8.1.3 求最大值—max()函数
8.1.4 求最小值—min()函数
8.2 高级的数据计算函数
8.2.1 求取中位数—median()函数
8.2.2 求取众数—mode()函数
8.2.3 计算方差—var()函数
8.2.4 计算标准差—std()函数
8.2.5 计算分位数—quantile()函数
8.3 数据格式化
8.3.1 设置小数位数
8.3.2 设置百分比
8.3.3 设置千位分隔符
8.4 小结
第9章 数据统计及透视表
9.1 数据的分组统计
9.1.1 分组统计—groupby()函数
9.1.2 分组数据的迭代
9.1.3 分组聚合运算—agg()函数
9.1.4 通过字典和Series()对象进行分组统计
9.2 数据移位
9.3 数据合并
9.3.1 数据合并—merge()函数
9.3.2 数据合并—concat()函数
9.3.3 最近合并—merge_asof()函数
9.4 数据透视表
9.4.1 pivot()函数
9.4.2 pivot_table()函数
9.5 小结
第10章 处理日期与时间
10.1 日期数据的处理
10.1.1 日期数据的转换
10.1.2 dt()对象
10.1.3 获取指定日期区间的数据
10.1.4 按不同时期统计数据
10.2 日期范围、频率和移位
10.2.1 生成日期范围—date_range()函数
10.2.2 日期频率转换—asfreq()函数
10.2.3 日期移位—shift()函数
10.3 时间区间与频率转换
10.3.1 创建时间区间
10.3.2 区间频率转换
10.4 重新采样与频率转换
10.4.1 重新采样—resample()函数
10.4.2 降采样处理
10.4.3 升采样处理
10.5 移动窗口函数
10.5.1 将时间序列的数据汇总—ohlc()函数
10.5.2 移动窗口数据计算—rolling()函数
10.6 小结
第11章 Scikit-Learn机器学习模块
11.1 Scikit-Learn概述
11.2 安装Scikit-Learn模块
11.3 线性模型
11.3.1 最小二乘法回归—LinearRegression对象
11.3.2 岭回归—Ridge对象
11.4 支持向量机
11.5 聚类
11.5.1 什么是聚类
11.5.2 聚类算法
11.5.3 聚类模块
11.5.4 聚类数据生成器
11.6 小结
第2篇 可视化图表
第12章 Matplotlib模块入门
12.1 Matplotlib模块概述
12.1.1 了解Matplotlib模块
12.1.2 Matplotlib模块的安装
12.1.3 体验Matplotlib可视化图表
12.2 图表的基本设置
12.2.1 基本绘图—plot()函数
12.2.2 设置画布—figure()函数
12.2.3 设置坐标轴—xlabel()、ylabel()函数
12.2.4 设置文本标签—text()函数
12.2.5 设置标题和图例—title()、legend()函数
12.2.6 添加注释—annotate()函数
12.2.7 设置网格线—grid()函数
12.2.8 设置参考线—axhline()、axvline()函数
12.2.9 选取范围—axhspan()、axvspan()函数
12.2.10 图表的布局—tight_layout()函数
12.2.11 保存图表—savefig()函数
12.3 绘制常用的图表
12.3.1 绘制散点图—plot()、scatter()函数
12.3.2 绘制折线图—plot()函数
12.3.3 绘制柱形图—bar()函数
12.3.4 绘制直方图—hist()函数
12.3.5 绘制饼形图—pie()函数
12.3.6 绘制面积图—stackplot()函数
12.3.7 绘制箱形图—boxplot()函数
12.3.8 绘制热力图—imshow()函数
12.3.9 绘制雷达图—polar()函数
12.3.10 绘制气泡图—scatter()函数
12.3.11 绘制棉棒图—stem()函数
12.3.12 绘制误差棒图—errorbar()函数
12.4 小结
第13章 Matplotlib模块进阶
13.1 图表的颜色设置
13.1.1 常用颜色
13.1.2 可识别的颜色格式
13.1.3 颜色映射
13.2 处理日期与时间
13.2.1 dates子模块
13.2.2 设置坐标轴日期的显示格式
13.2.3 设置坐标轴日期刻度标签
13.3 次坐标轴(双坐标轴)
13.3.1 共享x坐标轴—twinx()函数
13.3.2 共享y坐标轴—twiny()函数
13.4 绘制多个子图表
13.4.1 subplot()函数
13.4.2 subplots()函数
13.4.3 add_subplot()函数
13.4.4 子图表共用一个坐标轴
13.5 绘制函数图像
13.5.1 一元一次函数图像
13.5.2 一元二次函数图像
13.5.3 正弦函数图像—sin()函数
13.5.4 余弦函数图像—cos()函数
13.5.5 S型生长曲线— Sigmoid()函数
13.6 形状与路径
13.6.1 绘制形状—patches子模块
13.6.2 绘制路径—path子模块
13.6.3 绘制圆—Circle()对象
13.6.4 绘制矩形—Rectangle()对象
13.7 绘制3D图表
13.8 小结
第14章 Seaborn图表
14.1 了解Seaborn图表
14.1.1 Seaborn概述
14.1.2 安装Seaborn模块
14.1.3 体验Seaborn图表
14.2 Seaborn图表的基本设置
14.2.1 设置背景风格
14.2.2 控制边框的显示方式
14.3 绘制常见图表
14.3.1 绘制散点图—replot()函数
14.3.2 绘制折线图—relplot()、lineplot()函数
14.3.3 绘制直方图—displot()函数
14.3.4 绘制条形图—barplot()函数
14.3.5 绘制线性回归模型—lmplot()函数
14.3.6 绘制箱形图—boxplot()函数
14.3.7 绘制核密度图—kdeplot()函数
14.3.8 绘制提琴图—violinplot()函数
14.4 小结
第15章 Plotly图表
15.1 了解Plotly图表
15.1.1 安装Plotly模块
15.1.2 Plotly绘图原理及流程
15.1.3 Plotly图表的生成方法
15.2 绘制基础图表
15.2.1 绘制散点图与折线图—Scatter()对象
15.2.2 绘制柱形图与水平条形图—Bar()对象
15.2.3 绘制饼形图与环形图—Pie()对象
15.3 设置图表
15.3.1 图层布局—Layout()对象
15.3.2 设置图表标题
15.3.3 设置文本标记
15.3.4 设置注释文本
15.4 统计图表
15.4.1 绘制直方图
15.4.2 绘制箱形图
15.4.3 绘制热力图
15.4.4 绘制等高线图
15.5 绘制子图表
15.5.1 绘制基本的子图表
15.5.2 自定义子图位置
15.5.3 子图可供选择的图形类型
15.6 三维图绘制
15.7 绘制表格
15.7.1 Table()对象
15.7.2 create_table()函数
15.8 小结
第16章 Bokeh图表
16.1 了解Bokeh图表
16.1.1 安装Bokeh模块
16.1.2 词汇与接口说明
16.1.3 绘制第一张Bokeh图表
16.1.4 通过数据类型绘制图表
16.2 绘制常见图表
16.2.1 绘制散点图—circle()函数
16.2.2 绘制组合图表—line()、circle()函数
16.2.3 绘制条形图—vbar()函数
16.2.4 绘制饼(环)形图—wedge()、annular_wedge()函数
16.3 设置图表
16.3.1 图表布局—column()、row()、gridplot()函数
16.3.2 配置绘图工具
16.3.3 设置视觉属性
16.3.4 图表注释
16.4 图表可视化交互
16.4.1 微调器
16.4.2 选项卡
16.4.3 滑块功能
16.5 小结
第17章 Pyecharts图表
17.1 了解Pyecharts图表
17.1.1 Pyecharts概述
17.1.2 安装Pyecharts模块
17.1.3 绘制第一张Pyecharts图表
17.1.4 Pyecharts函数的链式调用
17.2 Pyecharts图表的组成部分
17.2.1 主题风格—InitOpts()对象
17.2.2 图表标题—TitleOpts()对象
17.2.3 图例—LegendOpts()对象
17.2.4 提示框—TooltipOpts()对象
17.2.5 视觉映射—VisualMapOpts()对象
17.2.6 工具箱—ToolboxOpts()对象
17.2.7 区域缩放—DataZoomOpts()对象
17.3 绘制Pyecharts图表
17.3.1 绘制散点图—EffectScatter()对象
17.3.2 绘制折线图和面积图—Line()对象
17.3.3 绘制柱形图—Bar()对象
17.3.4 绘制饼形图—Pie()对象
17.3.5 绘制箱形图—Boxplot()对象
17.3.6 绘制词云图—WordCloud对象
17.3.7 绘制热力图—HeatMap()对象
17.3.8 绘制水球图—Liquid()对象
17.3.9 绘制日历图—Calendar()对象
17.4 小结
第3篇 项目实战
第18章 综合案例:股票数据分析
18.1 概述
18.2 案例效果预览
18.3 案例环境
18.4 前期准备
18.4.1 安装第三方模块
18.4.2 新建Jupyter Notebook文件
18.4.3 导入必要的模块
18.4.4 获取股票历史数据
18.5 数据预处理
18.5.1 数据查看与缺失性分析
18.5.2 描述性统计分析
18.5.3 数据处理
18.5.4 异常值分析
18.5.5 数据归一化处理
18.6 数据统计分析
18.6.1 可视化股票走势图
18.6.2 股票收盘价格走势图
18.6.3 股票成交量时间序列图
18.6.4 股票涨跌情况分析图
18.6.5 股票k线走势图
第19章 综合案例:淘宝网订单分析
19.1 概述
19.2 案例效果预览
19.3 案例环境
19.4 数据集介绍
19.5 前期准备
19.5.1 安装第三方模块
19.5.2 新建Jupyter Notebook文件
19.5.3 导入必要的模块
19.5.4 数据读取与查看
19.6 数据预处理
19.6.1 缺失性分析
19.6.2 描述性统计分析
19.6.3 数据处理
19.7 数据统计分析
19.7.1 整体情况分析
19.7.2 按订单类型分析订单量
19.7.3 按区域分析订单量
19.7.4 每日订单量分析
19.7.5 小时订单量分析
第20章 综合案例:网站用户数据分析
20.1 概述
20.2 案例效果预览
20.3 案例环境
20.4 MySQL数据
20.4.1 导入MySQL数据
20.4.2 Python连接MySQL数据库
20.5 实现过程
20.5.1 数据准备
20.5.2 数据检测
20.5.3 年度注册用户分析
20.5.4 新注册用户分析
第21章 综合案例:NBA球员薪资的数据分析
21.1 概述
21.2 案例效果预览
21.3 案例环境
21.4 实现过程
21.4.1 数据准备
21.4.2 确定网页格式
21.4.3 Pandas爬取数据并保存
21.4.4 数据清洗
21.4.5 水平柱形图分析湖人队薪资状况
21.4.6 统计分析各个球队队员薪资总和
21.4.7 统计分析多个球队所有球员的薪资状况
21.4.8 分析不同位置球员的薪资状况
更新时间:2024-12-27 20:12:48