封面
版权信息
内容简介
作者简介
前言
人工智能,火了
置身事外,还是投身其中
前途光明,马上开始
本书内容及体系结构
本书特色
本书读者对象
第1章 概述
1.1 什么是机器学习——从一个小故事开始
1.2 机器学习的一些应用场景——蝙蝠公司的业务单元
1.3 机器学习应该如何入门——世上无难事
1.4 有监督学习与无监督学习
1.5 机器学习中的分类与回归
1.6 模型的泛化、过拟合与欠拟合
1.7 小结
第2章 基于Python语言的环境配置
2.1 Python的下载和安装
2.2 Jupyter Notebook的安装与使用方法
2.2.1 使用pip进行Jupyter Notebook的下载和安装
2.2.2 运行Jupyter Notebook
2.2.3 Jupyter Notebook的使用方法
2.3 一些必需库的安装及功能简介
2.3.1 Numpy——基础科学计算库
2.3.2 Scipy——强大的科学计算工具集
2.3.3 pandas——数据分析的利器
2.3.4 matplotlib——画出优美的图形
2.4 scikit-learn——非常流行的Python机器学习库
2.5 小结
第3章 K最近邻算法——近朱者赤,近墨者黑
3.1 K最近邻算法的原理
3.2 K最近邻算法的用法
3.2.1 K最近邻算法在分类任务中的应用
3.2.2 K最近邻算法处理多元分类任务
3.2.3 K最近邻算法用于回归分析
3.3 K最近邻算法项目实战——酒的分类
3.3.1 对数据集进行分析
3.3.2 生成训练数据集和测试数据集
3.3.3 使用K最近邻算法进行建模
3.3.4 使用模型对新样本的分类进行预测
3.4 小结
第4章 广义线性模型——“耿直”的算法模型
4.1 线性模型的基本概念
4.1.1 线性模型的一般公式
4.1.2 线性模型的图形表示
4.1.3 线性模型的特点
4.2 最基本的线性模型——线性回归
4.2.1 线性回归的基本原理
4.2.2 线性回归的性能表现
4.3 使用L2正则化的线性模型——岭回归
4.3.1 岭回归的原理
4.3.2 岭回归的参数调节
4.4 使用L1正则化的线性模型——套索回归
4.4.1 套索回归的原理
4.4.2 套索回归的参数调节
4.4.3 套索回归与岭回归的对比
4.5 小结
第5章 朴素贝叶斯——打雷啦,收衣服啊
5.1 朴素贝叶斯基本概念
5.1.1 贝叶斯定理
5.1.2 朴素贝叶斯的简单应用
5.2 朴素贝叶斯算法的不同方法
5.2.1 贝努利朴素贝叶斯
5.2.2 高斯朴素贝叶斯
5.2.3 多项式朴素贝叶斯
5.3 朴素贝叶斯实战——判断肿瘤是良性还是恶性
5.3.1 对数据集进行分析
5.3.2 使用高斯朴素贝叶斯进行建模
5.3.3 高斯朴素贝叶斯的学习曲线
5.4 小结
第6章 决策树与随机森林——会玩读心术的算法
6.1 决策树
6.1.1 决策树基本原理
6.1.2 决策树的构建
6.1.3 决策树的优势和不足
6.2 随机森林
6.2.1 随机森林的基本概念
6.2.2 随机森林的构建
6.2.3 随机森林的优势和不足
6.3 随机森林实例——要不要和相亲对象进一步发展
6.3.1 数据集的准备
6.3.2 用get_dummies处理数据
6.3.3 用决策树建模并做出预测
6.4 小结
第7章 支持向量机SVM——专治线性不可分
7.1 支持向量机SVM基本概念
7.1.1 支持向量机SVM的原理
7.1.2 支持向量机SVM的核函数
7.2 SVM的核函数与参数选择
7.2.1 不同核函数的SVM对比
7.2.2 支持向量机的gamma参数调节
7.2.3 SVM算法的优势与不足
7.3 SVM实例——波士顿房价回归分析
7.3.1 初步了解数据集
7.3.2 使用SVR进行建模
7.4 小结
第8章 神经网络——曾入“冷宫”,如今得宠
8.1 神经网络的前世今生
8.1.1 神经网络的起源
8.1.2 第一个感知器学习法则
8.1.3 神经网络之父——杰弗瑞·欣顿
8.2 神经网络的原理及使用
8.2.1 神经网络的原理
8.2.2 神经网络中的非线性矫正
8.2.3 神经网络的参数设置
8.3 神经网络实例——手写识别
8.3.1 使用MNIST数据集
8.3.2 训练MLP神经网络
8.3.3 使用模型进行数字识别
8.4 小结
第9章 数据预处理、降维、特征提取及聚类——快刀斩乱麻
9.1 数据预处理
9.1.1 使用StandardScaler进行数据预处理
9.1.2 使用MinMaxScaler进行数据预处理
9.1.3 使用RobustScaler进行数据预处理
9.1.4 使用Normalizer进行数据预处理
9.1.5 通过数据预处理提高模型准确率
9.2 数据降维
9.2.1 PCA主成分分析原理
9.2.2 对数据降维以便于进行可视化
9.2.3 原始特征与PCA主成分之间的关系
9.3 特征提取
9.3.1 PCA主成分分析法用于特征提取
9.3.2 非负矩阵分解用于特征提取
9.4 聚类算法
9.4.1 K均值聚类算法
9.4.2 凝聚聚类算法
9.4.3 DBSCAN算法
9.5 小结
第10章 数据表达与特征工程——锦上再添花
10.1 数据表达
10.1.1 使用哑变量转化类型特征
10.1.2 对数据进行装箱处理
10.2 数据“升维”
10.2.1 向数据集添加交互式特征
10.2.2 向数据集添加多项式特征
10.3 自动特征选择
10.3.1 使用单一变量法进行特征选择
10.3.2 基于模型的特征选择
10.3.3 迭代式特征选择
10.4 小结
第11章 模型评估与优化——只有更好,没有最好
11.1 使用交叉验证进行模型评估
11.1.1 scikit-learn中的交叉验证法
11.1.2 随机拆分和“挨个儿试试”
11.1.3 为什么要使用交叉验证法
11.2 使用网格搜索优化模型参数
11.2.1 简单网格搜索
11.2.2 与交叉验证结合的网格搜索
11.3 分类模型的可信度评估
11.3.1 分类模型中的预测准确率
11.3.2 分类模型中的决定系数
11.4 小结
第12章 建立算法的管道模型——团结就是力量
12.1 管道模型的概念及用法
12.1.1 管道模型的基本概念
12.1.2 使用管道模型进行网格搜索
12.2 使用管道模型对股票涨幅进行回归分析
12.2.1 数据集准备
12.2.2 建立包含预处理和MLP模型的管道模型
12.2.3 向管道模型添加特征选择步骤
12.3 使用管道模型进行模型选择和参数调优
12.3.1 使用管道模型进行模型选择
12.3.2 使用管道模型寻找更优参数
12.4 小结
第13章 文本数据处理——亲,见字如“数”
13.1 文本数据的特征提取、中文分词及词袋模型
13.1.1 使用CountVectorizer对文本进行特征提取
13.1.2 使用分词工具对中文文本进行分词
13.1.3 使用词袋模型将文本数据转为数组
13.2 对文本数据进一步进行优化处理
13.2.1 使用n-Gram改善词袋模型
13.2.2 使用tf-idf模型对文本数据进行处理
13.2.3 删除文本中的停用词
13.3 小结
第14章 从数据获取到话题提取——从“研究员”到“段子手”
14.1 简单页面的爬取
14.1.1 准备Requests库和User Agent
14.1.2 确定一个目标网站并分析其结构
14.1.3 进行爬取并保存为本地文件
14.2 稍微复杂一点的爬取
14.2.1 确定目标页面并进行分析
14.2.2 Python中的正则表达式
14.2.3 使用BeautifulSoup进行HTML解析
14.2.4 对目标页面进行爬取并保存到本地
14.3 对文本数据进行话题提取
14.3.1 寻找目标网站并分析结构
14.3.2 编写爬虫进行内容爬取
14.3.3 使用潜在狄利克雷分布进行话题提取
14.4 小结
第15章 人才需求现状与未来学习方向——你是不是下一个“大牛”
15.1 人才需求现状
15.1.1 全球AI从业者达190万,人才需求3年翻8倍
15.1.2 AI人才需求集中于一线城市,七成从业者月薪过万
15.1.3 人才困境仍难缓解,政策支援亟不可待
15.2 未来学习方向
15.2.1 用于大数据分析的计算引擎
15.2.2 深度学习开源框架
15.2.3 使用概率模型进行推理
15.3 技能磨炼与实际应用
15.3.1 Kaggle算法大赛平台和OpenML平台
15.3.2 在工业级场景中的应用
15.3.3 对算法模型进行A/B测试
15.4 小结
参考文献
更新时间:2022-07-29 15:24:14