封面
版权信息
内容简介
前言
第1章 数据架构整体设计
1.1 数据架构概述
1.2 数据架构设计的8个考虑因素
1.2.1 适用性
1.2.2 延伸性
1.2.3 安全性
1.2.4 易用性
1.2.5 高性能
1.2.6 成本限制
1.2.7 应用需求
1.2.8 运维管理
1.3 数据架构设计的4个核心内容
1.3.1 物理架构
1.3.2 逻辑架构
1.3.3 技术架构
1.3.4 数据流架构
1.4 常见的6种数据架构
1.4.1 简单数据库支撑的数据架构
1.4.2 传统数仓支撑的数据架构
1.4.3 传统大数据架构
1.4.4 流式大数据架构
1.4.5 流批一体大数据架构
- APP免费
1.4.6 存算分离的流批一体大数据架构
- APP免费
1.5 案例:某B2B企业的数据架构选型
- APP免费
1.5.1 企业背景
- APP免费
1.5.2 应用预期
- APP免费
1.5.3 数据现状
- APP免费
1.5.4 选型分析
- APP免费
1.5.5 选型方案
- APP免费
1.5.6 未来拓展
- APP免费
1.6 常见问题
- APP免费
第2章 数据源和数据采集
- APP免费
2.1 数据源概述
- APP免费
2.1.1 常见的3种数据类型
- APP免费
2.1.2 常见的8种数据源
- APP免费
2.2 企业内部流量数据采集技术选型
- APP免费
2.2.1 企业内部流量数据采集常用的技术
- APP免费
2.2.2 内部流量数据采集技术选型的因素
- APP免费
2.2.3 内部流量数据采集技术选型总结
- APP免费
2.3 企业外部互联网数据采集技术选型
- APP免费
2.3.1 外部互联网数据采集常用的4种技术
- APP免费
2.3.2 外部互联网数据采集技术选型的5个因素
- APP免费
2.3.3 外部互联网数据采集技术选型总结
- APP免费
2.4 使用Requests+BeautifulSoup抓取数据并写入Sqlite
- APP免费
2.4.1 安装配置
- APP免费
2.4.2 基本示例
- APP免费
2.4.3 高级用法
- APP免费
2.4.4 技术要点
- APP免费
2.5 使用Scrapy+XPath抓取数据并写入MongoDB
- APP免费
2.5.1 安装配置
- APP免费
2.5.2 基本示例
- APP免费
2.5.3 高级用法
- APP免费
2.5.4 技术要点
- APP免费
2.6 案例:某B2C电商企业的数据源结构
- APP免费
2.6.1 企业背景
- APP免费
2.6.2 业务系统
- APP免费
2.6.3 数据源结构
- APP免费
2.7 常见问题
- APP免费
第3章 数据同步
- APP免费
3.1 数据同步概述
- APP免费
3.1.1 数据同步的3种模式
- APP免费
3.1.2 数据同步的5种预处理技术
- APP免费
3.2 数据同步的技术选型
- APP免费
3.2.1 数据同步的7种技术
- APP免费
3.2.2 数据同步选型的9个因素
- APP免费
3.2.3 数据同步技术选型总结
- APP免费
3.3 Python操作DataX实现数据同步
- APP免费
3.3.1 安装配置
- APP免费
3.3.2 基本示例
- APP免费
3.3.3 高级用法
- APP免费
3.3.4 技术要点
- APP免费
3.4 Python操作第三方库实现Google Analytics数据同步
- APP免费
3.4.1 安装配置
- APP免费
3.4.2 基本示例
- APP免费
3.4.3 高级用法
- APP免费
3.4.4 技术要点
- APP免费
3.5 案例:某O2O企业离线数据同步案例
- APP免费
3.6 常见问题
- APP免费
第4章 消息队列
- APP免费
4.1 消息队列概述
- APP免费
4.1.1 消息队列的核心概念
- APP免费
4.1.2 选择消息队列的3种技术应用场景
- APP免费
4.2 消息队列的技术选型
- APP免费
4.2.1 常见的6种消息队列技术
- APP免费
4.2.2 消息队列技术选型的4个维度
- APP免费
4.2.3 消息队列技术选型总结
- APP免费
4.3 Python操作RabbitMQ处理消息队列服务
- APP免费
4.3.1 安装配置
- APP免费
4.3.2 基本示例
- APP免费
4.3.3 高级用法
- APP免费
4.3.4 技术要点
- APP免费
4.4 Python操作Kafka处理消息队列服务
- APP免费
4.4.1 安装配置
- APP免费
4.4.2 基本示例
- APP免费
4.4.3 高级用法
- APP免费
4.4.4 技术要点
- APP免费
4.5 Python操作ZeroMQ处理消息队列服务
- APP免费
4.5.1 安装配置
- APP免费
4.5.2 基本示例
- APP免费
4.5.3 高级用法
- APP免费
4.5.4 技术要点
- APP免费
4.6 案例:利用消息队列采集电商用户行为数据
- APP免费
4.6.1 案例背景
- APP免费
4.6.2 主要技术
- APP免费
4.6.3 案例过程
- APP免费
4.6.4 案例小结
- APP免费
4.7 常见问题
- APP免费
第5章 关系数据库
- APP免费
5.1 关系数据库概述
- APP免费
5.1.1 关系数据库的相关概念
- APP免费
5.1.2 使用关系数据库的3种场景
- APP免费
5.2 关系数据库的技术选型
- APP免费
5.2.1 常见的5种技术选型
- APP免费
5.2.2 关系数据库选型的3个维度
- APP免费
5.2.3 关系数据库技术选型总结
- APP免费
5.3 使用基于DB-API 2.0规范的PyMySQL操作MySQL数据库
- APP免费
5.3.1 安装配置
- APP免费
5.3.2 基本示例
- APP免费
5.3.3 高级用法
- APP免费
5.3.4 技术要点
- APP免费
5.4 使用基于ORM技术的SQLAlchemy操作PostgreSQL数据库
- APP免费
5.4.1 安装配置
- APP免费
5.4.2 基本示例
- APP免费
5.4.3 高级用法
- APP免费
5.4.4 技术要点
- APP免费
5.5 案例:某传统零售企业基于关系数据库的数据集市
- APP免费
5.5.1 企业背景
- APP免费
5.5.2 企业为什么选择SQL Server作为数据集市
- APP免费
5.5.3 数据字典
- APP免费
5.5.4 应用场景
- APP免费
5.6 常见问题
- APP免费
第6章 NoSQL数据库
- APP免费
6.1 NoSQL数据库概述
- APP免费
6.1.1 NoSQL数据库的相关概念
- APP免费
6.1.2 使用NoSQL数据库的5种场景
- APP免费
6.2 不同类型NoSQL数据库的技术选型
- APP免费
6.2.1 常见的3种键值数据库技术选型
- APP免费
6.2.2 常见的3种文档型数据库的技术选型
- APP免费
6.2.3 常见的两种列式存储数据库的技术选型
- APP免费
6.2.4 常见的两种图数据库的技术选型
- APP免费
6.2.5 NoSQL数据库技术选型的五大维度
- APP免费
6.2.6 NoSQL数据库技术选型总结
- APP免费
6.3 使用Python操作HBase
- APP免费
6.3.1 安装配置
- APP免费
6.3.2 基本示例
- APP免费
6.3.3 HBase应用过滤器进行复杂查询
- APP免费
6.3.4 批量操作
- APP免费
6.3.5 技术要点
- APP免费
6.4 使用Python操作Redis
- APP免费
6.4.1 安装配置
- APP免费
6.4.2 基本示例
- APP免费
6.4.3 使用HyperLogLog实现独立IP计数器
- APP免费
6.4.4 Redis数据持久化
- APP免费
6.4.5 技术要点
- APP免费
6.5 使用Python操作ES
- APP免费
6.5.1 安装配置
- APP免费
6.5.2 基本示例
- APP免费
6.5.3 批量加载文档到ES+使用Kibana进行分析
- APP免费
6.5.4 技术要点
- APP免费
6.6 使用Python操作Neo4j
- APP免费
6.6.1 安装配置
- APP免费
6.6.2 基本示例
- APP免费
6.6.3 APOC
- APP免费
6.6.4 技术要点
- APP免费
6.7 使用Python操作MongoDB
- APP免费
6.7.1 安装配置
- APP免费
6.7.2 基本示例
- APP免费
6.7.3 文档聚合与管道
- APP免费
6.7.4 技术要点
- APP免费
6.8 案例:某菜谱网站基于ES+Redis构建智能搜索推荐引擎
- APP免费
6.8.1 案例背景
- APP免费
6.8.2 为什么选择ES+Redis
- APP免费
6.8.3 系统架构
- APP免费
6.8.4 相关要点
- APP免费
6.8.5 案例延伸
- APP免费
6.9 常见问题
- APP免费
第7章 批处理
- APP免费
7.1 批处理概述
- APP免费
7.1.1 批处理的基本特征
- APP免费
7.1.2 批处理的3类应用场景
- APP免费
7.2 批处理的技术选型
- APP免费
7.2.1 批处理的5种技术
- APP免费
7.2.2 批处理选型的8个技术因素
- APP免费
7.2.3 批处理选型总结
- APP免费
7.3 Python使用PyHive操作HQL进行批处理
- APP免费
7.3.1 安装配置
- APP免费
7.3.2 基本示例
- APP免费
7.3.3 数据批量加载及处理
- APP免费
7.3.4 Hive函数
- APP免费
7.3.5 窗口
- APP免费
7.3.6 技术要点
- APP免费
7.4 PySpark操作DataFrame进行批处理
- APP免费
7.4.1 安装配置
- APP免费
7.4.2 基本示例
- APP免费
7.4.3 常用Spark DataFrame操作示例
- APP免费
7.4.4 使用Spark MLlib+DataFrame进行特征工程
- APP免费
7.4.5 技术要点
- APP免费
7.5 案例:某B2C企业基于PySpark实现用户画像标签的构建
- APP免费
7.6 常见问题
- APP免费
第8章 流处理
- APP免费
8.1 流处理概述
- APP免费
8.1.1 流处理的核心概念
- APP免费
8.1.2 流处理的3个特征
- APP免费
8.1.3 流处理的适用/不适用场景
- APP免费
8.2 流处理的依赖条件
- APP免费
8.2.1 流数据
- APP免费
8.2.2 流式应用
- APP免费
8.3 流处理的技术选型
- APP免费
8.3.1 流处理的3种技术
- APP免费
8.3.2 流处理选型的7个技术因素
- APP免费
8.3.3 流处理技术选型总结
- APP免费
8.4 Python操作Structured Streaming实现流处理
- APP免费
8.4.1 安装配置
- APP免费
8.4.2 基本示例
- APP免费
8.4.3 高级用法
- APP免费
8.4.4 技术要点
- APP免费
8.5 案例:某B2C企业基于Structured Streaming实现实时话题热榜统计
- APP免费
8.6 常见问题
- APP免费
第9章 图计算
- APP免费
9.1 图计算概述
- APP免费
9.1.1 图计算的特征
- APP免费
9.1.2 图计算的算法和应用场景
- APP免费
9.2 图计算引擎的技术选型
- APP免费
9.2.1 图计算的8种技术
- APP免费
9.2.2 图计算选型的8个技术因素
- APP免费
9.2.3 图计算选型总结
- APP免费
9.3 Python操作GraphFrames实现图计算
- APP免费
9.3.1 安装配置
- APP免费
9.3.2 构建图
- APP免费
9.3.3 视图分析
- APP免费
9.3.4 子顶点、子边和子图过滤
- APP免费
9.3.5 度分析
- APP免费
9.3.6 模体查找
- APP免费
9.3.7 图持久化
- APP免费
9.3.8 广度优先搜索
- APP免费
9.3.9 最短路径搜索
- APP免费
9.3.10 连通分量和强连通分量
- APP免费
9.3.11 标签传播
- APP免费
9.3.12 通用网页排名和个性化网页排名
- APP免费
9.3.13 三角形计数
- APP免费
9.3.14 技术要点
- APP免费
9.4 案例:基于用户社交行为的分析
- APP免费
9.5 常见问题
- APP免费
第10章 人工智能
- APP免费
10.1 人工智能概述
- APP免费
10.1.1 人工智能的4种应用场景
- APP免费
10.1.2 人工智能的12类常用算法介绍
- APP免费
10.2 人工智能的技术选型
- APP免费
10.2.1 常见的3种技术框架
- APP免费
10.2.2 人工智能选型的6个因素
- APP免费
10.2.3 人工智能选型总结
- APP免费
10.3 PySpark ML的应用实践
- APP免费
10.3.1 准备数据
- APP免费
10.3.2 特征工程和处理
- APP免费
10.3.3 核心算法应用
- APP免费
10.3.4 Pipeline式应用
- APP免费
10.3.5 训练和预测拆分及持久化操作
- APP免费
10.3.6 超参数优化的实现
- APP免费
10.4 案例:某B2C企业推荐系统的搭建与演进
- APP免费
10.4.1 总体设计思想
- APP免费
10.4.2 PoC:验证想法
- APP免费
10.4.3 推荐系统的起步
- APP免费
10.4.4 完善线上与线下推荐
- APP免费
10.4.5 在线实时计算
- APP免费
10.5 常见问题
- APP免费
第11章 数据产品开发
- APP免费
11.1 数据产品开发概述
- APP免费
11.2 数据产品的路线选型
- APP免费
11.3 Python数据产品自研的技术选型
- APP免费
11.4 基于Django的产品开发
- APP免费
11.4.1 安装配置
- APP免费
11.4.2 基本示例
- APP免费
11.4.3 Django REST Framework
- APP免费
11.4.4 技术要点
- APP免费
11.5 案例:某企业基于Django构建内部用户画像标签产品
- APP免费
11.6 常见问题
- APP免费
附录A Docker安装使用
- APP免费
附录B 使用EMR搭建Hadoop大数据集群
- APP免费
专家评价
更新时间:2023-12-12 19:00:33