- Spark大数据分析实战
- 张伟洋
- 196字
- 2021-03-26 22:18:43
第3章
Spark RDD弹性分布式数据集
本章内容
本章首先讲解Spark RDD的创建以及RDD算子的使用,然后讲解Spark RDD的分区、依赖关系、持久化以及检查点和共享变量的概念和使用;最后通过几个实际案例讲解使用Spark RDD编写计算任务的操作步骤。
本章目标
• 了解Spark RDD的概念
• 掌握Spark RDD的创建方式
• 掌握Spark RDD算子的使用
• 掌握Spark RDD的分区规则
• 掌握Spark RDD的依赖关系
• 掌握Spark RDD的持久化操作以及检查点的设置
• 掌握Spark RDD共享变量的使用
• 掌握使用Spark RDD编写计算任务