第3章
Spark RDD弹性分布式数据集

本章内容

本章首先讲解Spark RDD的创建以及RDD算子的使用,然后讲解Spark RDD的分区、依赖关系、持久化以及检查点和共享变量的概念和使用;最后通过几个实际案例讲解使用Spark RDD编写计算任务的操作步骤。

本章目标

• 了解Spark RDD的概念

• 掌握Spark RDD的创建方式

• 掌握Spark RDD算子的使用

• 掌握Spark RDD的分区规则

• 掌握Spark RDD的依赖关系

• 掌握Spark RDD的持久化操作以及检查点的设置

• 掌握Spark RDD共享变量的使用

• 掌握使用Spark RDD编写计算任务