- Spark快速大数据分析(第2版)
- (美)朱尔斯·S. 达米吉 布鲁克·韦尼希 丹尼·李 (印)泰瑟加塔·达斯
- 309字
- 2021-12-06 11:51:03
1.2.1 快速
Spark 通过多种手段来追求速度。第一,近期硬件行业迎来了大幅提高 CPU 和内存性能并降低价格的大潮,而 Spark 的内部实现从中获益巨大。现在的商品服务器价格低廉、具备上百 GB 的内存、具有多处理核心,而且底层的类 Unix 操作系统能够充分发挥多线程和并行处理的能力。Spark 框架专门针对这些特点进行了优化。
第二,Spark 将查询计算构建为有向无环图(directed acyclic graph,DAG),然后用其 DAG 调度器和查询优化器构建出高效的计算图,图中每个节点一般可以分解为一组任务,在集群的工作节点上并行执行。
第三,Spark 的物理执行引擎 Tungsten 使用全局代码生成功能,以生成紧凑的代码用于执行(第 3 章将介绍 SQL 优化和全局代码生成功能)。
所有中间结果都保留在内存中,并且磁盘读写不多,这极大地提高了 Spark 的性能。