1.6 习题

1.请阐述大数据处理的基本流程。

2.请阐述大数据的计算模式及其代表产品。

3.请列举Hadoop生态系统的各个组件及其功能。

4.分布式文件系统HDFS的名称节点和数据节点的功能分别是什么?

5.试阐述MapReduce的基本设计思想。

6.YARN的主要功能是什么?使用YARN可以带来哪些好处?

7.试阐述Hadoop生态系统中HBase与其他部分的关系。

8.数据仓库Hive的主要功能是什么?

9.Hadoop主要有哪些缺点?相比之下,Spark具有哪些优点?

10.如何实现Spark与Hadoop的统一部署?

11.Flink相对于Spark而言,在实现机制上有什么不同?

12.Beam的设计目的是什么,具有哪些优点?