第5章 Kettle与Hadoop

上一章详细介绍了Apache Hadoop和CDH的安装,这为我们开启Hadoop上的数据仓库之旅做好了准备。在一个数据仓库项目中,开发阶段最关键的是ETL过程。大致有三种ETL的实现途径:使用ETL工具、使用特定数据库的SQL、使用程序语言开发自己的ETL应用。本章介绍第一种方式。我们将使用Kettle这款最流行的ETL工具操作Hadoop上的数据。

首先概要介绍Kettle对大数据的支持,然后用示例说明Kettle如何连接Hadoop,如何导入导出Hadoop集群上的数据,如何用Kettle执行Hive的HiveQL语句(HiveQL将在6.2节作简要介绍),还会用一个典型的MapReduce转换,说明Kettle在实际应用中是怎样利用Hadoop分布式计算框架的。本章最后介绍如何在Kettle中提交Spark作业。