第2章 Hadoop的配置与编程

Hadoop是一个分布式的开源大数据批处理计算框架,在实际工程中已得到广泛的应用。Hadoop可以运行在普通商用服务器上,即用户可以选择普通硬件供应商生产的标准化的、广泛有效的硬件来构建集群,无须使用特定供应商生产的昂贵、专有的硬件设备。Hadoop自身的特性也决定了它对支撑硬件环境要求不高,能够节省项目成本,降低开发难度。本章先对批处理计算框架进行概述,然后介绍Hadoop的配置和搭建,并通过一个简单的实例演示Hadoop的使用,最后介绍MapReduce编程。[1]