前言

大数据作为一个不老的技术神话,依然活跃于各大公司和开源社区,其相关领域的各种工具琳琅满目,更新迭代速度非常迅速,其中Hadoop是较早流行的大数据处理工具之一,现在依然被广泛使用。

我是在硕士研究生期间接触Hadoop的,当时它刚刚流行,在许多领域获得了高度认可。可在我即将毕业时,Spark凭借其高效内存计算和可迭代计算的优势迅速赶超了Hadoop的热度。而就在大家一窝蜂地去学习Spark,并沉浸在其高效性能的时候,近几年Flink又凶猛地杀出了重围,成为当下比较火的大数据技术之一。

面对这些新兴的技术,我也曾一度迷茫,是否应该跟随潮流去学习新技术。但是我感觉自己对Hadoop的掌握还远远不够,所以就坚持了下来。随着对Hadoop的学习不断深入,在Hadoop的持续版本迭代中,我惊喜地发现它正在一统大数据底层平台,这让我看到了它的野心,看到了它登上霸主之位的希望。Hadoop提供了底层分布式存储平台HDFS和分布式资源管理平台YARN,并开放了资源管理平台,使之不断地兼容各种应用,让各种应用在YARN上呈现“百花齐放”的景象。

Hadoop 3.0已经发布一段时间了,我想研究它,并尝试在工作中将之付诸实践。然而,我发现市面上还未有相关书,故而萌生了写这本书的想法,也把它介绍给曾经和我一样迷茫的人。

因为我平时经常会写博客,把工作与学习中的知识沉淀为文字记录下来,所以在还没动笔时感觉写书应该不会太难。可当真正开始后,我才发现面临的困难有很多,除了体会到自己还不够专业,还体会到这里面包含着一份责任。书最终能够成行靠的全是自己的毅力和来自家人朋友的支持。

由于本人能力有限,而且是利用业余时间写作的,书中难免会有些笔误或者理解不到位的地方,欢迎各位指正。

本书内容

本书一共分为5章,主要对HDFS、YARN、Application on YARN和工作实战进行介绍,归纳如下。

  • 第1章简单介绍Hadoop,让刚接触Hadoop的读者对它有基本的了解。为了更好地学习Hadoop,本章专门抽出一节详细介绍了如何搭建Hadoop源码阅读环境、如何对Hadoop进行单元测试和如何断点调试源代码。
  • 第2章介绍了HDFS,它是目前使用较多的分布式文件系统。这一章介绍了NameNode的原理以及HA,针对大规模集群横向扩展的场景介绍了HDFS Federation和在HDFS 3.0中新增的特性,例如基于Router的Federation、纠删码副本策略和对象存储系统Ozone。
  • 第3章介绍了YARN,它是一个通用的资源管理平台。这一章从应用管理和资源调度这两个方面对其进行了介绍,首先针对应用管理介绍了ResourceManager的HA功能,然后针对资源调度介绍了中央调度器和分布式调度器,最后介绍了YARN 3.0中引入的一个小优化功能,即Shared Cache。
  • 第4章介绍了Application on YARN(如何在YARN平台中运行应用)。这一章以MapReduce为例介绍了如何将应用迁移到YARN平台,最后以Spark on YARN为例介绍了非Hadoop的应用是如何兼容YARN模式的。
  • 第5章给出一些工作实战指南。首先,介绍了如何搭建生产可用的Hadoop 3.0集群;接着讨论了如何将现有Hadoop 2.0集群升级到Hadoop 3.0,以及在升级过程中遇到的问题;然后说明了如何针对Hadoop进行二次开发,并参与社区,向社区贡献代码;最后,梳理了一个大数据平台应该具备哪些必备组件和具体的实现架构。

致谢

首先感谢我的妻子,她是我坚强的后盾,是她让我可以全心全意地投入到书的创作中。然后感谢我的父母,感谢他们牺牲自己的晚年时光来照顾我的这个小家。如果没有妻子和父母的理解与支持,我也不可能完成这本书。

感谢我的导师带我走入大数据的殿堂,使我能够从事相关职业;也感谢在工作中给予我帮助的同事和朋友,是他们不断地给我解答困惑,给我指明了前进的方向,使我在工作中不断成长。还要特别感谢黄鹏程先生,感谢他的引荐,使我有幸能把自己的知识分享给更多的人。

感谢王军花和王彦两位编辑,她们在书稿的审核过程中给我提了非常多宝贵的建议,并且很耐心地解答我的问题。如果没有她们的策划和敦促,我也难以顺利地完成此书。

感谢为本书做出贡献的每一个人!