前言

FOREWORD

2007年9月,Apache基金会整合Doug Cutting(Hadoop创始人)以及其他IT公司(如Facebook等)的贡献成果,开发并正式推出了第一个Hadoop系统版本。Hadoop是一个可以搭建在廉价x86服务器上的分布式集群系统架构,它具有可用性高、容错性高和可扩展性好等优点。由于它提供了一个开放式的平台,用户可以在完全不了解底层实现细节的情形下,开发适合自身应用的分布式程序。经过十多年的发展,目前 Hadoop 已经成长为一个全栈式的大数据技术生态圈,并在事实上成为应用最广泛、最具有代表性的大数据技术。

如何从零基础开始学习 Hadoop 大数据技术,并能够理论结合实践,运用相关技术知识解决一些实际的业务需求,正是本书致力解决的问题。

本书特色

本书是定位于 Hadoop 大数据技术从入门到应用的简明系统教程,主要包括Hadoop基本原理与架构、集群安装配置、MapReduce编程、完整项目案例等精选内容。本书涉及的知识点简要精到,实践操作性强,能有效指导读者对 Hadoop 大数据技术的学习理解及开发应用。

本书采用了以任务为导向的教学模式,按照解决实际任务的工作流程路线,逐步展开介绍相关的理论知识点,推导生成可行的解决方案,最后落实在任务实现环节。全书大部分章节紧扣任务需求展开,不堆积知识点,着重于解决问题时思路的启发与方案的实施。通过对从任务需求到实现这一完整工作流程的体验,帮助读者真正理解与消化Hadoop大数据技术。

本书适用对象

开设有大数据相关课程的学生。

目前国内不少高校将大数据技术引入教学中,在计算机、数学、自动化、电子信息、金融等专业开设了与大数据技术相关的课程,但缺乏适合课堂教学的相关教材。而本书提供了大数据相关技术的介绍、原理、实践、企业应用等,能有效指导高校学生学习大数据相关技术原理,为以后工作和学习打下良好基础。

大数据开发技术人员。

本书由浅及深、系统地介绍了 Hadoop 大数据开发技术,并且每一模块有对应的动手实践,对于初级开发人员有较强的指导作用。

关注大数据技术的各行业技术人员。

本书不仅对 Hadoop 大数据的相关技术进行了理论性的介绍及讲解,还提供了多个行业实践任务与大数据技术相结合的综合案例。各行业技术人员可以通过学习书中案例的解决思路与实现方法,尝试以新技术解决行业中的相关问题。

代码下载及问题反馈

为方便读者的实践与练习,书中提供全部实例的数据文件及源代码,读者可登录人民邮电出版社教育社区(www.ryjiaoyu.com)或“泰迪杯”全国数据挖掘挑战赛网站(www.tipdm.org/tj/1233.jhtml)下载。为方便广大教师授课需要,本书也提供了教学课件PPT。有需要的教师可通过泰迪大数据挖掘微信公众号(TipDataMining)或者热线电话(40068-40020)进行在线咨询获取。

我们已经尽最大努力避免在文本和代码中出现错误,但是由于水平有限,编写时间仓促,书中难免出现一些疏漏和不足的地方。如果您有更多的宝贵意见,欢迎发送邮件至邮箱13560356095@qq.com,期待能够得到您真挚的反馈。同时,本书更新内容将及时在“泰迪杯”全国数据挖掘挑战赛网站上发布,读者可以登录网站或关注泰迪大数据挖掘微信公众号(TipDataMining)查阅相关信息。

编者

2017年9月