第1章
Hadoop概述与大数据环境准备

主要内容:

❖ 大数据概念。

❖ Hadoop简介。

❖ 虚拟机的安装与配置。

❖ Linux的操作系统的安装。

❖ SSH(Secure Shell)。

本章首先介绍大数据的基础知识,然后对Hadoop框架进行详细介绍,最后讲解Hadoop平台集群搭建的准备工作。Hadoop是由Apache基金会开发的分布式系统基础架构,也是Apache软件基金会的顶级开源项目,它的logo如图1-1所示。Hadoop的作者为Doug Cutting,他也是Lucene、Nutch等项目的创始人。2004年,Cutting基于Google(谷歌)发布的关于GFS(Google File System)学术文献打造出了Hadoop。

图1-1 Hadoop logo

Hadoop的特点在于用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System,简称HDFS)。HDFS有高容错性的特点,用来部署在低廉(low-cost)的硬件上,而且它提供高吞吐(high throughput)量来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了可移植操作系统接口的要求,可以以流的形式访问文件系统中的数据。

Hadoop框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。