- Hadoop大数据分析技术
- 迟殿委 陈鹏程主编
- 899字
- 2023-07-17 19:53:50
1.2.2 Hadoop版本简介
目前市面上Hadoop版本主要有两种:Apache版本和第三方发行版本。Apache Hadoop是一款支持数据密集型分布式应用,并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的有关MapReduce和Google文件系统的论文设计的,称为社区版Hadoop。
第三方发行版Hadoop遵从Apache开源协议,用户可以免费地任意使用和修改Hadoop,也正是因此,市面上出现了很多Hadoop版本。其中有很多厂家在Apache Hadoop的基础上开发自己的Hadoop产品,比如Cloudera的CDH、Hortonworks的HDP、MapR的MapR产品等。
这两种版本各自优缺点如下:
1.Aapche版本的Hadoop
官方网址:http://hadoop.apache.org/。
Aapche Hadoop优势:对硬件要求低,完全开源免费,社区活跃,文档、资料翔实。
Aapche Hadoop劣势:搭建烦琐,维护烦琐,升级烦琐,添加组件烦琐。
2.第三方发行版本的Hadoop
官方网址:https://www.cloudera.com/。
优势:
· 版本管理清晰。比如Cloudera CDH1、CDH2、CDH3、CDH4、CDH5等。后面加上补丁版本,如CDH4.1.0 patch level 923.142,表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch。
· 比Apache Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量地运行在各种生产环境。
· 版本更新快。通常情况,比如CDH每个季度会有一个update,每一年会有一个release。
· 基于稳定版本Apache Hadoop,并应用了最新BUG修复或Feature的patch。
· 提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群。
· 运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,运维工作简单、高效。
缺点:对硬件要求高。
3.CDH及其架构
第三方发行版本使用比较多的是CDH,其拥有最多的部署案例,提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目,有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。Cloudera Manager是一个管理CDH的端到端的应用,其主要作用包括:管理、监控、诊断、集成。
CDH的Hadoop版本集群中CDH管理界面如图1-2所示。
图1-2 CDH管理界面
CDH架构如图1-3所示。
(1)Server
管理控制台服务器和应用程序逻辑。
负责软件安装、配置,启动和停止服务。
管理服务运行的集群。
图1-3 CDH架构
(2)Agent
安装在每台主机上。
负责启动和停止进程,配置、监控主机。
(3)Management Service
由一组角色组成的服务,执行各种监视、报警和报告功能。