2.2.3 Hive
Hive最初是为了满足对Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生、发展的。Hive基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,提供对分布式存储的大型数据集的查询和管理。
Hive主要提供以下功能。
(1)Hive提供一系列工具,可用来对数据进行抽取−转换−加载(Extract-Transform-Load,ETL)。
(2)Hive是一种可以存储、查询、分析存储在HDFS(或者HBase)中的大规模数据的机制[5]。
(3)Hive提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务运行。
Hive的优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析[6]。Hive的本质就是MapReduce,就是将SQL语句转换为MapReduce任务运行,其作用是对海量的大数据(结构化)进行分析和统计。
Hive的主要特点如下[7]。
(1)Hive使用HQL(Hibernate Query Language,Hibernate查询语言)实现对数据的操作,操作方便、简单(比MapReduce操作方便)。
(2)Hive处理大数据(比MySQL/Oracle强大)。
(3)Hive提供大量工具。
(4)Hive支持自定义函数,满足自定义需求。
(5)Hive实现离线数据分析。
(6)Hive使用类SQL语句实现功能,处理数据相关业务。