- Hadoop大数据分析技术
- 迟殿委 陈鹏程主编
- 645字
- 2023-07-17 19:53:49
1.1 大数据定义
大数据(Big data)又称为巨量资料、巨量数据或海量数据。一般来说,大数据的特性可概括为4V,即Volume、Variety、Velocity、Value。
1.Volume(大量数据)
· 累积庞大的数据:因特网、企业IT、物联网、社区、短信、电话、网络搜索、在线交易等,随时都在快速累积庞大的数据。
· 数据量等级:数据量很容易达到TB(Terabyte,1024GB),甚至PB(Petabyte,1024TB)或EB(Exabyte,1024PB)的等级。
2.Variety(多样性)
大数据的数据类型非常多样化,可分为非结构化信息和结构化信息。
· 非结构化信息:文字、图片、图像、视频、音乐、地理位置信息、个人化信息——如社区、交友数据等。
· 结构化信息:数据库、数据仓库等。
3.Velocity(时效性)
· 数据的传输流动:随着带宽越来越大、设备越来越多,每秒产生的数据流越来越大。
· 必须能实时处理大量的信息:时间太久就会失去数据的价值,所以数据必须能在最短时间内分析出结果。
4.Value(价值密度低)
大数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息。因此需要对未来趋势与模式作预测分析,利用机器学习、人工智能等进行深度复杂分析。而如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据时代急需解决的难题。虽然单位数据的价值密度在不断降低,但是数据的整体价值在提高。
大数据的影响已经深入到各个领域和行业,在商业、经济及其他领域中,将大量数据进行分析后就可得出许多数据的关联性,可用于预测商业趋势、营销研究、金融财务、疾病研究、打击犯罪等。决策行为将基于数据和分析的结果,而不是依靠经验和直觉。