1.2.2 大数据的来源及定义

一般数据是基于信息技术发展的早期信息系统里数据库中的数据,或管理本地的数据,或驾驭远程的数据库中的数据。近几年,管理模式不断创新,社会网络的出现、跨界数据管理、物联网增长都在催生大数据的出现。一般数据和大数据有本质的区别,在介绍什么是大数据之前,先认识大数据是如何产生的。

1.大数据来源

1)物联网、云计算、移动互联网、车联网、手机、平板计算机、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

知识拓展

RFID介绍

2)大数据包括网络日志、RFID、传感器网络、社会网络、社会数据、互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学、大气科学、基因组学、生物地球化学、生物,以及其他复杂或跨学科的科研、军事侦察、医疗记录;摄影档案馆视频档案;大规模的电子商务记录。

图1-8所示为物联网、云计算、传统互联网、移动互联网的关系,展示出大数据在物联网智能设备上产生的数据存储在云端形成大数据的情况。

大数据如此庞大而复杂,它们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据具有各种各样的来源:传感器、气候信息及公开的信息,如杂志、报纸和文章。大数据产生的其他例子包括购买交易记录、网络日志、病历、军事监控、视频和图像档案,以及大型电子商务记录。

图1-8 物联网、云计算、传统互联网、移动互联网的关系

2.大数据定义

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》一书中,大数据分析是指不用随机分析法(抽样调查)这样的经典方法,而是对数据集进行分析处理。广义上的数据和大数据包括信息。

大数据(Big Data),或称巨量资料,是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内撷取、管理、处理并整理为能够帮助企业经营决策的资讯。或定义为无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

Lisa Arthur在《大数据营销》一书中将大数据定义成纷繁杂乱的、互动的应用程序和流程。她把大数据比喻为数据“毛球”,如图1-9所示。在一些企业中,混乱的数据中包含的信息,可能分布于市场营销部门、财务部门、销售部门和客户服务部门。而在另外一些公司,这些混乱的数据可能来自市场营销服务提供商、独立的电子商务网站、未归档的呼叫中心的对话录音,以及公司或合作伙伴的部门和部分网页的活动数据日志。

图1-9 数据“毛球”

麦肯锡全球研究所给出的大数据定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

IBM公司赋予大数据“领悟数据,提升见识,洞察秋毫,驱动优化”4个内涵,侧重于大数据技术的应用,强调大数据间相关性的发现,其核心能力是“大数据中的价值发现和应用”。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。随着互联网及其应用的发展,不断形成的大数据是一类由互联网衍生而来的重要的人造资源。从管理角度,大数据是一类反映物质世界和精神世界运动状态和状态变化的资源,它具有决策有用性、功能多样性、应用协同性、可重复开采和安全风险性。

随着云时代的来临,大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce框架一样向数十台、数百台甚至数千台的计算机分配工作。每天数以亿计的数据产生着,云计算、云存储的应用有效地将这种隐态资源转化为可用资源,这种资源无疑会成为国家、组织和个人的最重要的财富。