1.1 大数据概念及特征
高速发展的信息时代催生了很多高科技产物,而这些产物的灵魂就是数据(Data)。从计算机科学的角度,数据是所有能输入计算机并被计算机程序处理的符号的总称[1]。通过数据发现需求,通过数据验证技术的有效性,可以说,数据是科技发展的基石。
按照数据是否有强的结构模式,可将数据划分为结构化数据、半结构化数据和非结构化数据[2]。结构化数据指具有较强的结构模式、可用关系型数据库表示和存储的数据,通常表现为一组二维形式的数据集。半结构化数据是一种弱化的结构化数据形式,这类数据中的结构特征相对容易被获取和发现,通常采用类似XML、JSON等标记语言来表示。非结构化数据没有固定的数据结构或难以发现统一的数据结构。各种存储在文本文件中的系统日志、文档、图像、音频、视频等数据都属于非结构化数据。
随着移动设备和互联网业务的快速发展,每天都会有TB级甚至更多的数据量产生。这些数据具有数据量大、增长快速、非结构化等特点,可能隐藏着大量的潜在信息。在数据的采集、处理过程中,会根据数据的不同类型,选择不同的数据采集方法和处理技术。
互联网工作人员可以通过对这些海量数据进行分析、处理,从中挖掘出一些有价值的信息。这些信息既可以在企业业务拓展、市场营销、产品推荐和企业管理等方面为企业提供一定的决策支持,也可以作为对某行业未来发展趋势进行判断的依据。
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力、流程优化能力的海量、高增长率和多样化的信息资产。较为公认的大数据定义需要满足规模性、多样性、高速性的特性。大数据产生的价值不可估量。国际数据公司(International Data Corporation,IDC)进一步认为大数据还具有价值性、真实性的特点,通常以稀疏性呈现出来。
依据大数据的相关定义内容,目前通常认为大数据具有“5V”特征,即规模庞大(Volume)、种类繁多(Variety)、变化频繁(Velocity)、价值(Value)巨大但价值密度低、真实性(Veracity)[3]。
规模庞大:数据的大小决定所考虑的数据的价值和潜在的信息。
种类繁多:在大数据面对的应用场景中,数据类型的多样性。
变化频繁:数据所刻画的事物状态在频繁、持续地变化,大数据应当具有持续的数据获取和更新能力,即获得数据的速度。
价值:合理运用大数据,以低成本创造高价值。
真实性:数据的质量,强调数据的质量是大数据价值发挥的关键。
大数据这一术语产生在全球数据爆炸式增长的背景下,用来形容庞大的数据集合。工业界、学术界甚至政府部门都对大数据这一研究领域产生了巨大的兴趣。因此,大数据领域涌现出大量的新技术。大数据处理关键技术一般包括大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用等。
与传统的数据集合相比,大数据通常包含大量的非结构化数据。此外,大数据还为挖掘隐藏的价值带来了新的机遇,也带来了新的挑战,即如何有效地组织与管理这些数据。面对这些井喷的数据,如何高效地使用相关技术进行大数据采集、存储、处理并分析,有效地利用这些数据为人类社会发展做出贡献,成为人们目前亟待解决的问题。