1.2.2 大数据预处理

大数据采集过程中通常有一个或多个数据源,这些数据源包括同构或异构的数据库、文件系统、服务接口等,易受到噪声数据、数据值缺失、数据冲突等影响。因此,需要首先对收集到的大数据集合进行预处理,以保证大数据分析与预测结果的准确性、价值性。

大数据预处理环节主要包括数据清理、数据集成、数据转换和数据消减(归约)等内容。该环节可以大大提高大数据的总体质量,是大数据过程质量的体现。

(1)数据清理技术包括对数据的不一致性检测、噪声数据的识别、数据过滤与修正等方面。该技术有利于提高大数据的一致性、准确性、真实性和可用性等方面的质量。数据清洗对随后的数据分析非常重要,因为它能提高数据分析的准确性。但是,数据清洗依赖复杂的关系模型,会带来额外的计算和延迟开销,必须在数据清洗模型的复杂性和分析结果的准确性之间进行平衡。

(2)数据集成指将多个数据源的数据进行集成,从而形成集中、统一的数据库、数据立方体等。这一过程有利于提高大数据的完整性、一致性、安全性和可用性等。数据集成在传统的数据库研究中是一个成熟的研究领域,如数据仓库和数据联合方法。数据仓库由以下三个步骤构成。

①抽取:连接源系统并选择和收集必要的数据,用于随后的分析处理。

②转换:通过一系列的规则将提取的数据转换为标准格式。

③加载:将提取并转换后的数据加载到目标存储基础设施。

数据联合创建一个虚拟的数据库,从分离的数据源查询并合并数据。虚拟数据库并不包含数据本身,而是存储了真实数据及其存储位置的信息或元数据。

然而,这两种方法并不能满足流式和搜索应用对高性能的需求,因此这些应用的数据高度动态,并且需要实时处理。通常,数据集成技术最好能与流处理引擎或搜索引擎集成在一起。

(3)数据转换包括基于规则或元数据的转换、基于模型与学习的转换等技术,可通过转换实现数据统一。这一过程有利于提高大数据的一致性和可用性。

(4)数据消减(归约)是在不损害分析结果准确性的前提下降低数据集规模,使之简化,包括维归约、数据归约、数据抽样等技术。这一过程有利于提高大数据的价值密度,即提高大数据存储的价值性。

除了前面提到的大数据预处理技术,还有一些对特定数据对象进行预处理的技术,如特征提取技术,它们在多媒体搜索和DNS(Domain Name System,域名系统)分析中起着重要的作用。这些数据对象通常具有高维特征矢量。数据变形技术通常用于处理分布式数据源产生的异构数据,对处理商业数据非常有用。然而,没有一个统一的数据预处理过程和单一的技术能够用于多样化的数据集,必须考虑数据集的特性、需要解决的问题、性能需求和其他因素选择合适的数据预处理方案。

总之,数据预处理环节有利于提高大数据的一致性、准确性、真实性、可用性、完整性、安全性和价值性等,而大数据预处理中的相关技术是影响大数据过程质量的关键因素。