1.3 大数据分析
大数据分析指对规模巨大的数据进行分析,是整个大数据处理流程的核心。从异构数据源抽取和集成的数据构成了数据分析的原始数据。根据不同应用的需求,可以从这些数据中选择全部或部分数据进行分析,大数据的价值产生于分析过程。
小数据时代的分析技术,如统计分析、数据挖掘和机器学习等,并不能适应大数据时代的数据分析需求,必须做出调整。大数据时代的数据分析技术面临着一些新的挑战,主要有以下几点。
(1)数据量大并不一定意味着数据价值的增加,反而意味着数据噪声增多。因此,在数据分析之前必须进行数据清洗等预处理工作。但是,预处理如此大量的数据,对于计算资源和处理算法来讲都是非常严峻的考验。
(2)对大数据时代的算法需要进行调整。首先,大数据的应用常常具有实时性的特点,算法的准确率不再是大数据应用最主要的指标。在很多场景中,算法需要在处理的实时性和准确率之间取得一个平衡。
其次,分布式并发计算系统是进行大数据处理的有力工具,这就要求很多算法必须做出调整以适应分布式并发计算框架,算法需要变得具有可扩展性。
许多传统的数据挖掘算法都是线性执行的,面对海量的数据,很难在合理的时间内获取所需的结果。因此需要重新把这些算法实现成可以并发执行的算法,以便完成对大数据的处理。
最后,在选择算法处理大数据时必须谨慎,当数据量增长到一定规模以后,可以从少量数据中挖掘出有效信息的算法并不一定适用于大数据。
(3)数据结果的衡量标准。对大数据进行分析比较困难,但对大数据分析结果好坏的衡量却是大数据时代数据分析面临的更大挑战。
因为大数据时代的数据量大、类型混杂、产生速度快,故很难清楚地掌握整个数据的分布特点,从而导致在设计衡量的方法和指标时遇到许多困难。