1.1 缺失值填补的背景与意义

互联网、物联网的广泛应用催生了数据的爆炸式增长,大数据时代已然来临,并且正在以极广的覆盖性、极强的渗透力改变着人类的生产、生活方式。狄更斯在《双城记》中写道:“这是一个最好的时代,也是一个最坏的时代。”这句话用以形容大数据的发展现状再贴切不过。一方面,海量数据的衍生价值能够促进人类文明的发展。经典的DIKW(Data-to-Information-to-Knowledge-to-Wisdom)模型阐述了由数据到智慧的演化进程,其将数据、信息、知识、智慧按自底向上的顺序纳入一个金字塔形的层次结构。数据位于该结构的底层,是信息的载体,是知识与智慧的本原。若将数据比作雨滴,那么信息是由雨滴汇集的河川,知识是由河川汇聚的大海,智慧是大海里诞生的新生命。由此可见,海量数据中很可能蕴藏着启迪人类智慧与文明的力量。另一方面,大数据具有基数庞大、类型繁多、增速迅猛、价值密度低等特点,而人类传统的分析手段已经无法胜任大数据的挖掘工作。如何高效地利用海量数据并释放其衍生价值是目前面临的一项重要挑战。在此背景下,以机器学习、深度学习为代表的人工智能技术成为大数据挖掘和分析的重要手段,并且掀起了一场大规模的科技与产业革新。

人工智能是计算机科学的重要分支,其发展与数据、算法及硬件密切相关。著名的人工智能专家吴恩达曾指出,发展人工智能就像利用火箭发射卫星,需要强有力的引擎和足够的燃料。而在人工智能这艘火箭中,机器学习与深度学习等算法是引擎,高性能的计算硬件是打造引擎的工具,海量数据是引擎的燃料。上述比喻形象地阐述了人工智能发展的三大要素以及彼此间的关系。进一步探究大数据与人工智能的联系可知,大数据能够为人工智能提供海量的数据支持,而人工智能能够合理挖掘并释放大数据在各行业中的衍生价值。现如今,大数据与人工智能已经逐步惠及医学、金融、交通、通信等领域,在当今社会发挥着重要作用。

高质量的数据是推动人工智能发展的重要因素。然而,由于各种机器或人为因素的干扰,真实数据集中经常存在不同程度的数据缺失,以致出现数据质量下降等情况。数据缺失问题普遍存在于数据采集、录入、传输、存储及分析等环节。探究缺失值的成因对于理解以及解决数据缺失问题有着积极作用。

以传感器网络为例,该场景下的数据缺失主要来自传感器与环境间的交互。例如,节点的硬件在日晒、风吹或雨淋等环境影响下易损坏,导致无法传回数据。节点携带的能量有限,其在能量消耗殆尽而未及时更换电池的情况下会导致部分数据丢失。节点的通信能力有限,其受障碍物、信号衰弱等影响,导致无法成功传输数据。节点的存储及处理能力有限,当其无法存储数据或及时运算时,会丢失部分数据[1]

以社会调查为例,数据采集期间的数据缺失原因主要有:被调查者因身体、工作等原因无法现身参与调查;被调查者因问题敏感或涉及隐私而拒绝作答;被调查者有意或无意地隐瞒事实而虚假回复(此类数据在后期由分析人员成功检测并删除);调查者因粗心而忘记询问某些问题,或者笔录时出现明显的错填。此外,在数据的后续处理过程中也易出现数据缺失现象。例如,在数据录入期间,操作员因人为失误错录数据的位数或某个数字等导致数据出错(此类数据在后期由分析人员成功检测并删除);在数据存储、传输及分析过程中,因系统失灵、传输故障、人为失误等各种原因造成数据丢失[2]

除以上场景外,数据缺失还存在于金融投资、医疗诊断等诸多场景中。由于数据缺失的产生原因较多且难以完全避免,使得缺失数据成为影响数据质量的一大原因。缺失数据可能携带该数据对象的重要信息,并且缺失的数据量过大会严重降低数据的质量与可信度。若直接利用算法分析不完整数据,不仅会增大建模难度和分析过程的复杂度,还会导致分析结果出现错误。然而事实上,大多数已有的人工智能算法无法直接处理缺失数据,因此,需在预处理阶段对缺失数据进行有效处理,方可进行后续分析。而如何有效处理缺失数据已成为不完整数据分析中亟待解决的关键问题。

目前,常用的缺失值处理方式主要包括不完整样本删除和缺失值填补。直接删除不完整样本会使得建模的数据量减小。而当不完整样本的数量相对于整个数据集不可忽视时,该方法将导致大量的信息丢失,进而导致分析结果出现严重偏差。相较于直接删除不完整样本,缺失值填补法则是一种更为合理的解决方法。

在不完整数据分析中,缺失值填补法通过研究现有数据,为每个缺失值找到一个尽可能合理的替代值,以此获得与原始数据集大小、维度完全相同的数据集。该方法既可以保持原始数据集的规模,又能够对缺失值做出合理的推断,已受到众多科研及从业人员的广泛关注。据统计,在机器学习和数据挖掘的科研应用中,数据预处理耗费了研究人员超过60%的时间与精力,而在工业应用中该比重甚至超过80%[3],其中,不完整数据处理是关键工作内容。由此可见,不完整数据的缺失值填补理论及方法具有重要的研究意义与研究价值。

在数据质量难以保障而人工智能不断深化的今天,以不完整数据为对象的缺失值填补研究是一项基础且必要的工作。合理的缺失值填补方法不仅能够有效提升机器学习等人工智能算法的工作效率,还能提高数据分析与建模的准确性和可信度,因此具有重要的现实意义。