3.2 分布式机器学习的简介
3.2.1 分布式机器学习的背景
机器学习技术在实际场景中的应用受到越来越多的关注,尤其在金融和医学等领域,其决策的准确性和效率都有不错的表现。有些学者将机器学习定义为“机器学习=算法+算力+数据”。机器学习作为一种计算密集型的工作,本身就需要大量的计算资源,同时为了进一步提高机器学习的性能,其算法的设计变得越来越复杂,所需的计算资源日益膨胀。另外,机器学习的效果过于依赖训练所使用的数据集,如果数据的质量较差或者规模过小,就很难保证机器学习模型的实际效果。当今社会已全面进入大数据时代,甚至每个手机终端都已经成为一个收集数据的节点,用于训练的数据量呈现爆炸式增长。
因为当前的机器学习算法对高质量数据的需求越来越大,所以不仅需要更多收集数据的渠道,还需要对分布在不同设备、不同机构的数据进行聚合。另外,随着数据量大幅增加,对计算资源的需求不断增加。基于机器学习领域的发展趋势,分布式机器学习提供了一种新的思路。由于数据量和模型复杂度不断增加,终究会出现单个节点难以支撑模型训练的情况,因此不得不使用分布式的训练环境来完成训练过程。分布式机器学习不仅可以协调大量的计算资源,使得学习过程达到较高的性能,还可以对多方的数据和模型进行聚合,最大化模型的准确性。