2.2 结构风险最小化

对于前面给出的机器学习定义[公式(2.1.1)],可以这样理解:机器学习就是要寻找一个最优函数f,使得其在所有的训练数据上达到最小的损失。上述学习目标也可以被称为经验风险最小化(Empirical Risk Minimization,ERM),其中的损失函数也称为经验风险

这个条件对于一个好的、能预测未来的机器学习模型,真的就足够适用了吗?

事实上,一个好的机器学习模型,不仅需要对训练数据有强大的拟合能力,还需要对未来的新数据具有足够的预测能力。结构风险最小化(Structural Risk Minimization,SRM)是统计机器学习中一个非常重要的概念。SRM准则要求模型在拟合训练数据的基础上也要具有相对简单的复杂性(较低的VC维(Vapnik–Chervonenkis dimension))[Valiant,1984]。通常采用正则化(Regularization)的方法来控制模型的复杂性。

VC维是用来衡量研究对象(数据集与学习模型)可学习性的指标。VC维是机器学习的基础性概念,更详细的介绍请读者移步[周志华,2016]。VC维反映了可学习性,与数据量和模型的复杂度密切相关。因此,VC维较低的模型,其复杂性也较低。

结构风险最小化可形式化表示为

其中,Rf)是正则化项,即模型的复杂度的度量。模型f越复杂,Rf)的值越大;反之则越小。λ为正则化参数。

因此,在结构风险最小化的准则下,一个好的机器学习模型应该在训练数据上取得最好的拟合能力的同时,控制好模型的复杂度。常用的正则化项有:控制样本稀疏程度、筛选样本的L1正则化,使求解简单、避免过拟合的L2正则化,控制目标熵值的熵最小化等。