2.2.5 CART回归决策树的特征和分割点选择准则

CART分类树采用基尼指数最小化准则或基尼增益最大化原则,而CART回归树常用均方误差(Mean Squared Error,MSE或L2)最小化准则作为特征和分割点的选择方法。

事实上,对于回归树来说,常见的三种不纯度测量方法是[假设预测的均值为m,中位数为median(ym)]:

●均方误差最小化方法,即最小二乘法。这种方法类似于线性模型中的最小二乘法。分割的选择是为了最小化每个节点中观测值和平均值之间的误差平方和。该方法将节点的预测值设置为ym

●最小平均绝对误差(Mean Absolute Error,MAE或L1)。这种方法最小化一个节点内平均数与中位数的绝对偏差。与最小二乘法相比,它的优点是对离群值不那么敏感,并提供一个更稳健的模型。缺点是在处理包含大量零值的数据集时不敏感。该方法将节点的预测值设置为median(ym)。

●最小半泊松偏差(half Poisson deviance)。该方法将节点的预测值设置为m