- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 1172字
- 2021-09-26 16:16:01
10.12 变量的相对重要性
构建统计模型的“神秘之处”在于定义真实模型的真实的变量子集合是未知的。建模者可以通过找到定义最终模型的最佳变量子集合,这可能是结合逻辑推理和猜测找出真实模型的最佳方式。这个最终模型反映了建模者运用手中数据所做的努力,这比估计真实模型要好得多。建模者的注意力放在最引人注意且无法避免的那些预测变量上,从逻辑散点图上可以看到这些变量的形态和与回应之间的关系,而且这些变量的行为是已知的。
构建统计模型的另一个魔幻之处是预测变量的最佳子集合包含的变量对于模型的预测贡献通常是无法预测,也无法解释的。有时候,如果其他变量不出现,其中最重要的变量可能会改变,因为其在模型中的贡献不再像之前那么大了。有些时候,最不可能的变量会浮上来,这是因为某些变量未出现,而导致其对变量对模型的贡献变大了。在最好的情况下,变量之间相互作用,使得它们对模型预测的总影响大于各自影响的总和。
除非变量之间没有关联关系(可能性极小),否则建模者不可能评估单个变量对模型的贡献。在实践中,建模者可以评估变量的相对重要性,也就是相对于模型中的其他变量,这个变量对模型的重要性。在逻辑斯谛回归分析结果中,Wald卡方值即是变量相对重要性的指标,也用于选择最佳子集合,相关讨论见下一节。
选择最佳子集合
找出重要变量的最佳子集合的步骤如下:
1)选择一个重要的初始子集合。被认为重要的变量有可能是重要的。让这个问题相关范围内的经验(建模者和其他人)成为规则。如果需要从很多变量里进行选择,则根据相关系数r(回应变量和每个候选的预测变量)排序。几个根据经验挑选的变量、r值最大的几个变量以及几个小r值变量可以作为备选子集合。之所以要选几个小r值变量,是因为它们可能会误排除重要的非线性变量。(回忆一下,相关系数是线性关系指标。)类别变量没有这个系数,所以需要特殊处理。(在最后一节,我们讨论FD_TYPE如何在模型中纳入一个类别变量。)
2)对备选子集合里的变量做逻辑散点图,并根据需要对变量进行校直处理。最引人注意的几个原始变量和重述变量构成初始子集合。
3)对于初始子集合进行初步的逻辑斯谛回归。从模型中剔除一两个Wald卡方值低于4的变量。剔除之后得到了首个重要变量的起始子集合。
4)对这个起始子集合进行逻辑斯谛回归分析。从模型中剔除一两个Wald卡方值低于4的变量。建模者可以尝试剔除不同变量,看看哪些变量变得更重要或不重要了。在这样做的时候,可以看到Wald卡方值会在4的上下变动。这个值变大是因为被剔除变量和留下变量之间的相关性发生了变化。相关系数越大则卡方值变得越大(不可靠度)。结果是,卡方值增加得越大,则确定重要变量的不确定性越大。
5)重述第4步,直到留下的变量都有比较大的卡方值。当建模者提出不同的成对变量时,可以得到不同的子集合。
6)采用10.10.4节的决策规则对比不同子集合的相对重要性,确定最佳子集合。