10.10 评估变量的重要性

评估模型中的变量的统计显著性的经典方法是大家熟知的零假设显著性检验程序,这个方法是基于减少对问题中的变量的预测误差(实际回应减去预测回应)。逻辑斯谛回归分析的正常检验程序的统计工具包括对数似然函数(LL)、G统计量、自由度(df)以及p值。这个程序在一个带有重要而不可靠假设的理论框架下,使用了这些统计工具。从纯理论角度看,这样做会引起人们对具有统计显著性的结果的疑虑。即便统计显著性结果被采纳,它也可能在实践方面并不重要,或者对所研究的问题没有太大用处。对于重视实用性的数据挖掘工程师来说,经典方法的局限性和缺乏灵活性是不容忽视的问题,对大数据尤其如此。

与此不同的是,数据挖掘方法采用对数似然函数、G统计量以及自由度,但这是一种非正式的数据引导的搜寻变量方法,可以明显降低预测误差。值得一提的是,这种数据挖掘方法的非正规性要求对某些术语加以适当修改,其中包括从宣布一个结果是统计显著的,到值得关注的或非常重要的结果。

在开始介绍变量评估的数据挖掘方法之前,我想先说说经典方法和自由度的客观性。经典方法在分析领域有深厚根基,以至于从业者没有其他可行的替代方法可用,尤其不会采用基于非正式但有时具有高度个性化步骤的方法。确定一个变量具有统计显著性看上去是非常客观的,因为这是基于概率理论和统计学做出的结论。然而,模型构建者的具体检验方法可能会影响结果。这套方法可能会出现因误判而拒绝一个实际是显著变量,或者因误判而接受一个不显著变量的情况。确定合适的样本量也是主观性的,因为这取决于研究经费有多少。最后一点是,建模者的经验决定了可以允许偏离检验假设多远。所以,认识到了传统方法的主观方面的局限,建模者会接受避免了理论上的浮华和数学上的优雅的数据挖掘方法。

关于自由度的说明有助于让这个讨论更清晰。通常所说的自由度是对分析所含的独立信息的数量的通用度量指标。这个指标一般取决于数学上的做法,即“用N-1代替N”,以确保得出精确的结果。自由度这个概念让人们产生了很容易计算信息的数量的错误印象。实际上,对大多数人来说,用于计算信息的数量的原理并不容易。直到今天,我们还没有计算自由度的通用方法。幸运的是,许多分析方法已经确定了自由度的算法。所以说,正确的自由度计算结果是存在的,计算机能够自动给出结果,而且在旧的统计学课本里,也有自由度对照表可供查阅。在下面的讨论中,我们直接给出自由度结果而不做具体计算。