- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 721字
- 2021-09-26 16:15:57
10.7 校直示例数据
回到FD1_OPEN的logit值散点图LGT_TXN,这个变量的突起需要校直,这个突起形态属于图10.3中第二象限的类型。根据突起规则,我可以对LGT_TXN采用向上幂阶梯法,或者对FD1_OPEN采用向下幂阶梯法。但是对LGT_TXN的处理方式不符合逻辑,这是因为LGT_TXN是经由逻辑斯谛回归得出的显式因变量,重述会产生大量不合逻辑的结果。所以我不处理LGT_TXN。
对FD1_OPEN采用向下幂阶梯法,我们用到的幂次分别为½,0,-½,-1和-2,分别得到FD1_OPEN的平方根,标记为FD1_SQRT;对FD1_OPEN取常用对数,标记为FD1_LOG;对FD1_OPEN取其负倒数平方根,标记为FD1_RPRT;取FD1_OPEN的倒数,标记为FD1_RCP;以及FD1_OPEN平方的倒数,标记为FD1_RSQ。经过变量重述的LGT_TXN的logit值散点图和原来的FD1_OPEN散点图(为方便对比)见图10.4。
从图上看到,重述后的变量FD1_RSQ、FD1_RCP和FD1_RPRT校直数据的效果是一样的。我可以从中选择任一种,但是我决定再做一些探查工作,看看数据指标LGT_TXN和重述变量之间的相关系数,以便找出最佳的重述变量。这个相关系数越大,重述变量对于校直数据的作用就越明显。所以说,具有最大相关系数的重述变量就是最佳选择,除非数据挖掘工程师依靠所要解决问题相关的可见和数字指标得出其他结果。
图10.4 FD1_OPEN的logit值散点图及其重述变量后的散点图
表10.8从大到小列出了LGT_TXN与FD1_OPEN以及其他每个重述变量的相关系数。从这些相关系数可以看到原始变量FD1_OPEN的校直数据有明显改善(r=0.907)。FD1_RSQ的相关系数最大(r=0.998),但是只比FD1_RCP的相关系数大一点(r=0.988),这个差异很小。
表10.8 LGT_TXN和FD1_OPEN的重述变量之间的相关系数
我选择的最佳重述变量是FD1_RCP,它与重述前的关系相比,改善了8.9%(=(0.988-0.907)/0.907)。我更倾向于选择FD1_RCP而不是FD1_RSQ和其他用p小于-2的向下幂阶梯法得出的重述变量,因为我不想不明智地选择那些过度处理的重述变量,以免造成信息损失。所以我选择的是幂次为-1的重述变量,希望在最小的信息损失和直度之间取得较好平衡。