5.8 校直多个变量

少数变量(10对变量)处理起来毫无难度。相对一位烘焙师要面对的几打变量(78对)而言,这并不算太多。而基于遗传算法的数据挖掘的主要特点和功能就是有效地将这78对变量减少到操作上可行的数量。下面介绍这个减少数量的操作方法。

对于烘焙师的78对变量有必要做个清理。数据分析师无法校直78对变量。这些成对变量需要很多幅散点图。而制作大量散点图是造成滥用或忽视线性假设的原因。实际上,这个方法可以做到,而且做得很快,因此经常用于处理数据集,比如400变量(79 800对变量)。

基于遗传算法的数据挖掘的第一步是删减没有预测能力的变量(单个或成对变量),这是通过随机选择的繁殖、配对和离散生物算子完成的。第二步是继续将变量数减少到10对左右。剩下的步骤是遵循遗传算法成熟的演化流程,加强数据强度[5]。因此,只要计算机可以处理原始数据集的所有变量,这种方法实际上可以高效处理任意数量的变量。用包含很多对变量的大数据集来说明这个方法的内容超出了本书的范围。此外,用扩展数据集演示基于遗传算法的数据挖掘可能不太合适,因为这要求二维以上空间,甚至像电影《阿凡达》那样的三维空间。