- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 503字
- 2021-09-26 16:15:38
5.6 挖掘(xx3,yy3)关系
我用一种机器学习方法来挖掘变量对(xx3,yy3)的关系。这种方法属于演化计算,准确地说,就是遗传算法(GP)。通过数据挖掘得出散点图5.3。
这个数据挖掘工作不需要消耗太多时间或脑力,因为基于遗传算法的数据挖掘(GP-DM)是机器学习适应性人工智能过程,它处理校直数据的效力很高。这个数据挖掘工具就是GenIQ模型,我们把将要进行数据挖掘的变量更名,加上前缀GenIQvar。(xx3,yy3)更名为(xx3,GenIQvar(yy3))。(GenIQ模型的正式介绍见第40章,那里有丰富的示例。)
图5.3 (xx3,GenIQvar(yy3))散点图
相关系数r(xx3,GenIQvar(yy3))=0.9895,在图5.3上可以看到较明显的线性关系。这个相关系数是xx3和GenIQvar(yy3)之间存在线性关系的一个可靠量度。这个非常靠近1的相关系数表明在原始变量xx3和数据挖掘变量GenIQvar(yy3)之间存在近似线性关系。(注意:该散点图的Y轴表示的GenIQvar_yy3与GenIQvar(yy3)略有不同,这是由画图软件的限制造成的。)
变量xx3、yy3和GenIQvar(yy3)的值见表5.2。这11个数据点按照GenIQvar(yy3)的值由大到小排列。
表5.2 重述yy3,GenIQ(yy3),按照GenIQ(yy3)降序排列
散点图并排对比
将两幅散点图并排放在一起进行比较,胜过写1000字的说明。通过这种对比,能明显看出数据挖掘之后的散点图更好(见图5.4)。
图5.4 散点图并排对比