- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 1057字
- 2021-09-26 16:15:24
1.8 统计学和机器学习
塞缪尔在1959年提出的机器学习(ML)使得应用计算机进行研究的领域获得了无须编程就可以工作的能力[15]。换言之,机器学习使得计算机可以从数据中直接获取知识,并学会解决问题。机器学习不久就将影响到统计学领域。
1963年,摩根和桑奇斯特领导了一场反对经典统计学限制性假设的运动[16]。他们发明了自动交互式检测(Automatic Interaction Detection,AID)回归树法,这种方法不再需要假设条件。AID需要大量使用计算技术,从数据中发现或者学习多维度模式和关系,是一种不需要假设的替代回归预测和类别分析的非参数型方法。许多统计学家认为AID标志着用机器学习解决统计问题的时代的开端。AID已经获得了很大改进和拓展:塞塔AID(THAID)、多变量AID(MAID)、卡方AID(CHAID)以及分类回归树(CART)都是目前非常可靠和可行的数据挖掘工具。CHAID和CART已经变成了最受欢迎的工具。
我把AID和由其扩展出来的方法视为准机器学习方法。它们都需要依靠计算机做大量计算,这是机器学习方法的共性。然而,它们不是真正的机器学习方法,因为它们都采用明确的统计标准(比如,θ、卡方以及F检验)。计算机可以让一个真正的机器学习方法模仿人类思考的方式。所以,我采用的说法是“准机器学习”。也许对AID方法和其他用计算机解决的统计问题来说,一个更合适的术语是“统计机器学习”。
与摩根和桑奇斯特的工作独立进行的是,机器学习研究者一直在开发推理过程自动化算法,这是回归分析的一种替代方法。1979年,昆兰采用了大家熟知的概念——学习系统(learning system),这是由亨特、玛林和斯通开发的,用在最早的智能系统——ID3上,之后升级为C4.5和C5.0[17,18]。这些算法也被视为数据挖掘工具,只是在统计学领域的应用还不广泛。
统计学与机器学习的交界最早出现在20世纪80年代。深度学习研究者了解了统计学家面对的三类经典问题:回归(预测一个连续产出变量)、分类(预测一个分类产出变量)以及聚类(将总体分为k个子体,使得每组内的个体尽可能相近,而不同组的个体之间尽可能不同)。他们开始用自己的方法(算法和计算机),用一种非统计学的、不需要假设的非参数方法解决这三类问题。同时,统计学家开始利用台式计算机解决这三类经典问题,这样他们就可以将自己从刻板的参数方法中解脱出来。
机器学习行业有很多专业团队在研究数据挖掘:神经网络、支持向量机、模糊逻辑、遗传算法与编程、信息检索、知识获取、文本处理、归纳逻辑编程、专家系统和动态编程。所有领域都有同样的目标,但各自采用自己的工具和技术来完成。不幸的是,统计学界和机器学习行业没有真正的思想交流,也没有相互学习各自的最佳方法。他们制造了毫无差异的差别。