第3章 传统机器学习

3.1 统计机器学习的简介

3.1.1 统计机器学习的概念

统计机器学习是从数据中鉴别模式的一系列方法的集合。从数据中分析各类模式并不是机器的专利,我们对这种分析非常熟悉,而且这种分析每天都发生在我们的生活中。

例如,一个病人因心脏不适入院,医生安排病人进行心电图检查,如图3-1所示,这项检查通过将电极连接在病人胸口的皮肤上,记录病人心脏的电活动,这些电活动通过显示器实时地显示在监视器上,并被打印在纸上。由于受伤的心肌通常不会传导电脉冲,因此心电图检查可以显示心脏病发作或心肌受损。其他对心脏的检查还包括胸部X光、冠状动脉血管造影、心脏CT或磁共振成像(MRI)等。在这一系列的检查中,有的记录了某一时间点的身体状况和心脏指标,有的记录了某一时间段内的心脏指标变化情况,有的则拍下了心脏及周边血管的影像,并测量了一些尺寸。医生需要根据这些各式各样的检测结果,分析和判断病人是因为偶然事件(比如,过量运动)导致的不适,还是心脏某些组织真的出现了问题。

图3-1 心电图

如图3-2所示,每当上市企业的会计年度结束,发放年度财务报告时,该企业的股票价格常常会迅速地反映该公司过去一年的经营状况,股票的价格变化是人们的交易所推动的,那么人们是如何根据财务报告做出当前的交易决策的呢?首先,财务报告主要是由会计报表和财务情况说明等资料组成的。其中,会计报表以一定的会计方法、程序记录与反映企业的财务状况、经营成果和现金流,具体来说包括反映资产负债的资产负债表、反映经营活动获利的利润表、反映企业内部现金流动性的现金流量表,以及反映股东利益的所有者权益变动表。通过仔细阅读财务报告,我们可以横向分析公司的经营情况在行业中所处的位置,纵向分析公司历年的情况变化。简单来说,我们可以根据财务报告中各种非结构化信息(数字、文本、图片等),对股票走势做出判断,从而进行投资。

如你所见,我们可以基于数据资料进行分析和判断并做出预判,这种类似于人类思考和解决问题的方式真的无处不在,在医学、金融、图像处理、消费、制造等各种行业中频繁出现,如果严格地用科学的标准来定义这个思考问题的方式,就是统计学习。

图3-2 股票价格走势示意图

本章会简单地介绍如何从数据中学到模式。通常来说,我们对预测的结果要有一个量化的度量指标,比如在预测股价问题中的股票价格、在疾病诊断问题中的心脏病种类。此外,对于如何预测这个结果,我们需要准备一组特征。比如,在预测股价时,我们可以将财务报告中的公司年度营业收入作为一个特征,可以将财务报告的页数也作为一个特征;在疾病诊断问题中,心电图的频率和振幅可以作为两个特征。给定一系列形如(特征1,特征2,特征3,结果)的数组(即我们所说的数据),建立一个预测模型用于完成预测任务,这便是机器学习。模型在使用时预测得越准确,说明建模越成功。

上述例子描述了什么是有监督学习。这种机器学习类型之所以被称为有监督学习,是因为其预测模型在训练过程中有预测目标值作为引导。在无监督学习中,通常只有特征,而没有所谓的目标值。在无监督学习中,比起建立预测模型,我们通常更关注数据是如何组织在一起的,或者样本点的聚类情况是怎样的。本章主要讨论有监督学习问题。