1.3 决策树的核心术语

在决策树中有两类节点:决策节点和叶子节点。决策节点用于做出任何决策,并且有多个分支,而叶子节点是这些决策的输出,不包含任何进一步的分支。

之所以称为决策树(decision tree),是因为它类似于一棵树,从根节点开始,对进一步的分支进行扩展,构建了一个树状结构。决策树根据每一个决策节点的可能取值进一步分割,如图1.4所示,A为决策节点,由根节点分裂而来,而对决策节点A进行分割构建了B和C,它们均为叶子节点。

图1.4 决策树中的决策节点和叶子节点

决策树的核心术语包括:

●根节点(root node):根节点是决策树的起点。它代表整个数据集,并进一步被分为两个或更多的同质集。

●叶子节点/终端节点(leaf/terminal node):叶子节点是最终的输出节点。得到叶子节点后,树就不能再被继续分割了。每个叶子节点都标有一个类或类的概率分布。

●分割(splitting):分割是根据给定的条件将决策节点/根节点划分为子节点的过程。

●分支树/子树(branch/sub tree):由决策节点/根节点分割形成的以其子节点为根节点的树。

●剪枝(pruning):剪枝是指对树进行修剪的过程,即从树上去除不需要的分支。

●父/子节点(parent/child node):父节点是直属上级节点,子节点是下级的节点。

决策树是以样例为基础的。每个样例均包含一组属性,这些属性可以是离散的分类值,也可以是连续值。需要从一组无次序、无规则的样例集中推理出决策树表示形式。可采用自顶向下的递归方式,从样例属性中选择一个属性,并进行属性值的比较,根据不同的属性值向下分支,最终形成一棵树。从根节点到叶子节点的一条路径就对应着一条合取规则(AND规则),也称为决策规则。整个决策树就对应着一组析取表达式规则(OR规则)。决策树遵循与或式(Sum of Product,SOP)表示法,也被称为析取范式。对于一个类,从树的根部到具有相同类的叶子节点的每一个分支都是值的合取(乘积),以该类为终点的不同分支形成一个析取(和)。

可将决策规则看作一个简单的if-then语句,由一个条件和一个预测组成。例如,如果今天下雨并且是四月(条件),那么明天就会下雨(预测)。可以使用单个决策规则或多个规则的组合进行预测。决策规则遵循一个一般的结构:如果条件满足,则进行某种预测。

需要指出的是:

●属性值如果是连续的,那么在建立模型之前需要对它们进行离散化处理。

●将属性作为树的根节点或分支节点的选择策略是通过使用一些统计方法来完成的。

这两点是决策树构建和应用中的核心要素。