2.1 经典决策树应用的一般流程_现代决策树模型及其编程实践：从传统决策树到深度决策树-QQ阅读男生中文历史网

2.1　经典决策树应用的一般流程

经典决策树算法诞生在20世纪90年代之前，那时网络环境还不发达，所处理的样本数据集主要是小规模数据，特征数并不多，因此数据的特征工程并不必要。当时的主要任务是处理一些特征数据的缺失，针对分类数据和连续数据进行区别化处理以及相互转换，包括连续数据的离散化等。

获得规整的样本数据集之后，就需要利用各类决策树算法进行决策树模型的构建。决策树算法的差异主要体现在选择特征属性的策略、选择属性分割点策略、不同类型特征属性的处理方法、如何终止决策树的构建过程、如何优化模型以避免过拟合、如何降低决策树模型的复杂度等方面。本章介绍的三类决策树算法在这些方面都存在差异。

获得决策树模型之后，接下来要利用这些模型对未知样本数据进行推理和预测。在这个过程中，为降低模型复杂度或提高模型泛化能力，需要进行剪枝优化等处理。

本节先介绍缺失值的处理和连续数值属性的离散化处理方法，决策树构建通过三种经典算法的具体介绍展开，之后再介绍几种经典的决策树剪枝策略。

本周热推：