数据分析之决策树算法

在数据分析的决策中，如果有不同的方案需要进行比较或归类，可以使用决策树的方法。

1、决策树介绍

决策树使用了概率论的原理，用一种树形图作为分析工具。每条树枝所代表的路径，就是一种分类、结论、或方案建议。

决策树有节点和分枝，分枝代表决策。没有分枝的节点叫做叶子节点，叶子节点返回类别标签，或概率得分。

在每个结点选择最优的属性来分类，直到属性全部被选择过、或样本被准确分类。是自顶而下的贪婪算法。

节点深度：根节点到该节点的最短步数。

根节点-内部节点-叶子节点，记录了决策的过程。叶子节点在最末端，代表决策的结果。

2、决策树的典型算法：ID3、C4.5、CART等。

ID3：迭代的二分器。C4.5可以看作是ID3的发展版本。两者之间存在的区别，用信息增益率替代信息增益度量。C4.5：C4.5是ID3的发展版本，基于信息增益率来选择自变量，优化了ID3使用信息增益的缺点：倾向于数值大的变量。可处理缺失数据。CHAID：卡方检验来选择自变量。因变量是类别型变量。CART：分类与回归树。采用Gini等不纯度指标作为检验标准。先生长，再修剪。二分决策树，变量可以反复使用。用其他数据来替代缺失值。

3、决策树的优缺点：

决策树模型在经营管理中应用广泛。

主要的优势是具有很强的可读性和可理解性，不管是决策过程中所做的选择还是分类的规则和最终的结果，都容易被业务方所理解和接受。这样便于集体分析并作出运营决策，而且在出现问题的时候方便追查和复盘。

其次，决策树的分类速度很快，遇到新的数据时，可以使用决策树模型进行快速分类。

缺点就是：容易过拟合，生成复杂树；对数据波动敏感，微小的变化可能导致树结构的巨变；当数据关系复杂时，则很难应对。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

HQY

要和谐，要有爱~

hqy 发表于2025-07-03 15:30:12 浏览13 评论0百度已收录

少长咸集