×

数据分析之决策树算法

hqy hqy 发表于2025-07-03 15:30:12 浏览1 评论0百度已收录

抢沙发发表评论

在数据分析的决策中,如果有不同的方案需要进行比较或归类,可以使用决策树的方法。

1、决策树介绍

决策树使用了概率论的原理,用一种树形图作为分析工具。每条树枝所代表的路径,就是一种分类、结论、或方案建议。

决策树有节点和分枝,分枝代表决策。没有分枝的节点叫做叶子节点,叶子节点返回类别标签,或概率得分。

在每个结点选择最优的属性来分类,直到属性全部被选择过、或样本被准确分类。是自顶而下的贪婪算法。

节点深度:根节点到该节点的最短步数。

根节点-内部节点-叶子节点,记录了决策的过程。叶子节点在最末端,代表决策的结果。

2、决策树的典型算法:ID3、C4.5、CART等。

ID3:迭代的二分器。C4.5可以看作是ID3的发展版本。两者之间存在的区别,用信息增益率替代信息增益度量。C4.5:C4.5是ID3的发展版本,基于信息增益率来选择自变量,优化了ID3使用信息增益的缺点:倾向于数值大的变量。可处理缺失数据。CHAID:卡方检验来选择自变量。因变量是类别型变量。CART:分类与回归树。采用Gini等不纯度指标作为检验标准。先生长,再修剪。二分决策树,变量可以反复使用。用其他数据来替代缺失值。

3、决策树的优缺点:

决策树模型在经营管理中应用广泛。

主要的优势是具有很强的可读性和可理解性,不管是决策过程中所做的选择还是分类的规则和最终的结果,都容易被业务方所理解和接受。这样便于集体分析并作出运营决策,而且在出现问题的时候方便追查和复盘。

其次,决策树的分类速度很快,遇到新的数据时,可以使用决策树模型进行快速分类。

缺点就是:容易过拟合,生成复杂树;对数据波动敏感,微小的变化可能导致树结构的巨变;当数据关系复杂时,则很难应对。