在数据分析的决策中,如果有不同的方案需要进行比较或归类,可以使用决策树的方法。
1、决策树介绍
决策树使用了概率论的原理,用一种树形图作为分析工具。每条树枝所代表的路径,就是一种分类、结论、或方案建议。
决策树有节点和分枝,分枝代表决策。没有分枝的节点叫做叶子节点,叶子节点返回类别标签,或概率得分。
在每个结点选择最优的属性来分类,直到属性全部被选择过、或样本被准确分类。是自顶而下的贪婪算法。
节点深度:根节点到该节点的最短步数。
根节点-内部节点-叶子节点,记录了决策的过程。叶子节点在最末端,代表决策的结果。
2、决策树的典型算法:ID3、C4.5、CART等。
ID3:迭代的二分器。C4.5可以看作是ID3的发展版本。两者之间存在的区别,用信息增益率替代信息增益度量。C4.5:C4.5是ID3的发展版本,基于信息增益率来选择自变量,优化了ID3使用信息增益的缺点:倾向于数值大的变量。可处理缺失数据。CHAID:卡方检验来选择自变量。因变量是类别型变量。CART:分类与回归树。采用Gini等不纯度指标作为检验标准。先生长,再修剪。二分决策树,变量可以反复使用。用其他数据来替代缺失值。3、决策树的优缺点:
决策树模型在经营管理中应用广泛。
主要的优势是具有很强的可读性和可理解性,不管是决策过程中所做的选择还是分类的规则和最终的结果,都容易被业务方所理解和接受。这样便于集体分析并作出运营决策,而且在出现问题的时候方便追查和复盘。
其次,决策树的分类速度很快,遇到新的数据时,可以使用决策树模型进行快速分类。
缺点就是:容易过拟合,生成复杂树;对数据波动敏感,微小的变化可能导致树结构的巨变;当数据关系复杂时,则很难应对。