算法整理模板01

编程入门 行业动态 更新时间:2024-10-28 10:31:27

<a href=https://www.elefans.com/category/jswz/34/1770096.html style=算法整理模板01"/>

算法整理模板01

STEP1:整体概况
决策树是一种对样本进行分类的树形结构,也能够进行回归预测。决策树主要包含3种结点:根节点——初始结点;叶节点——最终分类结果结点;内结点——树内部进行判断的条件结点-即特征,在决策树中,每一个样本都只会被一条路径覆盖。

STEP2:生成原理
决策树常见的生成算法有三种,ID3,C4.5以及Cart。以ID3算法为例介绍一下决策树的生成原理。
第一步,计算信息增益。ID3算法是利用信息增益进行特征选择的。信息增益是指,已知某一特征xi后,使得样本整体特征不确定性减少的程度。
第二步,在每个节点上利用信息增益进行特征的选择,在选择特征时,优先选择信息增益最大的特征。直到剩余特征的信息增益小于阈值、或已经没有特征可以选择时终止。
第三步,对决策树进行剪枝优化。构建决策树的损失函数(与预测误差以及树的复杂度有关),将每一个叶节点回缩到上一层父节点,对损失函数最小的叶节点进行修剪。
C4.5算法的过程与ID3类似,只是使用了信息增益比而非信息增益进行计算。信息增益比是指在信息增益的基础之上乘一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。而CART算法则是使用基尼指数进行计算。基尼指数是指样本被某一特征分割后,整个样本集合不确定性程度的大小,基尼指数越小,样本集合被分割后的不确定性越小。

STEP3:优缺点
决策树的优势包括:输出树形图可解释性较强,if-then形式,逻辑很好理解;对输入数据的属性要求低(分类,连续);
劣势包括:当数据集特征维度很多时,决策树会生成许多枝干,或者树非常深,陷入过拟合;判定过程很规则化,容易被识破并攻击。

STEP4:应用场景
决策树的应用场景十分广。可以用来评估贷款风险;可以辅助医生选择诊断模型;也可以用于垃圾邮件的分类判断。

STEP5:手推
【熵】、【信息增益】、【信息增益比】、【基尼指数】、【损失函数】的公式;
CART算法【回归树】、【分类树】的生成方式推导。

STEP6:延伸提问
(1)信息增益比和信息增益相比,有什么优势?
(2)如何解决决策树的过拟合问题?(剪枝、交叉验证、筛选特征)
(3)预剪枝和后剪枝?(参考树的高度、叶子结点的数量、不纯度等、在生成决策树前(后)进行剪枝)
(4)随机森林(这里同样从整体概况、原理、优缺点等进行整理)
(5)Bagging和Boosting的区别?(样本的抽取;样本的权重;是否并行计算等)
(6)GBDT\XGBOOST

更多推荐

算法整理模板01

本文发布于:2024-02-12 18:09:55,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1688852.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:算法   模板

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!