数据挖掘十大经典算法(九)

编程入门 行业动态 更新时间:2024-10-04 21:26:57

数据挖掘十大经典<a href=https://www.elefans.com/category/jswz/34/1770096.html style=算法(九)"/>

数据挖掘十大经典算法(九)

简介

朴素贝叶斯算法是机器学习中为数不多的基于概率的分类算法,多用于文本分类。

贝叶斯分类的基础是概率推理,就是在各种条件的存在不确定,仅仅知道其出现概率的情况下,怎样完成推理和决策任务。概率推理是与确定性推理相应的。朴素贝叶斯分类器是基于独立如果的,即如果样本中每一个特征与其他特征都不相关;例如,如果一个水果具有红、圆、直径大概4英寸等特征,该水果判定为苹果。虽然这些特征相互依赖或者有些特征由其他特征决定,但是朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上是独立的。朴素贝叶斯分类器依靠精确的自然概率模型,在有监督学习的样本集中能获得很好的分类效果。在很多实际应用中,朴素贝叶斯参数预计使用最大似然估计。

朴素贝叶斯分类器的一个优势在于仅仅需要依靠少量的训练数据预计出必要的参数(变量的均值与方差),因为假设变量之间相互独立,仅仅需要预计各个变量的方法,而不需要确定整个协方差矩阵。

相关概念

1、条件概率

由于朴素贝叶斯有“朴素”的前提假设,即特征两两相互独立,所以条件规律可以使用全概率公式写成如下形式:,简单来说,此公式表示在给定某个类别下,观察到出现现象x的概率,在特征向量中的每个特点的概率都通过最大似然估计来求得,也就是求某个特征在某个类别中的概率,.其中,属于类别的样本中,特征出现的次数。

2、先验概率

,其中代表属于类的样本数量,N代表所有样本的数量。

3、现象概率

现象概率独立于类别,是在所有样本中该特征值的概率,和类别无关。

分类预测

得到每个特征值在该类下的概率后,给定未分类实例的特征X,就可以该实例属于各类的后验概率,然后取各类后延概率的最大值即可。

优点:

  • 朴素贝叶斯发源于古典数学理论,有稳定的分类效率;
  • 对小规模数据表现良好,能处理多分类任务,适合增量训练,尤其是数据量超出内存时,可以一批批额去增量训练;
  • 对缺失数据不太敏感,算法也比较简单,常用于文本分类;

缺点:

  • 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率,但是实际上因为模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好,而在属性相关性较小时,朴素贝叶斯性能最为良好;
  • 需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以与很多种,因此在某些时候会由于假设的先验模型的原因导致预测的效果不佳;
  • 由于通过先验和数据来决定后验概率从而进行分类,所以分类决策存在一定的错误率,对输入数据的表达形式很敏感;

 

更多推荐

数据挖掘十大经典算法(九)

本文发布于:2024-03-10 15:39:47,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1728365.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:算法   十大经典   数据挖掘

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!