机器学习技术（3）

编程入门行业动态更新时间:2024-10-05 11:14:29

机器学习技术（3）

一、朴素贝叶斯算法

朴素贝叶斯(Native Bayes)算法是基于贝叶斯定理和特征条件独立假设的分类算法。

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。

贝叶斯定理其实就是一个非常简单的公式，如下所示：

那么，在应用于分类算法中，可以将上述的公式转换成下面的表达式,也就是说知道了某一个数据的特征，它属于某一类别的概率，首先得知道这个特征的概率，然后还需要知道在这一个类的概率和这一个类中的特征的概率。因此需要预先知道类有哪些，也就是说朴素贝叶斯是有监督的学习。

朴素贝叶斯分类（NBC）是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法，先通过已给定的训练集，以特征词之间独立作为前提假设，学习从输入到输出的联合概率分布，再基于学习到的模型，输入X求出使得后验概率最大的输出Y 。

设有样本数据集D={d1,d2,...,dn}，对应样本数据的特征属性集为X={x1,x2,...,xd}类变量为Y={y1,y2,...ym} ，即D可以分为ym类别。其中{x1,x2,...,xd} 相互独立且随机，则Y的先验概率P(Y) ，Y的后验概率P(Y|X) ，由朴素贝叶斯算法可得，后验概率可以由先验概率P(Y) ,证据P(X) ,类条件概率P(X|Y)计算出

一般而言，P（X）和P（Y）都是已知的，也就是说某一个特征的概率是已知的，某一个类别的概率也是已知的,那么就需要知道（P（X|Y）,也就是需要知道一定类别下所具有的某一特征的概率。由于朴素贝叶斯基于各特征之间相互独立，在给定类别为y的情况下，P（X|Y）可以进一步表示为下式：

由以上两式就可以计算出后验概率为：

由于P(X)的大小是固定不变的，因此在比较后验概率时，只比较上式的分子部分即可,因此可以得到一个样本数据属于类别yi的朴素贝叶斯计算：

二、两大问题解决方法

2.1 零概率问题：

测试样例的标签属性中，出现了模型训练过程中没有记录的值，或者某个分类没有记录的值，从而出现该标签属性值的出现概率 P(wi|Ci) = 0 的现象。因为 P(w|Ci) 等于各标签属性值 P(wi|Ci) 的乘积，当分类 Ci 中某一个标签属性值的概率为 0，最后的 P(w|Ci) 结果也为 0。很显然，这不能真实地代表该分类出现的概率

解决方法：拉普拉斯修正，又叫拉普拉斯平滑，这是为了解决零概率问题而引入的处理方法。其修正过程：