用贝叶斯估计法推出朴素贝叶斯法中的慨率估计公式

编程入门 行业动态 更新时间:2024-10-15 22:22:52

用贝叶斯估计法推出<a href=https://www.elefans.com/category/jswz/34/1745003.html style=朴素贝叶斯法中的慨率估计公式"/>

用贝叶斯估计法推出朴素贝叶斯法中的慨率估计公式

解答思路:

  1. 贝叶斯估计的一般步骤(详见习题1.1第4步);
  2. 证明公式4.11: 假设概率 P λ ( Y = c i ) P_\lambda\left(Y=c_i\right) Pλ​(Y=ci​) 服从狄利克雷(Dirichlet) 分布,根据贝叶斯公式,推导后验概率也服从Dirichlet分布,求参数期望;
  3. 证明公式4.10:证明同公式4.11。
    解答步骤:
    确定参数 θ \theta θ 的先验概率 p ( θ ) p(\theta) p(θ)
    根据样本集 D = x 1 , x 2 , … , x n D=x_1, x_2, \ldots, x_n D=x1​,x2​,…,xn​ ,计算似然函数 P ( D ∣ θ ) : P ( D ∣ θ ) = ∏ i = 1 n P ( x n ∣ D ) P(D \mid \theta): P(D \mid \theta)=\prod_{i=1}^n P\left(x_n \mid D\right) P(D∣θ):P(D∣θ)=∏i=1n​P(xn​∣D)
    利用贝叶斯公式,求 θ \theta θ 的后验概率: P ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) ∫ Θ P ( D ∣ θ ) P ( θ ) d θ P(\theta \mid D)=\frac{P(D \mid \theta) P(\theta)}{\int_{\Theta} P(D \mid \theta) P(\theta) d \theta} P(θ∣D)=∫Θ​P(D∣θ)P(θ)dθP(D∣θ)P(θ)​
    计算后验概率分布参数 θ \theta θ 的期望,并求出贝叶斯估计值: θ ^ = ∫ Θ θ ⋅ P ( θ ∣ D ) d θ \hat{\theta}=\int_{\Theta} \theta \cdot P(\theta \mid D) d \theta θ^=∫Θ​θ⋅P(θ∣D)dθ
    第2步:证明公式(4.11)
    P λ ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) + λ N + K λ , k = 1 , 2 , … , K P_\lambda\left(Y=c_k\right)=\frac{\sum_{i=1}^N I\left(y_i=c_k\right)+\lambda}{N+K \lambda}, \quad k=1,2, \ldots, K Pλ​(Y=ck​)=N+Kλ∑i=1N​I(yi​=ck​)+λ​,k=1,2,…,K
    证明思路:
    条件假设: P λ ( Y = c k ) = u k P_\lambda\left(Y=c_k\right)=u_k Pλ​(Y=ck​)=uk​ ,且服从参数为 λ \lambda λ 的Dirichlet分布; 随机变量 Y Y Y 出现 y = c k y=c_k y=ck​ 的次数为 m k m_k mk​ ;
    得到 u u u 的先验概率 P ( u ) P(u) P(u) ;
    得到似然函数 P ( m ∣ u ) P(m \mid u) P(m∣u) ;
    根据贝叶斯公式,计算后验概率 P ( u ∣ m ) P(u \mid m) P(u∣m)
    计算 u u u 的期望 E ( u ) E(u) E(u)
    证明步骤:
    1.条件假设:根据朴素贝叶斯法的基本方法,训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\left\{\left(x_1, y_1\right),\left(x_2, y_2\right), \ldots,\left(x_N, y_N\right)\right\} T={(x1​,y1​),(x2​,y2​),…,(xN​,yN​)} ,假设:
    (1) 随机变量 Y Y Y 出现 y = c k y=c_k y=ck​ 的次数为 m k m_k mk​ ,即 m k = ∑ i = 1 N I ( y i = c k ) m_k=\sum_{i=1}^N I\left(y_i=c_k\right) mk​=∑i=1N​I(yi​=ck​) ,可知 ∑ k = 1 K m k = N \sum_{k=1}^K m_k=N ∑k=1K​mk​=N ( y y y 总共有 N N N 个 );
    (2) P λ ( Y = c k ) = u k P_\lambda\left(Y=c_k\right)=u_k Pλ​(Y=ck​)=uk​ ,随机变量 u k u_k uk​ 服从参数为 λ \lambda λ 的Dirichlet分布。
    得到先验概率
    2.根据假设(2)和Dirichlet分布的定义,可得先验概率为
    P ( u ) = P ( u 1 , u 2 , … , u K ) = C ( λ ) ∏ k = 1 K u k λ − 1 P(u)=P\left(u_1, u_2, \ldots, u_K\right)=C(\lambda) \prod_{k=1}^K u_k^{\lambda-1} P(u)=P(u1​,u2​,…,uK​)=C(λ)k=1∏K​ukλ−1​
    3 得到似然函数
    记 m = ( m 1 , m 2 , … , m K ) T m=\left(m_1, m_2, \ldots, m_K\right)^T m=(m1​,m2​,…,mK​)T ,可得似然函数为
    P ( m ∣ u ) = u 1 m 1 ⋅ u 2 m 2 ⋯ u K m K = ∏ k = 1 K u k m k P(m \mid u)=u_1^{m_1} \cdot u_2^{m_2} \cdots u_K^{m_K}=\prod_{k=1}^K u_k^{m_k} P(m∣u)=u1m1​​⋅u2m2​​⋯uKmK​​=k=1∏K​ukmk​​
    4 得到后验概率分布
    结合贝叶斯公式,求 u u u 的后验概率分布,可得
    P ( u ∣ m ) = P ( m ∣ u ) P ( u ) P ( m ) P(u \mid m)=\frac{P(m \mid u) P(u)}{P(m)} P(u∣m)=P(m)P(m∣u)P(u)​
    根据假设(1),可得
    P ( u ∣ m , λ ) ∝ P ( m ∣ u ) P ( u ∣ λ ) ∝ ∏ k = 1 K u k λ + m k − 1 P(u \mid m, \lambda) \propto P(m \mid u) P(u \mid \lambda) \propto \prod_{k=1}^K u_k^{\lambda+m_k-1} P(u∣m,λ)∝P(m∣u)P(u∣λ)∝k=1∏K​ukλ+mk​−1​
    上式表明,后验概率分布 P ( u ∣ m , λ ) P(u \mid m, \lambda) P(u∣m,λ) 也服从Dirichlet分布
    5 得到随机变量 u u u 的期望
    根据后验概率分布 P ( u ∣ m , λ ) P(u \mid m, \lambda) P(u∣m,λ) 和假设(1),求随机变量 u u u 的期望,可得
    E ( u k ) = α k ∑ k = 1 K α k E\left(u_k\right)=\frac{\alpha_k}{\sum_{k=1}^K \alpha_k} E(uk​)=∑k=1K​αk​αk​​
    其中 α k = λ + m k \alpha_k=\lambda+m_k αk​=λ+mk​ ,则
    E ( u k ) = α k ∑ k = 1 K α k = λ + m k ∑ k = 1 K ( λ + m k ) = λ + m k ∑ k = 1 K λ + ∑ k = 1 K m k ( ∵ ∑ k = 1 K m k = N ) = λ + m k K λ + N ( ∵ m k = ∑ i = 1 N I ( y i = c k ) ) = ∑ i = 1 N I ( y i = c k ) + λ N + K λ \begin{aligned} E\left(u_k\right) & =\frac{\alpha_k}{\sum_{k=1}^K \alpha_k} \\ & =\frac{\lambda+m_k}{\sum_{k=1}^K\left(\lambda+m_k\right)} \\ & =\frac{\lambda+m_k}{\sum_{k=1}^K \lambda+\sum_{k=1}^K m_k} \quad\left(\because \sum_{k=1}^K m_k=N\right) \\ & =\frac{\lambda+m_k}{K \lambda+N}\left(\because m_k=\sum_{i=1}^N I\left(y_i=c_k\right)\right) \\ & =\frac{\sum_{i=1}^N I\left(y_i=c_k\right)+\lambda}{N+K \lambda} \end{aligned} E(uk​)​=∑k=1K​αk​αk​​=∑k=1K​(λ+mk​)λ+mk​​=∑k=1K​λ+∑k=1K​mk​λ+mk​​(∵k=1∑K​mk​=N)=Kλ+Nλ+mk​​(∵mk​=i=1∑N​I(yi​=ck​))=N+Kλ∑i=1N​I(yi​=ck​)+λ​​
    随机变量 u k u_k uk​ 取 u k u_k uk​ 的期望,可得 P λ ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) + λ N + K λ P_\lambda\left(Y=c_k\right)=\frac{\sum_{i=1}^N I\left(y_i=c_k\right)+\lambda}{N+K \lambda} Pλ​(Y=ck​)=N+Kλ∑i=1N​I(yi​=ck​)+λ​ ,公式(4.11)得证

*×第3步:证明公式(4.10) ⋆ ⋆ { }^{\star \star} ⋆⋆ :
P λ ( X ( j ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k ) + S j λ P_\lambda\left(X^{(j)}=a_{j l} \mid Y=c_k\right)=\frac{\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right)+\lambda}{\sum_{i=1}^N I\left(y_i=c_k\right)+S_j \lambda} Pλ​(X(j)=ajl​∣Y=ck​)=∑i=1N​I(yi​=ck​)+Sj​λ∑i=1N​I(xi(j)​=ajl​,yi​=ck​)+λ​
证明思路:

  1. 条件假设: P λ ( X ( j ) = a j l ∣ Y = c k ) = u l P_\lambda\left(X^{(j)}=a_{j l} \mid Y=c_k\right)=u_l Pλ​(X(j)=ajl​∣Y=ck​)=ul​ ,其中 l = 1 , 2 , … , S j l=1,2, \ldots, S_j l=1,2,…,Sj​ ,且服从参数为 λ \lambda λ 的Dirichlet分布; 出现 x ( j ) = a j l , y = c k x^{(j)}=a_{j l}, y=c_k x(j)=ajl​,y=ck​ 的次数为 m l m_l ml​ ;
  2. 得到 u u u 的先验概率 P ( u ) P(u) P(u) ;
  3. 得到似然函数 P ( m ∣ u ) P(m \mid u) P(m∣u) ;
  4. 根据贝叶斯公式,计算后验概率 P ( u ∣ m ) P(u \mid m) P(u∣m)
  5. 计算 u u u 的期望 E ( u ) E(u) E(u)
    证明步骤:
  6. 条件假设
    根据朴素贝叶斯法的基本方法,训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\left\{\left(x_1, y_1\right),\left(x_2, y_2\right), \ldots,\left(x_N, y_N\right)\right\} T={(x1​,y1​),(x2​,y2​),…,(xN​,yN​)} ,假设:
    (1) 出现 x ( j ) = a j l , y = c k x^{(j)}=a_{j l}, y=c_k x(j)=ajl​,y=ck​ 的次数为 m l m_l ml​ ,即 m l = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) m_l=\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right) ml​=∑i=1N​I(xi(j)​=ajl​,yi​=ck​) ,可知 ∑ l = 1 S j m l = ∑ i = 1 N I ( y i = c k ) \sum_{l=1}^{S_j} m_l=\sum_{i=1}^N I\left(y_i=c_k\right) ∑l=1Sj​​ml​=∑i=1N​I(yi​=ck​) (总共有 ∑ i = 1 N I ( y i = c k ) \sum_{i=1}^N I\left(y_i=c_k\right) ∑i=1N​I(yi​=ck​) 个);
    (2) P λ ( X ( j ) = a j l ∣ Y = c k ) = u l P_\lambda\left(X^{(j)}=a_{j l} \mid Y=c_k\right)=u_l Pλ​(X(j)=ajl​∣Y=ck​)=ul​ ,随机变量 u l u_l ul​ 服从参数为 λ \lambda λ 的Dirichlet分布。
  7. 得到先验概率
    根据假设(2)和Dirichlet分布的定义,可得先验概率为
    P ( u ) = P ( u 1 , u 2 , … , u S j ) = C ( λ ) ∏ l = 1 S j u l λ − 1 P(u)=P\left(u_1, u_2, \ldots, u_{S_j}\right)=C(\lambda) \prod_{l=1}^{S_j} u_l^{\lambda-1} P(u)=P(u1​,u2​,…,uSj​​)=C(λ)l=1∏Sj​​ulλ−1​
  8. 得到似然函数
    记 m = ( m 1 , m 2 , … , m S j ) T m=\left(m_1, m_2, \ldots, m_{S_j}\right)^T m=(m1​,m2​,…,mSj​​)T ,可得似然函数为
    P ( m ∣ u ) = u 1 m 1 ⋅ u 2 m 2 ⋯ u S j m S j = ∏ l = 1 S j u l m l P(m \mid u)=u_1^{m_1} \cdot u_2^{m_2} \cdots u_{S_j}^{m_{S_j}}=\prod_{l=1}^{S_j} u_l^{m l} P(m∣u)=u1m1​​⋅u2m2​​⋯uSj​mSj​​​=l=1∏Sj​​ulml​
  9. 得到后验概率分布
    结合贝叶斯公式,求 u u u 的后验概率分布,可得
    P ( u ∣ m ) = P ( m ∣ u ) P ( u ) P ( m ) P(u \mid m)=\frac{P(m \mid u) P(u)}{P(m)} P(u∣m)=P(m)P(m∣u)P(u)​
    根据假设(1),可得
    P ( u ∣ m , λ ) ∝ P ( m ∣ u ) P ( u ∣ λ ) ∝ ∏ l = 1 S j u l λ + m l − 1 P(u \mid m, \lambda) \propto P(m \mid u) P(u \mid \lambda) \propto \prod_{l=1}^{S_j} u_l^{\lambda+m_l-1} P(u∣m,λ)∝P(m∣u)P(u∣λ)∝l=1∏Sj​​ulλ+ml​−1​
    上式表明,后验概率分布 P ( u ∣ m , λ ) P(u \mid m, \lambda) P(u∣m,λ) 也服从Dirichlet分布
  10. 得到随机变量 u u u 的期望
    根据后验概率分布 P ( u ∣ m , λ ) P(u \mid m, \lambda) P(u∣m,λ) 和假设(1),求随机变量 u u u 的期望,可得
    E ( u k ) = α l ∑ l = 1 S j α l E\left(u_k\right)=\frac{\alpha_l}{\sum_{l=1}^{S_j} \alpha_l} E(uk​)=∑l=1Sj​​αl​αl​​
    其中 α l = λ + m l \alpha_l=\lambda+m_l αl​=λ+ml​ ,则
    E ( u l ) = α l ∑ l = 1 S j α l = λ + m l ∑ l = 1 S j ( λ + m l ) = λ + m l ∑ l = 1 S j λ + ∑ l = 1 S j m l ( ∵ ∑ l = 1 S j m l = ∑ i = 1 N I ( y i = c k ) ) = λ + m l S j λ + ∑ i = 1 N I ( y i = c k ) ( ∵ m l = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k ) + S j λ \begin{aligned} E\left(u_l\right) & =\frac{\alpha_l}{\sum_{l=1}^{S_j} \alpha_l} \\ & =\frac{\lambda+m_l}{\sum_{l=1}^{S_j}\left(\lambda+m_l\right)} \\ = & \frac{\lambda+m_l}{\sum_{l=1}^{S_j} \lambda+\sum_{l=1}^{S_j} m_l} \quad\left(\because \sum_{l=1}^{S_j} m_l=\sum_{i=1}^N I\left(y_i=c_k\right)\right) \\ = & \frac{\lambda+m_l}{S_j \lambda+\sum_{i=1}^N I\left(y_i=c_k\right)} \quad\left(\because m_l=\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right)\right) \\ = & \frac{\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right)+\lambda}{\sum_{i=1}^N I\left(y_i=c_k\right)+S_j \lambda} \end{aligned} E(ul​)===​=∑l=1Sj​​αl​αl​​=∑l=1Sj​​(λ+ml​)λ+ml​​∑l=1Sj​​λ+∑l=1Sj​​ml​λ+ml​​ ​∵l=1∑Sj​​ml​=i=1∑N​I(yi​=ck​) ​Sj​λ+∑i=1N​I(yi​=ck​)λ+ml​​(∵ml​=i=1∑N​I(xi(j)​=ajl​,yi​=ck​))∑i=1N​I(yi​=ck​)+Sj​λ∑i=1N​I(xi(j)​=ajl​,yi​=ck​)+λ​​
    随机变量 u k u_k uk​ 取 u k u_k uk​ 的期望,可得 P λ ( X ( j ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k ) + S j λ P_\lambda\left(X^{(j)}=a_{j l} \mid Y=c_k\right)=\frac{\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right)+\lambda}{\sum_{i=1}^N I\left(y_i=c_k\right)+S_j \lambda} Pλ​(X(j)=ajl​∣Y=ck​)=∑i=1N​I(yi​=ck​)+Sj​λ∑i=1N​I(xi(j)​=ajl​,yi​=ck​)+λ​ ,公式(4.10)得证。

更多推荐

用贝叶斯估计法推出朴素贝叶斯法中的慨率估计公式

本文发布于:2024-03-23 22:45:11,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1743724.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:朴素   公式   用贝叶斯   贝叶斯法中

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!