用贝叶斯估计法推出朴素贝叶斯法中的慨率估计公式

编程入门行业动态更新时间:2024-10-15 22:22:52

用贝叶斯估计法推出<a href=https://www.elefans.com/category/jswz/34/1745003.html style= 朴素贝叶斯法中的慨率估计公式"/>

用贝叶斯估计法推出朴素贝叶斯法中的慨率估计公式

解答思路:

贝叶斯估计的一般步骤（详见习题1.1第4步）；
证明公式4.11: 假设概率 P λ ( Y = c i ) P_\lambda\left(Y=c_i\right) Pλ(Y=ci) 服从狄利克雷（Dirichlet) 分布，根据贝叶斯公式，推导后验概率也服从Dirichlet分布，求参数期望；
证明公式4.10：证明同公式4.11。
解答步骤：
确定参数 θ \theta θ 的先验概率 p ( θ ) p(\theta) p(θ)
根据样本集 D = x 1 , x 2 , … , x n D=x_1, x_2, \ldots, x_n D=x1,x2,…,xn ，计算似然函数 P ( D ∣ θ ) : P ( D ∣ θ ) = ∏ i = 1 n P ( x n ∣ D ) P(D \mid \theta): P(D \mid \theta)=\prod_{i=1}^n P\left(x_n \mid D\right) P(D∣θ):P(D∣θ)=∏i=1nP(xn∣D)
利用贝叶斯公式，求 θ \theta θ 的后验概率: P ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) ∫ Θ P ( D ∣ θ ) P ( θ ) d θ P(\theta \mid D)=\frac{P(D \mid \theta) P(\theta)}{\int_{\Theta} P(D \mid \theta) P(\theta) d \theta} P(θ∣D)=∫ΘP(D∣θ)P(θ)dθP(D∣θ)P(θ)
计算后验概率分布参数 θ \theta θ 的期望，并求出贝叶斯估计值: θ ^ = ∫ Θ θ ⋅ P ( θ ∣ D ) d θ \hat{\theta}=\int_{\Theta} \theta \cdot P(\theta \mid D) d \theta θ^=∫Θθ⋅P(θ∣D)dθ
第2步：证明公式(4.11)
P λ ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) + λ N + K λ , k = 1 , 2 , … , K P_\lambda\left(Y=c_k\right)=\frac{\sum_{i=1}^N I\left(y_i=c_k\right)+\lambda}{N+K \lambda}, \quad k=1,2, \ldots, K Pλ(Y=ck)=N+Kλ∑i=1NI(yi=ck)+λ,k=1,2,…,K
证明思路：
条件假设: P λ ( Y = c k ) = u k P_\lambda\left(Y=c_k\right)=u_k Pλ(Y=ck)=uk ，且服从参数为 λ \lambda λ 的Dirichlet分布; 随机变量 Y Y Y 出现 y = c k y=c_k y=ck 的次数为 m k m_k mk ；
得到 u u u 的先验概率 P ( u ) P(u) P(u) ；
得到似然函数 P ( m ∣ u ) P(m \mid u) P(m∣u) ；
根据贝叶斯公式，计算后验概率 P ( u ∣ m ) P(u \mid m) P(u∣m)
计算 u u u 的期望 E ( u ) E(u) E(u)
证明步骤:
1.条件假设：根据朴素贝叶斯法的基本方法，训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\left\{\left(x_1, y_1\right),\left(x_2, y_2\right), \ldots,\left(x_N, y_N\right)\right\} T={(x1,y1),(x2,y2),…,(xN,yN)} ，假设:
(1) 随机变量 Y Y Y 出现 y = c k y=c_k y=ck 的次数为 m k m_k mk ，即 m k = ∑ i = 1 N I ( y i = c k ) m_k=\sum_{i=1}^N I\left(y_i=c_k\right) mk=∑i=1NI(yi=ck) ，可知 ∑ k = 1 K m k = N \sum_{k=1}^K m_k=N ∑k=1Kmk=N ( y y y 总共有 N N N 个）；
(2) P λ ( Y = c k ) = u k P_\lambda\left(Y=c_k\right)=u_k Pλ(Y=ck)=uk ，随机变量 u k u_k uk 服从参数为 λ \lambda λ 的Dirichlet分布。
得到先验概率
2.根据假设(2)和Dirichlet分布的定义，可得先验概率为
P ( u ) = P ( u 1 , u 2 , … , u K ) = C ( λ ) ∏ k = 1 K u k λ − 1 P(u)=P\left(u_1, u_2, \ldots, u_K\right)=C(\lambda) \prod_{k=1}^K u_k^{\lambda-1} P(u)=P(u1,u2,…,uK)=C(λ)k=1∏Kukλ−1
3 得到似然函数
记 m = ( m 1 , m 2 , … , m K ) T m=\left(m_1, m_2, \ldots, m_K\right)^T m=(m1,m2,…,mK)T ，可得似然函数为
P ( m ∣ u ) = u 1 m 1 ⋅ u 2 m 2 ⋯ u K m K = ∏ k = 1 K u k m k P(m \mid u)=u_1^{m_1} \cdot u_2^{m_2} \cdots u_K^{m_K}=\prod_{k=1}^K u_k^{m_k} P(m∣u)=u1m1⋅u2m2⋯uKmK=k=1∏Kukmk
4 得到后验概率分布
结合贝叶斯公式，求 u u u 的后验概率分布，可得
P ( u ∣ m ) = P ( m ∣ u ) P ( u ) P ( m ) P(u \mid m)=\frac{P(m \mid u) P(u)}{P(m)} P(u∣m)=P(m)P(m∣u)P(u)
根据假设(1)，可得
P ( u ∣ m , λ ) ∝ P ( m ∣ u ) P ( u ∣ λ ) ∝ ∏ k = 1 K u k λ + m k − 1 P(u \mid m, \lambda) \propto P(m \mid u) P(u \mid \lambda) \propto \prod_{k=1}^K u_k^{\lambda+m_k-1} P(u∣m,λ)∝P(m∣u)P(u∣λ)∝k=1∏Kukλ+mk−1
上式表明，后验概率分布 P ( u ∣ m , λ ) P(u \mid m, \lambda) P(u∣m,λ) 也服从Dirichlet分布
5 得到随机变量 u u u 的期望
根据后验概率分布 P ( u ∣ m , λ ) P(u \mid m, \lambda) P(u∣m,λ) 和假设(1)，求随机变量 u u u 的期望，可得
E ( u k ) = α k ∑ k = 1 K α k E\left(u_k\right)=\frac{\alpha_k}{\sum_{k=1}^K \alpha_k} E(uk)=∑k=1Kαkαk
其中 α k = λ + m k \alpha_k=\lambda+m_k αk=λ+mk ，则
E ( u k ) = α k ∑ k = 1 K α k = λ + m k ∑ k = 1 K ( λ + m k ) = λ + m k ∑ k = 1 K λ + ∑ k = 1 K m k ( ∵ ∑ k = 1 K m k = N ) = λ + m k K λ + N ( ∵ m k = ∑ i = 1 N I ( y i = c k ) ) = ∑ i = 1 N I ( y i = c k ) + λ N + K λ \begin{aligned} E\left(u_k\right) & =\frac{\alpha_k}{\sum_{k=1}^K \alpha_k} \\ & =\frac{\lambda+m_k}{\sum_{k=1}^K\left(\lambda+m_k\right)} \\ & =\frac{\lambda+m_k}{\sum_{k=1}^K \lambda+\sum_{k=1}^K m_k} \quad\left(\because \sum_{k=1}^K m_k=N\right) \\ & =\frac{\lambda+m_k}{K \lambda+N}\left(\because m_k=\sum_{i=1}^N I\left(y_i=c_k\right)\right) \\ & =\frac{\sum_{i=1}^N I\left(y_i=c_k\right)+\lambda}{N+K \lambda} \end{aligned} E(uk)=∑k=1Kαkαk=∑k=1K(λ+mk)λ+mk=∑k=1Kλ+∑k=1Kmkλ+mk(∵k=1∑Kmk=N)=Kλ+Nλ+mk(∵mk=i=1∑NI(yi=ck))=N+Kλ∑i=1NI(yi=ck)+λ
随机变量 u k u_k uk 取 u k u_k uk 的期望，可得 P λ ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) + λ N + K λ P_\lambda\left(Y=c_k\right)=\frac{\sum_{i=1}^N I\left(y_i=c_k\right)+\lambda}{N+K \lambda} Pλ(Y=ck)=N+Kλ∑i=1NI(yi=ck)+λ ，公式(4.11)得证

*×第3步：证明公式(4.10) ⋆ ⋆ { }^{\star \star} ⋆⋆ :
P λ ( X ( j ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k ) + S j λ P_\lambda\left(X^{(j)}=a_{j l} \mid Y=c_k\right)=\frac{\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right)+\lambda}{\sum_{i=1}^N I\left(y_i=c_k\right)+S_j \lambda} Pλ(X(j)=ajl∣Y=ck)=∑i=1NI(yi=ck)+Sjλ∑i=1NI(xi(j)=ajl,yi=ck)+λ
证明思路：

条件假设： P λ ( X ( j ) = a j l ∣ Y = c k ) = u l P_\lambda\left(X^{(j)}=a_{j l} \mid Y=c_k\right)=u_l Pλ(X(j)=ajl∣Y=ck)=ul ，其中 l = 1 , 2 , … , S j l=1,2, \ldots, S_j l=1,2,…,Sj ，且服从参数为 λ \lambda λ 的Dirichlet分布; 出现 x ( j ) = a j l , y = c k x^{(j)}=a_{j l}, y=c_k x(j)=ajl,y=ck 的次数为 m l m_l ml ；
得到 u u u 的先验概率 P ( u ) P(u) P(u) ；
得到似然函数 P ( m ∣ u ) P(m \mid u) P(m∣u) ；
根据贝叶斯公式，计算后验概率 P ( u ∣ m ) P(u \mid m) P(u∣m)
计算 u u u 的期望 E ( u ) E(u) E(u)
证明步骤:
条件假设
根据朴素贝叶斯法的基本方法，训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\left\{\left(x_1, y_1\right),\left(x_2, y_2\right), \ldots,\left(x_N, y_N\right)\right\} T={(x1,y1),(x2,y2),…,(xN,yN)} ，假设:
(1) 出现 x ( j ) = a j l , y = c k x^{(j)}=a_{j l}, y=c_k x(j)=ajl,y=ck 的次数为 m l m_l ml ，即 m l = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) m_l=\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right) ml=∑i=1NI(xi(j)=ajl,yi=ck) ，可知 ∑ l = 1 S j m l = ∑ i = 1 N I ( y i = c k ) \sum_{l=1}^{S_j} m_l=\sum_{i=1}^N I\left(y_i=c_k\right) ∑l=1Sjml=∑i=1NI(yi=ck) (总共有 ∑ i = 1 N I ( y i = c k ) \sum_{i=1}^N I\left(y_i=c_k\right) ∑i=1NI(yi=ck) 个)；
(2) P λ ( X ( j ) = a j l ∣ Y = c k ) = u l P_\lambda\left(X^{(j)}=a_{j l} \mid Y=c_k\right)=u_l Pλ(X(j)=ajl∣Y=ck)=ul ，随机变量 u l u_l ul 服从参数为 λ \lambda λ 的Dirichlet分布。
得到先验概率
根据假设(2)和Dirichlet分布的定义，可得先验概率为
P ( u ) = P ( u 1 , u 2 , … , u S j ) = C ( λ ) ∏ l = 1 S j u l λ − 1 P(u)=P\left(u_1, u_2, \ldots, u_{S_j}\right)=C(\lambda) \prod_{l=1}^{S_j} u_l^{\lambda-1} P(u)=P(u1,u2,…,uSj)=C(λ)l=1∏Sjulλ−1
得到似然函数
记 m = ( m 1 , m 2 , … , m S j ) T m=\left(m_1, m_2, \ldots, m_{S_j}\right)^T m=(m1,m2,…,mSj)T ，可得似然函数为
P ( m ∣ u ) = u 1 m 1 ⋅ u 2 m 2 ⋯ u S j m S j = ∏ l = 1 S j u l m l P(m \mid u)=u_1^{m_1} \cdot u_2^{m_2} \cdots u_{S_j}^{m_{S_j}}=\prod_{l=1}^{S_j} u_l^{m l} P(m∣u)=u1m1⋅u2m2⋯uSjmSj=l=1∏Sjulml
得到后验概率分布
结合贝叶斯公式，求 u u u 的后验概率分布，可得
P ( u ∣ m ) = P ( m ∣ u ) P ( u ) P ( m ) P(u \mid m)=\frac{P(m \mid u) P(u)}{P(m)} P(u∣m)=P(m)P(m∣u)P(u)
根据假设(1)，可得
P ( u ∣ m , λ ) ∝ P ( m ∣ u ) P ( u ∣ λ ) ∝ ∏ l = 1 S j u l λ + m l − 1 P(u \mid m, \lambda) \propto P(m \mid u) P(u \mid \lambda) \propto \prod_{l=1}^{S_j} u_l^{\lambda+m_l-1} P(u∣m,λ)∝P(m∣u)P(u∣λ)∝l=1∏Sjulλ+ml−1
上式表明，后验概率分布 P ( u ∣ m , λ ) P(u \mid m, \lambda) P(u∣m,λ) 也服从Dirichlet分布
得到随机变量 u u u 的期望
根据后验概率分布 P ( u ∣ m , λ ) P(u \mid m, \lambda) P(u∣m,λ) 和假设(1)，求随机变量 u u u 的期望，可得
E ( u k ) = α l ∑ l = 1 S j α l E\left(u_k\right)=\frac{\alpha_l}{\sum_{l=1}^{S_j} \alpha_l} E(uk)=∑l=1Sjαlαl
其中 α l = λ + m l \alpha_l=\lambda+m_l αl=λ+ml ，则
E ( u l ) = α l ∑ l = 1 S j α l = λ + m l ∑ l = 1 S j ( λ + m l ) = λ + m l ∑ l = 1 S j λ + ∑ l = 1 S j m l ( ∵ ∑ l = 1 S j m l = ∑ i = 1 N I ( y i = c k ) ) = λ + m l S j λ + ∑ i = 1 N I ( y i = c k ) ( ∵ m l = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k ) + S j λ \begin{aligned} E\left(u_l\right) & =\frac{\alpha_l}{\sum_{l=1}^{S_j} \alpha_l} \\ & =\frac{\lambda+m_l}{\sum_{l=1}^{S_j}\left(\lambda+m_l\right)} \\ = & \frac{\lambda+m_l}{\sum_{l=1}^{S_j} \lambda+\sum_{l=1}^{S_j} m_l} \quad\left(\because \sum_{l=1}^{S_j} m_l=\sum_{i=1}^N I\left(y_i=c_k\right)\right) \\ = & \frac{\lambda+m_l}{S_j \lambda+\sum_{i=1}^N I\left(y_i=c_k\right)} \quad\left(\because m_l=\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right)\right) \\ = & \frac{\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right)+\lambda}{\sum_{i=1}^N I\left(y_i=c_k\right)+S_j \lambda} \end{aligned} E(ul)====∑l=1Sjαlαl=∑l=1Sj(λ+ml)λ+ml∑l=1Sjλ+∑l=1Sjmlλ+ml ∵l=1∑Sjml=i=1∑NI(yi=ck) Sjλ+∑i=1NI(yi=ck)λ+ml(∵ml=i=1∑NI(xi(j)=ajl,yi=ck))∑i=1NI(yi=ck)+Sjλ∑i=1NI(xi(j)=ajl,yi=ck)+λ
随机变量 u k u_k uk 取 u k u_k uk 的期望，可得 P λ ( X ( j ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k ) + S j λ P_\lambda\left(X^{(j)}=a_{j l} \mid Y=c_k\right)=\frac{\sum_{i=1}^N I\left(x_i^{(j)}=a_{j l}, y_i=c_k\right)+\lambda}{\sum_{i=1}^N I\left(y_i=c_k\right)+S_j \lambda} Pλ(X(j)=ajl∣Y=ck)=∑i=1NI(yi=ck)+Sjλ∑i=1NI(xi(j)=ajl,yi=ck)+λ ，公式(4.10)得证。