机器学习笔记之狄利克雷过程(五)——基于狄利克雷过程的预测任务

编程入门 行业动态 更新时间:2024-10-26 18:19:33

机器学习笔记之狄利<a href=https://www.elefans.com/category/jswz/34/1757709.html style=克雷过程(五)——基于狄利克雷过程的预测任务"/>

机器学习笔记之狄利克雷过程(五)——基于狄利克雷过程的预测任务

机器学习笔记之狄利克雷过程——基于狄利克雷过程的预测任务

  • 引言
    • 回顾:从概率图角度观察狄利克雷过程
      • 关于随机测度 G \mathcal G G的后验概率分布
      • 从指数族分布角度观察后验分布的性质
      • 关于 θ d ( d = 1 , 2 , ⋯ , D ) \theta_d(d=1,2,\cdots,\mathcal D) θd​(d=1,2,⋯,D)的补充
    • 将后验分布回溯至狄利克雷过程
    • 回顾:贝叶斯派关于预测任务的推导思路
      • 基于狄利克雷过程的预测过程

引言

上一节从概率图结构的角度介绍了狄利克雷过程,本节将介绍狄利克雷过程的预测任务。

回顾:从概率图角度观察狄利克雷过程

从概率图的角度/样本 X \mathcal X X的生成过程观察,从狄利克雷过程 DP [ α , H ( θ ) ] \text{DP}[\alpha,\mathcal H(\theta)] DP[α,H(θ)]中采样得到一个离散的随机测度 G \mathcal G G:
G ∼ DP [ α , H ( θ ) ] \mathcal G \sim \text{DP}[\alpha,\mathcal H(\theta)] G∼DP[α,H(θ)]
其中 α \alpha α表示一个标量参数,通过该参数控制随机测度 G \mathcal G G的离散程度; H ( θ ) \mathcal H(\theta) H(θ)表示基本测度。在得到离散分布 G \mathcal G G之后,可通过对 G \mathcal G G进行采样,得到一系列的隐变量样本 θ ( i ) ( i = 1 , 2 , ⋯ , N ) \theta^{(i)}(i=1,2,\cdots,N) θ(i)(i=1,2,⋯,N):
隐变量样本 θ ( i ) \theta^{(i)} θ(i)之间独立同分布。
θ ( 1 ) , θ ( 2 ) , ⋯ , θ ( N ) ∼ i.i.d G \theta^{(1)},\theta^{(2)},\cdots,\theta^{(N)} \overset{\text{i.i.d}}{\sim} \mathcal G θ(1),θ(2),⋯,θ(N)∼i.i.dG
最终,通过隐变量样本 θ ( i ) \theta^{(i)} θ(i)与真实样本 x ( i ) ( i = 1 , 2 , ⋯ , N ) x^{(i)}(i=1,2,\cdots,N) x(i)(i=1,2,⋯,N)之间的关联关系,生成真实的样本集合 X \mathcal X X:
这里 F \mathcal F F表示 X = { x ( i ) } i = 1 N \mathcal X=\{x^{(i)}\}_{i=1}^N X={x(i)}i=1N​ θ = { θ ( i ) } i = 1 N \theta = \{\theta^{(i)}\}_{i=1}^N θ={θ(i)}i=1N​之间关联关系的分布。
{ x ( i ) ∼ F ( θ ( i ) ) i = 1 , 2 , ⋯ , N X = { x ( 1 ) , x ( 2 ) , ⋯ , x ( N ) } \begin{cases} x^{(i)} \sim \mathcal F(\theta^{(i)}) \quad i=1,2,\cdots,N \\ \mathcal X = \{x^{(1)},x^{(2)},\cdots,x^{(N)}\} \end{cases} {x(i)∼F(θ(i))i=1,2,⋯,NX={x(1),x(2),⋯,x(N)}​
至此,关于狄利克雷过程生成样本集合 X \mathcal X X的概率图结构可表示为如下形式:

关于随机测度 G \mathcal G G的后验概率分布

根据狄利克雷过程的核心性质,将分布 G \mathcal G G在特征空间中划分成不同区间的测度结果 G ( a d ) ( d = 1 , 2 , ⋯ , D ) \mathcal G(a_d)(d=1,2,\cdots,\mathcal D) G(ad​)(d=1,2,⋯,D)组成的分布服从狄利克雷分布
{ Original Dist :  G = { g 1 , g 2 , ⋯ , g K } ∑ k = 1 K g k = 1 Divide Operation :  { G ( a d ) = ∑ g k ∈ a d g k d ∈ { 1 , 2 , ⋯ , D } ∑ d = 1 D G ( a d ) = 1 G ∼ DP [ α , H ( θ ) ] ⇔ { G ( a 1 ) , ⋯ , G ( a D ) } ∼ Dir [ α H ( a 1 ) , ⋯ , α H ( a D ) ] \begin{cases} \text{Original Dist : } \mathcal G = \{g_1,g_2,\cdots,g_{\mathcal K}\} \quad \sum_{k=1}^{\mathcal K} g_k = 1 \\ \text{Divide Operation : } \begin{cases} \mathcal G(a_d) = \sum_{g_k \in a_d} g_k \quad d \in \{1,2,\cdots,\mathcal D\} \\ \sum_{d=1}^{\mathcal D} \mathcal G(a_d) = 1 \end{cases} \end{cases} \\ \mathcal G \sim \text{DP}[\alpha,\mathcal H(\theta)] \Leftrightarrow \{\mathcal G(a_1),\cdots,\mathcal G(a_{\mathcal D})\} \sim \text{Dir}[\alpha\mathcal H(a_1),\cdots,\alpha \mathcal H(a_{\mathcal D})] ⎩ ⎧​Original Dist : G={g1​,g2​,⋯,gK​}∑k=1K​gk​=1Divide Operation : {G(ad​)=∑gk​∈ad​​gk​d∈{1,2,⋯,D}∑d=1D​G(ad​)=1​​G∼DP[α,H(θ)]⇔{G(a1​),⋯,G(aD​)}∼Dir[αH(a1​),⋯,αH(aD​)]
进而将 G ∼ DP [ α , H ( θ ) ] \mathcal G \sim \text{DP}[\alpha,\mathcal H(\theta)] G∼DP[α,H(θ)]转化为直接从狄利克雷分布 中进行采样。那么关于分布 G \mathcal G G的先验概率分布 P ( G ) \mathcal P(\mathcal G) P(G)表示如下:
狄利克雷分布的概率密度函数。
P ( G ) = P [ G ( a 1 ) , G ( a 2 ) , ⋯ , G ( a D ) ] = Γ [ ∑ d = 1 D α H ( a d ) ] ∏ d = 1 D Γ [ α H ( a d ) ] ∏ d = 1 D G ( a d ) α H ( a d ) − 1 \begin{aligned} \mathcal P(\mathcal G) & = \mathcal P[\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D})] \\ & = \frac{\Gamma \left[\sum_{d=1}^{\mathcal D} \alpha \mathcal H(a_d)\right]}{\prod_{d=1}^{\mathcal D} \Gamma [\alpha \mathcal H(a_d)]} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) - 1} \end{aligned} P(G)​=P[G(a1​),G(a2​),⋯,G(aD​)]=∏d=1D​Γ[αH(ad​)]Γ[∑d=1D​αH(ad​)]​d=1∏D​G(ad​)αH(ad​)−1​
并从每一个划分区间中得到一个隐变量 θ d ( d = 1 , 2 , ⋯ , D ) \theta_d(d=1,2,\cdots,\mathcal D) θd​(d=1,2,⋯,D)。假设离散分布 G \mathcal G G是一个多项式分布,关于似然 P ( θ ∣ G ) \mathcal P(\theta \mid \mathcal G) P(θ∣G)的概率密度函数表示如下:
P ( θ 1 , ⋯ , θ D ∣ G ) = ( ∑ d = 1 D θ d ) ! θ 1 ! ⋯ θ D ! ∏ d = 1 D G ( a d ) θ d \mathcal P(\theta_1,\cdots,\theta_{\mathcal D} \mid \mathcal G) = \frac{\left(\sum_{d=1}^{\mathcal D} \theta_d \right)!}{\theta_1 ! \cdots\theta_{\mathcal D} !} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\theta_d} P(θ1​,⋯,θD​∣G)=θ1​!⋯θD​!(∑d=1D​θd​)!​d=1∏D​G(ad​)θd​
关于后验概率分布 P ( G ∣ θ 1 , ⋯ , θ D ) \mathcal P(\mathcal G \mid \theta_1,\cdots,\theta_{\mathcal D}) P(G∣θ1​,⋯,θD​)通过贝叶斯定理表示为如下形式:
P ( G ∣ θ 1 , ⋯ , θ D ) = P ( G ) ⋅ P ( θ 1 , ⋯ , θ D ∣ G ) P ( θ 1 , ⋯ , θ D ) ∝ P ( G ) ⋅ P ( θ 1 , ⋯ , θ D ∣ G ) \begin{aligned} \mathcal P(\mathcal G \mid \theta_1,\cdots,\theta_{\mathcal D}) & = \frac{\mathcal P(\mathcal G) \cdot \mathcal P(\theta_1,\cdots,\theta_{\mathcal D} \mid \mathcal G)}{\mathcal P(\theta_1,\cdots,\theta_{\mathcal D})} \\ & \propto \mathcal P(\mathcal G) \cdot \mathcal P(\theta_1,\cdots,\theta_{\mathcal D} \mid \mathcal G) \end{aligned} P(G∣θ1​,⋯,θD​)​=P(θ1​,⋯,θD​)P(G)⋅P(θ1​,⋯,θD​∣G)​∝P(G)⋅P(θ1​,⋯,θD​∣G)​
将上述的先验分布 P ( G ) \mathcal P(\mathcal G) P(G)、似然分布 P ( θ ∣ G ) \mathcal P(\theta \mid \mathcal G) P(θ∣G)代入,可得到如下结果:
P ( G ( a 1 ) , G ( a 2 ) , ⋯ , G ( a D ) ∣ θ 1 , ⋯ , θ D ) ∝ ( Γ [ ∑ d = 1 D α H ( a d ) ] ∏ d = 1 D Γ [ α H ( a d ) ] ∏ d = 1 D G ( a d ) α H ( a d ) − 1 ) ⋅ ( ( ∑ d = 1 D θ d ) ! θ 1 ! ⋯ θ D ! ∏ d = 1 D G ( a d ) θ d ) = ( Γ [ ∑ d = 1 D α H ( a d ) ] ∏ d = 1 D Γ [ α H ( a d ) ] ⋅ ( ∑ d = 1 D θ d ) ! θ 1 ! ⋯ θ D ! ) ⏟ 不含 G ( a d ) , 视作常数 ∏ d = 1 D G ( a d ) α H ( a d ) + θ d − 1 ∝ ∏ d = 1 D G ( a d ) α H ( a d ) + θ d − 1 \begin{aligned} & \quad \mathcal P(\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D}) \mid \theta_1,\cdots,\theta_{\mathcal D}) \\ & \propto \left(\frac{\Gamma \left[\sum_{d=1}^{\mathcal D} \alpha \mathcal H(a_d)\right]}{\prod_{d=1}^{\mathcal D}\Gamma \left[\alpha \mathcal H(a_d)\right]} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) - 1}\right) \cdot \left(\frac{\left(\sum_{d=1}^{\mathcal D} \theta_d\right)!}{\theta_1 ! \cdots \theta_{\mathcal D}!} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\theta_d}\right) \\ & = \underbrace{\left(\frac{\Gamma \left[\sum_{d=1}^{\mathcal D} \alpha \mathcal H(a_d)\right]}{\prod_{d=1}^{\mathcal D}\Gamma \left[\alpha \mathcal H(a_d)\right]} \cdot \frac{\left(\sum_{d=1}^{\mathcal D} \theta_d\right)!}{\theta_1 ! \cdots \theta_{\mathcal D}!}\right)}_{不含\mathcal G(a_d),视作常数} \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) + \theta_d - 1}\\ & \propto \prod_{d=1}^{\mathcal D} \mathcal G(a_d)^{\alpha \mathcal H(a_d) + \theta_d - 1} \end{aligned} ​P(G(a1​),G(a2​),⋯,G(aD​)∣θ1​,⋯,θD​)∝ ​∏d=1D​Γ[αH(ad​)]Γ[∑d=1D​αH(ad​)]​d=1∏D​G(ad​)αH(ad​)−1 ​⋅ ​θ1​!⋯θD​!(∑d=1D​θd​)!​d=1∏D​G(ad​)θd​ ​=不含G(ad​),视作常数 ​∏d=1D​Γ[αH(ad​)]Γ[∑d=1D​αH(ad​)]​⋅θ1​!⋯θD​!(∑d=1D​θd​)!​ ​​​d=1∏D​G(ad​)αH(ad​)+θd​−1∝d=1∏D​G(ad​)αH(ad​)+θd​−1​
至此,可知后验概率结果依然服从狄利克雷分布
P [ G ( a 1 ) , G ( a 2 ) , ⋯ , G ( a D ) ∣ θ 1 , ⋯ , θ D ] = Dir [ α H ( a 1 ) + θ 1 , ⋯ , α H ( a D ) + θ D ] \quad \mathcal P[\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D}) \mid \theta_1,\cdots,\theta_{\mathcal D}] = \text{Dir} \left[\alpha \mathcal H(a_1) + \theta_1,\cdots,\alpha \mathcal H(a_{\mathcal D}) + \theta_{\mathcal D}\right] P[G(a1​),G(a2​),⋯,G(aD​)∣θ1​,⋯,θD​]=Dir[αH(a1​)+θ1​,⋯,αH(aD​)+θD​]

从指数族分布角度观察后验分布的性质

在指数族分布介绍中提到过指数族分布的共轭性质如果似然函数 P ( x ∣ θ ) \mathcal P(x \mid \theta) P(x∣θ)存在一个共轭的先验分布 P ( θ ) \mathcal P(\theta) P(θ),那么后验分布 P ( θ ∣ x ) \mathcal P(\theta \mid x) P(θ∣x)与先验分布会形成相同的分布形式

在上述描述中,狄利克雷分布明显是共轭分布;而狄利克雷分布多项式分布的共轭先验。

关于 θ d ( d = 1 , 2 , ⋯ , D ) \theta_d(d=1,2,\cdots,\mathcal D) θd​(d=1,2,⋯,D)的补充

在上面对 θ d ( d = 1 , 2 , ⋯ , D ) \theta_d(d=1,2,\cdots,\mathcal D) θd​(d=1,2,⋯,D)的介绍,仅仅介绍它是隐变量,是隐变量样本集合 θ = { θ ( i ) } i = 1 N \theta = \{\theta^{(i)}\}_{i=1}^N θ={θ(i)}i=1N​的随机变量。它的实际意义是:落在划分区间 a d a_d ad​中的隐变量样本的数量。基于这个描述,可以归纳出两条信息:

  • 隐变量的数量与划分区间的数量相同
    θ d ( d = 1 , 2 , ⋯ , D ) ⇔ a d ( d = 1 , 2 , ⋯ , D ) \theta_d(d=1,2,\cdots,\mathcal D) \Leftrightarrow a_d(d=1,2,\cdots,\mathcal D) θd​(d=1,2,⋯,D)⇔ad​(d=1,2,⋯,D)
  • 所有 θ d \theta_d θd​的和是 θ \theta θ的样本数量:
    ∑ d = 1 D θ d = N \sum_{d=1}^{\mathcal D} \theta_d = N d=1∑D​θd​=N

将后验分布回溯至狄利克雷过程

已知后验分布的狄利克雷分布,根据狄利克雷过程的核心性质,可以将狄利克雷分布回溯至狄利克雷过程

  • 其中 H ( a d ) ( d = 1 , 2 , ⋯ , D ) \mathcal H(a_d)(d=1,2,\cdots,\mathcal D) H(ad​)(d=1,2,⋯,D)表示被划分的范围 a d a_d ad​内的所有 θ ( i ) ∈ a d \theta^{(i)} \in a_d θ(i)∈ad​的基本测度,无论是基本测度还是随机测度 G ( a d ) \mathcal G(a_d) G(ad​),它们都满足 ∑ d = 1 D H ( a d ) = ∑ d = 1 D G ( a d ) = 1 \sum_{d=1}^{\mathcal D} \mathcal H(a_d) = \sum_{d=1}^{\mathcal D} \mathcal G(a_d) = 1 ∑d=1D​H(ad​)=∑d=1D​G(ad​)=1.
  • δ \delta δ表示狄拉克δ函数,表示 θ ( i ) ( i = 1 , 2 , ⋯ , N ) \theta^{(i)}(i=1,2,\cdots,N) θ(i)(i=1,2,⋯,N)在对应的划分区间 a d ( d = 1 , 2 , ⋯ , D ) a_d(d=1,2,\cdots,\mathcal D) ad​(d=1,2,⋯,D)中结果是1,其余结果均是0
  • 关于 Dir [ α H ( a 1 ) , ⋯ , α H ( a d ) ] \text{Dir}[\alpha \mathcal H(a_1),\cdots,\alpha \mathcal H(a_d)] Dir[αH(a1​),⋯,αH(ad​)]对于狄利克雷过程 DP ( α , H ) \text{DP}(\alpha,\mathcal H) DP(α,H)也是如此: DP [ α ∑ d = 1 D H ( a d ) , α H + 0 α + 0 ] = DP ( α , H ) \text{DP}\left[\alpha \sum_{d=1}^{\mathcal D} \mathcal H(a_d),\frac{\alpha \mathcal H + 0}{\alpha + 0}\right] = \text{DP}(\alpha,\mathcal H) DP[α∑d=1D​H(ad​),α+0αH+0​]=DP(α,H)
    P [ G ( a 1 ) , G ( a 2 ) , ⋯ , G ( a D ) ∣ θ 1 , ⋯ , θ D ] = Dir [ α H ( a 1 ) + θ 1 , ⋯ , α H ( a D ) + θ D ] = DP [ α + N , α H + ∑ i = 1 N δ θ ( i ) α + N ⏟ Normalization ] \begin{aligned} & \quad \mathcal P[\mathcal G(a_1),\mathcal G(a_2),\cdots,\mathcal G(a_{\mathcal D}) \mid \theta_1,\cdots,\theta_{\mathcal D}] \\ & = \text{Dir} \left[\alpha \mathcal H(a_1) + \theta_1,\cdots,\alpha \mathcal H(a_{\mathcal D}) + \theta_{\mathcal D}\right] \\ & = \text{DP} \left[\alpha + N,\frac{\alpha \mathcal H + \sum_{i=1}^N \delta \theta^{(i)}}{\underbrace{\alpha + N}_{\text{Normalization}}}\right] \end{aligned} ​P[G(a1​),G(a2​),⋯,G(aD​)∣θ1​,⋯,θD​]=Dir[αH(a1​)+θ1​,⋯,αH(aD​)+θD​]=DP ​α+N,Normalization α+N​​αH+∑i=1N​δθ(i)​ ​​

观察这个后验的狄利克雷过程中的基本测度
H p o s t = α H + ∑ i = 1 N δ θ ( i ) α + N = α α + N ⋅ H + 1 α + N ∑ i = 1 N δ θ ( i ) \begin{aligned} \mathcal H_{post} & = \frac{\alpha \mathcal H + \sum_{i=1}^N \delta \theta^{(i)}}{\alpha + N} \\ & = \frac{\alpha}{\alpha + N} \cdot \mathcal H + \frac{1}{\alpha + N} \sum_{i=1}^N \delta \theta^{(i)} \end{aligned} Hpost​​=α+NαH+∑i=1N​δθ(i)​=α+Nα​⋅H+α+N1​i=1∑N​δθ(i)​

  • 观察第一项:其中 α α + N \frac{\alpha}{\alpha + N} α+Nα​明显是一个常数,如果基本测度 H \mathcal H H是一个连续分布,那么 α α + N H \frac{\alpha}{\alpha + N} \mathcal H α+Nα​H明显也是一个连续分布
  • 观察第二项: 1 α + N \frac{1}{\alpha + N} α+N1​是一个常数,而 ∑ i = 1 N δ θ ( i ) \sum_{i=1}^N \delta\theta^{(i)} ∑i=1N​δθ(i)描述在不同划分区间下,隐变量样本 θ ( i ) \theta^{(i)} θ(i)结果的和。即:
    ∑ i = 1 N δ θ ( i ) = [ ∑ θ ( i ) ∈ a 1 θ ( i ) , ∑ θ ( i ) ∈ a 2 θ ( i ) , ⋯ , ∑ θ ( i ) ∈ a D θ ( i ) ] D × 1 T ⇒ ∑ d = 1 D ∑ θ ( i ) ∈ a d θ ( i ) = N \sum_{i=1}^N \delta \theta^{(i)} = \left[\sum_{\theta^{(i)} \in a_1} \theta^{(i)},\sum_{\theta^{(i)} \in a_2} \theta^{(i)},\cdots,\sum_{\theta^{(i)} \in a_{\mathcal D}} \theta^{(i)}\right]_{\mathcal D \times 1}^T \Rightarrow \sum_{d=1}^{\mathcal D} \sum_{\theta^{(i)} \in a_d} \theta^{(i)} = N i=1∑N​δθ(i)= ​θ(i)∈a1​∑​θ(i),θ(i)∈a2​∑​θ(i),⋯,θ(i)∈aD​∑​θ(i) ​D×1T​⇒d=1∑D​θ(i)∈ad​∑​θ(i)=N
    这明显是一个离散分布

而 H p o s t \mathcal H_{post} Hpost​是由一个连续分布离散分布的加权结果,在统计学中被称作 Stick and Slab \text{Stick and Slab} Stick and Slab现象。也就是说,该分布的一部分比例是连续分布结果提供,剩下另一部分由离散分布提供。

而在采样过程中,它将转化为概率的意义。其采样结果有一部分概率从连续分布中采样;剩下另一部分的概率从离散分布中采样。

回顾:贝叶斯派关于预测任务的推导思路

在贝叶斯线性回归中介绍过,从贝叶斯派角度处理预测任务,本质上是求解给定数据集 X \mathcal X X条件下,关于陌生样本 x ^ \hat x x^的后验分布 Predictive Dist → P ( x ^ ∣ X ) \text{Predictive Dist} \to \mathcal P(\hat x \mid \mathcal X) Predictive Dist→P(x^∣X):

  • 这里假定样本 x ^ \hat x x^与数据集合 X \mathcal X X都是从同一个概率分布中产生的。
  • 其中 W \mathcal W W表示概率分布参数,根据贝叶斯定理表示成如下形式。
  • 当参数 W \mathcal W W通过训练集 X \mathcal X X学习完成后 → P ( W ∣ X ) \to \mathcal P(\mathcal W \mid \mathcal X) →P(W∣X),仅需要通过参数 W \mathcal W W x ^ \hat x x^进行预测即可。
    P ( x ^ ∣ X ) = ∫ W P ( x ^ , W ∣ X ) d W = ∫ W P ( x ^ ∣ W , X ) ⋅ P ( W ∣ X ) d W = ∫ W P ( x ^ ∣ W ) ⋅ P ( W ∣ X ) d W \begin{aligned} \mathcal P(\hat x \mid \mathcal X) & = \int_{\mathcal W} \mathcal P(\hat x,\mathcal W \mid \mathcal X) d\mathcal W \\ & = \int_{\mathcal W} \mathcal P(\hat x \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W \mid \mathcal X) d\mathcal W \\ & = \int_{\mathcal W} \mathcal P(\hat x \mid \mathcal W) \cdot \mathcal P(\mathcal W \mid \mathcal X) d\mathcal W \end{aligned} P(x^∣X)​=∫W​P(x^,W∣X)dW=∫W​P(x^∣W,X)⋅P(W∣X)dW=∫W​P(x^∣W)⋅P(W∣X)dW​

基于狄利克雷过程的预测过程

狄利克雷过程中,我们求解的并不是真实样本 x ^ \hat x x^,而是隐变量样本 θ ^ \hat {\theta} θ^:

  • 此时的模型参数就是随机测度——离散分布 G \mathcal G G,因为 θ ( i ) ( i = 1 , 2 , ⋯ , N ) \theta^{(i)}(i=1,2,\cdots,N) θ(i)(i=1,2,⋯,N)是从分布 G \mathcal G G中生成得到。
  • 由于 G \mathcal G G是离散分布,这里的积分表示为 ∑ G \sum_{\mathcal G} ∑G​而不是 ∫ G \int_{\mathcal G} ∫G​.
    P ( θ ^ ∣ θ ) = ∑ G P ( θ ^ ∣ G ) ⋅ P ( G ∣ θ ) \begin{aligned} \mathcal P(\hat \theta \mid \theta) & = \sum_{\mathcal G} \mathcal P(\hat \theta \mid \mathcal G) \cdot \mathcal P(\mathcal G \mid \theta) \end{aligned} P(θ^∣θ)​=G∑​P(θ^∣G)⋅P(G∣θ)​

其中 P ( G ∣ θ ) \mathcal P(\mathcal G \mid \theta) P(G∣θ)自然是指 G \mathcal G G的后验分布
P ( G ∣ θ ) = DP [ α + N , α H + ∑ i = 1 N δ θ ( i ) α + N ] \mathcal P(\mathcal G \mid \theta) = \text{DP} \left[\alpha + N,\frac{\alpha \mathcal H + \sum_{i=1}^N \delta \theta^{(i)}}{\alpha + N}\right] P(G∣θ)=DP[α+N,α+NαH+∑i=1N​δθ(i)​]
而 P ( θ ^ ∣ G ) \mathcal P(\hat \theta \mid \mathcal G) P(θ^∣G)表示给定分布的条件下,陌生隐变量的预测分布。而 θ \theta θ的预测分布自然是离散的。假设存在4个样本 x ( 1 ) , x ( 2 ) , x ( 3 ) , x ( 4 ) x^{(1)},x^{(2)},x^{(3)},x^{(4)} x(1),x(2),x(3),x(4),它们对应的 θ ( 1 ) , θ ( 2 ) , θ ( 3 ) , θ ( 4 ) \theta^{(1)},\theta^{(2)},\theta^{(3)},\theta^{(4)} θ(1),θ(2),θ(3),θ(4)表示如下:

x ( 1 ) x^{(1)} x(1) x ( 2 ) x^{(2)} x(2) x ( 3 ) x^{(3)} x(3) x ( 4 ) x^{(4)} x(4)
θ ( 1 ) = 6 \theta^{(1)} = 6 θ(1)=6 θ ( 2 ) = 4.8 \theta^{(2)} = 4.8 θ(2)=4.8 θ ( 3 ) = 6 \theta^{(3)} = 6 θ(3)=6 θ ( 4 ) = 4.8 \theta^{(4)} = 4.8 θ(4)=4.8
z ( 1 ) = 1 z^{(1)} = 1 z(1)=1 z ( 2 ) = 2 z^{(2)} = 2 z(2)=2 z ( 3 ) = 1 z^{(3)} = 1 z(3)=1 z ( 4 ) = 2 z^{(4)} = 2 z(4)=2

很明显, θ ( 1 ) = θ ( 3 ) ; θ ( 2 ) = θ ( 4 ) \theta^{(1)} = \theta^{(3)};\theta^{(2)} = \theta^{(4)} θ(1)=θ(3);θ(2)=θ(4),这说明 x ( 1 ) , x ( 3 ) x^{(1)},x^{(3)} x(1),x(3)是同一分类; x ( 2 ) , x ( 4 ) x^{(2)},x^{(4)} x(2),x(4)是同一分类。根据上面的判断,我们根本没有必要 θ \theta θ具体等于多少,只需要直到哪些样本对应的 θ \theta θ相等即可。

上述的 z ( i ) ( i = 1 , 2 , 3 , 4 ) z^{(i)}(i=1,2,3,4) z(i)(i=1,2,3,4)表示对应样本点的分类信息。因而在做预测任务时,直接转化为:
其中 Z \mathcal Z Z表示给定数据集合 X \mathcal X X对应的聚类标签信息; z ^ \hat z z^表示陌生样本 x ^ \hat x x^对应的聚类标签信息。
P ( z ^ ∣ Z ) z ^ → x ^ ; Z → X \mathcal P(\hat z \mid \mathcal Z) \quad \hat z \to \hat x;\mathcal Z \to \mathcal X P(z^∣Z)z^→x^;Z→X

在折棍子过程一节中介绍过, H ( θ ) \mathcal H(\theta) H(θ)它决定了每一个样本点 x ( i ) ∈ X x^{(i)} \in \mathcal X x(i)∈X对应的隐变量样本 θ ( i ) ∈ θ \theta^{(i)} \in \theta θ(i)∈θ的真实结果,此时的 θ \theta θ还没有被离散化,并且 H ( θ ) \mathcal H(\theta) H(θ)与 P ( z ^ ∣ Z ) \mathcal P(\hat z \mid \mathcal Z) P(z^∣Z)的结果没有任何关系

随机测度 G \mathcal G G中产生的 θ \theta θ就不一样了,它此时的值相比于 H ( θ ) \mathcal H(\theta) H(θ)中的 θ \theta θ已经离散化。也就是说,存在若干个真实样本对应的隐变量样本是同一个值。而这个同一数值隐变量样本的数量 是由 α \alpha α决定的,对应后验概率 P ( z ^ ∣ Z ) \mathcal P(\hat z \mid \mathcal Z) P(z^∣Z)与 α \alpha α存在密切的联系:
需要注意的是, α \alpha α θ ( i ) \theta^{(i)} θ(i)的具体值之间没有任何关系。

  • 当 α → 0 \alpha \to 0 α→0时,此时分布中的所有权重均集中在某一具体 θ ( i ) \theta^{(i)} θ(i)上,那么 P ( z ^ ∣ Z ) \mathcal P(\hat z \mid \mathcal Z) P(z^∣Z)就变成了一个 one-hot \text{one-hot} one-hot向量。这意味着从 G \mathcal G G中生成的隐变量样本 θ ( i ) \theta^{(i)} θ(i)对应的数值均相同
    P ( z ^ ∣ Z ) = ( 0 , 0 , ⋯ , 0 , 1 , 0 , 0 , ⋯ , 0 ) ⏟ ∞ \mathcal P(\hat z \mid \mathcal Z) = \underbrace{(0,0,\cdots,0,1,0,0,\cdots,0)}_{\infty} P(z^∣Z)=∞ (0,0,⋯,0,1,0,0,⋯,0)​​
  • 当 α → ∞ \alpha \to \infty α→∞时,导致任意两个样本的聚类标签信息均不相同,此时的 P ( z ^ ∣ Z ) \mathcal P(\hat z \mid \mathcal Z) P(z^∣Z)针对无穷个聚类标签,每个标签中具有概率信息:
    P ( z ^ ∣ Z ) = ( z ^ 1 , z ^ 2 , ⋯ , z ^ ∞ ) ⏟ ∞ z ^ i > 0 ( i = 1 , 2 , ⋯ , ∞ ) ; ∑ i = 1 ∞ z ^ i = 1 \mathcal P(\hat z \mid \mathcal Z) = \underbrace{(\hat z_1,\hat z_2,\cdots,\hat z_{\infty})}_{\infty} \quad \hat z_i > 0(i=1,2,\cdots,\infty);\sum_{i=1}^{\infty} \hat z_i = 1 P(z^∣Z)=∞ (z^1​,z^2​,⋯,z^∞​)​​z^i​>0(i=1,2,⋯,∞);i=1∑∞​z^i​=1

相关参考:
徐亦达机器学习:Dirichlet-Process-part 5
徐亦达机器学习:Dirichlet-Process-part 6

更多推荐

机器学习笔记之狄利克雷过程(五)——基于狄利克雷过程的预测任务

本文发布于:2023-06-28 19:50:37,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/932669.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:克雷   过程   学习笔记   机器   狄利

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!