深入理解强化学习——多臂赌博机:梯度赌博机算法的基础知识

编程入门 行业动态 更新时间:2024-10-21 23:10:28

深入理解强化学习——多臂<a href=https://www.elefans.com/category/jswz/34/1621063.html style=赌博机:梯度赌博机算法的基础知识"/>

深入理解强化学习——多臂赌博机:梯度赌博机算法的基础知识

分类目录:《深入理解强化学习》总目录


到目前为止,我们已经探讨了评估动作价值的方法,并使用这些估计值来选择动作。这通常是一个好方法,但并不是唯一可使用的方法。我们针对每个动作 a a a考虑学习一个数值化的偏好函数 H t ( a ) H_t(a) Ht​(a)。偏好函数越大,动作就越频繁地被选择,但偏好函数的概念并不是从“收益"的意义上提出的。只有一个动作对另一个动作的相对偏好才是重要的,如果我们给每一个动作的偏好函数都加上1000,那么对于按照如下Softmax分布(吉布斯或玻尔兹曼分布)确定的动作概率没有任何影响:
Pr { A t = a } = e H t ( a ) ∑ i = 1 k e H t ( i ) = π t ( a ) \text{Pr}\{A_t=a\}=\frac{e^{H_t(a)}}{\sum_{i=1}^ke^{H_t(i)}}=\pi_t(a) Pr{At​=a}=∑i=1k​eHt​(i)eHt​(a)​=πt​(a)

其中, π t ( a ) \pi_t(a) πt​(a)是一个新的且重要的定义,用来表示动作 a a a在时刻时被选择的概率。所有偏好函数的初始值都是一样的(如: ∀ A : H 1 ( a ) = 0 \forall A:H_1(a)=0 ∀A:H1​(a)=0),所以每个动作被选择的概率是相同的。

基于随机梯度上升的思想,本文提出了一种自然学习算法。在每个步骤中,在选择动作 A t A_t At​并获得收益 R t R_t Rt​之后,偏好函数将会按如下方式更新:
H t + 1 ( A t ) = H t ( A t ) + α ( R t − R t ˉ ) ( 1 − π t ( A t ) ) H t + 1 ( a ) = H t ( a ) − α ( R t − R t ˉ ) π t ( a ) , ∀ a ≠ A t \begin{aligned} H_{t+1}(A_t)&=H_t(A_t)+\alpha(R_t-\bar{R_t})(1-\pi_t(A_t)) \\ H_{t+1}(a)&=H_t(a)-\alpha(R_t-\bar{R_t})\pi_t(a) \end{aligned}\quad ,\forall a\neq A_t Ht+1​(At​)Ht+1​(a)​=Ht​(At​)+α(Rt​−Rt​ˉ​)(1−πt​(At​))=Ht​(a)−α(Rt​−Rt​ˉ​)πt​(a)​,∀a=At​

其中, α \alpha α是一个大于0的数,表示步长。 R t ∈ R R_t\in R Rt​∈R是在时刻 t t t内所有收益的平均值,可以按文章《深入理解强化学习——多臂赌博机:增量式实现》所述逐步计算,若是非平稳问题,则可以参考文章《深入理解强化学习——多臂赌博机:非平稳问题》。 R t ˉ \bar{R_t} Rt​ˉ​作为比较收益的一个基准项。如果收益高于它,那么在未来选择动作的概率就会增加,反之概率就会降低,未选择的动作被选择的概率上升。

下图展示了在一个10臂测试平台问题的变体上采用梯度赌博机算法的结果,在这个问题中,它们真实的期望收益是按照平均值为 + 4 +4 +4而不是 0 0 0(方差与之前相同)的正态分布来选择的。所有收益的这种变化对梯度赌博机算法没有任何影响,因为收益基谁项计它可以马上适应新的收益水平。如果没有基准项(即把 R t ˉ \bar{R_t} Rt​ˉ​设为常数0),那么性能将显著降低,如图所示:

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

更多推荐

深入理解强化学习——多臂赌博机:梯度赌博机算法的基础知识

本文发布于:2023-11-15 18:14:58,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1603999.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:赌博机   梯度   算法   基础知识

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!