policy gradient 存疑"/>
policy gradient 存疑
1,关键点在于损失函数的计算,损失函数由两部分组成,一是根据一回合的总收益计算出的每步收益。二是每步的概率。
2,计算收益时,从后往前算,最后标准化。
3,概率怎么计算呢?方法一是在由概率分布的随机sample出一个action后,算action对应的正态分布中的概率。再进行log。
(为什么不用sample的概率呢?不过也还可以理解)
方法二,算实际的action(作为target)与根据obs算出的估计action的概率分布 的交叉熵。已包含log。
所以综上,疑问就是:概率怎么计算?
更多推荐
policy gradient 存疑
发布评论