policy gradient 存疑

编程入门行业动态更新时间:2024-10-27 19:15:32

policy gradient 存疑

1，关键点在于损失函数的计算，损失函数由两部分组成，一是根据一回合的总收益计算出的每步收益。二是每步的概率。
2，计算收益时，从后往前算，最后标准化。
3，概率怎么计算呢？方法一是在由概率分布的随机sample出一个action后，算action对应的正态分布中的概率。再进行log。
（为什么不用sample的概率呢？不过也还可以理解）
方法二，算实际的action（作为target）与根据obs算出的估计action的概率分布的交叉熵。已包含log。

所以综上，疑问就是：概率怎么计算？

更多推荐

policy gradient 存疑

本文发布于:2024-02-25 02:40:56，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1697510.html