深度强化学习第 5 章 SARSA 算法

编程入门行业动态更新时间:2024-10-25 14:33:47

深度强化学习第 5 章 SARSA <a href=https://www.elefans.com/category/jswz/34/1770096.html style= 算法"/>

深度强化学习第 5 章 SARSA 算法

上一章介绍了 Q 学习的表格形式和神经网络形式（即 DQN）。 TD 算法是一大类算法的总称。上一章用的 Q 学习是一种 TD 算法， Q 学习的目的是学习最优动作价值函数 Q ⋆ Q_⋆ Q⋆
本章介绍 SARSA，它也是一种 TD 算法， SARSA 的目的是学习动作价值函数 Q π ( s , a ) Q_π(s,a) Qπ(s,a)。