Actor Critic算法

编程入门 行业动态 更新时间:2024-10-23 07:39:37

Actor Critic<a href=https://www.elefans.com/category/jswz/34/1770096.html style=算法"/>

Actor Critic算法

Actor Critic(直译为演员评判家算法,易理解):

结合两个网络:演员网络Policy Gradient (Actor)+ 评判家网络Function Approximation (Critic), 演员Actor 基于概率表演动作行为, 评判家Critic 基于演员Actor 的行为进行评论打分, 演员Actor 根据评判家Critic 的评分改进表演行为的概率。

钟摆游戏的动作是一个连续值:

演员网络:

评判家网络:

import tensorflow as tf
import numpy as np
import gymnp.random.seed(2)
tf.set_random_seed(2)class Actor(object):def __init__(self

更多推荐

Actor Critic算法

本文发布于:2024-02-26 21:49:45,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1704061.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:算法   Actor   Critic

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!