算法"/>
Actor Critic算法
Actor Critic(直译为演员评判家算法,易理解):
结合两个网络:演员网络Policy Gradient (Actor)+ 评判家网络Function Approximation (Critic), 演员Actor 基于概率表演动作行为, 评判家Critic 基于演员Actor 的行为进行评论打分, 演员Actor 根据评判家Critic 的评分改进表演行为的概率。
钟摆游戏的动作是一个连续值:
演员网络:
评判家网络:
import tensorflow as tf
import numpy as np
import gymnp.random.seed(2)
tf.set_random_seed(2)class Actor(object):def __init__(self
更多推荐
Actor Critic算法
发布评论