基础"/>
强化学习基础
文章目录
- 1. 强化学习应用
- 2. 强化学习介绍
- 2.1 强化学习特点
- 2.2 强化学习基本要素
- 2.2.1 奖励
- 2.2.2 序列决策
- 2.2.3 智能体
- 2.3 智能体组成
- 2.3.1策略
- 2.3.2 价值函数
- 2.3.3 模型
- 2.4 智能体分类
- 2.4.1 分类一 组成
- 2.4.2 分类二 环境的回报函数
- 2.5 强化学习问题
1. 强化学习应用
如AlphaGo打围棋
投资管理
发电站控制
人机对话
计算机视觉
2. 强化学习介绍
2.1 强化学习特点
没有监督数据,只有奖励信号
奖励信号不一定是实时的,可能存在延迟。例如下棋,直到最后才知道赢还是输
时间是一个重要因素
智能体当前的动作影响后续接受到的数据
2.2 强化学习基本要素
2.2.1 奖励
奖励 R t R_t Rt是一个反馈信号,是一个标量
反应智能体(Agent)在时间t工作的如何
智能体的工作就是最大化累计奖励
强化学习主要基于奖励假设
2.2.2 序列决策
目标:选择一定动作序列以最大化未来的总体奖励
智能体行为可能是一个很长的动作序列
大多数奖励是延迟的。宁愿牺牲短期奖励以获取更长期的奖励
2.2.3 智能体
接受观测,对环境做出动作,得到奖励的反馈
智能体在每个时间步t:
+ 接收观测$O_t$
+ 接收奖励信号 $R_t$
+ 执行动作$A_t$
智能体由下述三个组件中的一个或多个组成
1、策略:智能体的行为函数
2、价值函数:评估每个状态或行动有多好
3、模型:智能体对环境的表示,是智能体眼里的环境
环境:
+ 接收动作$A_t$
+ 产生观测$O_{t+1}$
+ 产生标量奖励信号$R_{t+1}$
这样智能体和环境不断的反馈交互
得到历史:历史是观测、行动和奖励的序列
H t = O 1 , R 1 , A 1 , O 2 , R 2 . . . , O t , R t H_t=O_1,R_1,A_1,O_2,R_2...,O_t,R_t Ht=O1,R1,A1,O2,R2...,Ot,Rt
状态时一种用于确定接下来会发生的事情(行动、观测、奖励)的信息
状态是关于历史的函数 S t = f ( H t ) S_t=f(H_t) St=f(Ht)
对于环境可以分为
完全可观测环境,如下棋
MDP 马尔科夫决策过程
部分可观测环境,如打麻将,斗地主
POMDP 部分可观测马尔科夫决策过程
大部分都是部分可观测问题,可以通过一些近似,可以将部分可观测转换为完全可观测问题
2.3 智能体组成
2.3.1策略
策略是学习智能体在特定时间的行为方式
是从状态到行动的映射
确定性策略
随机策略
2.3.2 价值函数
价值函数:价值函数是对于未来累积奖励的预测
用于评估在给定策略下状态的好坏
可用于选择动作
2.3.3 模型
模型用于模拟环境的行为,建模环境的动态特性
解决 以下两个问题
状态转移概率:用来预测环境的下一个状态
奖励:预测环境给出的下一个及时奖励
2.4 智能体分类
2.4.1 分类一 组成
基于是否有价值函数 谷歌
基于是否有直接策略搜素 OPEN-AI
上面两者都有的就是 Actor Critle
基于是否有模型的强化学习算法
2.4.2 分类二 环境的回报函数
根据环境返回的回报函数是否已知
分为
- 正向强化学习
- 逆向强化学习:从专家的示例中学习回报函数
2.5 强化学习问题
序列决策有两类基础问题
强化学习
初始环境未知
智能体不断与环境交互
智能体提升他的策略
规划
环境模型已知
智能体根据Model进行计算
智能体提升他的策略
所以强化学习是一种试错的学习
智能体从其与环境的交互中发现一个好的策略
在试错的过程中不会损失太多的奖励
更多推荐
强化学习基础
发布评论