强化学习基础

编程入门行业动态更新时间:2024-10-21 19:46:20

强化学习<a href=https://www.elefans.com/category/jswz/34/1770030.html style= 基础"/>

强化学习基础

文章目录

1. 强化学习应用
2. 强化学习介绍
- 2.1 强化学习特点
- 2.2 强化学习基本要素
- - 2.2.1 奖励
  - 2.2.2 序列决策
  - 2.2.3 智能体
- 2.3 智能体组成
- - 2.3.1策略
  - 2.3.2 价值函数
  - 2.3.3 模型
- 2.4 智能体分类
- - 2.4.1 分类一组成
  - 2.4.2 分类二环境的回报函数
- 2.5 强化学习问题

1. 强化学习应用

如AlphaGo打围棋

投资管理

发电站控制

人机对话

计算机视觉

2. 强化学习介绍

2.1 强化学习特点

没有监督数据，只有奖励信号

奖励信号不一定是实时的，可能存在延迟。例如下棋，直到最后才知道赢还是输

时间是一个重要因素

智能体当前的动作影响后续接受到的数据

2.2 强化学习基本要素

2.2.1 奖励

奖励 R t R_t Rt是一个反馈信号，是一个标量

反应智能体（Agent）在时间t工作的如何

智能体的工作就是最大化累计奖励

强化学习主要基于奖励假设

2.2.2 序列决策

目标：选择一定动作序列以最大化未来的总体奖励

智能体行为可能是一个很长的动作序列

大多数奖励是延迟的。宁愿牺牲短期奖励以获取更长期的奖励

2.2.3 智能体

接受观测，对环境做出动作，得到奖励的反馈

智能体在每个时间步t：

+ 接收观测$O_t$
+ 接收奖励信号 $R_t$
+ 执行动作$A_t$

智能体由下述三个组件中的一个或多个组成

1、策略：智能体的行为函数

2、价值函数：评估每个状态或行动有多好

3、模型：智能体对环境的表示，是智能体眼里的环境

环境：

+ 接收动作$A_t$
+ 产生观测$O_{t+1}$
+ 产生标量奖励信号$R_{t+1}$

这样智能体和环境不断的反馈交互

得到历史：历史是观测、行动和奖励的序列

H t = O 1 , R 1 , A 1 , O 2 , R 2 . . . , O t , R t H_t=O_1,R_1,A_1,O_2,R_2...,O_t,R_t Ht=O1,R1,A1,O2,R2...,Ot,Rt

状态时一种用于确定接下来会发生的事情（行动、观测、奖励）的信息

状态是关于历史的函数 S t = f ( H t ) S_t=f(H_t) St=f(Ht)

对于环境可以分为

完全可观测环境，如下棋

MDP 马尔科夫决策过程

部分可观测环境，如打麻将，斗地主

POMDP 部分可观测马尔科夫决策过程

大部分都是部分可观测问题，可以通过一些近似，可以将部分可观测转换为完全可观测问题

2.3 智能体组成

2.3.1策略

策略是学习智能体在特定时间的行为方式

是从状态到行动的映射

确定性策略

随机策略

2.3.2 价值函数

价值函数：价值函数是对于未来累积奖励的预测

用于评估在给定策略下状态的好坏

可用于选择动作

2.3.3 模型

模型用于模拟环境的行为，建模环境的动态特性

解决以下两个问题

状态转移概率：用来预测环境的下一个状态

奖励：预测环境给出的下一个及时奖励

2.4 智能体分类

2.4.1 分类一组成

基于是否有价值函数谷歌

基于是否有直接策略搜素 OPEN-AI

上面两者都有的就是 Actor Critle

基于是否有模型的强化学习算法

2.4.2 分类二环境的回报函数

根据环境返回的回报函数是否已知

分为

正向强化学习
逆向强化学习：从专家的示例中学习回报函数

2.5 强化学习问题

序列决策有两类基础问题

强化学习

初始环境未知

智能体不断与环境交互

智能体提升他的策略

规划

环境模型已知

智能体根据Model进行计算

智能体提升他的策略

所以强化学习是一种试错的学习

智能体从其与环境的交互中发现一个好的策略

在试错的过程中不会损失太多的奖励

更多推荐

强化学习基础

本文发布于:2023-12-01 18:23:42，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1651687.html

基础

上一篇：微信小程序实现同一页面左右滑动无限切换上/下一页结合后端请求数据，带滑动动画
下一篇： NOIP2023模拟9联测30 总结

发布评论取消回复

评论列表（有 0 条评论）

强化学习基础