admin管理员组

文章数量:1572748

大模型微调实战之 Transformer 强化学习(TRL Reinforcement Learning)(三)Proximal Policy Optimization

Proximal Policy Optimization

这是一个基本示例,展示了如何使用库中的PPOTrainer。基于一个查询,语言模型创建一个响应,然后对该响应进行评估。评估可以是人类参与的过程,或者是另一个模型的输出。

# imports
import torch
from transformers import AutoTokenizer
from trl import PPOTrainer, PPOConfig, AutoModelForCausalLMWithValueHead

本文标签: 实战模型TRLTransformerReinforcement