从零构建ChatGPT

编程知识行业动态更新时间:2024-06-13 00:19:37

step1，文本生成模型，作为policy model：输入question，返回answer，

step2，文本匹配模型，作为reward model：输入question-answer-pair，返回reward，

两个模型共享encoder。

如InstructGPT论文所示，人工标注过程是标policy model的预测/生成 top-N结果，给每个生成结果一个[good]/[bad]的标注即Reward，来训练文本匹配reward模型，

其实文本匹配reward模型 可以没有，直接根据用户标注的[good]/[bad]，去掉训练数据里的[bad]数据，只保留[good]数据给文本生成policy模型训练是一样的。

参考代码：https://github/openai/lm-human-preferences

更多推荐

从零构建ChatGPT

本文发布于:2023-03-28 15:44:00，感谢您对本站的认可！

ChatGPT

评论列表（有 0 条评论）