从零构建ChatGPT

编程知识 行业动态 更新时间:2024-06-13 00:19:37

step1,文本生成模型,作为policy model:输入question,返回answer,

step2,文本匹配模型,作为reward model:输入question-answer-pair,返回reward,

两个模型共享encoder。

如InstructGPT论文所示,人工标注过程是标policy model的 预测/生成 top-N结果,给每个生成结果一个[good]/[bad]的标注即Reward,来训练文本匹配reward模型,

其实 文本匹配reward模型 可以没有,直接根据用户标注的[good]/[bad],去掉训练数据里的[bad]数据,只保留[good]数据 给文本生成policy模型 训练是一样的。

参考代码:https://github/openai/lm-human-preferences

更多推荐

从零构建ChatGPT

本文发布于:2023-03-28 15:44:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/6118b61da78d152f491a4e68785b3d95.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:ChatGPT

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!