【论文精读-代码生成】Structured Chain-of-Thought Prompting for Code Generation|电子爱好者

admin管理员组
文章数量:1564707

文章目录

- 动机
- 做了什么
- 怎么做的
- 实验设计
- - 评价方法
  - 基线方法
  - LLM选择
  - 采样设置
- 讨论
- 未来工作

动机

（思维链在大模型自动生成代码领域的扩展应用）
源代码包含丰富的结构信息，任何代码都可以由三种程序结构（即序列、分支和循环结构）组成。直观地说，结构化的中间推理步骤造就了结构化的源代码。因此，我们要求 LLM 使用程序结构构建 CoT，得到 SCoT。然后，LLMs 根据 SCoT 生成最终代码。与 CoT prompting 相比，SCoT prompting 明确约束 LLMs 从源代码的角度思考如何解决需求，进一步提高了 LLMs 在代码生成中的性能。

做了什么

本文提出一种结构化思维链(SCoT)，利用程序结构来构建中间推理步骤。
提出了一种用于代码生成的SCoT提示技术。它提示大型语言模型首先生成一个SCoT，然后实现代码。
在三个基准上进行了广泛的实验。定性和定量实验表明，SCoT prompting明显优于SOTA基线(e.g.,思维链提示)。
讨论了不同程序结构的贡献和SCoT prompting的健壮性。

怎么做的

SCoT提示流程：
1. 编写示例二元组–<requirement, SCoT> ，要求这些例子涵盖了三个基本的程序结构和输入输出结构。再提出一个新需求，送入llm。我们希望llm从示例中学习并为新需求生成一个SCoT。

生成一个SCoT后，设计第二个用于生成最终代码的prompt：需求和对应的SCoT。提示以三个示例<requirement, SCoT, code>开始，要求LLM从示例中学习，并根据需求和SCoT生成一个新程序。
相关工作[25]发现生成模型可能会受到误差累积的负面影响。类似地，在SCoT prompting中，生成的SCoT可能包含噪声(e.g., 错误或遗漏步骤)。这些噪声将进一步对代码实现产生负面影响。本文利用两种方法来缓解误差累积：
1. 要求llm再次检查SCoT并修复可能的噪音，允许llm自适应地引用SCoT并滤除噪声。
2. 人类开发人员可以首先检查生成的SCoT并修复可能的错误。然后，使用SCoT生成代码。（人机交互）

实验设计

评价方法

实验数据集：

HumanEval[7]是一个Python函数级代码生成基准测试，包含164个手写编程问题。每个编程问题由一个英语要求、一个函数签名和几个测试用例组成，平均每个问题有7.7个测试用例。由于HumanEval不包含训练数据，因此在HumanEval中重用了MBPP的示例。
MBPP[2]是一个Python函数级代码生成基准测试。它包含974个编程问题，涉及简单的数值操作或标准库的基本使用。每个问题包含一个英语要求、一个函数签名和三个用于检查函数的手动编写的测试用例。
MBCPP[1]是一个c++函数级代码生成基准测试。它由848个通过众包收集的编程问题组成。每个问题包含一个英文描述、一个函数签名和三个用于检查函数正确性的测试用例。

评价指标：无偏Pass@k
1. Pass@k：给定一个需求，允许代码生成模型生成k个程序。如果生成的程序中任意一个通过了所有测试用例，那么这个需求就得到了解决。我们通过Pass@k计算已解决需求在总需求中的百分比。对于Pass@k，值越高越好。在我们的实验中，k被设置为1、3和5，因为我们认为开发人员在现实场景中主要使用Top-5输出。
2. 无偏Pass@k：之前的工作发现标准通过@𝑘具有高方差，并提出了无偏Pass@𝑘。我们遵循之前的工作，并采用无偏Pass@𝑘。具体来说，我们为每个需求生成𝑛 ≥ 𝑘个程序(在本文中，我们使用𝑛 = 20, 𝑘 ∈ [1, 3, 5])，计算解决需求的数量𝑐，并计算无偏通过：

之前的代码生成研究使用基于文本相似性的度量(e.g., BLEU)。这些指标最初是为自然语言生成而设计的，在衡量程序的正确性方面很差。因此，我们在实验中省略了这些指标。

基线方法

SCoT prompting是一种新的代码生成提示技术，有三个基线可用于评估比较：

零样本提示：直接将需求提供给llm，而没有示例。然后从LLMs的输出中提取生成的程序。
小样本提示：随机选择几个<需求，代码>对作为示例。给定一个需求，它将示例和需求连接在一起，形成一个提示。然后，提示被输入到llm中，llm预测一个新程序。
思维链(CoT)提示[35]：是少样本提示的变体。CoT提示生成一个由< requirement、CoT、code >三元组组成的特殊提示作为示例。CoT是自然语言推理的几个中间步骤。

LLM选择

现有的llm可以分为两类:standard language models 和 instruction-tuned models。对于每个类别，我们选择一个具有代表性的模型作为base model：Codex 和 ChatGPT。

采样设置

baselines：为每个需求生成20个程序，temperature参数设置为0.8。采样使用nucleus sampling，top-p参数设置为0.95。zeroshot prompting和 few-shot prompting的最大生成长度为300个token；CoT的最大生成长度为600个token，因为是CoT提示需要生成中间的推理步骤和代码。
SCoT prompting：

我们根据要求从llm中采样20个SCoT，temperature参数设置为0.8，top-p参数设置为0.95，生成的最大长度为300个token。
然后对于每个SCoT，用LLM生成相应的程序，temperature参数设置为0，最大生成长度为300 token，每个需求生成20个代码。两步的总生成长度与CoT提示相同，为600个token。

讨论

SCoT vs. 伪代码：SCoT与伪代码类似，SCoT实现中间步骤是更好的选择，因为SCoT会自然地将代码生成分解为两个步骤。LLMs首先专注于探索不同的解决方案，然后以标准化的方式实现具体代码。
SCoT prompting vs. Rank Techniques：两种技术侧重点不同，具有互补性。ChatGPT的性能可以通过添加CodeT和SCoT prompting不断提高。

未来工作

源代码可以用树表示(e.g., 抽象语法树)，可以设计一种基于树的提示技术，它使用llm来生成树。

本文标签：代码论文 structured chain Generation

版权声明：本文标题：【论文精读-代码生成】Structured Chain-of-Thought Prompting for Code Generation 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1726875628a1088312.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【论文精读-代码生成】Structured Chain-of-Thought Prompting for Code Generation

文章目录

动机

做了什么

怎么做的

实验设计

评价方法

基线方法

LLM选择

采样设置

讨论

未来工作

更多相关文章

Oracle hyperion 漏洞,Oracle Hyperion Financial Management TList 6 ActiveX 控件远程代码执行漏洞...

html网页自动登录代码,VBS脚本实现网站自动登录

dw做注册登录页面HTML代码,用DW做的简单的个人网站（可以用来当网页作业）

JavaScript实现网页截屏的5种方法（详解+代码）

python语言实例-Python代码样例列表

Python代码样例列表

腾讯QQ 类企业QQ在线代码！

不是买一台电脑就能敲代码！学习java必须了解的计算机知识以及准备工作

PHP判断来访是搜索引擎蜘蛛还是普通用户的代码小结

php搜索引擎劫持,百度蜘蛛劫持,搜索引擎蜘蛛劫持原理及代码分享

python自动检测wifi是否能联网，断开wifi重新连接wifi的代码。

手写代码，简单实现Spring框架

SonarLint代码规范检查提示Cognitive Complexity of methods should not be too high

一键解析：由于找不到xinput1_3.dll,无法继续执行代码的问题，有效修复xinput1_3.dll文件

手机浏览器隐藏地址栏的代码

贡献一个fisco-bcos-browser-front基于官方的代码改造的兼容手机浏览器和pc浏览器

android 代码中切换输入法,在Android系统中切换输入法的相关教程

conductor client 代码快速分析

【手把手反内卷】开创全新AI多模态任务一视听分割：代码实践、优化教程（二）

谷歌浏览器Chrome自动更新到最新版本，ChromeDriver和浏览器版本不一致，导致代码无法运行

发表评论

推荐文章

1024分辨率《圣徒天神魔煞猎魔教士》BD中字无水印

win7电脑网络里只看到一部分电脑

图解把云服务器和办公环境服务器组成局域网

怎么把计算机上的资源进行共享,如何实现两台电脑资源共享

Linux 无法正常启动的解决方法 | 文件系统修复

热门文章

谷歌翻译一键修复|谷歌翻译无法使用：

配置 Everything 使HTTP搜索生效，通过手机浏览器搜索访问计算机文件

解决win10开启Hyper-V失败

9、python——文件操作

云计算 openstack 云平台搭建详细教程（基于 Vmware 虚拟机搭建）

本地电脑与远程桌面无法复制粘贴怎么办

阿里巴巴发布第一台云电脑“无影” 可线上无限扩容升级

阳光系统 两台win7系统电脑如何共享打印机

如何查看wifi密码，黑客技术学习

百度手机输入法，如何使用五笔98版？

最新文章

关于各大输入法词库格式之间的转换

ubuntu install baidu inputmethod

Mac输入法设置

lubuntu输入法设置_Ubuntu 设置中文输入法

Linux 搜狗输入法 繁简切换 输入框显示 解决方案 WebStorm快捷键冲突 Ctrl+Shift+F

百度宣布开放其输入法的应用程序接口

android 10.0 第三方输入法app设置系统默认输入法

百度词库bdict、搜狗细胞词库scel 转 txt 格式

centos图形化界面安装,中文输入法,mysql安装

android手机软件入门,新手入门Android手机必装软件之输入法篇

android 输入法判断,Android如何检测输入法键盘是否显示

Ubuntu18.04安装QQ、网易云音乐、百度云盘、搜狗输入法

vue用户用输入法，切换大小输入写无法监听

【ubuntu】 输入法消失，重启（sogou）

都2021年了，输入法还能怎么玩出花？百度智慧输入：toB商业化！

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

阳光系统两台win7系统电脑如何共享打印机

Linux 搜狗输入法繁简切换输入框显示解决方案 WebStorm快捷键冲突 Ctrl+Shift+F

【ubuntu】输入法消失，重启（sogou）

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载