论文地址: http://arxiv.org/pdf/2212.10264v1.pdf
来源: AWS AI Labs
论文名称:ReCode: Robustness Evaluation of Code Generation Models
原文作者:Shiqi Wang
内容提要
代码生成模型已经取得了令人印象深刻的性能。然而,它们往往很脆弱,因为对提示符的轻微修改可能会导致截然不同的生成;这些鲁棒性属性在实际应用程序中部署时对用户体验至关重要,但并没有很好地被理解。大多数现有的关于文本或代码任务中的鲁棒性的工作都集中在分类上,而生成任务中的鲁棒性是一个未知的领域,到目前为止还没有代码生成中的鲁棒性的综合基准。在本文中,我们提出了ReCode,一个代码生成模型的综合鲁棒性评估基准。我们专门为文档字符串、函数和变量名、代码语法和代码格式上的代码定制了30多种转换。它们经过精心设计,在现实编码实践中是自然的,保留原始语义,从而提供模型鲁棒性性能的多方面评估。通过人工注释,我们验证了超过90%的扰动提示不会改变原始提示的语义。此外,我们定义了代码生成模型的鲁棒性度量,考虑到每种扰动类型下的最坏情况行为,利用执行生成的代码可以作为客观评估的事实。我们使用HumanEval、MBPP以及从中派生的功能完成任务在SOTA模型上演示ReCode。得到了有趣的观察结果:CodeGen优于InCoder和GPT-J的鲁棒性;模型对语法扰动最为敏感;MBPP比HumanEval更具的稳健性。
主要框架及实验结果
声明:文章来自于网络,仅用于学习分享,版权归原作者所有