- 1、本文档共41页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
AI辅助编程真实测评
与企业落地实践
作者:蒋志伟
蒋志伟
爱好技术的架构师
参与OpenTelemetry开源社区
曾0-1搭建美团APP的推荐、有哪些信誉好的足球投注网站服务
曾负责Q上亿用户机票有哪些信誉好的足球投注网站、低价推荐系统有旅游GDS(全球分销系统)的技术专利
开源项目
基于场景的AI编程测评集
/laziobird/CodeLLMTEval
个人简要
AI辅助编程的
背景和必威体育精装版发展
AI编程生成能力的可行性测评
测评集现状与全场景测评介绍
企业提效的落地现状与解决方案
01
AI辅助编程的背景与发展
2003Bengio团队
嵌入技术,将高维稀疏的数据通过神经网络或其他算法映射到低维稠密的向量空间,尤其WordEmbedding词向量普遍用于NLP领域
2013Google
Word2Vec模型生成词向量成为自然语言处理的标配方法,通过上下文来预测当前词语的CBOW训练方法,为后来神经网络语言模型的发展奠定了基础
AI在自然语言处理NLP上的里程碑
Transformer
人工智能对自然语言的上下文推理、一词多义理解能力的加持。让场景契合的辅助编程领域
有了快速的发展
辅助编程相关场景任务一般有三大类:
•代码-代码:包含代码补全、代码修复
•代码-文本:代码解释、代码优化、代码异常排查
•文本-代码:通过高级提示词Prompt做代码生成(单元测试、API、SQL、数据建模等)
CodeLLM(代码生成大语言模型)的发展
CodeLLM:代码生成大语言模型的发展
关键模型与项目
/pdf/2311.07989v1
•2024.7CodeGeeX4
/THUDM/CodeGeeX4
•2024.6DeepSeek-V2
/deepseek-ai/DeepSeek-V2
模型测试训练、测试数据不足
现有的CodeLLM测评工具通常使用有限的训练数据
以HumanEval、MBPP代表代码模型评测数据几年没更新
评估标准单一
现有的CodeLLM测评原理只关注代码结果的正确性,看不到代码的可读性、完整性、通用性等维度的信息
测评打分原理造假容易
各家公布自家测试结果,测评是黑盒的状态
将测评集放到训练集中训练,好比
拿着标准答案答考题,测评分数会虚高
现有CodeLLM测评数据集问题
Github上公布的测评结果明显有水分
•同样大模型不同测评来源,评分不一样
代码大模型各家评测基数差异巨大
•阿里巴巴CodeQwen
•DeepSeekCoderV2
•智谱CodeGeeX4
•基本常识性错误
•北大aiXcoder
•MetaCodeLlama
最常用的测评:HumanEval
OpenAI发布的一个评估大型语言模型在代码生成方面表现的基准测试。它包含164个设计的Python编程任务,每个任务有多个单元测试,通过评估模型生成的代码是否能通过这些单元测试来评判模型的能力
代码大模型评测集工作原理
根据测评文件编程任务给出prompt,调用大模型生成完整代码,保存到一个样本文件的completion字段中
用JSON格式定义好编程任务,保存测评集在文件中
4批量动态执行每个任务程序,如果单元测试用例通过,返回passed,最后调用pass@k的算法测评打分
pass@k打分算法
代码大模型评测集工作原理
假设样本文件叫samples.jsonl,调用叫evaluate_functional_correctness函数完成1-4的步骤
用程序读取样本文件,批量把任务生成中代码和任务的单元测试代码合并成一个完整的程序
简单修改测试集数据,增加正确答案样本
pass@k分值明显提高,达到0.4994
3业界都自家测评打分没有透明渠道
造假成本太低
简单来造个假
1部署HummanEval测评环境准备编程任务、答案样本
简单用测试集和问题集运行打分效果,pass@k分值0.16
02
基于场景功能的测评测试集
基
文档评论(0)