最新系列的代码专用Qwen模型,在代码生成、代码推理和代码修复方面都有显著改进。

工具 0.5b 1.5b 3b 7b 14b 32b

775.6K 3周前

自述文件

Qwen 2.5 Coder系列模型现已更新为6个尺寸:0.5B、1.5B、3B、7B、14B和32B

代码生成代码推理代码修复方面均有显著改进。32B模型的性能与OpenAI的GPT-4o具有竞争力。

32B: ollama run qwen2.5-coder:32b

14B: ollama run qwen2.5-coder:14b

7B: ollama run qwen2.5-coder:7b

3B: ollama run qwen2.5-coder:3b

1.5B: ollama run qwen2.5-coder:1.5b

0.5B: ollama run qwen2.5-coder:0.5b

代码能力达到开源模型的最新水平

Comparison benchmarks

代码生成:作为此次开源版本中的旗舰模型,Qwen2.5 Coder 32B Instruct在多个流行的代码生成基准测试(EvalPlus、LiveCodeBench、BigCodeBench)中取得了最佳性能,并且与GPT-4o具有竞争力。

代码修复:代码修复是一项重要的编程技能。Qwen2.5 Coder 32B Instruct可以帮助用户修复代码中的错误,提高编程效率。Aider是一个流行的代码修复基准测试,Qwen2.5 Coder 32B Instruct在Aider上的得分达到73.7,与GPT-4o的性能相当。

代码推理:代码推理是指模型学习代码执行过程并准确预测模型输入和输出的能力。最近发布的Qwen2.5 Coder 7B Instruct已经在代码推理方面展现出令人印象深刻的性能,而这个32B模型则更进一步。

Benchmarks

多种编程语言

一个智能编程助手应该熟悉所有编程语言。Qwen 2.5 Coder 32B在40多种编程语言中表现出色,在McEval上的得分达到65.9,在Haskell和Racket等语言中表现出色。Qwen团队在预训练阶段使用了他们独特的独特数据清洗和平衡方法。

McEval Performance

此外,Qwen 2.5 Coder 32B Instruct的多语言代码修复能力仍然令人印象深刻,帮助用户理解和修改他们熟悉的编程语言,大大降低了学习不熟悉语言的成本。与McEval类似,MdEval是一个多语言代码修复基准测试,Qwen 2.5 Coder 32B Instruct在MdEval上的得分达到75.2,在所有开源模型中排名第一。

MdEval Performance

人类偏好

为了评估Qwen 2.5 Coder 32B Instruct与人类偏好的匹配性能,我们构建了一个名为Code Arena(类似于Arena Hard)的内部注释代码偏好评估基准。我们使用GPT-4o作为偏好匹配的评估模型,采用“A胜过B”的评估方法,衡量测试集中模型A得分超过模型B的实例百分比。以下结果证明了Qwen 2.5 Coder 32B Instruct在偏好匹配方面的优势。

human preference

多种模型尺寸以适应您的设备

Model sizes

参考文献

博客文章

HuggingFace