qwen2.5-coder:1.5b-instruct-q4_K_S

qwen2.5-coder

自述文件

Qwen 2.5 Coder 系列模型现已更新至 6 个尺寸：0.5B、1.5B、3B、7B、14B 和 32B。

在代码生成、代码推理和代码修复方面均有显著改进。32B 模型的性能与 OpenAI 的 GPT-4o 具有竞争力。

32B： ollama run qwen2.5-coder:32b

14B： ollama run qwen2.5-coder:14b

7B： ollama run qwen2.5-coder:7b

3B： ollama run qwen2.5-coder:3b

1.5B： ollama run qwen2.5-coder:1.5b

0.5B： ollama run qwen2.5-coder:0.5b

代码能力达到开源模型的最新水平

代码生成：作为此次开源发布的旗舰模型，Qwen2.5 Coder 32B Instruct 在多个流行的代码生成基准测试（EvalPlus、LiveCodeBench、BigCodeBench）中取得了最佳的开源模型性能，并且与 GPT-4o 的性能具有竞争力。

代码修复：代码修复是一项重要的编程技能。Qwen2.5 Coder 32B Instruct 可以帮助用户修复代码中的错误，提高编程效率。Aider 是一个流行的代码修复基准测试，Qwen2.5 Coder 32B Instruct 在 Aider 上的得分是 73.7，与 GPT-4o 的性能相当。

代码推理：代码推理是指模型学习代码执行过程并准确预测模型输入和输出的能力。最近发布的 Qwen2.5 Coder 7B Instruct 已经在代码推理方面展现出令人印象深刻的性能，而这个 32B 模型则更进一步。

多种编程语言

一个智能编程助手应该熟悉所有编程语言。Qwen 2.5 Coder 32B 在 40 多种编程语言中表现出色，在 McEval 上的得分是 65.9，在 Haskell 和 Racket 等语言中的表现令人印象深刻。Qwen 团队在预训练阶段使用了他们独特的独有数据清洗和平衡方法。

此外，Qwen 2.5 Coder 32B Instruct 的多语言代码修复能力仍然令人印象深刻，可以帮助用户理解和修改他们熟悉的编程语言，显著降低学习不熟悉语言的成本。与 McEval 类似，MdEval 是一个多语言代码修复基准测试，Qwen 2.5 Coder 32B Instruct 在 MdEval 上的得分是 75.2，在所有开源模型中排名第一。

人类偏好

为了评估 Qwen 2.5 Coder 32B Instruct 与人类偏好的一致性性能，我们构建了一个名为 Code Arena（类似于 Arena Hard）的内部注释代码偏好评估基准。我们使用 GPT-4o 作为偏好一致性的评估模型，采用“A 对 B 获胜”的评估方法，该方法衡量测试集中模型 A 的得分超过模型 B 的实例百分比。下面的结果证明了 Qwen 2.5 Coder 32B Instruct 在偏好一致性方面的优势。

多种模型尺寸，适合您的设备

参考文献

博客文章

HuggingFace

Qwen 2.5 Coder series of models are now updated in 6 sizes: **0.5B, 1.5B, 3B, 7B, 14B and 32B**.

There are significant improvements in **code generation**, **code reasoning** and **code fixing**. The 32B model has competitive performance with OpenAI's GPT-4o.

**32B:** 
`ollama run qwen2.5-coder:32b`

**14B:** 
`ollama run qwen2.5-coder:14b`

**7B:** 
`ollama run qwen2.5-coder:7b`

**3B:**
`ollama run qwen2.5-coder:3b`

**1.5B:**
`ollama run qwen2.5-coder:1.5b`

**0.5B:**
`ollama run qwen2.5-coder:0.5b`

### Code capabilities reaching state of the art for open-source models

![Comparison benchmarks](/assets/library/qwen2.5-coder/05059413-3cc4-4b07-b546-001594d0ae26)

**Code Generation:** Qwen2.5 Coder 32B Instruct, as the flagship model of this open-source release, has achieved the best performance among open-source models on multiple popular code generation benchmarks (EvalPlus, LiveCodeBench, BigCodeBench), and has competitive performance with GPT-4o.

**Code Repair:** Code repair is an important programming skill. Qwen2.5 Coder 32B Instruct can help users fix errors in their code, making programming more efficient. Aider is a popular benchmark for code repair, and Qwen2.5 Coder 32B Instruct scored 73.7, performing comparably to GPT-4o on Aider.

**Code Reasoning:** Code reasoning refers to the model’s ability to learn the process of code execution and accurately predict the model’s inputs and outputs. The recently released Qwen2.5 Coder 7B Instruct has already shown impressive performance in code reasoning, and this 32B model takes it a step further.

![Benchmarks](/assets/library/qwen2.5-coder/0bd9e1aa-a87b-474b-84ba-264a85041605)

### Multiple programming languages
An intelligent programming assistant should be familiar with all programming languages. Qwen 2.5 Coder 32B performs excellent across more than 40 programming languages, scoring 65.9 on McEval, with impressive performances in languages like Haskell and Racket. The Qwen team used their own unique data cleaning and balancing during the pre-training phase.

![McEval Performance](/assets/library/qwen2.5-coder/6436978b-1371-48a4-a21a-b6da729b74e1)

Additionally, the multi-language code repair capabilities of Qwen 2.5 Coder 32B Instruct remain impressive, aiding users in understanding and modifying programming languages they are familiar with, significantly reducing the learning cost of unfamiliar languages. Similar to McEval, MdEval is a multi-language code repair benchmark, where Qwen 2.5 Coder 32B Instruct scored 75.2, ranking first among all open-source models.

![MdEval Performance](/assets/library/qwen2.5-coder/f2401bd6-f6d7-41ca-981d-98abc62f1493)

### Human Preference

To evaluate the alignment performance of Qwen 2.5 Coder 32B Instruct with human preferences, we constructed an internal annotated code preference evaluation benchmark called Code Arena (similar to Arena Hard). We used GPT-4o as the evaluation model for preference alignment, employing an ‘A vs. B win’ evaluation method, which measures the percentage of instances in the test set where model A’s score exceeds model B’s. The results below demonstrate the advantages of Qwen 2.5 Coder 32B Instruct in preference alignment.

![human preference](/assets/library/qwen2.5-coder/bbf378d8-c80e-4ae3-98ab-90111dfbf3e7)

### Comprehensive model sizes to fit your device

![Model sizes](/assets/library/qwen2.5-coder/752764ea-d510-4bc5-8658-dc5d8ba51019)

## References

[Blog Post](https://qwenlm.github.io/blog/qwen2.5-coder-family/)

[HuggingFace](https://hugging-face.cn/collections/Qwen/qwen25-coder-66eaa22e6f99801bf65b0c2f)

粘贴、拖放或点击上传图像（.png、.jpeg、.jpg、.svg、.gif）