DeepSeek-V2 的升级版本,集成了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct 的通用和编码能力。

236b

8,693 8 周前

自述文件

DeepSeek-V2.5 是一个升级版本,它结合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。新模型集成了两个先前版本的通用和编码能力。

DeepSeek-V2.5 更好地符合人类偏好,并在写作和指令遵循等各个方面进行了优化。

指标 DeepSeek-V2-0628 DeepSeek-Coder-V2-0724 DeepSeek-V2.5
AlpacaEval 2.0 46.6 44.5 50.5
ArenaHard 68.3 66.3 76.2
AlignBench 7.88 7.91 8.04
MT-Bench 8.85 8.91 9.02
HumanEval python 84.5 87.2 89
HumanEval Multi 73.8 74.8 73.8
LiveCodeBench(01-09) 36.6 39.7 41.8
Aider 69.9 72.9 72.2
SWE-verified N/A 19 16.8
DS-FIM-Eval N/A 73.2 78.3
DS-Arena-Code N/A 49.5 63.1

参考

Hugging Face