AlchemistCoder 是 InternLM 开发的一系列编码模型。由 Llama 2 调整。

7B

17 拉取 更新于 2 个月前

读我文件

模型概要
AlchemistCoder 是 InternLM 出品的系列编码模型。
此模型从 Llama 2 进行调优,应在所有与编码相关的任务中表现优异。

亮点

摘要:开源的大型语言模型(LLMs)及其专用变体,特别是代码 LLMs,最近取得了令人印象深刻的表现。然而,以往的代码 LLMs 通常在质量有限且多样化的单源数据上进行微调,这可能会不足以充分激发预训练代码 LLMs 的潜力。在本文中,我们介绍了 AlchemistCoder,这是一系列通过在多源数据上微调而增强了代码生成和泛化能力的代码 LLMs。为此,我们率先揭示了多源代码语料库中各种风格和质量的固有冲突,并引入了具有事后重标记的数据特定提示,称为 AlchemistPrompts,以协调不同数据源和指令-响应对。此外,我们将数据构建过程作为代码理解任务纳入微调数据,包括指令演化、数据过滤和代码审查。广泛的实验表明,AlchemistCoder 在相同大小(6.7B/7B)的所有模型中具有明显优势,并且在与较大模型(15B/33B/70B)的竞争中甚至超越了它们,展示了我们方法在改进指令遵循能力和推进代码智能边界方面的有效性。

AlchemistPrompts:设计为协调多源数据中固有冲突的数据特定提示,并在细粒度上缓解指令/响应偏差。

代码理解任务:源于数据构建过程,包括指令演化、数据过滤和代码审查。

协调的多源数据:在 200M 令牌上调整的指令,包括 6 类高质量数据。

卓越的模型性能:超出所有同等规模的开放源代码模型(6.7/7B),在 6 个代码基准测试中与较大模型(15B/33B/70B/ChatGPT)相媲美甚至超越。

高级通用能力:通过在 MMLU、BBH 和 GSM8K 上的显著改进得到证明。