OpenCoder 是一个开放且可复现的代码 LLM 系列,包括 1.5B 和 8B 模型,支持英语和中文的聊天。
1.5b 8b
20K Pulls Updated 2 months ago
Updated 2 months ago
2 months ago
51ed11a37a94 · 16GB
model
archllama
·
parameters7.77B
·
quantizationF16
16GB
system
You are OpenCoder, created by OpenCoder Team.
45B
params
{ "stop": [ "<|im_start|>", "<|im_end|>", "<|fim_prefix|>", "<|f
164B
template
{{- range $i, $_ := .Messages }} {{- $last := eq (len (slice $.Messages $i)) 1 -}} <|im_start|>{{ .R
241B
license
Version Release Date: July 16, 2024 By engaging in any of the following activities with the Model o
6.2kB
Readme
OpenCoder 是一个开放且可复现的代码 LLM 系列,包括 1.5B 和 8B 模型,支持英语和中文。OpenCoder 从零开始,在包含 90% 原始代码和 10% 代码相关网络数据的 2.5 万亿 tokens 上进行预训练,并在超过 450 万个高质量 SFT 示例上进行监督微调,最终达到顶级代码 LLM 的性能。我们不仅提供模型权重和推理代码,还提供可复现的训练数据、完整的数据处理流程、严格的实验消融结果和详细的训练协议。OpenCoder 赋能研究人员进行构建和创新,是您推进代码 AI 的开放基础。
- 完全开源:OpenCoder 通过不仅发布模型权重和即将发布的推理代码,还发布用于训练的完整数据清理代码,来确保完全透明。此版本包括高质量的合成数据、大量的检查点以及超过 450 万个监督微调 (SFT) 条目的数据集,使 OpenCoder 成为最全面的开源模型之一。
- 全面的实验分析:OpenCoder 通过对各种数据清理策略和训练过程进行广泛的消融研究,包括文件级和仓库级去重实验,进行了严格的测试,确保了对模型性能的全面探索和验证。
- 高质量合成数据:OpenCoder 提供完全开发的合成数据生成过程和超过 450 万个 SFT 数据条目,为模型训练和评估奠定了强大的数据基础。
- 卓越的性能:OpenCoder 在多个语言模型基准测试中取得了高性能,使其跻身领先的开源代码模型之列。