一个开源的专家混合模型 (Mixture-of-Experts) 代码语言模型,其在特定代码任务中的性能可与 GPT4-Turbo 相媲美。
16b 236b
423.5K 拉取请求 更新于 3个月前
3个月前更新
3个月前
e307d50c3f31 · 102GB
模型
架构deepseek2
·
参数236B
·
量化Q3_K_S
102GB
参数
{ "stop": [ "System:", "User:", "Assistant:", "<|begin_of_text|>
72B
模板
{{- if .Suffix }}<|fim_begin|>{{ .Prompt }}<|fim_hole|>{{ .Suffix }}<|fim_end|> {{- else }}{{ .Promp
115B
许可证
MIT License Copyright (c) 2023 DeepSeek Permission is hereby granted, free of charge, to any perso
1.1kB
许可证
DEEPSEEK LICENSE AGREEMENT Version 1.0, 23 October 2023 Copyright (c) 2023 DeepSeek Section I: PR
14kB
自述文件
DeepSeek-Coder-V2 是一个开源的专家混合模型 (MoE) 代码语言模型,其在特定代码任务中的性能可与 GPT4-Turbo 相媲美。DeepSeek-Coder-V2 基于 DeepSeek-Coder-V2-Base 进行了进一步预训练,训练数据来自高质量的多源语料库,共计 6 万亿个 tokens。