自述文件
Sailor2 是一项社区主导的倡议,旨在为东南亚(SEA)带来最先进的多语言语言模型。我们的研究强调了在生产用途方面对80亿和200亿参数范围的模型以及用于专业应用(例如投机解码和研究目的)的10亿参数模型的强烈需求。这些模型在Apache 2.0 许可证下发布,增强了该地区对先进语言技术的可访问性。
Sailor2 建立在强大的多语言模型 Qwen 2.5 的基础之上,并持续在 5000 亿个 token 上进行预训练,以更好地支持 15 种语言的统一模型。这些语言包括英语、中文、缅甸语、宿务语、伊洛卡诺语、印尼语、爪哇语、高棉语、老挝语、马来语、巽他语、塔加路语、泰语、越南语和瓦拉伊语。通过满足对多样化、强大且易于访问的语言模型日益增长的需求,Sailor2 致力于通过开放、包容和易于访问的多语言大型语言模型为东南亚地区服务不足的地区提供服务。Sailor2 模型有三种尺寸:10 亿、80 亿和 200 亿,分别扩展自 Qwen2.5 的 5 亿、70 亿和 140 亿基本模型。