Snowflake 的前沿嵌入模型。Arctic Embed 2.0 增加了多语言支持,而不会牺牲英语性能或可扩展性。
嵌入 568m
629 次拉取 更新于 昨天
自述文件
Snowflake 欣然宣布发布 Arctic Embed 2.0,这是我们前沿嵌入模型的下一代迭代,它现在支持多语言搜索。虽然我们之前的版本受到了客户、合作伙伴和开源社区的欢迎,导致数百万次下载,但我们始终收到一个请求:你能让这个模型支持多语言吗?Arctic Embed 2.0 在我们先前版本强大的基础上构建,增加了多语言支持,而不会牺牲英语性能或可扩展性,以满足更广泛的用户群体的需求,这些用户群体的语言和应用程序范围广泛。
图 1. 参数少于 10 亿的开源多语言嵌入模型的单向量稠密检索性能。分数是 MTEB 检索和涵盖英语、法语、西班牙语、意大利语和德语的 CLEF(ELRA,2006)子集上的平均 nDCG@10。
Arctic Embed 2.0 多样化且强大的功能集
- 企业级吞吐量和效率:Arctic Embed 2.0 模型是为大规模企业需求而构建的。即使是我们的“大型”模型,其参数也远低于 10 亿,并提供快速、高吞吐量的嵌入功能。根据内部测试,它在 NVIDIA A10 GPU 上轻松处理每秒超过 100 个文档(平均),并实现亚 10 毫秒的查询嵌入延迟,从而能够在经济实惠的硬件上进行实际部署。
- 对英语和非英语检索毫不妥协的质量:尽管 Arctic Embed 2.0 模型体积紧凑,但在各种英语和非英语基准数据集上都取得了令人印象深刻的 NDCG@10 分数,这证明了其即使对训练方案中未包含的语言也能很好地泛化的能力。这些令人印象深刻的基准分数使 Arctic Embed 2.0 成为前沿检索模型中的领导者。
- 通过 Matryoshka 表示学习 (MRL) 实现可扩展的检索:Arctic Embed 2.0 版本包含在 Arctic Embed 1.5 中引入的相同易于量化的 MRL 功能,允许用户在对大型数据集执行搜索时降低成本和优化规模。对于两种模型大小,用户都可以使用低至每向量 128 字节(比 OpenAI 流行的 text-embedding-3-large 模型1 的未压缩嵌入小 96 倍)的数据量实现高质量的检索。与 Arctic Embed 1.5 一样,Arctic Embed 2.0 模型在压缩状态下也优于许多支持 MRL 的同类产品,质量下降幅度明显更低,基准分数更高。
- 真正的开源:Arctic Embed 2.0 模型在宽松的 Apache 2.0 许可证下发布。