BGE-M3 是 BAAI 推出的全新模型,以其在多功能性、多语言性和多粒度方面的通用性而著称。
嵌入 (embedding) 567m
288.7K 拉取次数 更新于 6 个月前
自述 (Readme)
BGE-M3 基于 XLM-RoBERTa 架构,并以其在多功能性、多语言性和多粒度方面的通用性而著称
- 多功能性 (Multi-Functionality):它可以同时执行嵌入模型的三种常见检索功能:稠密检索、多向量检索和稀疏检索。
- 多语言性 (Multi-Linguality):它支持 100 多种工作语言。
- 多粒度 (Multi-Granularity):它能够处理不同粒度的输入,范围从短句到最多 8192 个 token 的长文档。
来自开源社区的基准测试
@misc{bge-m3,
title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation},
author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
year={2024},
eprint={2402.03216},
archivePrefix={arXiv},
primaryClass={cs.CL}
}