BGE-M3 是 BAAI 推出的一个新模型,以其在多功能性、多语言性和多粒度方面的多功能性而著称。

嵌入 567m

28.1K 3 个月前

自述文件

BGE-M3 基于 XLM-RoBERTa 架构,以其在多功能性、多语言性和多粒度方面的多功能性而著称。

  • 多功能性:它可以同时执行嵌入模型的三个常见检索功能:稠密检索、多向量检索和稀疏检索。
  • 多语言性:它可以支持 100 多种工作语言。
  • 多粒度:它能够处理不同粒度的输入,从短句子到长达 8192 个标记的长文档。

来自开源社区的基准测试 image.png

@misc{bge-m3,
      title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation}, 
      author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
      year={2024},
      eprint={2402.03216},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}