一系列为视觉语言理解而设计的多模态大型语言模型 (MLLM)。

视觉 8b

47.1K 2周前

自述文件

注意:此模型需要Ollama 0.3.10或更高版本。

MiniCPM-V 2.6是MiniCPM-V系列中最新也是功能最强大的模型。该模型基于SigLip-400M和Qwen2-7B构建,共有80亿个参数。它比MiniCPM-Llama3-V 2.5有了显著的性能提升,并引入了用于多图像和视频理解的新功能。MiniCPM-V 2.6的显著特点包括

  • 🔥 领先的性能:MiniCPM-V 2.6在最新的OpenCompass版本(对8个流行基准的综合评估)中平均得分达到65.2。凭借仅80亿个参数,它在单图像理解方面超越了广泛使用的专有模型,例如GPT-4o mini、GPT-4V、Gemini 1.5 Pro和Claude 3.5 Sonnet。

  • 🖼️ 多图像理解和上下文学习。MiniCPM-V 2.6还可以对多张图像进行对话和推理。它在流行的多图像基准测试(如Mantis-Eval、BLINK、Mathverse mv和Sciverse mv)上取得了最先进的性能,并在上下文学习能力方面也表现出良好的潜力。

  • 💪 强大的OCR能力:MiniCPM-V 2.6可以处理任何纵横比和最多180万像素的图像(例如,1344x1344)。它在OCRBench上取得了最先进的性能,超越了GPT-4o、GPT-4V和Gemini 1.5 Pro等专有模型。基于最新的RLAIF-V和VisCPM技术,它具有可信赖的行为,在Object HalBench上的幻觉率显著低于GPT-4o和GPT-4V,并支持英语、中文、德语、法语、意大利语、韩语等多种语言。

  • 🚀 卓越的效率:除了其友好的规模外,MiniCPM-V 2.6还在令牌密度(即编码到每个视觉令牌中的像素数量)方面表现出最先进的水平。它在处理180万像素图像时仅产生640个令牌,比大多数模型少75%。这直接提高了推理速度、首个令牌延迟、内存使用率和功耗。

参考文献

GitHub

Hugging Face