更新于 8 周前
8 周前
4e957cb7ad06 · 6.4GB
自述文件
注意:此模型需要Ollama 0.3.10 或更高版本。
MiniCPM-V 2.6 是 MiniCPM-V 系列中最新的、功能最强大的模型。该模型基于 SigLip-400M 和 Qwen2-7B,总共包含 80 亿个参数。与 MiniCPM-Llama3-V 2.5 相比,该模型性能有了显著提升,并引入了针对多图像和视频理解的新功能。MiniCPM-V 2.6 的主要功能包括
🔥 领先的性能:MiniCPM-V 2.6 在最新版本的 OpenCompass 上的平均得分为 65.2,这是一个涵盖 8 个热门基准的综合评估。仅用 80 亿个参数,它就超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等广泛使用的专有模型,用于单图像理解。
🖼️ 多图像理解和上下文学习。MiniCPM-V 2.6 还可以对多个图像进行对话和推理。它在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 等热门多图像基准测试中取得了最先进的性能,并且在上下文学习方面也展现出良好的潜力。
💪 强大的 OCR 功能:MiniCPM-V 2.6 可以处理任何纵横比和最多 180 万像素的图像(例如,1344x1344)。它在 OCRBench 上取得了最先进的性能,超越了 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等专有模型。基于最新的 RLAIF-V 和 VisCPM 技术,它具有可靠的行为,在 Object HalBench 上的幻觉率远低于 GPT-4o 和 GPT-4V,并且支持英语、中文、德语、法语、意大利语、韩语等的多种语言能力。
🚀 卓越的效率:除了友好的大小之外,MiniCPM-V 2.6 还展示了最先进的令牌密度(即编码到每个视觉令牌的像素数量)。它在处理 180 万像素图像时仅产生 640 个令牌,比大多数模型少 75%。这直接提高了推理速度、首个令牌延迟、内存使用和功耗。