更新于 3 个月前
3 个月前
c92bfad01205 · 5.5GB
自述文件
注意:此模型需要 Ollama 0.3.10 或更高版本。
MiniCPM-V 2.6 是 MiniCPM-V 系列中最新且功能最强大的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建,总共有 8B 个参数。 与 MiniCPM-Llama3-V 2.5 相比,它在性能方面有了显着改进,并引入了用于多图像和视频理解的新功能。 MiniCPM-V 2.6 的显着特点包括
🔥 领先的性能:MiniCPM-V 2.6 在最新版本的 OpenCompass 上实现了 65.2 的平均分,该版本对 8 个流行的基准进行了全面评估。 仅使用 8B 参数,它就超过了广泛使用的专有模型,例如 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet,适用于单图像理解。
🖼️ 多图像理解和上下文学习。 MiniCPM-V 2.6 还可以对多个图像执行对话和推理。 它在流行的多图像基准测试(例如 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv)上实现了最先进的性能,并且还显示出有希望的上下文学习能力。
💪 强大的 OCR 功能:MiniCPM-V 2.6 可以处理具有任何纵横比且高达 180 万像素(例如,1344x1344)的图像。 它在 OCRBench 上实现了最先进的性能,超过了 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等专有模型。 基于最新的 RLAIF-V 和 VisCPM 技术,它具有值得信赖的行为,在 Object HalBench 上的幻觉率显着低于 GPT-4o 和 GPT-4V,并且支持英语、中文、德语、法语、意大利语、韩语等多语言功能。
🚀 卓越的效率:除了其友好的尺寸外,MiniCPM-V 2.6 还显示出最先进的token密度(即,编码到每个视觉token中的像素数)。 处理 180 万像素图像时,它仅产生 640 个token,比大多数模型少 75%。 这直接提高了推理速度、首个token延迟、内存使用率和功耗。