一系列为视觉语言理解而设计的多模态大型语言模型 (MLLM)。

视觉 8b

47.1K 2 周前

自述文件

注意:此模型需要 Ollama 0.3.10 或更高版本。

MiniCPM-V 2.6 是 MiniCPM-V 系列中最新且功能最强大的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建,共有 80 亿个参数。它在性能上显著优于 MiniCPM-Llama3-V 2.5,并引入了用于多图像和视频理解的新功能。MiniCPM-V 2.6 的显著特点包括

  • 🔥 领先的性能:MiniCPM-V 2.6 在最新的 OpenCompass 版本(对 8 个流行基准的综合评估)中平均得分达到 65.2。它仅用 80 亿个参数就超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等广泛使用的专有模型的单图像理解能力。

  • 🖼️ 多图像理解和上下文学习:MiniCPM-V 2.6 还可以对多张图像进行对话和推理。它在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 等流行的多图像基准测试中取得了最先进的性能,并在上下文学习方面也显示出良好的潜力。

  • 💪 强大的 OCR 能力:MiniCPM-V 2.6 可以处理任意长宽比、像素高达 180 万像素的图像(例如,1344x1344)。它在 OCRBench 上取得了最先进的性能,超越了 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等专有模型。基于最新的 RLAIF-V 和 VisCPM 技术,它具有可靠的行为,在 Object HalBench 上的幻觉率显著低于 GPT-4o 和 GPT-4V,并支持英语、中文、德语、法语、意大利语、韩语等多种语言。

  • 🚀 卓越的效率:除了友好的规模外,MiniCPM-V 2.6 还展现了最先进的 token 密度(即编码到每个视觉 token 中的像素数量)。在处理 180 万像素的图像时,它只产生 640 个 token,比大多数模型少 75%。这直接提高了推理速度、首个 token 延迟、内存使用率和功耗。

参考文献

GitHub

Hugging Face