Llama 3.2 Vision 是一系列经过指令微调的图像推理生成模型,尺寸分别为 11B 和 90B。

视觉 11b 90b

28.8K 昨天

自述文件

Llama 3.2-Vision 多模态大型语言模型 (LLM) 集合是一个经过指令微调的图像推理生成模型集合,尺寸分别为 11B 和 90B(文本 + 图像输入 / 文本输出)。Llama 3.2-Vision 指令微调模型针对视觉识别、图像推理、字幕生成和回答关于图像的一般问题进行了优化。在常见行业基准测试中,这些模型的性能超过了许多可用的开源和闭源多模态模型。

支持的语言:对于仅文本任务,正式支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 已接受比这 8 种支持语言更广泛的语言集合的训练。请注意,对于图像+文本应用程序,仅支持英语。

使用方法

首先,拉取模型

ollama pull llama3.2-vision

Python 库

要使用 Llama 3.2 Vision 和 Ollama Python 库

import ollama

response = ollama.chat(
    model='llama3.2-vision',
    messages=[{
        'role': 'user',
        'content': 'What is in this image?',
        'images': ['image.jpg']
    }]
)

print(response)

JavaScript 库

要使用 Llama 3.2 Vision 和 Ollama JavaScript 库

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'llama3.2-vision',
  messages: [{
    role: 'user',
    content: 'What is in this image?',
    images: ['image.jpg']
  }]
})

console.log(response)

cURL

curl https://127.0.0.1:11434/api/chat -d '{
  "model": "llama3.2-vision",
  "messages": [
    {
      "role": "user",
      "content": "what is in this image?",
      "images": ["<base64-encoded image data>"]
    }
  ]
}'

参考资料

GitHub

HuggingFace