Llama 3.2 Vision 是一系列经过指令微调的图像推理生成模型,包含 11B 和 90B 两种尺寸。
vision (视觉) 11b 90b
1.5M 下载量 更新于 4 个月前
4 个月前更新
4 个月前
7a7cc5461ef1 · 12GB
模型 (model)
架构 (arch)mllama
·
参数 (parameters)9.78B
·
量化 (quantization)Q8_0
10GB
投影器 (projector)
架构 (arch)mllama
·
参数 (parameters)895M
·
量化 (quantization)F16
1.9GB
参数 (params)
{ "temperature": 0.6, "top_p": 0.9 }
32B
模板 (template)
{{- range $index, $_ := .Messages }}<|start_header_id|>{{ .Role }}<|end_header_id|> {{ .Content }}
269B
许可 (license)
LLAMA 3.2 COMMUNITY LICENSE AGREEMENT Llama 3.2 Version Release Date: September 25, 2024 “Agreeme
7.7kB
自述文件 (Readme)
Llama 3.2-Vision 多模态大型语言模型 (LLM) 集合是一系列经过指令微调的图像推理生成模型,包含 11B 和 90B 两种尺寸(输入为文本 + 图像 / 输出为文本)。Llama 3.2-Vision 指令微调模型针对视觉识别、图像推理、图像描述以及回答有关图像的常见问题进行了优化。 这些模型在常见的行业基准测试中优于许多可用的开源和闭源多模态模型。
支持的语言:对于仅文本任务,官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。 Llama 3.2 已经在比这 8 种支持的语言更广泛的语言集合上进行了训练。 请注意,对于图像+文本应用程序,仅支持英语。
用法 (Usage)
首先,拉取模型
ollama pull llama3.2-vision
Python 库
要将 Llama 3.2 Vision 与 Ollama Python 库一起使用
import ollama
response = ollama.chat(
model='llama3.2-vision',
messages=[{
'role': 'user',
'content': 'What is in this image?',
'images': ['image.jpg']
}]
)
print(response)
JavaScript 库
要将 Llama 3.2 Vision 与 Ollama JavaScript 库一起使用
import ollama from 'ollama'
const response = await ollama.chat({
model: 'llama3.2-vision',
messages: [{
role: 'user',
content: 'What is in this image?',
images: ['image.jpg']
}]
})
console.log(response)
cURL
curl https://127.0.0.1:11434/api/chat -d '{
"model": "llama3.2-vision",
"messages": [
{
"role": "user",
"content": "what is in this image?",
"images": ["<base64-encoded image data>"]
}
]
}'