Llama 3.2 Vision 是一个包含 11B 和 90B 大小的指令微调图像推理生成模型的集合。
vision 11b 90b
28.8K 拉取 更新于 昨天
更新于 2 天前
2 天前
085a1fdae525 · 7.9GB
模型
架构mllama
·
参数9.78B
·
量化Q4_K_M
6.0GB
投影仪
架构mllama
·
参数895M
·
量化F16
1.9GB
参数
{"temperature":0.6,"top_p":0.9}
32B
模板
{{- range $index, $_ := .Messages }}<|start_header_id|>{{ .Role }}<|end_header_id|> {{ .Content }}
269B
许可证
LLAMA 3.2 社区许可协议 Llama 3.2 版本发布日期:2024 年 9 月 25 日“协议”
7.7kB
自述文件
Llama 3.2-Vision 多模态大型语言模型 (LLM) 集合是一个包含 11B 和 90B 大小的指令微调图像推理生成模型的集合(文本 + 图像输入 / 文本输出)。Llama 3.2-Vision 指令微调模型针对视觉识别、图像推理、字幕生成和回答有关图像的一般问题进行了优化。在常见行业基准测试中,这些模型的性能优于许多现有的开源和封闭多模态模型。
支持的语言:对于仅文本的任务,正式支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 接受过比这 8 种支持语言更广泛的语言集的训练。请注意,对于图像 + 文本应用程序,仅支持英语。
用法
首先,拉取模型
ollama pull llama3.2-vision
Python 库
要使用 Ollama Python 库 使用 Llama 3.2 Vision
import ollama
response = ollama.chat(
model='llama3.2-vision',
messages=[{
'role': 'user',
'content': 'What is in this image?',
'images': ['image.jpg']
}]
)
print(response)
JavaScript 库
要使用 Ollama JavaScript 库 使用 Llama 3.2 Vision
import ollama from 'ollama'
const response = await ollama.chat({
model: 'llama3.2-vision',
messages: [{
role: 'user',
content: 'What is in this image?',
images: ['image.jpg']
}]
})
console.log(response)
cURL
curl https://127.0.0.1:11434/api/chat -d '{
"model": "llama3.2-vision",
"messages": [
{
"role": "user",
"content": "what is in this image?",
"images": ["<base64-encoded image data>"]
}
]
}'