Mistral Small 3 在小于 70B 的“小型”大型语言模型类别中设立了新的基准。
tools 22b 24b
96.5K 下载量 更新时间 4 天前
4 个月前更新
4 个月前
04c315f44b8c · 15GB
模型
架构llama
·
参数22.2B
·
量化Q5_0
15GB
参数
{ "stop": [ "[INST]", "[/INST]", "</s>" ] }
47B
模板
{{- if .Messages }} {{- range $index, $_ := .Messages }} {{- if eq .Role "user" }} {{- if and (le (l
900B
许可证
# Mistral AI Research License If You want to use a Mistral Model, a Derivative or an Output for any
11kB
自述文件
Mistral Small 3 在小于 70B 的“小型”大型语言模型类别中设立了新的基准,拥有 24B 参数,并实现了可与更大型号相媲美的最先进的功能。
Mistral Small 可以本地部署,并且具有极高的“知识密度”,量化后可装入单张 RTX 4090 或 32GB RAM 的 MacBook 中。非常适合:
- 快速响应的对话代理。
- 低延迟函数调用。
- 通过微调成为主题 matter 专家。
- 为业余爱好者和处理敏感数据的组织进行本地推理。
主要特性
- 多语言: 支持数十种语言,包括英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语。
- 以代理为中心: 提供一流的代理功能,具有原生函数调用和 JSON 输出。
- 高级推理: 最先进的对话和推理能力。
- Apache 2.0 许可证: 开放许可证,允许将用途和修改用于商业和非商业目的。
- 上下文窗口: 32k 上下文窗口。
- 系统提示: 保持对系统提示的强烈遵守和支持。
- 分词器: 利用 Tekken 分词器,词汇量为 131k。
人工评估
我们与外部第三方供应商对超过 1k 个专有编码和通用提示集进行了并排评估。评估人员的任务是从 Mistral Small 3 与另一个模型生成的匿名结果中选择他们偏好的模型响应。我们知道,在某些情况下,关于人类判断的基准与公开可用的基准截然不同,但我们已格外谨慎地验证了评估的公平性。我们确信以上基准是有效的。
Instruct 性能
我们的指令调优模型在代码、数学、通用知识和指令遵循基准测试中,其性能与比其大三倍的开放权重模型以及专有的 GPT4o-mini 模型相比具有竞争力。
所有基准测试的性能准确度均通过相同的内部评估流程获得 - 因此,数字可能与之前报告的性能略有不同 (Qwen2.5-32B-Instruct, Llama-3.3-70B-Instruct, Gemma-2-27B-IT)。基于判断的评估(如 Wildbench、Arena hard 和 MTBench)基于 gpt-4o-2024-05-13。
客户正在多个行业评估 Mistral Small 3,包括
- 金融服务客户用于欺诈检测
- 医疗保健提供商用于客户分诊
- 机器人、汽车和制造公司用于设备端命令和控制
- 跨客户的横向用例包括虚拟客户服务以及情绪和反馈分析。