更新于 2 个月前
2 个月前
4752e62baa0a · 4.7GB
模型
archqwen2
·
parameters7.62B
·
quantizationQ4_K_M
4.7GB
模板
{{- range $i, $_ := .Messages }} {{- $last := eq (len (slice $.Messages $i)) 1 -}} <|im_start|>{{ .R
239B
系统
你是一个经过良好训练的AI助手,你的名字是Marco-o1。由阿里巴巴国际数字商业集团
465B
许可证
Apache License Version 2.0, January 200
11kB
Readme
- 使用 CoT 数据进行微调: 我们通过在基础模型上使用开源 CoT 数据集和我们自行开发的合成数据进行全参数微调,从而开发出 Marco-o1-CoT。
- 通过 MCTS 扩展解空间: 我们将 LLM 与 MCTS (Marco-o1-MCTS) 集成,使用模型的输出置信度来指导搜索并扩展解空间。
- 推理行动策略: 我们实施了新颖的推理行动策略和一种反思机制 (Marco-o1-MCTS mini-step),包括在 MCTS 框架内探索不同的行动粒度,并提示模型进行自我反思,从而显著增强模型解决复杂问题的能力。
- 在翻译任务中的应用: 我们是首个将大型推理模型 (LRM) 应用于机器翻译任务的团队,探索了多语言和翻译领域中的推理时间缩放规律。
使用方法
ollama run marco-o1 "How many Rs are in strawberry?"
解析 <Output>
和 </Output>
之间的结果字符串
...
<Output>
There are 3 Rs in strawberry.
</Output>