自述文件
- 使用 CoT 数据进行微调:我们通过使用开源 CoT 数据集结合我们自主开发的合成数据对基础模型进行全参数微调,开发了Marco-o1-CoT。
- 通过 MCTS 扩展解决方案空间:我们将大型语言模型与 MCTS 集成 (Marco-o1-MCTS),利用模型的输出置信度来指导搜索并扩展解决方案空间。
- 推理动作策略:我们实现了新颖的推理动作策略和反思机制 (Marco-o1-MCTS 小步),包括在 MCTS 框架内探索不同的动作粒度,并提示模型进行自我反思,从而显著增强模型解决复杂问题的能力。
- 在翻译任务中的应用:我们是首批将大型推理模型 (LRM) 应用于机器翻译任务 的团队,探索了多语言和翻译领域中的推理时间缩放规律。
使用方法
ollama run marco-o1 "How many Rs are in strawberry?"
解析 `<Output>` 和 `</Output>` 之间的结果字符串。
...
<Output>
There are 3 Rs in strawberry.
</Output>