阿里巴巴国际数字商业集团 (AIDC-AI) 推出的用于现实世界解决方案的开放式大型推理模型。

7b

12.2K 两天前

自述文件

  • 使用CoT数据微调:我们使用开源CoT数据集结合我们自己开发的合成数据,对基础模型进行全参数微调,开发了Marco-o1-CoT
  • 通过MCTS扩展解决方案空间:我们将LLM与MCTS集成(Marco-o1-MCTS),利用模型的输出置信度来指导搜索并扩展解决方案空间。
  • 推理动作策略:我们实现了新颖的推理动作策略和反思机制(Marco-o1-MCTS小步),包括在MCTS框架内探索不同的动作粒度,并提示模型进行自我反思,从而显著增强模型解决复杂问题的能力。
  • 在翻译任务中的应用:我们是第一个将大型推理模型 (LRM) 应用于机器翻译任务的,探索了多语言和翻译领域中的推理时间缩放规律。

使用方法

ollama run marco-o1 "How many Rs are in strawberry?"

解析<Output></Output>之间的结果字符串。

...
<Output>
There are 3 Rs in strawberry.
</Output>

参考文献

GitHub

HuggingFace