使用一种名为“反思调整”的新技术训练的性能优异的模型,可以教导大型语言模型检测其推理中的错误并修正方向。

70b

95.9K 2 个月前

自述文件

在采样期间,模型将首先在 `<thinking>` 和 `</thinking>` 标签内输出推理结果,然后当它对自己的推理感到满意时,将在 `<output>` 和 `</output>` 标签内输出最终答案。这些标签都是模型中经过训练的特殊标记。

这使得模型能够将其内部想法和推理与最终答案区分开来,从而改善用户体验。

在 `<thinking>` 部分,模型可能会输出一个或多个 `<reflection>` 标签,这表示模型在其推理中发现了错误,并将尝试在提供最终答案之前纠正它。

参考

Hugging Face