qwq

QwQ是Qwen系列的推理模型。

工具 32b

868.2K 6 天前

Readme

QwQ是Qwen系列的推理模型。与传统的指令微调模型相比,QwQ具有思考和推理能力,可以在下游任务中实现显着增强的性能,尤其是难题。QwQ-32B是中等规模的推理模型,能够实现与最先进的推理模型(例如DeepSeek-R1,o1-mini)相媲美的性能。

未来工作

这标志着Qwen在扩展强化学习(RL)以增强推理能力方面的初步尝试。通过这个过程,我们不仅见证了扩展RL的巨大潜力,而且认识到预训练语言模型中未开发的潜力。当我们致力于开发下一代Qwen时,我们坚信,将更强大的基础模型与由扩展计算资源支持的RL相结合,将推动我们更接近实现通用人工智能(AGI)。此外,我们正在积极探索将代理与RL集成,以实现长期推理,旨在通过推理时间扩展来释放更大的智能。

参考