qwq

QwQ 是一个专注于提升 AI 推理能力的实验性研究模型。

工具 32b

153.9K 2 个月前

Readme

QwQ 是由 Qwen 团队开发的 32B 参数实验性研究模型,专注于提升 AI 推理能力。

image.png

image.png

QwQ 在这些基准测试中展现了卓越的性能

  • 在 GPQA 上取得 65.2% 的成绩,展示了其研究生水平的科学推理能力
  • 在 AIME 上取得 50.0% 的成绩,突显了其强大的数学问题解决能力
  • 在 MATH-500 上取得 90.6% 的成绩,展示了在不同主题中卓越的数学理解能力
  • 在 LiveCodeBench 上取得 50.0% 的成绩,验证了其在真实场景中强大的编程能力。

这些结果强调了 QwQ 在分析和问题解决能力方面的显著进步,尤其是在需要深入推理的技术领域。

作为一个预览版本,它展示了有希望的分析能力,但也存在一些重要的局限性

  1. 语言混合和代码切换: 该模型可能会混合语言或意外地在语言之间切换,从而影响响应的清晰度。

  2. 递归推理循环: 该模型可能会进入循环推理模式,导致冗长的响应,而没有结论性的答案。

  3. 安全和伦理考量: 该模型需要加强安全措施以确保可靠和安全的性能,用户在部署时应谨慎。

  4. 性能和基准测试限制: 该模型在数学和编码方面表现出色,但在其他领域仍有改进空间,例如常识推理和细致的语言理解。