qwq

QwQ 是一款实验性研究模型,专注于提升 AI 的推理能力。

工具 32b

33.9K 7天前

自述文件

QwQ 是 Qwen 团队开发的一个拥有 320 亿参数的实验性研究模型,专注于提升 AI 的推理能力。

image.png

image.png

QwQ 在这些基准测试中展现了卓越的性能

  • **GPQA 得分 65.2%**,展现了其研究生级别的科学推理能力
  • **AIME 得分 50.0%**,突显了其强大的数学问题解决能力
  • **MATH-500 得分 90.6%**,展现了其在不同数学主题上的出色理解能力
  • **LiveCodeBench 得分 50.0%**,验证了其在真实场景中强大的编程能力。

这些结果突显了 QwQ 在分析和解决问题能力方面的显著进步,尤其是在需要深度推理的技术领域。

作为预览版本,它展现了有前景的分析能力,但也存在一些重要的局限性

  1. **语言混合和代码切换:**模型可能会意外地混合语言或在语言之间切换,影响响应的清晰度。

  2. **递归推理循环:**模型可能会进入循环推理模式,导致冗长的响应而没有结论性的答案。

  3. **安全和伦理考虑:**模型需要增强的安全措施以确保可靠和安全的性能,用户在部署时应谨慎。

  4. **性能和基准测试的局限性:**该模型在数学和编码方面表现出色,但在其他领域,例如常识推理和细微的语言理解方面仍有改进空间。