一个基于 Llama 3 的开放权重函数调用模型,其功能调用能力可与 GPT-4o 相媲美。

工具 70b

13.8K 3 个月前

自述文件

Firefunction-v2 在功能调用能力方面可与 GPT-4o 相媲美,在多种公共基准测试中得分 0.81,而 GPT-4o 的得分为 0.80。

Firefunction-v2 针对现实世界场景进行了优化,包括多轮对话、指令遵循和并行功能调用。它保留了 Llama 3 的多轮指令功能(在 MT 基准测试中得分 0.84 对 0.89),同时在功能调用任务中始终优于 Llama 3(在 Nexus 并行多功能评估中得分 0.51 对 0.30)。

参考资料

博客文章

Hugging Face