基于Llama 3的开放权重函数调用模型,其功能调用能力可与GPT-4o媲美。

工具 70b

15.3K 4个月前

自述文件

Firefunction-v2 的功能调用能力可与 GPT-4o 媲美,在一系列公开基准测试中得分 0.81,而 GPT-4o 的得分为 0.80。

Firefunction-v2针对实际应用场景进行了优化,包括多轮对话、指令遵循和并行函数调用。它保留了 Llama 3 的多轮指令能力(在 MT 基准测试中得分为 0.84 对比 0.89),同时在函数调用任务中持续优于 Llama 3(在 Nexus 并行多函数评估中得分为 0.51 对比 0.30)。

参考文献

博客文章

Hugging Face