一个基于 Llama 3 的开源权重函数调用模型,具有与 GPT-4o 函数调用能力相当的竞争力。

工具 70b

15.3K 4 个月前

自述文件

Firefunction-v2 在函数调用能力方面与 GPT-4o 相当,在 Medley 公开基准测试中得分为 0.81,而 GPT-4o 为 0.80。

Firefunction-v2 针对现实世界场景进行了优化,包括多轮对话、指令遵循和并行函数调用。它保留了 Llama 3 的多轮指令能力(在 MT 基准测试中为 0.84,而 Llama 3 为 0.89),同时在函数调用任务上始终优于 Llama 3(在 Nexus 并行多函数评估中为 0.51,而 Llama 3 为 0.30)。

参考

博文

Hugging Face