基于Llama 3的开放权重函数调用模型,其功能调用能力可与GPT-4o媲美。

工具 70b

15.3K 4个月前

自述文件

Firefunction-v2的功能调用能力可与GPT-4o媲美,在一系列公共基准测试中的得分是0.81,而GPT-4o的得分是0.80。

Firefunction-v2针对现实世界场景进行了优化,包括多轮对话、指令遵循和并行函数调用。它保留了Llama 3的多轮指令功能(在MT基准测试中得分0.84,而GPT-4o为0.89),同时在函数调用任务中始终优于Llama 3(在Nexus并行多函数评估中得分0.51,而Llama 3为0.30)。

参考资料

博客文章

Hugging Face