基于Llama 3的开放权重函数调用模型,其功能调用能力与GPT-4o具有竞争力。

工具 70b

15.3K 4个月前

自述文件

Firefunction-v2在功能调用能力方面与GPT-4o具有竞争力,在一系列公开基准测试中的得分达到0.81,而GPT-4o的得分则为0.80。

Firefunction-v2针对现实世界场景进行了优化,包括多轮对话、指令遵循和并行函数调用。它保留了Llama 3的多轮指令能力(在MT基准测试中得分0.84对0.89),同时在函数调用任务中始终优于Llama 3(在Nexus并行多功能评估中得分0.51对0.30)。

参考文献

博客文章

Hugging Face