伯克利函数调用排行榜(Berkeley Function-Calling Leaderboard,简称 BFCL)[1]是一个用于评估大型语言模型(LLM)在准确调用函数或工具方面的能力的在线平台。BFCL是一个全面评估大型语言模型(LLM)调用函数和工具能力的平台,包括多种编程语言和应用场景。该平台通过提供问题-函数-答案对,评估模型在不同场景下的表现,如简单函数调用、并行函数调用、多函数调用等。此外,BFCL还关注模型的成本和延迟,并在2024年8月19日发布了BFCL V2数据集,解决了偏见和数据污染问题,专注于动态真实世界场景。这个排行榜的特点包括:
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。