“俄亥俄”多所高校联手推出AgentBench,可测试大语言模型能力

2023-08-09 17:05:20来源:PingWest品玩

今天,很高兴为大家分享来自PingWest品玩的多所高校联手推出AgentBench,可测试大语言模型能力,如果您对多所高校联手推出AgentBench,可测试大语言模型能力感兴趣,请往下看。

品玩8月9日讯, Arxiv 页面显示,由来自清华大学、俄亥俄州立大学和加州大学伯克利分校等机构的研究者组成的团队近日发布一款测试工具AgentBench,可用于对大语言模型的能力进行测试。

AgentBench目前包括8个不同的任务,可测试大语言模型在多轮开放式生成环境中的推理和决策能力。实验结果显示,GPT-4当前的表现最佳,而 Claude和GPT3.5分别排名第二、第三。

AgentBench 的数据集、环境和集成评估软件包已发布在https://github.com/THUDM/AgentBench 上。

好了,关于多所高校联手推出AgentBench,可测试大语言模型能力就讲到这。


返回科技金融网首页 >>

版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。


相关文章