AI OpenAI宣布推出AI Agent评测基准PaperBench

OpenAI宣布推出AI Agent评测基准PaperBench

作者: 新芒Group 发布: 2025年4月3日 8,222

新芒xAI 4月2日消息当地时间4月2日，美国开放人工智能研究中心（OpenAI）宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。

智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文，包括理解论文贡献、开发代码库并成功执行实验。据介绍，在PaperBench上测试多个前沿模型后发现，表现最佳的智能体Claude 3.5 Sonnet（新版）结合开源框架，平均复现得分为21.0%。

最终其招募顶尖机器学习博士尝试部分测试集，发现上述模型表现尚未超越人类基线。

文章来源信息声明：本文信息出自权威媒体、企业官方及网络，并经新芒X编辑，转载请注明源出处、作者和链接。图片部分来源于网络，在此表示感谢，如有侵权请联系我方处理。文章发布日期后方火形图标后的数字，为文章热度，谨代表受欢迎程度。新芒X平台仅对用户提供信息及决策参考，本文不构成投资建议。

新芒出品，专注专业。兼具内容品质和传播影响力