OpenAI推「PaperBench」測試 證最強AI Agent未超越人類
更新時間:10:29 2025-04-03 HKT
發佈時間:10:29 2025-04-03 HKT
發佈時間:10:29 2025-04-03 HKT

OpenAI於昨日(2日)宣布推出全新基準測試「PaperBench」,旨在評估AI Agent複製頂尖AI研究的能力,結果顯示即使最先進模型仍未超越人類基準線。
PaperBench要求AI Agent從零開始複製20篇於ICML 2024會議上發表的Spotlight和Oral論文,包括理解論文核心貢獻、獨立開發代碼庫及成功執行相關實驗。為確保評估公正客觀,研究團隊設計了層級化評分標準,將每項複製任務分解為8,316個可獨立評分的子任務。
OpenAI表示,所有評分標準均與原論文作者共同制定,以確保評估的準確性和實用性。團隊同時開發了基於大型語言模型的評判系統,能夠自動對AI Agent的複製嘗試進行評分。
測試結果顯示,目前表現最佳的AI Agent,由Anthropic開發的Claude 3.5 Sonnet(新版本),平均複製分數僅達21%。研究團隊亦邀請頂尖機器學習博士生完成相同測試,結果表明AI模型尚未能超越人類專家在研究複製方面的能力。目前OpenAI已開源相關代碼,以促進業界對AI Agent工程能力的進一步研究。
最Hit
大家樂$20歎焗豬扒飯優惠!申請非遺突發減價 1招可搶購 全線分店適用
2025-06-05 15:40 HKT
40歲前TVB小花男友求婚4年仍未結傳婚事「撻Q」 發文3字交代二人最新關係發展
2025-06-05 14:00 HKT
酒樓有「吉枱」仍要搭枱?港人飲茶遇「獨特」經歷 指職員1原因不開新枱 網民斥趕客:冇生意仲要咁
2025-06-05 17:05 HKT
打風︱天文台:廣闊低壓區或進入華南沿岸 AI模型「盤古、伏羲」料6.13直吹香港
2025-06-05 16:41 HKT