OpenAI推「PaperBench」測試證最強AI Agent未超越人類

更新時間：10:29 2025-04-03 HKT
發佈時間：10:29 2025-04-03 HKT

OpenAI於昨日（2日）宣布推出全新基準測試「PaperBench」，旨在評估AI Agent複製頂尖AI研究的能力，結果顯示即使最先進模型仍未超越人類基準線。

PaperBench要求AI Agent從零開始複製20篇於ICML 2024會議上發表的Spotlight和Oral論文，包括理解論文核心貢獻、獨立開發代碼庫及成功執行相關實驗。為確保評估公正客觀，研究團隊設計了層級化評分標準，將每項複製任務分解為8,316個可獨立評分的子任務。

OpenAI表示，所有評分標準均與原論文作者共同制定，以確保評估的準確性和實用性。團隊同時開發了基於大型語言模型的評判系統，能夠自動對AI Agent的複製嘗試進行評分。

測試結果顯示，目前表現最佳的AI Agent，由Anthropic開發的Claude 3.5 Sonnet（新版本），平均複製分數僅達21%。研究團隊亦邀請頂尖機器學習博士生完成相同測試，結果表明AI模型尚未能超越人類專家在研究複製方面的能力。目前OpenAI已開源相關代碼，以促進業界對AI Agent工程能力的進一步研究。

↓即睇減息部署↓