OpenAI推「PaperBench」測試 證最強AI Agent未超越人類
更新時間:10:29 2025-04-03 HKT
發佈時間:10:29 2025-04-03 HKT
發佈時間:10:29 2025-04-03 HKT

OpenAI於昨日(2日)宣布推出全新基準測試「PaperBench」,旨在評估AI Agent複製頂尖AI研究的能力,結果顯示即使最先進模型仍未超越人類基準線。
PaperBench要求AI Agent從零開始複製20篇於ICML 2024會議上發表的Spotlight和Oral論文,包括理解論文核心貢獻、獨立開發代碼庫及成功執行相關實驗。為確保評估公正客觀,研究團隊設計了層級化評分標準,將每項複製任務分解為8,316個可獨立評分的子任務。
OpenAI表示,所有評分標準均與原論文作者共同制定,以確保評估的準確性和實用性。團隊同時開發了基於大型語言模型的評判系統,能夠自動對AI Agent的複製嘗試進行評分。
測試結果顯示,目前表現最佳的AI Agent,由Anthropic開發的Claude 3.5 Sonnet(新版本),平均複製分數僅達21%。研究團隊亦邀請頂尖機器學習博士生完成相同測試,結果表明AI模型尚未能超越人類專家在研究複製方面的能力。目前OpenAI已開源相關代碼,以促進業界對AI Agent工程能力的進一步研究。
最Hit
深圳龍華街頭驚現人頭 警指少女30樓墜下身首異處
2025-06-03 20:56 HKT
六合彩得主女兒罕公開談變化 撰文近4千字稱父母中獎後性格劇變:「好欣賞佢哋冇畀金錢蒙蔽雙眼」|Juicy叮
2025-06-03 16:08 HKT
醫工結合│研發便攜式AI眼底相機 助基層醫療創新
10小時前