港大評測36款大語言模型 中文語境下推理能力

更新時間:12:13 2025-08-26 HKT
發佈時間:12:13 2025-08-26 HKT

香港大學經管學院昨日發表《大語言模型推理能力測評報告》,針對36款主流大語言模型(LLM)進行中文語境下推理能力的基準測試,為AI「最強大腦」作評測。報告顯示,GPT-o3在基礎邏輯能力評測上取得領先,Gemini 2.5 Flash在情境推理能力評測中位列榜首。

港大表示,在綜合能力排名上,豆包1.5 Pro(思考模式)排名首位,Open AI近日推出的GPT-5緊隨其後,豆包1.5 Pro、通義千問3(思考模式),以及DeepSeek-R1在內的多款來自中國的LLM也均排入前列,展現了中國LLM在中文語境中優越的推理能力。