港大評測36款大語言模型 中文語境下推理能力
更新時間:12:13 2025-08-26 HKT
發佈時間:12:13 2025-08-26 HKT
發佈時間:12:13 2025-08-26 HKT

香港大學經管學院昨日發表《大語言模型推理能力測評報告》,針對36款主流大語言模型(LLM)進行中文語境下推理能力的基準測試,為AI「最強大腦」作評測。報告顯示,GPT-o3在基礎邏輯能力評測上取得領先,Gemini 2.5 Flash在情境推理能力評測中位列榜首。
港大表示,在綜合能力排名上,豆包1.5 Pro(思考模式)排名首位,Open AI近日推出的GPT-5緊隨其後,豆包1.5 Pro、通義千問3(思考模式),以及DeepSeek-R1在內的多款來自中國的LLM也均排入前列,展現了中國LLM在中文語境中優越的推理能力。
最Hit
永東巴士跨境直通巴優惠!$18來往香港/深圳 設多個上車點 直達大型商場
2025-08-25 11:41 HKT
全港6成自置物業已供滿 贖契後必須妥善保存 有業主寧願再加按|曹德明
2025-08-25 06:00 HKT
恒大退市|昔日內房龍頭終退市 16萬散戶未逃生 一文回顧許家印從巔峰到落難
2025-08-25 16:11 HKT