港大評測36款大語言模型 中文語境下推理能力
更新時間:12:13 2025-08-26 HKT
發佈時間:12:13 2025-08-26 HKT
發佈時間:12:13 2025-08-26 HKT
香港大學經管學院昨日發表《大語言模型推理能力測評報告》,針對36款主流大語言模型(LLM)進行中文語境下推理能力的基準測試,為AI「最強大腦」作評測。報告顯示,GPT-o3在基礎邏輯能力評測上取得領先,Gemini 2.5 Flash在情境推理能力評測中位列榜首。
港大表示,在綜合能力排名上,豆包1.5 Pro(思考模式)排名首位,Open AI近日推出的GPT-5緊隨其後,豆包1.5 Pro、通義千問3(思考模式),以及DeepSeek-R1在內的多款來自中國的LLM也均排入前列,展現了中國LLM在中文語境中優越的推理能力。
最Hit
保時捷︱山東家屬爆窗攞AED救人 車主霸氣一句網民讚器量大
2026-03-15 17:35 HKT
韓國旅客食茶記睇中奶茶杯?老闆堅稱不賣後1招霸氣回應 數萬網民激讚:輸出香港文化
2026-03-15 15:31 HKT
小學作文唔畀寫「雪糕」?老師圈錯改「冰淇淋」港媽大控訴:香港只有雪糕車 掀網民總動員考證|Juicy叮
2026-03-15 12:59 HKT
中菜館點心半價搶客!堅持新鮮現做「非預製」網民熱議:要多啲支持幫襯
2026-03-15 18:02 HKT

















