港大评测36款大语言模型 中文语境下推理能力

更新时间:12:13 2025-08-26 HKT
发布时间:12:13 2025-08-26 HKT

香港大学经管学院昨日发表《大语言模型推理能力测评报告》,针对36款主流大语言模型(LLM)进行中文语境下推理能力的基准测试,为AI「最强大脑」作评测。报告显示,GPT-o3在基础逻辑能力评测上取得领先,Gemini 2.5 Flash在情境推理能力评测中位列榜首。

港大表示,在综合能力排名上,豆包1.5 Pro(思考模式)排名首位,Open AI近日推出的GPT-5紧随其后,豆包1.5 Pro、通义千问3(思考模式),以及DeepSeek-R1在内的多款来自中国的LLM也均排入前列,展现了中国LLM在中文语境中优越的推理能力。