港大评测36款大语言模型中文语境下推理能力

更新时间：12:13 2025-08-26 HKT
发布时间：12:13 2025-08-26 HKT

香港大学经管学院昨日发表《大语言模型推理能力测评报告》，针对36款主流大语言模型（LLM）进行中文语境下推理能力的基准测试，为AI「最强大脑」作评测。报告显示，GPT-o3在基础逻辑能力评测上取得领先，Gemini 2.5 Flash在情境推理能力评测中位列榜首。

港大表示，在综合能力排名上，豆包1.5 Pro（思考模式）排名首位，Open AI近日推出的GPT-5紧随其后，豆包1.5 Pro、通义千问3（思考模式），以及DeepSeek-R1在内的多款来自中国的LLM也均排入前列，展现了中国LLM在中文语境中优越的推理能力。

↓立即下载星岛头条App↓

最Hit

即时中国

2026-03-15 17:35 HKT

突发

3小时前

饮食

2026-03-15 15:31 HKT

社会

9小时前

时事热话

2026-03-15 12:59 HKT

饮食

2026-03-15 18:02 HKT

时事热话

9小时前

社会资讯

11小时前

大国外交

10小时前

影视圈

9小时前

港大评测36款大语言模型 中文语境下推理能力