港闻

娱乐

最Hit

即时

中国

国际

星岛申诉王

财经

地产

生活

健康

教育

体育

大湾区

专栏

马经

TV

PLUS

港大经管学院昨日发表了《大语言模型推理能力测评报告》。资料图片

港大评测36款大语言模型中文语境下推理能力

更新时间：12:13 2025-08-26 HKT
发布时间：12:13 2025-08-26 HKT

港大经管学院昨日发表了《大语言模型推理能力测评报告》。资料图片

香港大学经管学院昨日发表《大语言模型推理能力测评报告》，针对36款主流大语言模型（LLM）进行中文语境下推理能力的基准测试，为AI「最强大脑」作评测。报告显示，GPT-o3在基础逻辑能力评测上取得领先，Gemini 2.5 Flash在情境推理能力评测中位列榜首。

港大表示，在综合能力排名上，豆包1.5 Pro（思考模式）排名首位，Open AI近日推出的GPT-5紧随其后，豆包1.5 Pro、通义千问3（思考模式），以及DeepSeek-R1在内的多款来自中国的LLM也均排入前列，展现了中国LLM在中文语境中优越的推理能力。

↓立即下载星岛头条App↓

↓立即下载星岛头条App↓

最Hit

慈云山兄弟为执房问题起争执兄危站簷篷2小时后堕楼亡｜珍惜生命

突发

4小时前

Save Lily︱Danny父母学历、家庭背景曝光二人相识逾十载惟无结婚男方声称持物理治疗师资格

Save Lily︱Danny父母学历、家庭背景曝光二人相识逾十载惟无结婚男方声称持物理治疗师资格

社会

6小时前

Save Lily｜法庭按指示送Danny往收容所其父母同意抽取DNA作比对

突发

7小时前

爆粗校长｜李卓兴辞职但要求8月底始生效新会商会中学校董会不接受：即时解雇不予代通知金

爆粗校长｜李卓兴辞职但要求8月底始生效新会商会中学校董会不接受：即时解雇不予代通知金

社会

7小时前

墙身发霉勿用漂白水抹？本地油漆品牌警告易招4大后果：求大家唔好再用！

墙身发霉勿用漂白水抹？本地油漆品牌警告易招4大后果：求大家唔好再用！

生活百科

10小时前

置业是不少人的毕生梦想。中新社

男子买34楼住宅13年未收楼开发商：只准建32层

即时中国

13小时前

何鸿燊四房成员齐集何猷君世纪婚礼四太梁安琪母亲罕露面超欣性感现身超盈女儿拍掌猷亨献唱

何鸿燊四房成员齐集何猷君世纪婚礼四太梁安琪母亲罕露面超欣性感现身超盈女儿拍掌猷亨献唱

影视圈

7小时前

公务员加薪｜薪趋会确认薪酬趋势调查结果高层薪趋势总指标薪达5.16%

公务员加薪｜薪趋会确认薪酬趋势调查结果高层薪趋势总指标薪达5.16%

政情

9小时前

星岛申诉王｜缺席谢师宴都要夹$200？中六学生斥责不合理：强制好霸道

星岛申诉王｜中六生斥缺席谢师宴都要夹$200 教职员否认食霸王餐：我们会出钱买礼物

申诉热话

7小时前

101岁罗艳卿坐轮椅现身：跌跛脚少出街爆生活日常最爱「车大炮」打麻雀常「走鸡」

101岁罗艳卿坐轮椅现身：跌跛脚少出街爆生活日常最爱「车大炮」打麻雀常「走鸡」

影视圈

18小时前