港大评测36款大语言模型 中文语境下推理能力
更新时间:12:13 2025-08-26 HKT
发布时间:12:13 2025-08-26 HKT
发布时间:12:13 2025-08-26 HKT
香港大学经管学院昨日发表《大语言模型推理能力测评报告》,针对36款主流大语言模型(LLM)进行中文语境下推理能力的基准测试,为AI「最强大脑」作评测。报告显示,GPT-o3在基础逻辑能力评测上取得领先,Gemini 2.5 Flash在情境推理能力评测中位列榜首。
港大表示,在综合能力排名上,豆包1.5 Pro(思考模式)排名首位,Open AI近日推出的GPT-5紧随其后,豆包1.5 Pro、通义千问3(思考模式),以及DeepSeek-R1在内的多款来自中国的LLM也均排入前列,展现了中国LLM在中文语境中优越的推理能力。
最Hit
保时捷︱山东家属爆窗攞AED救人 车主霸气一句网民赞器量大
2026-03-15 17:35 HKT
韩国旅客食茶记睇中奶茶杯?老板坚称不卖后1招霸气回应 数万网民激赞:输出香港文化
2026-03-15 15:31 HKT
小学作文唔畀写「雪糕」?老师圈错改「冰淇淋」港妈大控诉:香港只有雪糕车 掀网民总动员考证|Juicy叮
2026-03-15 12:59 HKT
中菜馆点心半价抢客!坚持新鲜现做「非预制」网民热议:要多啲支持帮衬
2026-03-15 18:02 HKT

















