港聞

娛樂

最Hit

即時

中國

國際

星島申訴王

財經

地產

生活

健康

教育

體育

大灣區

專欄

馬經

TV

PLUS

港大經管學院昨日發表了《大語言模型推理能力測評報告》。資料圖片

港大評測36款大語言模型中文語境下推理能力

更新時間：12:13 2025-08-26 HKT
發佈時間：12:13 2025-08-26 HKT

港大經管學院昨日發表了《大語言模型推理能力測評報告》。資料圖片

香港大學經管學院昨日發表《大語言模型推理能力測評報告》，針對36款主流大語言模型（LLM）進行中文語境下推理能力的基準測試，為AI「最強大腦」作評測。報告顯示，GPT-o3在基礎邏輯能力評測上取得領先，Gemini 2.5 Flash在情境推理能力評測中位列榜首。

港大表示，在綜合能力排名上，豆包1.5 Pro（思考模式）排名首位，Open AI近日推出的GPT-5緊隨其後，豆包1.5 Pro、通義千問3（思考模式），以及DeepSeek-R1在內的多款來自中國的LLM也均排入前列，展現了中國LLM在中文語境中優越的推理能力。

↓立即下載星島頭條App↓

↓立即下載星島頭條App↓

最Hit

慈雲山兄弟為執房問題起爭執兄危站簷篷2小時後墮樓亡｜珍惜生命

突發

4小時前

Save Lily︱Danny父母學歷、家庭背景曝光二人相識逾十載惟無結婚男方聲稱持物理治療師資格

Save Lily︱Danny父母學歷、家庭背景曝光二人相識逾十載惟無結婚男方聲稱持物理治療師資格

社會

6小時前

Save Lily｜法庭按指示送Danny往收容所其父母同意抽取DNA作比對

突發

7小時前

爆粗校長｜李卓興辭職但要求8月底始生效新會商會中學校董會不接受：即時解僱不予代通知金

爆粗校長｜李卓興辭職但要求8月底始生效新會商會中學校董會不接受：即時解僱不予代通知金

社會

7小時前

牆身發霉勿用漂白水抹？本地油漆品牌警告易招4大後果：求大家唔好再用！

牆身發霉勿用漂白水抹？本地油漆品牌警告易招4大後果：求大家唔好再用！

生活百科

10小時前

置業是不少人的畢生夢想。中新社

男子買34樓住宅13年未收樓開發商：只准建32層

即時中國

13小時前

何鴻燊四房成員齊集何猷君世紀婚禮四太梁安琪母親罕露面超欣性感現身超盈女兒拍掌猷亨獻唱

何鴻燊四房成員齊集何猷君世紀婚禮四太梁安琪母親罕露面超欣性感現身超盈女兒拍掌猷亨獻唱

影視圈

7小時前

公務員加薪｜薪趨會確認薪酬趨勢調查結果高層薪趨勢總指標薪達5.16%

公務員加薪｜薪趨會確認薪酬趨勢調查結果高層薪趨勢總指標薪達5.16%

政情

9小時前

星島申訴王｜缺席謝師宴都要夾$200？中六學生斥責不合理：强制好霸道

星島申訴王｜中六生斥缺席謝師宴都要夾$200 教職員否認食霸王餐：我們會出錢買禮物

申訴熱話

7小時前

101歲羅艷卿坐輪椅現身：跌跛腳少出街爆生活日常最愛「車大炮」打麻雀常「走雞」

101歲羅艷卿坐輪椅現身：跌跛腳少出街爆生活日常最愛「車大炮」打麻雀常「走雞」

影視圈

18小時前