理大推GenAI訓練新法 需要時數減半 表現媲美大模型

更新時間:00:05 2025-10-24 HKT
發佈時間:00:05 2025-10-24 HKT

生成式人工智能(GenAI)是目前業界的重要發展之一,成立了數個月的香港理工大學人工智能高等研究院(PAAI),其研究團隊近期提出「協作式生成人工智能」訓練模式,將傳統的集中式AI訓練模式改為分散式訓練,並將分散訓練的AI模型併合至一個大模型中,能以更低的算力和訓練時數,做到媲美現有大模型的表現。團隊亦希望將新模式模型「端到端FP8低比特訓練全套方案」開源化,讓更多的機構參與AI研發,推動更多的技術突破。

理大︰顯存使用量減少約24%  訓練時間降48%

PAAI執行院長、計算機及數學科學院副院長(環球事務)及電子計算學系教授楊紅霞形容,目前的AI大模型仍是「富人的遊戲」,主要是訓練基礎模型需要消耗鉅量計算資源,僅有少數機構可以負擔,現時團隊是希望透過技術開源,協助原本未能構建自家模型的人和機構,有機會以最低的成本建構自家的模型。

理大提出的AI模型訓練新模式,其核心之一是「去中心化」,將從不同地方訓練的小模型併合成一個大模型,並整合「持續預訓練」、「監督式微調」和「強化學習」。楊紅霞解釋,相較現時主流訓練模式BF16,FP8需要的顯存使用量可減少約24%,訓練時間減少約48%,代表只需約一半的算力就能做到現時大模型的效果。

她續稱,傳統基礎模型的集中式訓練需要數以百萬計的GPU小時,例如目前全球最強的AI模型如要從零開始結構,估計大概需要100至200萬個GPU小時,使用128甚至256張GPU卡訓練半至一個月,但運用理大團隊的「InfiFusion模型融合技術」,僅需數百小時就能達到接近甚至優於原始模型的表現,例如目前最強的AI模型如Mistral、OpenAI、Gemma、Phi-4等在最具代表性的18個測試項目上,評分基本介乎75至77分,但理大的AI經強化學習後可於部分達到88分。

楊紅霞:集各家所長 如「吸星大法」

在原理上,楊紅霞表示,各個小模型可以各有所長如計算數學題、寫代碼、文字理解等,然後將之融合令它各方皆精,有如「吸星大法」一樣,「你不需要花太多的努力,別人的能力你摸一下就能將它記住過來了。」

她指團隊目前已訓練出醫療基礎大模型,並研發專屬「癌症GenAI」,可快速積累醫療數據和對接醫療設備,用於規劃個人化治療,目前正與復旦大學附屬華山醫院、中山大學腫瘤防治中心、山東省腫瘤醫院及香港伊利沙伯醫院推動合作落地;另外,團隊亦將推展FP4精度訓練的研究,冀進一步減少相關成本,相信這亦是未來的趨勢。

理大高級副校長(研究及創新)趙汝恒指出,GenAI正改變不同領域發展,AI亦是加速培育新質生產力的核心,PAAI將致力加速AI技術在各重點領域的深度融合,並針對不同行業開發具備專業領域知識的AI模型。他強調研究只停留在理論並不足夠,應要能落地應用、幫到產業發展,而因理大涉及學科範圍廣闊,料有更多應用新技術、將之產業化的機會。

記者 歐文瀚

延伸閱讀︰

認知障礙|理大揭中藥提取物粉防己鹼關鍵機制 為治療阿茲海默症等拓新方向

理大推「教育4.0」 新任副校長曹建農:2026/27學年推AI必修科