理大推GenAI训练新法 需要时数减半 表现媲美大模型

更新时间:00:05 2025-10-24 HKT
发布时间:00:05 2025-10-24 HKT

生成式人工智能(GenAI)是目前业界的重要发展之一,成立了数个月的香港理工大学人工智能高等研究院(PAAI),其研究团队近期提出「协作式生成人工智能」训练模式,将传统的集中式AI训练模式改为分散式训练,并将分散训练的AI模型并合至一个大模型中,能以更低的算力和训练时数,做到媲美现有大模型的表现。团队亦希望将新模式模型「端到端FP8低比特训练全套方案」开源化,让更多的机构参与AI研发,推动更多的技术突破。

理大︰显存使用量减少约24%  训练时间降48%

PAAI执行院长、计算机及数学科学院副院长(环球事务)及电子计算学系教授杨红霞形容,目前的AI大模型仍是「富人的游戏」,主要是训练基础模型需要消耗巨量计算资源,仅有少数机构可以负担,现时团队是希望透过技术开源,协助原本未能构建自家模型的人和机构,有机会以最低的成本建构自家的模型。

理大提出的AI模型训练新模式,其核心之一是「去中心化」,将从不同地方训练的小模型并合成一个大模型,并整合「持续预训练」、「监督式微调」和「强化学习」。杨红霞解释,相较现时主流训练模式BF16,FP8需要的显存使用量可减少约24%,训练时间减少约48%,代表只需约一半的算力就能做到现时大模型的效果。

她续称,传统基础模型的集中式训练需要数以百万计的GPU小时,例如目前全球最强的AI模型如要从零开始结构,估计大概需要100至200万个GPU小时,使用128甚至256张GPU卡训练半至一个月,但运用理大团队的「InfiFusion模型融合技术」,仅需数百小时就能达到接近甚至优于原始模型的表现,例如目前最强的AI模型如Mistral、OpenAI、Gemma、Phi-4等在最具代表性的18个测试项目上,评分基本介乎75至77分,但理大的AI经强化学习后可于部分达到88分。

杨红霞:集各家所长 如「吸星大法」

在原理上,杨红霞表示,各个小模型可以各有所长如计算数学题、写代码、文字理解等,然后将之融合令它各方皆精,有如「吸星大法」一样,「你不需要花太多的努力,别人的能力你摸一下就能将它记住过来了。」

她指团队目前已训练出医疗基础大模型,并研发专属「癌症GenAI」,可快速积累医疗数据和对接医疗设备,用于规划个人化治疗,目前正与复旦大学附属华山医院、中山大学肿瘤防治中心、山东省肿瘤医院及香港伊利沙伯医院推动合作落地;另外,团队亦将推展FP4精度训练的研究,冀进一步减少相关成本,相信这亦是未来的趋势。

理大高级副校长(研究及创新)赵汝恒指出,GenAI正改变不同领域发展,AI亦是加速培育新质生产力的核心,PAAI将致力加速AI技术在各重点领域的深度融合,并针对不同行业开发具备专业领域知识的AI模型。他强调研究只停留在理论并不足够,应要能落地应用、帮到产业发展,而因理大涉及学科范围广阔,料有更多应用新技术、将之产业化的机会。

记者 欧文瀚

延伸阅读︰

认知障碍|理大揭中药提取物粉防己碱关键机制 为治疗阿兹海默症等拓新方向

理大推「教育4.0」 新任副校长曹建农:2026/27学年推AI必修科