中大推全球首个粤语大语言模型评测平台

更新时间:03:00 2025-10-31 HKT
发布时间:03:00 2025-10-31 HKT

  香港中文大学昨日宣布推出全球首个专为粤语设计的动态评测平台及生态系统「CLEVA-Cantonese」。该平台通过建立公平、动态且具参考价值的评估基准,客观检视各类大语言模型对粤语的理解与支援程度,并为研究人员与开发者提供具参考价值的分析,助力粤语大语言模型的优化与实际应用。

有份领导研发此项目的中大禤永明系统工程与工程管理学讲座教授、博智感知交互研究中心主任蒙美玲表示,「我们观察到,尽管大语言模型在短时间内发展迅速,但其对香港粤语的支援仍相对薄弱。」她进一步指出,传统评测方法难以直接应用于粤语评估,主因在于粤语的语法结构、发音与俗语表达具有高度独特性,加上粤语语料相对稀缺,构建高质量评测数据仍为研究难点,因此全面评测必须依赖长期而动态的数据支持。
现有大模型难理解「食水深」
  蒙美玲强调,若大语言模型缺乏足够的粤语数据训练,便无法理解粤语的独特表达方式,而现时不少人对粤语大模型的表现存疑。她以粤语用词「食水深」为例,该词为香港常用俚语,但大语言模型则难以理解,因为没有相关数据训练;又例如粤语中「银行」与「行街」的「行」字读音不同,大语言模型亦有可能在理解上出错。
  目前「CLEVA-Cantonese」团队已完成首轮评估,当中涵盖多个国际与本地的大语言模型。结果显示,即使是最新的型号,都仍难以完全掌握粤语细致语义,在语法、发音及词汇方面均有显著提升空间。中大计算机科学与工程学系助理教授、CLEVA项目负责人王历伟表示,「我们专注于评测并提供改进建议,让业界包括公司与研究部门,能据此有效提升模型在粤语理解与生成上的表现。」他又指,共同推动跨语言大语言模型能即时惠及粤语社群。
从三大方向拓展平台
  对于未来的愿景,蒙美玲表示,团队计划建立开放的评测平台,供研究人员、开发者及机构使用,为发展更好的粤语大模型提供具体详细的评测和建议。系统将采用最新模型进行多维度评估,从文化、语法、音译及知识理解等层面,指出大模型的不足之处。开发者可依据评测结果,针对性地进行数据收集、模型架构设计与训练方式调整,从而提升模型效能。
  团队亦将从「任务与数据」、「可信系统」与「跨学科合作」三大方向拓展平台,引入更多元的数据,评估模型风险与可信度,并推动跨领域协作,持续更新并共享多元数据资源,以促进语言学、教育及文化领域的研究合作。
  蒙美玲补充指,「中大在中文及粤语研究方面积累深厚,为平台发展提供了坚实基础。」