【Inno Portal】收集广东话录音 训练AI语音辨识
语音辨识是AI训练的重要一环,但一直以来,广东话都被忽视,很多智能语音助理都不支援广东话,即使支援,辨识能力亦较低,不及英文或国语。采用开放方式运作的 Mozilla多年前推出 Mozilla 语音计划「Common Voice」,机械人学会真人说话方式,去年开始收集广东话,但反应不太踊跃。
「Common Voice」正在收集全球各地的真人发声录音,当中包括广东话,用来制作各国语言的语音辨识系统,并会公开让人免费下载,自行开发语音辨识、机器对话等人工智能系统。Mozilla又会创造一套称为 Deep Speech 的开放原始码语音辨识引擎。
不过,Mozilla Hong Kong日前在社交平台发文指,需要大量广东话句子,多样化的口音,但暂时只有4个多小时(截至5月29日)已经检验的录音,数量远远未达到制作人工智能系统的要求,呼吁大家帮手。
大家只需到「Common Voice」网站点击「语言」,选择香港后,点击「贡献」,即可按照示以平常说话的方式讲出屏幕上的句子,并录下来,同时可以聆听检验其他人录制的句子是否正确。
笔者发现有不少有心人在录制时不时出现读错字、读漏字的情况,部分则因为句子太绕口发音有异。不过,听不同人读同一句子或类似句子,语气、音调、速度都不一样,其实都相当有趣,大家不妨试试。
录制广东话:https://voice.mozilla.org/zh-HK/speak
聆听广东话:https://voice.mozilla.org/zh-HK/listen
作者:小飞侠
[email protected]

要让机器听懂人说的话,先要做好语音辨识支援。(Alex Knight/unsplash)

「Common Voice」正在收集广东话真人发声录音。
最Hit
在职家庭津贴2026/27|4月上调入息资产限额 申请资格/津贴金额/一次性额外款项一文睇清
2026-04-04 11:53 HKT
长生津覆检开始!长者注意紫色通知书 未如期申报或被暂停津贴( 附最新资产限额+填表须知)
2026-04-03 19:21 HKT
六合彩|8000万复活节金多宝搅珠结果 头奖一注中幸运儿擸8114万 齐来对冧巴 !
2026-04-04 21:33 HKT
网传沈阳爆随机斩杀案致多人亡 无头躯体倒街头
16小時前


















