微软发布3款自家AI新模型 支援25种语言语音转文字 重申与OpenAI合作关系不变

更新时间:14:38 2026-04-03 HKT
发布时间:14:38 2026-04-03 HKT

微软(Microsoft)旗下AI研究实验室宣布推出三款全新基础AI模型,主打生成文字、语音及图像。此举不仅展现了微软在多模态(Multimodal)AI领域的野心,亦意味著微软即使与OpenAI保持密切合作,仍积极自行开发模型,与这间获其重金投资的盟友展开正面交锋。

根据官方简介,新推出的「MAI」系列模型的功能各具特色,分别是语音辨识模型MAI-Transcribe-1、语音生成引擎MAI-Voice-1,以及图像生成模型MAI-Image-2。

MAI-Transcribe-1能够将25种不同语言的语音转录为文本,速度是微软Azure Fast服务的2.5倍,收费每小时0.36美元起;MAI-Voice-1可以在一秒内生成60秒的音频,并允许用户创建自定义语音,收费由每100万个词元(Tokens)22美元起。

至于「MAI-Image-2」早于今年3月19日已在MAI Playground率先亮相。其文字输入收费为每100万个词元5美元起,图像输出则为每100万个词元33美元。目前三款模型已全数上架至Microsoft Foundry平台,而转录及语音模型亦同步于MAI Playground开放使用。

冀以价格突围

这些模型由微软AI部门行政总裁苏莱曼(Mustafa Suleyman)领导的「MAI超级智能团队」(MAI Superintelligence team)操刀,该团队于2025年11月正式成立。Suleyman 在官方网志中强调:「我们正致力构建『以人为本』的 AI,核心理念是将人类放在首位,针对实际应用场景进行训练,从而改善人们日常真实的交流方式。」

面对竞争激烈的大型语言模型(LLM)市场,微软期望透过更进取的定价策略,成为比Google及OpenA等巨头更具竞争力的卖点。苏莱曼亦预告,未来将有更多模型直接登陆Foundry及微软旗下产品。

尽管积极推出自家模型,苏莱曼接受科技媒体《VentureBeat》访问时重申,微软依然重视与OpenAI的合作伙伴关系。事实上,微软早前已向该AI实验室投资逾130亿美元,并透过多年合作将其模型整合至多款核心产品中。不过,双方近期的重新谈判,的确为微软扫清了障碍,让其能真正放手追求自家的超级智能(Superintelligence)研究。