微软发布3款自家AI新模型支援25种语言语音转文字重申与OpenAI合作关系不变

更新时间：14:38 2026-04-03 HKT
发布时间：14:38 2026-04-03 HKT

微软（Microsoft）旗下AI研究实验室宣布推出三款全新基础AI模型，主打生成文字、语音及图像。此举不仅展现了微软在多模态（Multimodal）AI领域的野心，亦意味著微软即使与OpenAI保持密切合作，仍积极自行开发模型，与这间获其重金投资的盟友展开正面交锋。

根据官方简介，新推出的「MAI」系列模型的功能各具特色，分别是语音辨识模型MAI-Transcribe-1、语音生成引擎MAI-Voice-1，以及图像生成模型MAI-Image-2。

MAI-Transcribe-1能够将25种不同语言的语音转录为文本，速度是微软Azure Fast服务的2.5倍，收费每小时0.36美元起；MAI-Voice-1可以在一秒内生成60秒的音频，并允许用户创建自定义语音，收费由每100万个词元（Tokens）22美元起。

至于「MAI-Image-2」早于3月19日已在MAI Playground率先亮相，其文字输入收费为每100万个词元5美元起，图像输出则为每100万个词元33美元。目前三款模型已全数上架至Microsoft Foundry平台，而转录及语音模型亦同步于MAI Playground开放使用。

冀以价格突围

这些模型由微软AI部门行政总裁苏莱曼（Mustafa Suleyman）领导的「MAI超级智能团队」（MAI Superintelligence team）操刀，该团队于2025年11月正式成立。Suleyman 在官方网志中强调：「我们正致力构建『以人为本』的 AI，核心理念是将人类放在首位，针对实际应用场景进行训练，从而改善人们日常真实的交流方式。」

面对竞争激烈的大型语言模型（LLM）市场，微软期望透过更进取的定价策略，成为比Google及OpenA等巨头更具竞争力的卖点。苏莱曼亦预告，未来将有更多模型直接登陆Foundry及微软旗下产品。

尽管积极推出自家模型，苏莱曼接受科技媒体《VentureBeat》访问时重申，微软依然重视与OpenAI的合作伙伴关系。事实上，微软早前已向该AI实验室投资逾130亿美元，并透过多年合作将其模型整合至多款核心产品中。不过，双方近期的重新谈判为微软扫清了障碍，放手追求自家的超级智能（Superintelligence）研究。

即睇《乱世投资》专页↓