微軟發布3款自家AI新模型支援25種語言語音轉文字重申與OpenAI合作關係不變

更新時間：14:38 2026-04-03 HKT
發佈時間：14:38 2026-04-03 HKT

微軟（Microsoft）旗下AI研究實驗室宣布推出三款全新基礎AI模型，主打生成文字、語音及圖像。此舉不僅展現了微軟在多模態（Multimodal）AI領域的野心，亦意味著微軟即使與OpenAI保持密切合作，仍積極自行開發模型，與這間獲其重金投資的盟友展開正面交鋒。

根據官方簡介，新推出的「MAI」系列模型的功能各具特色，分別是語音辨識模型MAI-Transcribe-1、語音生成引擎MAI-Voice-1，以及圖像生成模型MAI-Image-2。

MAI-Transcribe-1能夠將25種不同語言的語音轉錄為文本，速度是微軟Azure Fast服務的2.5倍，收費每小時0.36美元起；MAI-Voice-1可以在一秒內生成60秒的音頻，並允許用戶創建自定義語音，收費由每100萬個詞元（Tokens）22美元起。

至於「MAI-Image-2」早於3月19日已在MAI Playground率先亮相，其文字輸入收費為每100萬個詞元5美元起，圖像輸出則為每100萬個詞元33美元。目前三款模型已全數上架至Microsoft Foundry平台，而轉錄及語音模型亦同步於MAI Playground開放使用。

冀以價格突圍

這些模型由微軟AI部門行政總裁蘇萊曼（Mustafa Suleyman）領導的「MAI超級智能團隊」（MAI Superintelligence team）操刀，該團隊於2025年11月正式成立。Suleyman 在官方網誌中強調：「我們正致力構建『以人為本』的 AI，核心理念是將人類放在首位，針對實際應用場景進行訓練，從而改善人們日常真實的交流方式。」

面對競爭激烈的大型語言模型（LLM）市場，微軟期望透過更進取的定價策略，成為比Google及OpenA等巨頭更具競爭力的賣點。蘇萊曼亦預告，未來將有更多模型直接登陸Foundry及微軟旗下產品。

儘管積極推出自家模型，蘇萊曼接受科技媒體《VentureBeat》訪問時重申，微軟依然重視與OpenAI的合作夥伴關係。事實上，微軟早前已向該AI實驗室投資逾130億美元，並透過多年合作將其模型整合至多款核心產品中。不過，雙方近期的重新談判為微軟掃清了障礙，放手追求自家的超級智能（Superintelligence）研究。

即睇《亂世投資》專頁↓