OpenAI發布GPT-realtime語音模型 Realtime API全新升級

更新時間:11:37 2025-08-29 HKT
發佈時間:11:37 2025-08-29 HKT

OpenAI宣佈推出語音模型GPT-realtime。GPT-realtime為專用於語音AI Agent的多模態模型,在遵從復雜指令、精準調用工具以及解讀如笑聲的非語言提示方面表現出色。該模型亦能在對話中切換語言,並根據開發者的具體指令調整語氣,例如在客服電話中逐字逐句地朗讀免責聲明。為配合新模型,OpenAI更推出了兩種獨家提供給Realtime API的全新聲音——Cedar和Marin,並升級原有的8種語音效果。

GPT-realtime語音模型
GPT-realtime語音模型

另外,此次Realtime API也新增了遠端MCP伺服器支援、圖像輸入及SIP電話整合等功能。現在,開發者可以透過SIP以及MCP服務器,從而連接外部工具,像是SIP能夠將AI語音代理連接到公共電話網絡、或企業PBX系統等。同時,API內建了主動內容檢測機制,能夠自動中止違反平台政策的會話。

價格方面,GPT-Realtime下調20%,音頻輸入及輸出token每百萬個分別是32美元及64美元,緩存輸入token則為每百萬0.4美元。