OpenAI发布GPT-realtime语音模型 Realtime API全新升级
更新时间:11:37 2025-08-29 HKT
发布时间:11:37 2025-08-29 HKT
发布时间:11:37 2025-08-29 HKT
OpenAI宣布推出语音模型GPT-realtime。GPT-realtime为专用于语音AI Agent的多模态模型,在遵从复杂指令、精准调用工具以及解读如笑声的非语言提示方面表现出色。该模型亦能在对话中切换语言,并根据开发者的具体指令调整语气,例如在客服电话中逐字逐句地朗读免责声明。为配合新模型,OpenAI更推出了两种独家提供给Realtime API的全新声音——Cedar和Marin,并升级原有的8种语音效果。

GPT-realtime语音模型
另外,此次Realtime API也新增了远端MCP伺服器支援、图像输入及SIP电话整合等功能。现在,开发者可以透过SIP以及MCP服务器,从而连接外部工具,像是SIP能够将AI语音代理连接到公共电话网络、或企业PBX系统等。同时,API内建了主动内容检测机制,能够自动中止违反平台政策的会话。
价格方面,GPT-Realtime下调20%,音频输入及输出token每百万个分别是32美元及64美元,缓存输入token则为每百万0.4美元。

















