OpenAI 发布 GPT-Realtime-2 与 Realtime-Whisper:实时语音 Agent 基础设施

2026-06-18 12:00:00

OpenAI 在 6 月 17–18 日窗口发布 实时语音模型 更新,强化 Voice Agent 基础设施。

新产品

模型 定位
GPT-Realtime-2 低延迟实时对话,面向交互式 Agent
GPT-Realtime-Whisper 语音识别增强,配套 Realtime 栈

应用场景

  • 语音客服 Agent
  • 实时翻译/会议助手
  • 车载/IoT 语音交互
  • Codex / Workspace Agents 形成多模态矩阵

生态动态(同期)

  • ChatGPT 默认模型 升级 GPT-5.5 Instant(更强记忆与个性化)
  • Microsoft 365 Copilot 接入 GPT-5.5 Instant
  • Perplexity 在 Mac 上运行 本地 Agent

技术趋势

2026 年 Voice Agent 竞争从 「能听能说」 进入 「低延迟 + 工具调用 + 记忆」 三合一——Realtime-2 是 OpenAI 在此方向的 基建级更新

开发建议

构建语音 Agent 的团队:评估 OpenAI Realtime API vs Gemini Live vs 开源 LocalAI/Whisper 栈的延迟与成本曲线。