OpenAI 发布 GPT-Realtime-2 与 Realtime-Whisper:实时语音 Agent 基础设施
2026-06-18 12:00:00
OpenAI 在 6 月 17–18 日窗口发布 实时语音模型 更新,强化 Voice Agent 基础设施。
新产品
| 模型 | 定位 |
|---|---|
| GPT-Realtime-2 | 低延迟实时对话,面向交互式 Agent |
| GPT-Realtime-Whisper | 语音识别增强,配套 Realtime 栈 |
应用场景
- 语音客服 Agent
- 实时翻译/会议助手
- 车载/IoT 语音交互
- 与 Codex / Workspace Agents 形成多模态矩阵
生态动态(同期)
- ChatGPT 默认模型 升级 GPT-5.5 Instant(更强记忆与个性化)
- Microsoft 365 Copilot 接入 GPT-5.5 Instant
- Perplexity 在 Mac 上运行 本地 Agent
技术趋势
2026 年 Voice Agent 竞争从 「能听能说」 进入 「低延迟 + 工具调用 + 记忆」 三合一——Realtime-2 是 OpenAI 在此方向的 基建级更新。
开发建议
构建语音 Agent 的团队:评估 OpenAI Realtime API vs Gemini Live vs 开源 LocalAI/Whisper 栈的延迟与成本曲线。