OpenAI 宣布对其 AI 智能体开发工具进行了一系列重要升级。此次更新不仅提升了平台的兼容性,还对语音界面进行了优化,同时增强了可观测性(observability),使得开发者在构建 AI 智能体时能更加得心应手。

image.png

OpenAI 为其 Agents SDK 新增了对 TypeScript 的支持。这一举措让 JavaScript 和 Node.js 环境下的开发者也能参与到智能体的开发中。新版本与之前的 Python 版本在功能上保持一致,包含了 Handoffs(任务转交机制)、Guardrails(运行时行为约束)和 Tracing(执行追踪)等核心组件。此外,模型上下文协议(MCP)确保智能体在执行过程中能够顺畅地传递上下文信息,开发者可以在前端浏览器和后端 Node.js 环境中无缝构建智能体。

OpenAI 推出了 RealtimeAgent 功能,以支持低延迟的语音应用。该功能集成了音频输入输出、状态交互及中断处理等功能,特别引入了人机回路(HITL)审批机制。开发者在执行智能体时可以选择暂停,让系统检查当前状态,并在手动确认后再继续执行。这种机制特别适合需要监管和合规检查的应用场景,确保智能体的行为可控。

OpenAI 还对 Traces 仪表盘进行了升级,支持对 Realtime API 的会话进行追踪。更新后的仪表盘能够覆盖音频输入输出、工具调用及用户中断等环节,并提供统一的审计记录,简化了调试和性能优化的过程。

OpenAI 还对语音对语音模型进行了改进,旨在降低延迟、提升对话的自然性和中断处理能力。更新后,系统能够实现更快的流式响应、更具表现力的音频生成及对重叠输入的稳健应对,这些改进为动态多模态对话智能体的构建奠定了基础。

划重点:

🌟 TypeScript 支持:OpenAI 的 Agents SDK 新增了 TypeScript 支持,扩大了开发者生态,方便不同环境的开发者使用。

🎤 RealtimeAgent 功能:新功能支持低延迟语音应用,开发者可在执行时暂停并手动确认智能体的状态。

🔍 语音模型改进:对语音对语音模型进行了优化,降低延迟,提高了对话自然性与中断处理能力。