今天,我们将深入对比几款最新的 Realtime API 模型,帮助您了解它们的特性、性能差异以及最适合的使用场景。

Realtime API model detailed comparison table

特性

gpt-4o-realtime-preview

gpt-4o-realtime-preview-2024-10-01

gpt-4o-realtime-preview-2024-12-17

gpt-4o-mini-realtime-preview

gpt-4o-mini-realtime-preview-2024-12-17

版本

基础预览版

2024-10-01 更新版

2024-12-17 更新版

轻量级预览版

2024-12-17 轻量级更新版

模型架构

GPT-4o 基础架构

GPT-4o 优化架构

GPT-4o 最新优化架构

GPT-4o 轻量级架构

GPT-4o 轻量级优化架构

上下文窗口

128,000 tokens

128,000 tokens

128,000 tokens

128,000 tokens

128,000 tokens

最大输出 tokens

4,096 tokens

4,096 tokens

4,096 tokens

4,096 tokens

4,096 tokens

延迟

低延迟(<500ms)

更低延迟(<300ms)

最低延迟(<200ms)

低延迟(<500ms)

低延迟(<300ms)

语音质量

更高

最高

中等

中等(接近 GPT-4o)

语音活动检测(VAD)

支持

支持,优化

支持,进一步优化

支持

支持,优化

打断功能

支持

支持,优化

支持,进一步优化

支持

支持,优化

多语言支持

支持

支持,优化

支持,进一步优化

支持

支持,优化

WebRTC 支持

不支持

支持

支持

不支持

支持

噪声抑制

基础

优化

进一步优化

基础

优化

拥塞控制

基础

优化

进一步优化

基础

优化

并发带外响应

不支持

支持

支持

不支持

支持

训练数据截止时间

2023 年 10 月

2023 年 10 月

2023 年 10 月

2023 年 10 月

2023 年 10 月

音频输入成本

较高

降低 60%

降低 60%

较低

最低(1/10 价格)

音频输出成本

较高

降低

降低

较低

最低

适用场景

- 语音助手
- 实时翻译
- 客户支持

- 高质量语音生成
- 实时翻译工具
- 客户支持

- 高性价比语音交互
- 客户支持
- 实时翻译工具

- 基础语音助手
- 简单客户支持

- 高性价比语音交互
- 移动端应用
- 基础客户支持

更新内容

- 基础实时音频交互功能
- 支持打断和 VAD

- 支持 WebRTC
- 语音生成质量提升
- 音频输入成本降低 60%

- 语音生成质量进一步提升
- 音频输入成本降低 60%
- 支持更高效的音频处理

- 轻量级模型
- 成本较低

- 成本最低(1/10 价格)
- 支持 WebRTC
- 语音质量与 GPT-4o 相当

Realtime API 模型价格和缓存成本对比表

模型名称

输入类型

输入价格(每百万 tokens)

缓存输入价格(每百万 tokens)

输出价格(每百万 tokens)

gpt-4o-realtime-preview

文本

$5.00

$2.50

$20.00

 

音频

$40.00

$2.50

$80.00

gpt-4o-realtime-preview-2024-12-17

文本

$5.00

$2.50

$20.00

 

音频

$40.00

$2.50

$80.00

gpt-4o-realtime-preview-2024-10-01

文本

$5.00

$2.50

$20.00

 

音频

$100.00

$20.00

$200.00

gpt-4o-mini-realtime-preview

文本

$0.60

$0.30

$2.40

 

音频

$10.00

$0.30

$20.00

gpt-4o-mini-realtime-preview-2024-12-17

文本

$0.60

$0.30

$2.40

 

音频

$10.00

$0.30

$20.00

首先,让我们来看看这些模型的基本信息。它们分别是:gpt-4o-realtime-preview:基础预览版,适合需要高语音质量和低延迟的场景。gpt-4o-realtime-preview-2024-10-01:2024年10月更新版,优化了语音生成质量和成本。gpt-4o-realtime-preview-2024-12-17:2024年12月更新版,进一步提升了语音质量和处理效率。gpt-4o-mini-realtime-preview:轻量级预览版,适合成本敏感的场景。gpt-4o-mini-realtime-preview-2024-12-17:2024年12月轻量级更新版,成本最低,适合移动端应用。

  • 在模型架构方面,gpt-4o-realtime-preview 采用了基础架构,而后续版本逐步优化。例如,2024-12-17 版本采用了最新的优化架构,进一步提升了语音生成质量和处理效率。轻量级版本则通过精简架构降低了成本,适合对性能要求不高的场景。

  • 延迟是实时语音交互的关键指标。gpt-4o-realtime-preview 的延迟低于 500 毫秒,而 2024-12-17 版本则将延迟降低到了 200 毫秒以下,提供了更流畅的交互体验。轻量级版本的延迟也控制在 500 毫秒以内,适合对实时性要求不高的场景。

  • 语音质量方面,gpt-4o-realtime-preview 已经提供了高质量的语音生成,而 2024-12-17 版本则达到了最高水平。轻量级版本的语音质量稍低,但仍接近 GPT-4o 的水平,适合成本敏感的场景。

  • 在功能方面,所有版本都支持语音活动检测(VAD)和打断功能,但后续版本对这些功能进行了优化。例如,2024-12-17 版本进一步优化了多语言支持和噪声抑制能力,适合国际化应用。此外,2024-10-01 和 2024-12-17 版本还支持 WebRTC,适合需要实时音视频交互的场景。

  • 成本是选择模型时的重要考量。gpt-4o-realtime-preview 的音频输入成本较高,而 2024-12-17 版本将成本降低了 60%。轻量级版本的成本最低,尤其是 2024-12-17 轻量级更新版,音频输入成本仅为其他版本的十分之一,非常适合大规模部署。

那么,这些模型最适合哪些场景呢?gpt-4o-realtime-preview:适合语音助手、实时翻译和客户支持等对语音质量要求高的场景。gpt-4o-realtime-preview-2024-12-17:适合高性价比语音交互、客户支持和实时翻译工具。gpt-4o-mini-realtime-preview:适合基础语音助手和简单客户支持。gpt-4o-mini-realtime-preview-2024-12-17:适合移动端应用和基础客户支持,尤其是对成本敏感的场景。

实际测试中,gpt-4o-realtime-preview 、gpt-4o-realtime-preview-2024-12-17 未感觉有什么区别,语音识别、打断速度、响应速度、语音质量听不出区别。gpt-4o-realtime-preview-2024-10-01 语音识别明显差一些,音频为俄语输出。gpt-4o-mini-realtime-preview-2024-12-17、gpt-4o-mini-realtime-preview 未感觉有什么区别,较gpt-40-realtime系列,语音杂声多一点,情感差一点。

总结一下,如果您需要最高的语音质量和最低的延迟,gpt-4o-realtime-preview-2024-12-17 是最佳选择。如果您更关注成本,gpt-4o-mini-realtime-preview-2024-12-17 提供了极高的性价比。