OpenAI 首次推出 GPT-4o“全能”模型，干翻所有语音助手

OpenAI 在本周一(2024年5月13号)推出了一款名为 GPT-4o 的新旗舰级生成式AI模型。这里的“o”代表“全能”，因为这款模型能够处理文本、语音和视频三种不同的输入。在未来几周内，GPT-4o 将逐步应用于公司针对开发者和消费者的各类产品。

OpenAI 的技术总监 Mira Murati 表示，虽然 GPT-4o 仍然保持着 GPT-4 的智能水平，但它在多种媒介和模式上进行了显著的提升。Murati 在周一于旧金山的 OpenAI 办公室通过网络演讲指出：“GPT-4o 能够跨语音、文本和视觉进行推理。这一能力极其关键，因为它代表了我们与机器互动的未来方向。”

此前的 GPT-4 Turbo 是 OpenAI 的前沿模型，通过图像和文本的结合训练，能够完成从提取图像中的文本到描述图像内容等任务。新的 GPT-4o 在此基础上添加了语音处理功能。

这一改进将使用应用场景更加丰富。

例如，GPT-4o 极大地优化了 OpenAI 的AI聊天机器人 ChatGPT 的使用体验。尽管该平台之前已提供语音模式，使用文本到语音技术转换机器人的回答，但 GPT-4o 的加入使得与 ChatGPT 的互动更加贴近真实的助理体验。

用户现在可以在 ChatGPT 回答问题时中断它，而这款模型可以实时响应。OpenAI 指出，它甚至能够捕捉到用户声音中的细微变化，并据此生成不同情感风格的回答，包括唱歌。

此外，GPT-4o 还提升了 ChatGPT 在图像处理方面的能力。无论是分析一张照片还是电脑屏幕，ChatGPT 现在能够迅速解答从“这段软件代码是用来做什么的？”到“这个人穿的是哪个品牌的衬衫？”等各种问题。

OpenAI 的技术总监 Murati 指出，他们的新模型 GPT-4o 将在未来展示更多先进的功能。目前，GPT-4o 可以翻译不同语言的菜单图片，未来可能还能实时“观看”体育比赛并向观众解释比赛规则。

Murati 强调：“尽管这些模型越来越复杂，我们还是希望用户与之交互时感觉更自然、更简便。我们的目标是让用户远离复杂的用户界面，更多地专注于与 ChatGPT 的互动。这些年我们一直在努力提升模型的智能化水平，而现在，我们在使用便利性上也实现了质的飞跃。”

此外，OpenAI 表示，GPT-4o 在处理多语言方面也有显著提升，可以支持约50种语言。在 OpenAI 的 API 和 Microsoft 的 Azure OpenAI 服务中，GPT-4o 的速度是前一代模型 GPT-4 Turbo 的两倍，成本只有一半，并且具备更高的请求限制。

由于存在滥用风险，GPT-4o 的语音功能目前还未向所有客户开放。OpenAI 计划在未来几周内首先向一小批受信任的合作伙伴开放新的音频功能。

从今天起，GPT-4o 将在 ChatGPT 的免费版本中提供，同时，对于订阅了 OpenAI 高级服务 ChatGPT Plus 和团队计划的用户，消息限额提高了5倍。一旦用户达到使用限制，系统将自动切换到较旧的 GPT-3.5 模型。针对 Plus 用户的基于 GPT-4o 的语音体验改进版将在下个月初推出，同时也将提供面向企业的服务选项。

在其他相关更新中，OpenAI 宣布推出新版的 ChatGPT 网页界面，界面更注重对话性，还推出了 macOS 版本的 ChatGPT 桌面应用，用户可以通过键盘快捷键提问或讨论截图。从今天开始，ChatGPT Plus 用户将优先获得应用访问权限，Windows 版本将在今年晚些时候发布。

此外，OpenAI 的 GPT Store 现已向所有 ChatGPT 免费用户开放。该库为第三方聊天机器人提供了基于 AI 模型的创建工具。免费用户还可以享受以前需要付费的功能，如记忆功能，允许 ChatGPT 记住用户的偏好设置，上传文件和照片，以及搜索网络回答实时问题。

GPT-4o模型评估

**文本评估：**GPT-4o 在推理能力上取得了显著的进步——在不提供初始样本常识性问题测验（ 0-shot COT MMLU）中，GPT-4o 取得了88.7%的高分记录。这些评测结果是使用我们新开发的简易评测库（链接将在新窗口中打开）来收集的。同时，在传统的提供五个样本（5-shot）无链式推理（no-CoT）的MMLU评测中，GPT-4o 也刷新了纪录，达到了87.2%的得分。

音频语音识别性能：GPT-4o 在语音识别方面相比于 Whisper-v3 取得了巨大进步。无论是资源丰富的语言还是资源较少的语言，GPT-4o 在所有语言上的表现都有显著提升，尤其在那些资源较少的语言上，其改进尤为明显。

**音频翻译性能：**GPT-4o 在语音翻译领域创立了新的行业高标准，并且在 MLS 基准测试中的表现超过了 Whisper-v3。

M3Exam 基准：M3Exam 基准测试同时涉及多语言和视觉评估，包含了来自不同国家标准化考试的多项选择题，题目中有时会出现图表和示意图。在所有语种的这项测试中，GPT-4o 相比 GPT-4 显示出了更优的表现。

**视觉理解评估：**GPT-4o 在视觉感知基准测试上达到了最先进的性能。所有的视觉评估都是在没有任何先前示例的情况下完成的（0-shot），包括 MMMU、MathVista 和 ChartQA 这些测试都采用了0-shot链式推理（CoT）方法。