Chat with Wiki - gpt4o视觉模型

Answer

GPT-4o 是 OpenAI 推出的模型。开发人员现在可在 API 中将其作为文本和视觉模型进行访问。与 GPT-4 Turbo 相比，具有速度快 2 倍、价格减半、速率限制高出 5 倍的优势。未来几周计划向 API 中的一小群受信任的合作伙伴推出对其新音频和视频功能的支持。

GPT-4o（“o”代表“omni”）是迈向更自然人机交互的一步，能接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。它在 232 毫秒内可响应音频输入，平均为 320 毫秒，与人类响应时间相似。在英语文本和代码上的 GPT-4 Turbo 性能相匹配，在非英语语言的文本上有显著改进，在 API 中更快且便宜 50%，在视觉和音频理解方面表现出色。

在 GPT-4o 之前，语音模式由三个独立模型组成的管道实现，存在信息丢失等问题。而 GPT-4o 是在文本、视觉和音频上端到端训练的新模型，所有输入和输出都由同一个神经网络处理，但对其能做什么及局限性仍在探索。

Content generated by AI large model, please carefully verify (powered by aily)

References

OpenAI 春季发布会：GPT-4o

开发人员现在还可以在API中将GPT-4o作为文本和视觉模型进行访问。与GPT-4 Turbo相比，GPT-4o的速度快2倍，价格减半，速率限制高出5倍。我们计划在未来几周内向API中的一小群受信任的合作伙伴推出对GPT-4o新音频和视频功能的支持。

OpenAI 春季发布会：GPT-4o

[OpenAI Spring Update-2.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/HxnUbe3EMocJsnxcLZ1c9bSAnmd?allow_redirect=1)官方demo视频也值得每个都看，点击跳转→[OpenAI春季发布会：GPT-4o](https://waytoagi.feishu.cn/wiki/Qy5Pw3IUZidKf4ky6YacopJBnNh#P0eddxgnOo0EZmxOe6Fc7P3tnSY)[heading2]中文翻译版本[heading2]大家一起直播看发布会回放[content]它其实是GPT-4l/GPT-4，也是前几天神秘出现的gpt2-chatbotgpt2-chatbots刚刚一跃成为最佳，超越所有模型，OpenAI的新GPT-4o模型首次在MathVista上超越人类！人类平均：60.3 GPT-4o：63.8[heading2]介绍[content]GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。它可以在短短232毫秒内响应音频输入，平均为320毫秒，这与对话中的人类响应时间相似。它在英语文本和代码上的GPT-4 Turbo性能相匹配，在非英语语言的文本上也有显著改进，同时在API中也更快且便宜50%。与现有模型相比，GPT-4o在视觉和音频理解方面尤其出色。

OpenAI 春季发布会：GPT-4o

在GPT-4o之前，您可以使用语音模式与ChatGPT交谈，平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。为了实现这一点，语音模式是一个由三个独立模型组成的管道：一个简单的模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着智能的主要来源GPT-4会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音，也无法输出笑声、歌声或表达情感。借助GPT-4o，我们在文本、视觉和音频上端到端地训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。因为GPT-4o是我们第一个结合了所有这些模式的模型，所以我们仍然只是在探索该模型可以做什么及其局限性的表面。