GPT4o 具有以下能力:
音频方面:
比 Whisper large v3 更好地转录音频。
可以将音频整理成会议记录。
能够将音频从一种语言翻译成另一种语言。
可以总结音频。
从语音合成角度:
通过提示创建语音角色,包括说话的速度、情感等。
跨语音类型合成(语音克隆)。
进行长格式和短格式语音合成。
实现跨语言合成。
使用的标记数量减少了 2 3 倍,词汇量更大。
视觉方面:
生成更符合提示的图像。
总结视频。
创建 3D 资产。
进行光学字符识别等。
API 方面:与 GPT4turbo 对比,速度快 2 倍,价格减半,访问限制提高 5 倍。
在实际使用中,与 GPT 4.0 相比,GPT 4o 输出的长度有所提升,输出速度更快。在同样自然语言的情况下,之前用 GPT 4.0 要求写 5000 字的文章,只能做到 866 个字,中间还断了一次,而使用 GPT 4o 输出了 1182 个字,一气呵成。在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT4o 仅正确解决了 13%的问题,而推理模型得分为 83%。其编码能力在比赛中达到了 Codeforces 比赛的第 89 个百分位。但作为早期模型,它还不具备使 ChatGPT 实用的许多功能,如浏览网页获取信息以及上传文件和图像。在许多常见情况下,GPT4o 在短期内更有能力。
2025-03-09