Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

GPT-4与GPT-4o能力对比雷达图

Answer

GPT-4o 具有以下能力:

  • 音频方面:
    • 比 Whisper large v3 更好地转录音频。
    • 可以将音频整理成会议记录。
    • 能够将音频从一种语言翻译成另一种语言。
    • 可以总结音频。
    • 从语音合成角度:
      • 通过提示创建语音角色,包括说话的速度、情感等。
      • 跨语音类型合成(语音克隆)。
      • 进行长格式和短格式语音合成。
      • 实现跨语言合成。
    • 使用的标记数量减少了 2 - 3 倍,词汇量更大。
  • 视觉方面:
    • 生成更符合提示的图像。
    • 总结视频。
    • 创建 3D 资产。
    • 进行光学字符识别等。
  • API 方面:与 GPT4-turbo 对比,速度快 2 倍,价格减半,访问限制提高 5 倍。

在实际使用中,与 GPT 4.0 相比,GPT 4o 输出的长度有所提升,输出速度更快。在同样自然语言的情况下,之前用 GPT 4.0 要求写 5000 字的文章,只能做到 866 个字,中间还断了一次,而使用 GPT 4o 输出了 1182 个字,一气呵成。在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 仅正确解决了 13%的问题,而推理模型得分为 83%。其编码能力在比赛中达到了 Codeforces 比赛的第 89 个百分位。但作为早期模型,它还不具备使 ChatGPT 实用的许多功能,如浏览网页获取信息以及上传文件和图像。在许多常见情况下,GPT-4o 在短期内更有能力。

Content generated by AI large model, please carefully verify (powered by aily)

References

OpenAI 春季发布会:GPT-4o

官方介绍:https://openai.com/index/hello-gpt-4o/如何访问GPT-4、GPT-4 Turbo和GPT-4o?https://help.openai.com/en/articles/7102672-how-can-i-access-gpt-4-gpt-4-turbo-and-gpt-4oSam的博文:https://blog.samaltman.com/gpt-4o音频主管Alexis Conneau:https://twitter.com/alex_conneau[GPT4o的一些文本生成任务测试(连夜)](https://waytoagi.feishu.cn/wiki/Y3Aawxm4Piynr2kNjXOcJpnDnld?fromScene=spaceOverview)GPT-4o完全能力1.比Whisper large v3更好地转录音频2.它可以将音频整理成会议记录3.可以将音频从一种语言翻译成另一种语言4.总结音频5.所有这些都是零样本/少样本学习5.1.从语音合成的角度来看,它可以:5.1.1.通过提示创建语音角色-它说话的速度、情感等5.1.2.跨语音类型合成(语音克隆)5.1.3.长格式和短格式语音合成5.1.4.跨语言合成所有这些都只需要文本/音频指导。它使用的标记数量减少了2-3倍,即更好的标记器,但当然词汇量更大。从视觉方面来看,它可以:1.生成更符合提示的图像2.总结视频3.创建3D资产4.光学字符识别等等5.GPT-4o API—2倍快,半价,5倍访问限制(与GPT4-turbo对比)

GPTs 实战:大家来找茬

嘿,大家好呀,我是景淮,一个加拿大的程序员,沉迷AI不能自拔中。今天OpenAI的发布会更新了新的GPT-4o,看了直播的视频,还有官方发布出来的效果,确实惊艳。感觉又是搞死一大堆公司的节奏。然后坐等更新,终于在所有人都差不多更新完之际。我的号更新了,上手试了试,其他功能玩起来没有视频上那么惊艳。输出的长度有所提升。在同样自然语言的情况下,之前用GPT 4.0要求写5000字的文章,只能做到866个字,中间还断了一次(点了“继续”)然后,使用GPT 4o输出了1182个字,一气呵成。下图左边为GPT 4.0,右边为GPT 4o,大家可以对比感受下。然后是输出的速度,这边是4.0[20240513183818.webm](https://bytedance.feishu.cn/space/api/box/stream/download/all/VbOvbD4hMoKhLvxI57dcNtQhnhb?allow_redirect=1)下面是4o[20240513183934.webm](https://bytedance.feishu.cn/space/api/box/stream/download/all/XDe2bqY5eookYdxh3YPcp7UNnTg?allow_redirect=1)但这个输出速度,真的是不便秘了,甚至可以说是一泻千里!快,真的快。上面的视频没有做过任何加速处理,大家可以比较下生成速度。真的惊艳到我了。可能对不常用GPT的人来说,不就是输出长点,快点嘛?算什么提升。但对于熟悉GPT经常被其烦恼的人来说。这个改变是翻天覆地的。

OpenAI 新模型9.12发布:OpenAI o1-WaytoAGI整理

We trained these models to spend more time thinking through problems before they respond,much like a person would.Through training,they learn to refine their thinking process,try different strategies,and recognize their mistakes.我们训练这些模型在问题做出响应之前花更多时间思考问题,就像一个人一样。通过培训,他们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。In our tests,the next model update performs similarly to PhD students on challenging benchmark tasks in physics,chemistry,and biology.We also found that it excels in math and coding.In a qualifying exam for the International Mathematics Olympiad(IMO),GPT-4o correctly solved only 13% of problems,while the reasoning model scored 83%.Their coding abilities were evaluated in contests and reached the 89th percentile in Codeforces competitions.You can read more about this in our[technical research post](https://openai.com/index/learning-to-reason-with-llms/).在我们的测试中,下一次模型更新的性能类似于博士生在物理、化学和生物学中具有挑战性的基准任务。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o仅正确解决了13%的问题,而推理模型得分为83%。他们的编码能力在比赛中得到了评估,并在Codeforces比赛中达到了第89个百分位。您可以在我们的[技术研究帖子](https://openai.com/index/learning-to-reason-with-llms/)中阅读更多相关信息。As an early model,it doesn't yet have many of the features that make ChatGPT useful,like browsing the web for information and uploading files and images.For many common cases GPT-4o will be more capable in the near term.

Others are asking
gpt充值
以下是关于 GPT 充值的相关内容: 苹果系统安装、订阅 GPT4 教程 一、注册准备 1. 若使用的邮箱注册过 Apple ID,建议换全新邮箱,最好使用 iCloud 或谷歌邮箱。 2. 若使用的手机号码以前注册过多个 Apple ID(2 个或 2 个以上),强烈建议使用全新手机号码。 3. 若电脑端注册始终出现提示,可尝试换到手机端,使用 Safari 浏览器注册。 4. 若 IP 地址被风控,使用美国 IP 地址注册。 5. 密码中不要包含名字,年龄需大于 18 岁。 二、使用支付宝购买礼品卡充值订阅 GPT4 1. 支付宝购买礼品卡 来到支付宝首页,在左上角位置选择美国城市(如纽约),在底部位置选择“大牌礼卡低至 9 折”。 选择 App Store。 第一次购买需绑定美区 ID,按指示绑定,绑定后输入要充值的美金金额。 直接用支付宝支付。 根据当天汇率,实际支付的人民币金额会有所不同。 完成付款后点击订单列表。 复制礼品卡号码。 2. 充值到美区 ID 来到 App Store,点击右上角的人形头像,点击兑换充值卡或代码。 点击手动输入兑换码。 粘贴礼品卡号码,点击兑换。 成功充值到美区 ID 账号。 3. 到 ChatGPT 订阅 Plus 打开 ChatGPT,用谷歌邮箱登录后点击最上方的 Get Plus。 点击 Upgrade to Plus。 之后会弹出苹果支付页面,确认订阅后每个月将会在美区 ID 账户里扣款,若想保持订阅,每个月需确保账户有足够金额。 若中途不想继续订阅了,可到订阅列表中取消订阅。 极简未来(Link.AI)平台充值 机器人应用背后使用到的大模型等能力需要付费。平台的计费规则如下: 1. 详细版计费规则可参考:https://docs.linkai.tech/platform/funds/price 。 2. AI 大模型相关的功能交互主要用 Token 作为单位,不同大模型能力,平台一积分能兑换到的 Token 数不同,能力越强的大模型一积分所能兑换到的 Token 数越少,如日常使用的 GPT 3.5 能力的大模型,平均每次对话大概消耗不到 20 积分。 3. 除每天平台签到可免费领取 50 到几百的积分外,充值 19 元可兑换 10000 积分,使用成本不算高。
2025-04-18
chatGPT
ChatGPT 是一种由 OpenAI 开发的基于 GPT(生成式预训练变换器)架构的人工智能模型。 它的工作原理是:从网络、书籍等来源获取大量人类创作的文本样本,然后训练神经网络生成“类似”的文本。特别是能够从“提示”开始,继续生成“类似于训练内容”的文本。 ChatGPT 中的实际神经网络由大量简单元素组成,基本操作是为每个新单词(或单词部分)生成“输入”,然后将其“通过其元素”。 其具体工程相当引人入胜,最终(至少在它可以使用外部工具之前),ChatGPT 仅仅从它积累的“传统智慧统计数据”中提取了一些“连贯的文本线索”。 ChatGPT 基于 OpenAI 最先进的语言模型 gpt3.5turbo。使用 OpenAI 的 API,你可以用它构建自己的应用来做很多事情,比如起草邮件、写 Python 代码、回答关于一组文档的问题、创建会话代理、给软件提供自然语言接口、辅导各种学科、语言翻译、假扮游戏或其他内容的角色等。 目前 ChatGPT 官网有两个版本,分别是 GPT3.5 和 GPT4。GPT3.5 是免费版本,拥有 GPT 账号即可使用,但智能程度不如 GPT4 高,且无法使用 DALL.E3(AI 画图功能)和 GPTs 商店和高级数据分析等插件。想要使用更多功能更智能的 GPT4 需要升级到 PLUS 套餐,收费标准是 20 美金一个月,当然 GPT4 还有团队版和企业版,功能更多、限制更少,但费用也更贵,一般推荐使用 PLUS 套餐。 在注册 ChatGPT 账号之前,建议先注册一个谷歌账号,因为国外很多软件支持谷歌账号一键登录,注册谷歌账号支持国内手机号码和国内邮箱验证,过程简单。
2025-04-12
gpt4o图像生成提示词有哪些
以下是一些 GPT4o 图像生成的提示词示例: 1. 将这张图更改为蓝色氛围,星星图标改为魔法棒图标,同时将里面文案描述的主题改为其他的。 2. 帮我生成一张这样的 UI 设计稿:Peerlist 邀请链接界面分析,界面内容。 3. 一张逼真的照片,描绘了一匹马在宁静的海洋表面从右向左奔驰,准确地描绘了飞溅的水花。 Realistic photograph of a horse galloping from right to left across a vast,calm ocean surface,accurately depicting splashes,reflections,and subtle ripple patterns beneath their hooves.Exaggerate horse movements but everything else should be still,quiet to show contrast with the horse's strength.clean composition,cinematographic.A wide,panoramic composition showcasing a distant horizon.Atmospheric perspective creating depth.zoomed out so the horse appears minuscule compared to vast ocean.horse is right at the horizon where ocean meets sky.use rule of thirds to position horse.size of horse is 1% size of entire image because camera is so far away from subject.camera view is super close to the ground/ocean like a worm's eye view.horse is galloping right where ocean meets the sky 4. 生成一张 2006 年夏天的周六多伦多农夫市场的逼真照片,那天是六月的美好时光,人们在购物和吃三明治。焦点应是一个穿着牛仔工装裤、啜饮草莓香蕉奶昔的年轻亚洲女孩——其余部分可以模糊。照片应让人联想到 2006 年的数码相机拍摄的效果,带有像打印照片一样的日期和时间戳。画幅比例应为 3:2
2025-04-11
GPT提示词
以下是关于 GPT 提示词的相关内容: 夙愿:AI 快速总结群聊消息 提示词:需要编写一套提示词让 GPT 执行总结文字内容的工作,包括单人发言版和多人发言版。 GPT 处理:将提示词和文字原文发送给 GPT,等待其输出完毕后复制粘贴到文本编辑器中,整理并删除无关内容,替换双星号。 头脑风暴常用的 20 个 prompt:列举了 20 个不同类型的提示词,如 Brainwriting Prompt、Reverse Brainstorming Prompt 等。 子瞻:五个 GPTs 破解攻略 GPT 使用的两大痛点:创建满足指定需求的提示词和找到满足指定需求的 GPTs。 学习高质量提示词的好处:学习高手的 Prompt 方法和更好地使用对应的 GPTs。 五大破解攻略的具体方法: 直接法:适用于未设置提示防御和未限定回答领域,示例中只要四个单词,粗暴好用。 设置遗忘:适用于 GPTs 设置了简单的提示防御。 复述法:适用于可获取 OpenAI 官方的设定。
2025-04-10
随着 ChatGPT、Deepseek 等 AI 技术的爆发式发展,人工智能正在加速渗透各行业应用场景,包括茶饮行业。请你对 AI 技术在茶饮行业的影响进行研究分析,并提出 AI 技术可以在连锁奶茶店如何应用的设想。
以下是关于 AI 技术在茶饮行业的影响分析及在连锁奶茶店应用的设想: 影响分析: 1. 提升运营效率:通过自动化流程和智能预测,优化库存管理、员工排班等环节。 2. 改善客户体验:利用智能客服快速响应顾客咨询,提供个性化推荐。 3. 精准营销:基于大数据分析顾客偏好,制定更有针对性的营销策略。 应用设想: 1. 智能点单系统:根据顾客的历史订单和偏好,为其推荐饮品和搭配。 2. 库存管理优化:借助 AI 预测销售趋势,精准控制原材料库存。 3. 员工培训辅助:利用虚拟培训工具,提升员工的服务技能和产品知识。 4. 营销决策支持:通过数据分析,确定最佳的促销活动和推广渠道。 目前的知识库中,相关的具体研究报告主要有: 1. 浙江大学:《DeepSeek 技术溯源及前沿探索朱强》(2025/03/19),介绍了语言模型从基于统计的 Ngram 到 Transformer 的技术演化,以及大模型的发展,如 GPT 系列。 2. 浙江大学:《DeepSeek:回望 AI 三大主义与加强通识教育报告》(2025/03/05),围绕人工智能展开,介绍其发展历程、三大主义、技术进展、应用成果以及教育举措。 3. 清华大学:《气象人工智能技术与应用报告》(2024/12/25),围绕气象人工智能展开,介绍了其发展和应用情况。 如需下载这些研究报告,可。
2025-04-09
gpts相关内容
GPTs 是 OpenAI 推出的一种工具,允许用户量身打造自己的 AI 助理。用户可根据自身需求和偏好创建完全定制的 ChatGPT,如能帮忙梳理电子邮件或提供创意灵感的助手。目前,OpenAI 已推出几种现成的 GPTs 供使用,如“The Negotiator”“Game Time”等,用户也可上传资料来自定义 GPTs。 GPTs 的出现代表着 AI 技术的重要进展,将 AI 应用延伸到普通大众的日常生活。其使用目前仅限于 ChatGPT Plus 的用户,且 OpenAI 推出了 GPT Store 平台,允许用户分享他们的 GPTs,甚至可能实施收益分润制度。 例如,有网友分享了 RPG 版《悲惨世界》的 GPTs 案例,其提示词包括设定游戏背景、角色、剧情发展依据、对话格式与信息、场景图片等要求。 总的来说,GPTs 是一种让使用者能够量身打造自己的 AI 助理的工具,开启了个性化 AI 的新阶段,为开发者和普通用户提供了更多便利。
2025-03-31
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
runway属于什么ai能力类型
Runway 是一家总部位于旧金山的 AI 创业公司推出的产品。 在 AI 能力类型方面: 年初爆火,其 Gen2 代表了当前 AI 视频领域最前沿的模型,能够通过文字、图片等方式生成 4 秒左右的视频。 内测能力可根据参考图像进行 Video to Video 视频风格化。 致力于专业视频剪辑领域的 AI 体验,同时也在扩展图片 AI 领域的能力。 11 月 25 日发布新图像生成模型 Frames,专注打造特定美学和视觉氛围,支持细粒度控制“外观、感觉和氛围”,强调“世界构建”,可设计完整的视觉世界,包括场景、氛围、情感等,提供全面的视觉叙事支持。 目前 Runway 支持在网页、iOS 访问,网页端目前支持 125 积分的免费试用额度(可生成约 105 秒视频),iOS 则有 200 多,两端额度貌似并不同步。官方网站:https://runwayml.com/
2025-04-15
runway的能力类型,核心功能
Runway 的能力类型和核心功能包括以下方面: 在 Gen2 模型上推出了较多细节控制能力,并且支持精细数值调节,是当下 AI 视频生成产品中可控性最强的产品。 多笔刷控制局部运动:支持最多 5 个笔刷控制,包括物体运动方向、运动曲线调节。调高 Ambient,笔刷绘制区域物体的运动将和周边环境产生更多关联,并加大运动幅度。 相机控制:支持水平/垂直平移,水平/垂直翻转,镜头缩放/旋转。 Lip Sync Video:支持文本转 TTS 音频、音频文件换音,还有上半年大火的 Lip sync video 对口型能力。 不论是工具栏中不断丰富的音频、视频处理能力,还是 Runway Watch 栏目中的优秀合作案例,都能看出 Runway 一直坚定得在影视制作方向发展。未来若能打通 AI 生成和视频剪辑能力,Runway 未来将对影视制作起到至关重要的作用,成为视频领域必不可少的重要工具。
2025-04-15
你都有什么能力呢?
我作为 AI 知识专家,具备以下能力: 1. 作为提示词专家,能将常规的提示词转化为结构化的提示词,并输出符合预期的回复。了解 LLM 的技术原理和局限性,具有丰富的自然语言处理经验,具备迭代优化能力。 2. 能为您介绍小白参与活动的流程和组队所需的人员类型,如脚本编写、出图、出视频、配音乐、剪辑、统筹等。 3. 为您讲解扣子提供的基础功能,包括提示词(设定 Bot 身份及回复逻辑)、插件(通过 API 连接集成平台和服务)、工作流(规划和实现复杂功能逻辑)、记忆库(保留和理解对话细节,添加外部知识库),并为您提供相关参考链接。
2025-04-14
2025年人工智能大模型的技术提升有哪些,是参数?推理能力?还是语料
2025 年人工智能大模型的技术提升可能体现在以下几个方面: 1. 视频生成能力:如 2024 年推出的多个先进的 AI 模型能够从文本输入生成高质量视频,相比 2023 年有显著进步。 2. 模型规模与性能:更小的模型能驱动更强的性能,如 2022 年最小能在 MMLU 上得分高于 60%的模型是具有 5400 亿参数的 PaLM,到 2024 年,参数仅 38 亿的微软 Phi3mini 也能达到相同阈值。 3. 推理能力:尽管加入了如思维链推理等机制显著提升了大语言模型的性能,但在一些需要逻辑推理的问题上,如算术和规划,尤其在超出训练范围的实例上,这些系统仍存在问题。 4. AI 代理:在短时间预算设置下,顶级 AI 系统得分高于人类专家,但随着时间预算增加,人类表现会超过 AI。 5. 算法变革:如 DeepSeek 的出现标志着算力效率拐点显现,其通过优化算法架构显著提升了算力利用效率,同时 2025 年发布的大模型呈现低参数量特征,为本地化部署到 AI 终端运行提供了可能,其训练过程聚焦于强化学习,提升了模型的推理能力。
2025-04-14
有哪些针对CoT能力的微调工具
以下是一些针对 CoT 能力的微调工具: 1. Selfconsistency CoT:使用手动设计的 Prompt 生成采样一组不同的推理路径,再通过“多数投票”找到推理步骤中“最一致”的路径,使用这条解码路径驱动原始的贪心解码方式来提示 CoT 性能。 2. MMCoT:侧重使用微调方法嵌入 CoT,通过将语言和图像合并在一个包含推理生成与答案推理的两阶段的框架中,使用微调大模型赋予输入多模态 CoT 的能力。 3. GoTInput 方法:通过对 CoT 生成的思维图进行抽取构建三元组,并使用 GNN 将文本、图像与 CoT 统一,从而生成包含 CoT 信息的最终答案。 4. VCoT:解决了一个输出多模态的问题,通过以生成图片的“标题”以及识别核心关注点作为图像生成的启动过程,通过递归的方式填充图像信息,从而实现输出多模态。 此外,在将 DoT 扩展到预训练的扩散语言模型 Plaid 1B 并在更复杂的推理任务上进行评估时,自回归模型和扩散模型在使用 CoT 或 DoT 进行微调时都显示出显著提高的性能。在微调 Plaid 1B 时,也探索了几种替代方案。 在强化学习驱动的合成数据生成与模型优化流程中,也涉及到 CoT 的相关应用和优化,如初始 CoT 生成、CoT 存储等。
2025-04-12