Navigate to WaytoAGI Wiki →
Home/All Questions
GPT-4与GPT-4o能力对比雷达图
GPT4o 具有以下能力: 音频方面: 比 Whisper large v3 更好地转录音频。 可以将音频整理成会议记录。 能够将音频从一种语言翻译成另一种语言。 可以总结音频。 从语音合成角度: 通过提示创建语音角色,包括说话的速度、情感等。 跨语音类型合成(语音克隆)。 进行长格式和短格式语音合成。 实现跨语言合成。 使用的标记数量减少了 2 3 倍,词汇量更大。 视觉方面: 生成更符合提示的图像。 总结视频。 创建 3D 资产。 进行光学字符识别等。 API 方面:与 GPT4turbo 对比,速度快 2 倍,价格减半,访问限制提高 5 倍。 在实际使用中,与 GPT 4.0 相比,GPT 4o 输出的长度有所提升,输出速度更快。在同样自然语言的情况下,之前用 GPT 4.0 要求写 5000 字的文章,只能做到 866 个字,中间还断了一次,而使用 GPT 4o 输出了 1182 个字,一气呵成。在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT4o 仅正确解决了 13%的问题,而推理模型得分为 83%。其编码能力在比赛中达到了 Codeforces 比赛的第 89 个百分位。但作为早期模型,它还不具备使 ChatGPT 实用的许多功能,如浏览网页获取信息以及上传文件和图像。在许多常见情况下,GPT4o 在短期内更有能力。
2025-03-09
agent 打通应用之间的协议?
在 AI 领域中,Agent 是连接模型与应用的关键。端侧 Agents 是在终端设备上自主运行的智能代理程序,具备感知、决策、执行的闭环能力。 Agent 之所以重要,原因包括:端侧资源约束要求最优化使用,任务具有复杂性,生态存在多样性,双系统路线更适合端侧。 Agent 创造价值的方式体现在双重价值实现:一是资源优化,包括任务分解、按需调用;二是生态连接,比如跨应用协作、UI 理解。 其发展趋势包括:技术上从单一模型到多智能体协作;生态上从封闭应用到开放服务;交互上从指令执行到场景理解。 在技术层面,AI Agent 的发展出现了两条技术路线:一是以自主决策为核心的 LLM 控制流,二是以工作流(Workflow)编排为重点的工具集成系统。 特别值得关注的是 Anthropic 提出的 MCP(Model Context Protocol),它的本质是一个通用接口协议,试图解决让 AI 模型能够以标准化、可扩展的方式与外部世界交互的问题。 此外,还有 Agent Protocol 这种用于与 AI 代理进行通信的统一接口,它提供了一种 API 规范,任何代理开发者都可以实现该协议,设计简单且不依赖特定技术栈,有助于生态系统发展和简化集成,并提供了不同语言的 SDK 供开发者使用。
2025-03-09
deepseek清华大学公开课
以下是关于清华大学与 DeepSeek 相关的公开课信息: 2 月 7 日,清华大学新闻与传播学院新媒体研究中心出品了《》,详细阐述了 DeepSeek 的功能,包括智能对话、文本生成、代码生成、自然语言理解等,并探讨了如何使用 DeepSeek,包括推理模型与通用模型的区别、提示语设计策略以及如何从入门到精通。文章还介绍了提示语设计的核心技能、常见陷阱及应对方法,旨在帮助用户更好地掌握 AI 工具的使用,提升工作效率和创新能力。 2 月 18 日,清华大学沈少阳发布了《》
2025-03-09
deepseek公开课
以下是关于 deepseek 的相关信息: DeepSeek 开源了,在 LMSYS Chatbot Arena 排行榜上总排名 11 超过了所有开源模型。 阿里云 DeepSeek 智能体课程分两天,今天讲阿里云百炼,明天讲派平台,重点是智能体搭建、快速使用 DeepSeek 等,明天还会讲本地化部署中的蒸馏数据等线下未讲的内容。今天课程对电脑配置要求低,适合硬件资源投入少的人,且是手把手教程,难度不大。 社区是全国最大的开源 AI 知识库社区,用户量达 138 万多,首页访问次数超 200 万,强调共同学习、共创的价值观。 DeepSeek 模型功能包括自然语言处理、翻译与转换、文本生成与创作、知识和推理等,可用于多种场景,如文本摘要、格式转换等。其爆火原因包括能力强,在竞赛题等方面表现出色;国内能用,效果惊艳;开源免费,成本低;突破算力封锁,能在国内短缺 GPU 情况下训练出超一流模型。 2 月 23 日有 AI 切磋大会第十期 2 月 23 日 deepseek 专场,线下 16 个城市活动开始报名,活动报名链接为 https://waytoagi.feishu.cn/share/base/form/shrcnWlc12pvQQmx21mTZNEJ83d 。 2 月 22 日,英伟达 CEO 黄仁勋在 Beyond 大会上首次就近期引发全球 AI 圈热议的中国企业 DeepSeek 发表了看法。 欢迎向社区投稿关于 AI 技术探讨与分析、实践经验与案例分享、行业动态与趋势观察、开发心得与技术教程等内容,要求原创、严谨、有深度,配图说明更佳,观点明确,结构清晰,建议字数 1500 5000 字,提交后 2 3 工作日反馈,必要时沟通修改建议,优质内容将收录知识库。更多内容请前往 。
2025-03-09
ai编程
以下是关于 AI 编程的相关信息: Trae 国内版 是国内首个 AI IDE,自带豆包 1.5pro 和满血版 DeepSeek R1、V3 模型。 具有国内用户友好、使用完全免费、内置预览插件等特性。 网址:Trae.com.cn 或点击文末【阅读原文】直接访问。 借助 AI 学习编程的关键 打通学习与反馈循环,包括验证环境、建立信心、理解基本概念,实现“理解→实践→问题解决→加深理解”的循环。 使用流行语言和框架,先运行再优化,小步迭代,借助 AI 生成代码后请求注释或解释,遇到问题三步走:复现、精确描述、回滚。 用好 AI 编程工具(如 Cursor)的关键技能 准确描述需求,清晰表达目标和问题。 具备架构能力,将复杂系统拆解为松耦合的模块。 拥有专业编程能力,能够判断 AI 生成代码的优劣。 具备调试能力,快速定位问题并解决,可独立或借助 AI 完成调试。
2025-03-09
手把手带你创造智能体
以下是手把手创建智能体的详细步骤: 1. 创建智能体:使用单 Agent 对话流模式。 编排对话流:点击创建新的对话流并与智能体关联。在获取笔记详情节点和笔记评论节点分别配置 cookie,note_link 使用开始节点的 USER_INPUT。 数据处理:使用代码节点对两个插件获取的结果进行处理,注意代码节点输出的配置格式。 测试:找到一篇小红书笔记,在对话窗口输入地址试运行对话流,同时在智能体的编排页面进行测试,确保对话流执行成功。 发布:选择多维表格,进行配置。输出类型选文本,输入类型选字段选择器。完善上架信息,填写表格,选发布范围时可仅自己可用以加快审核。提交上架信息后,返回配置界面显示已完成即可最终提交。 2. 搭建智能体:创建智能体,输入人设等信息,放上创建的工作流。注意工作流中【所有视频片段拼接】节点使用的插件 api_token 填自己的 token 时不能直接发布,可将其作为工作流最开始的输入,让用户购买后输入再发布。 3. 开通阿里云百炼满血版 DeepSeek: 在模型广场找到 DeepSeekR1 并授权。 可看到免费的 100w 额度和已使用量,过期未用则浪费。此模型为阿里云自主部署,推理优化强,性能优于多数本地部署版本。还有免费的蒸馏版 R1 模型,同样 100w token,可在首页或直接体验使用,也可进行模型效果对比或用 API 调用。 百炼应用开发新增模板,可从模板学习应用搭建。 联网搜索简单方便,直接配置即可,结合 Deepseekr1 更强大。 新鲜的动态 few shot 小技巧可用于修正模型某些任务的表现。 用工作流让不同模型在同一任务创作。
2025-03-09
AI分析直播数据
使用 AI 分析直播数据可以参考以下方法和步骤: 1. 市场分析:利用 AI 分析工具研究市场趋势、消费者行为和竞争对手情况,处理大量数据以获取关键信息,如受欢迎的产品、价格区间、销量等。 2. 关键词优化:借助 AI 分析和推荐高流量、高转化的关键词,优化产品标题和描述,提高搜索排名和可见度。 3. 产品页面设计:使用 AI 设计工具根据市场趋势和用户偏好自动生成吸引人的产品页面布局。 4. 内容生成:利用 AI 文案工具撰写有说服力的产品描述和营销文案,提高转化率。 5. 图像识别和优化:通过 AI 图像识别技术选择或生成高质量的产品图片,展示产品特点。 6. 价格策略:依靠 AI 分析不同价格点对销量的影响,制定有竞争力的价格策略。 7. 客户反馈分析:利用 AI 分析客户评价和反馈,了解客户需求,优化产品和服务。 8. 个性化推荐:借助 AI 根据用户的购买历史和偏好提供个性化的产品推荐,增加销售额。 9. 聊天机器人:使用 AI 驱动的聊天机器人提供 24/7 的客户服务,解答疑问,提高客户满意度。 10. 营销活动分析:依靠 AI 分析不同营销活动的效果,了解哪些活动更能吸引顾客并产生销售。 11. 库存管理:利用 AI 帮助预测需求,优化库存管理,减少积压和缺货情况。 12. 支付和交易优化:通过 AI 分析不同的支付方式对交易成功率的影响,优化支付流程。 13. 社交媒体营销:借助 AI 在社交媒体上找到目标客户群体,通过精准营销提高品牌知名度。 14. 直播和视频营销:利用 AI 分析观众行为,优化直播和视频内容,提高观众参与度和转化率。 罗文在直播数据分析方面的分享包括: 1. 演示了利用工作流进行直播数据处理及智能体创建参赛的过程,包括利用插件识别图片内容获取直播数据,将数据传入大模型得到优化建议,通过不断添加节点提升数据质量,最后将工作流封装成智能体。 2. 讨论了利用 AI 优化模板并提交的直播数据分析流程,包括模板内容的编写与注意事项,还介绍了飞书的功能如共学小组和其智能 AI 功能,分享了直播数据分析模板的制作过程,最后提及了模板大赛相关问题、专业版好用之处等。 3. 提到了直播数据分析工作流的搭建与应用,包括插件测试与选择、工作流搭建步骤、工作流效果提升、工作流封装与应用、相关问题探讨等。 4. 介绍了直播数据分析与报名流程,包括工作流运行与问题排查、报名流程介绍、AI 辅助文档生成、加入共学小组等内容。
2025-03-09
【深度拆解】ChatGPT-4o背后的技术革新:从语言模型到多模态跨越
ChatGPT4o 背后的技术革新具有重要意义。人类的感知多样,仅靠语言描述世界远远不够,多模态理解非常有用,能更全面学习世界、理解人类需求等。2023 年 9 月 GPT4v 发布,将大语言模型竞赛带入多模态模型时代,如 ChatGPT 能看图说话、画图,Google 的 Gemini 支持多种模态,但 OpenAI 常抢先发布。今年 5 月 OpenAI 发布 GPT4o,向智能体方向迈进,其是之前技术的集大成者,通过端到端神经网络混合训练视觉、语音和文本数据,平均音频输入反应时间为 300 毫秒,能感悟人类表达的情绪等。OpenAI 未公开 GPT4o 技术细节,唯一线索来自内部炼丹师的博客 AudioLM。此外,GPT4 是 OpenAI 的多模态工具,在编程任务中表现出色,ChatGPT 是用户友好界面,可与高级语言模型交互。2024 年 5 月 14 日 OpenAI 发布 GPT4o,效率高、价格降低、延迟缩短。9 月 16 日 OpenAI 推出 o1 系列模型,在复杂任务中表现优异,o1mini 适合编码任务,两个模型已在 ChatGPT 中提供,有免费或收费版本。
2025-03-09
提示词使用方法
以下是关于提示词使用方法的详细介绍: 一、什么是提示词 提示词用于描绘您想要的画面。在星流一站式 AI 设计工具中,不同的基础模型对输入语言有不同要求。通用大模型与基础模型 F.1、基础模型 XL 使用自然语言(如“一个长头发的金发女孩”),基础模型 1.5 使用单个词组(如“女孩、金发、长头发”),且支持中英文输入。启用提示词优化后,能帮您扩展提示词,更生动地描述画面内容。 二、如何写好提示词 1. 预设词组:小白用户可以点击提示词上方的官方预设词组进行生图。 2. 提示词内容准确:包含人物主体、风格、场景特点、环境光照、画面构图、画质等,例如“一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量”。 3. 调整负面提示词:点击提示框下方的齿轮按钮,弹出负面提示词框。负面提示词可以帮助 AI 理解我们不想生成的内容,如“不好的质量、低像素、模糊、水印”。 4. 利用“加权重”功能:可在功能框增加提示词,并进行加权重调节,权重数值越大,越优先。还可以对已有的提示词权重进行编辑。 5. 辅助功能:包括翻译功能(一键将提示词翻译成英文)、删除所有提示词(清空提示词框)、会员加速(加速图像生图速度,提升效率)。 三、提示词语法 根据自己想画的内容写出提示词,多个提示词之间使用英文半角符号将权重降低至原先的 90.91%”“字符”。 四、如何学习提示词运用 提示词在现代大型语言模型中极其重要,掌握其运用技巧能最大限度发挥模型潜能。学习提示词运用的建议如下: 1. 理解提示词的作用:提示词向模型提供上下文和指示,其质量直接影响模型输出质量。 2. 学习提示词的构建技巧:明确任务目标,用简洁准确的语言描述,给予足够背景信息和示例,使用清晰指令,对特殊要求明确指示。 3. 参考优秀案例:研究和学习已有的优秀提示词案例,可在领域社区、Github 等资源中查找。 4. 实践、迭代、优化:多与语言模型互动,根据输出提高提示词质量,尝试各种变体,比较分析输出差异,持续优化。 5. 活用提示工程工具:如 Anthropic 的 Constitutional AI 等。 6. 跟上前沿研究:提示工程是前沿研究领域之一,持续关注最新研究成果和方法论。精心设计的提示词能最大限度发挥语言模型的潜力,多实践、多学习、多总结,终可掌握窍门。
2025-03-09
图片提取文字
以下是关于图片提取文字的相关信息: 输入模块设计: 能够处理各种格式的文档输入,包括 PDF、Word、Excel、网页等,并转换成可解析的结构化文本。 支持多种文件格式,如 PDF、Word、Excel、TXT 等。对于图片,可借助 OCR 工具进行文本提取,例如开放平台工具:。 网页可使用网页爬虫工具(如 Scrapy、BeautifulSoup、Selenium)抓取网页中的文本和表格数据,通过解析 HTML 的 DOM 结构提取目标数据(平台暂无工具)。 多模态技术: 可以从图像中提取文本,使从表情包或文档扫描中提取文本成为可能,还能理解图像或视频中发生的事情,识别物体、场景甚至情绪。 0 基础手搓 AI 拍立得的实现工作流: 包括上传输入图片、理解图片信息并提取图片中的文本内容信息、场景提示词优化/图像风格化处理、返回文本/图像结果。 零代码版本选择了 Coze 平台,搭建流程时主要关注上传图片(将本地图片转换为在线 OSS 存储的 URL 以便在平台中调用)、插件封装(将图片理解大模型和图片 OCR 封装为工作流插件实现便捷调用)等步骤。
2025-03-09