Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

多模态Agent最新动态

Answer

以下是关于多模态 Agent 的最新动态:

《质朴发言:视觉-语言理解模型的当前技术边界与未来应用想象|Z 研究第 2 期》

  • 近期,生成式 AI 领域的浪潮催化了多模态模型的探索,研究人员不断尝试使用更多模态数据的编码,以训练出能够理解和处理多种类型数据的模型。本份研究报告集中讨论了基于 Transformer 架构的视觉-语言模型,报告范围专注于视觉和语言之间的交互,不考虑单纯的视觉到视觉的计算机视觉任务。
  • 从 2022 年 11 月 18 日到 2023 年 7 月 26 日,多模态 Agents 迅速增长。
  • LLM 多模态 agent 是将现有技术融合的新尝试,是一种集成了多种模态数据处理能力的 AI 技术。
    • 优点:高度的灵活性和扩展性,可根据不同任务需求调用最合适的模型处理任务,适应多样化任务和数据类型,优化资源使用,提升效率;无需训练,系统开发周期快,成本低。
    • 局限性:调试和工程化难度较高,维护和升级成本高;多个组件紧密耦合,单点故障可能导致整个系统风险增加;没有涌现出新的能力。
    • 适用场景:需要综合处理视频、语音和文本等多种信息的复杂环境,如自动驾驶汽车;高度交互和灵活的用户界面,如客户服务机器人或交互式娱乐应用。

《2024 年度 AI 十大趋势报告》

  • 随着大模型对图像和视频信息的处理能力快速提升,预计 2025 年将开始出现更为综合性的多模态交互,AI 能够通过物联网、特定信息等多种感知通道进行协同。
  • 多模态输入和输出使 AI 交互性更强、交互频次更高,适用场景也更加丰富,AI 产品整体水平显著提升。
  • Agent 作为融合感知、分析、决策和执行能力的智能体,能够根据用户历史行为和偏好,主动提供建议、提醒并个性化执行能力,为用户提供高度个性化的任务。从 2025 年开始,AI Agent 即将广泛投入使用。
  • 从个性化推荐到直接生成个性化内容,AIGC 能够使用户体验的个性化程度有明显提升,这将帮助产品进一步完善用户体验,并通过提高用户忠诚度和迁移成本,实现差异化定价和进一步的服务增值,对产品的差异化竞争有重大意义。目前,基于 AIGC 的高度个性化已经在 AI 教育、AI 陪伴、AI 营销领域有明显进展。在硬件端搭载的多款 AI 智能助手也已开始以高度个性的个人助理作为宣传重点。
Content generated by AI large model, please carefully verify (powered by aily)

References

质朴发言:视觉-语言理解模型的当前技术边界与未来应用想象|Z 研究第 2 期

原文链接:https://mp.weixin.qq.com/s/dYLqW8dNOcQw59UtQwXNgA来源:质朴发言发文时间:2024.01.22近期,生成式AI领域的浪潮催化了多模态模型的探索,研究人员不断尝试使用更多模态数据的编码,以训练出能够理解和处理多种类型数据的模型。本份研究报告集中讨论了基于Transformer架构的视觉-语言模型,这些模型优化了从视觉输入到语言输出的转换过程。报告的范围专注于视觉和语言之间的交互,而不考虑单纯的视觉到视觉的计算机视觉任务。综上,本报告旨在为所有关心大模型事业的伙伴,提供一个全面而深入的视角,以理解视觉-语言理解模型的发展历程、现状及未来趋势。?目录建议结合要点进行针对性阅读。?一、视觉分析技术1、Transformer视觉模型优点2、Transformer视觉模型的局限二、图像-语言模型三、视频-语言模型四、LLM多模态Agent五、应用场景1、多模态内容理解与处理2、智能交互与自动化3、具身智能4、未来发展趋势(2024-?)5、视频生成模型mapping六、未来发展方向1、技术路径而言:利用预训练LLMs进行指令调整2、应用场景而言:赋予机器理解多模态的能力七、References八、附录

《2024年度AI十大趋势报告》发布:技术创新、产品洗牌、行业动态一文看尽

随着⼤模型对图像和视频信息的处理能⼒快速提升,预计2025年将开始出现更为综合性的多模态交互,AI能够通过物联⽹、特定信息等多种感知通道进⾏协同。多模态输⼊和输出使AI交互性更强、交互频次更⾼,适⽤场景也更加丰富,AI产品整体⽔平显著提升。Agent作为融合感知、分析、决策和执⾏能⼒的智能体,能够根据⽤户历史⾏为和偏好,主动提供建议、提醒并个性化执⾏能⼒,为⽤户提供⾼度个性化的任务。其交互的主动性和⾃动化远超现有工具。从技术和配套设施两⽅⾯发展来看,从2025年开始,AI Agent即将⼴泛投⼊使⽤。量⼦位智库认为,AI Agent有望带来独属于AI 2.0时代的交互⽅式、产品形态和商业模式。从个性化推荐到直接⽣成个性化内容,AIGC能够使⽤户体验的个性化程度有明显提升,这将帮助产品进⼀步完善⽤户体验,并通过提⾼⽤户忠诚度和迁移成本,实现差异化定价和进⼀步的服务增值,对产品的差异化竞争有重⼤意义。⽬前,基于AIGC的⾼度个性化已经在AI教育(个性化题库及教学安排)、AI陪伴(AI个⼈助理及虚拟伙伴)、AI营销(商品个性化推荐、营销内容个性化⽣成)领域有明显进展。在硬件端搭载的多款AI智能助⼿也已开始以⾼度个性的个⼈助理作为宣传重点。

质朴发言:视觉-语言理解模型的当前技术边界与未来应用想象|Z 研究第 2 期

从2022年11月18日到2023年7月26日,多模态Agents的迅速增长(Li et al.,2023)近年来,随着大型语言模型(LLM,如GPT-3)的发展,研究者开始尝试将LLM作为中枢神经调用多模态模型(LLM多模态agent),以进一步提升视觉理解任务的效果。严格来讲,2023年兴起的LLM多模态agent并不算是视觉基础模型的又一技术迭代,而是将现有技术融合的新尝试,是一种集成了多种模态数据处理能力的AI技术LLM多模态Agent的优点:(1)其高度的灵活性和扩展性。它可以根据不同的任务需求,调用最合适的模型来处理任务,无论是文本、图像或是声音数据。这种模型的扩展性能使其能够适应多样化的任务和数据类型,优化资源使用,提升效率;(2)因为无需训练,系统开发周期快,成本很低。LLM多模态Agent面临的局限性:(1)它的调试和工程化难度较高,这可能意味着在维护和升级过程中需要更多的成本和技术投入;(2)由于多个组件的紧密耦合,单点故障可能导致整个系统风险增加;(3)没有涌现出新的能力。LLM多模态Agent适用的场景包括:(1)需要综合处理视频、语音和文本等多种信息的复杂环境。例如,在自动驾驶汽车中,需要融合处理来自摄像头、传感器的视觉信息以及语音指令;(2)高度交互和灵活的用户界面也是LLM多模态Agent发挥优势的场景。这在如客户服务机器人或是交互式娱乐应用中尤为明显,它们需要与用户进行自然流畅的交互,并理解用户通过多种渠道表达的需求和指令。

Others are asking
AI Agents(智能体)
AI 智能体(Agents)是人工智能领域中一个重要的概念: 1. 从 AGI 的发展等级来看,智能体不仅具备推理能力,还能执行全自动化业务,但目前许多 AI Agent 产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 2. 作为大模型的主要发展方向之一,智能体中间的“智能体”其实就是大模型(LLM)。通过为 LLM 增加工具、记忆、行动、规划这四个能力来实现。目前行业里主要用到的是 langchain 框架,它把 LLM 与 LLM 之间以及 LLM 与工具之间通过代码或 prompt 的形式进行串接。 3. 从智能体的起源探究来看,心灵社会理论认为智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,每个层次由多个 Agent 负责,每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务。同时存在专家 Agent、管理 Agent、学习 Agent 等不同类型的 Agent 及其相应功能。从达特茅斯会议开始讨论人工智能,到马文·明斯基引入“Agent”概念,“AI”和“Agent”就彻底聚齐,往后被称之为 AI Agent。
2025-04-15
B端AI Agent
以下是关于 B 端 AI Agent 的相关知识: 一、概念定义 1. 智能体(Agent)简单理解就是 AI 机器人小助手,参照移动互联网,类似 APP 应用的概念。随着 ChatGPT 与 AI 概念的爆火,出现了很多相关新名词,如 bot 和 GPTs 等。AI 大模型是技术,面向用户提供服务的是产品,因此很多公司关注 AI 应用层的产品机会。 C 端案例:如社交方向,用户注册后先捏一个自己的 Agent,然后让其与他人的 Agent 聊天,两个 Agent 聊到一起后真人再介入;还有借 Onlyfans 入局打造个性化聊天的创业公司。 B 端案例:字节扣子和腾讯元器若为面向普通人的低代码平台,类似 APP 时代的个人开发者,那么帮助 B 端商家搭建 Agent 就类似 APP 时代专业做 APP 的。 2. 智能体开发平台:最早接触到的扣子 Coze 是通过一篇科技报道,如 2 月 1 日,字节正式推出 AI 聊天机器人构建平台 Coze 的国内版“扣子”,主要用于开发下一代 AI 聊天机器人。国内还有很多智能体开发平台,如 Dify.AI,但个人较常用的是扣子,所以常对比字节扣子和腾讯元器。 3. 关注智能体的原因:目前 AI Agent 的概念在市场上未达成共识,存在被滥用现象。AI Agent 指的是一种智能代理系统,接近人类大脑,可形成记忆、达成行动规划、自动交互、主动预测。其应用具有个性化、自主完成任务、多 Agent 协作等特点。目前 AI Agent 应用大多集中在 2B 场景,面向个人消费者的产品少,一方面是高度智能化的 Agent 能力需打磨,概念落地有距离;另一方面是 AI 和娱乐消费诉求结合少,主要带来生产方式和效率变革,个人消费者方向目前只看到“私人助理”场景。
2025-04-15
有关 ai agent 的科普文章
以下是为您提供的关于 AI Agent 的科普内容: AI Agent 是一个融合了多学科精髓的综合实体,包括语言学、心理学、神经学、逻辑学、社会科学和计算机科学等。它不仅有实体形态,还有丰富的概念形态,并具备许多人类特有的属性。 目前,关于 AI Agent 存在一些情况。例如,网络上对其的介绍往往晦涩难懂,让人感觉神秘莫测,其自主性、学习能力、推理能力等核心概念,以及如何规划和执行任务、理解并处理信息等方面,都像是笼罩在一层神秘面纱之下。 另外,以国与国之间的外交为例来解释相关协议。假设每个 AI 智能体(Agent)就是一个小国家,它们各自有自己的语言和规矩。各国大使馆试图互相沟通、做生意、交换情报,但现实中存在诸多问题,如协议各异、要求不同等。 如果您想了解更多关于 AI Agent 的详细内容,可访问: 。
2025-04-15
,AI agent 发展趋势,技术状态,商业模式
以下是关于 AI Agent 的发展趋势、技术状态和商业模式的相关信息: 发展趋势: 2024 年内,办公场景“AI 助手”开始有良好使用体验,实时生成的内容开始在社交媒体内容、广告中出现。 2025 2027 年,接近 AGI 的技术出现,人与 AI 配合的工作方式成为常态,很多日常决策开始由 AI 来执行。 技术状态: 目标实现基于 ReAct、SFT、RAG、强化学习等实现自主规划能力的 AI Agent,构建具备认知、决策智能的 Agent 智能体框架。 专注文本/多模态大模型、AI Agent 技术创新与应用。 商业模式: 依据不同类型销售市场的特点,结合一站式 AI 搭建平台将销售部署的产品化和模版化,让企业更容易落地和应用 AI 能力。 销售智能体 Blurr.AI 占位交易环节,解决 2B 销售获客的痛点,且具有向前后端环节延展的势能。
2025-04-13
AGENT
智能体(Agent)在人工智能和计算机科学领域是一个重要概念,指能够感知环境并采取行动以实现特定目标的实体,既可以是软件程序,也可以是硬件设备。 智能体具有以下特点: 1. 自主系统:通过感知环境(通常通过传感器)并采取行动(通常通过执行器)来达到某种目标。 2. 关键组成部分: 规划:将大型任务分解为更小、可管理的子目标,有效处理复杂任务。 反思和完善:对过去的行为进行自我批评和反思,从错误中吸取教训,完善未来步骤,提高最终结果质量。 记忆:包括短期记忆,用于所有的上下文学习;长期记忆,通过利用外部向量存储和快速检索实现长时间保留和回忆信息。 工具使用:学习调用外部 API 来获取模型权重中缺失的额外信息。 以下是一些与智能体相关的资源目录: 关于 2025AGENT 智能体全球创作大赛: 1. 报名:通过→首页的“立即参赛”按钮进入报名页面,填写相关信息并提交即可,且参赛完全免费。 2. 提交作品:在本网站直接提交,若采用 flowith 搭建了 Agent 可以在微博、小红书、即刻平台发布,并@Flowith 官方,可获得额外会员奖励。 3. 奖项设置:设有金、银、铜奖和多个单项奖,获奖后将获得组委会颁发的奖金和证书,需保证联系方式准确以便联系。 4. 知识产权归属:参赛作品的知识产权归参赛者所有,但组委会有权在宣传和展示中使用参赛作品。
2025-04-12
AI workflow在企业中是否比Agent应用价值和场景更多
AI workflow 和 Agent 在企业中的应用价值和场景各有特点。 Agentic Workflows 具有以下优势: 1. 灵活性、适应性和可定制性:能够根据任务难度进行调整和演变,通过组合不同模式实现定制,在需求和复杂性增长时进行迭代升级。 2. 在复杂任务上的性能提升:将复杂任务分解为更小、可管理的步骤,显著优于确定性的零样本方法。 3. 自我纠正和持续学习:能够评估自身行为,完善策略,从过去经验中学习,在每次迭代中变得更有效和个性化。 4. 操作效率和可扩展性:可以高精度自动化重复任务,减少人工操作和运营成本,还能轻松扩展。 Agentic Workflow 的应用场景包括原子设计模式的组合、与人类反馈循环集成等。例如,Agentic RAG 在检索增强生成流程中引入了一个或多个 AI Agents,在规划阶段可进行查询分解等操作,还能评估数据和响应的相关性和准确性。 一般来说,Workflow 是一系列旨在完成特定任务或目标的相互连接的步骤。最简单的工作流是确定性的,遵循预定义步骤序列。有些工作流利用大模型或其他 AI 技术,分为 Agentic 和非 Agentic 两类。非 Agentic 工作流中,大模型根据指令生成输出。Agentic Workflow 是由单个或几个 AI Agents 动态执行的一系列连接步骤,被授予权限收集数据、执行任务并做出决策,利用 Agents 的核心组件将传统工作流转变为响应式、自适应和自我进化的过程。 综上所述,不能简单地说 AI workflow 在企业中比 Agent 应用价值和场景更多,这取决于企业的具体需求和任务特点。
2025-04-09
多模态应用
以下是一些多模态应用的案例: 1. 电商领域: 拍立淘:由淘宝推出,用户拍照即可识别商品并直接进入购物页面,简化购物搜索步骤。 探一下:支付宝推出的图像搜索引擎,拍照后 AI 能识别并搜索相关商品或信息。 2. 创意领域: 诗歌相机:拍照能生成一首诗,还能打印,将诗意与现代技术结合,并做成硬件形式。 3. 技术平台: 阿里云百炼大模型平台为企业侧提供各种原子级别能力,包括多模态能力。 4. 其他应用场景: 融图:如把图二中的机器人合成到图一的环境中,保持比例、细节、光影和氛围感统一。 小红书风格卡片:使用特定风格生成关于特定内容的卡片。 Logo 转 3D 效果:将图标改成 3D 立体、毛玻璃、毛绒等效果。 示意图转卡通漫画:把示意图转成幼儿园小朋友能看懂的漫画并配中文说明。 遥感理解(图像数据):识别图中的建筑物并用色块标注。 包装图直出效果:生成图片对应的包装侧面效果图。 参考生成海报图:参考小红书封面生成 PPT 设计相关封面图。 三维建模模拟:将图片转化为 3D max 建模渲染界面并加入 UI 界面。 手办三视图:保留人物样貌、神态,制作成特定要求的 3D 手办三视图。
2025-04-18
多模态是什么,
多模态指多数据类型交互,能够提供更接近人类感知的场景。大模型对应的模态包括文本、图像、音频、视频等。 随着生成式 AI 和大模型的发展,我们逐渐进入多模态灵活转换的新时代,即能用 AI 实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换,这一变革依靠一系列革新性的算法。 在感知不同模态数据时,AI 借助高维向量空间来理解,不再局限于传统的单一模态处理方式,将图像或文字“压缩”成抽象的向量,捕捉深层关系。 Gemini 模型本身就是多模态的,展示了无缝结合跨模态的能力,在识别输入细节、聚合上下文以及在不同模态上应用等方面表现出强大性能。
2025-04-13
Qwen 多模态模型哪一个最顶?
目前阿里发布的 Qwen 多模态模型中,Qwen2.5VL 较为突出。它可处理长达数小时的视频,并在电脑上执行自动化任务。提供 3B、7B、72B 三种规模,旗舰版对标 GPT4o、Claude 3.5 Sonnet。具备全文档解析能力,支持手写、表格、图表、化学公式等多场景识别,还可操作电脑或手机界面,执行自动化任务,如点击按钮、填表等。详情可参考:https://www.xiaohu.ai/c/xiaohuai/qwen25vl285cee 。此外,Qwen2.5Max 也是阿里通义千问的大型专家模型(MoE),基于 SFT 和 RLHF 策略训练,在多项基准如 Arena Hard、LiveBench、LiveCodeBench、GPQADiamond 上超越 DeepSeek V3,引发社区关注。更多体验方式包括支持官方 Chat、API 接口、Hugging Face Demo 等,详情可参考:https://qwenlm.github.io/blog/qwen2.5max/ 、https://chat.qwenlm.ai 、https://alibabacloud.com/help/en/modelstudio/gettingstarted/firstapicalltoqwen?spm=a2c63.p38356.helpmenu2400256.d_0_1_0.1f6574a72ddbKE 、https://huggingface.co/spaces/Qwen/Qwen2.5MaxDemo 。
2025-03-25
如何构建多模态知识库?
构建多模态知识库可以参考以下步骤: 1. 图像知识库方面:通过多模态的能力对图片信息进行检索理解。效果测试时,上传一张图片,在图像数据库里找到相关信息,然后结合内容进行回复。 2. 构建图片索引: 新建结构化数据表时,将图片索引所在列的字段类型设置为 link。需注意新建数据表后,无法再新增或修改字段类型为 link。 创建结构化知识库时,对于需要建立图片索引的 link 类型字段,在旁边的下拉列表中选择图片。创建知识库后,无法再新建或修改图片索引。 3. 多模态知识库还包括构建图片型索引需结构化数据表,字段类型设置为 link,以实现 FAQ 中向用户推送图片信息。
2025-03-19
多模态达模型排行
以下是一些常见的多模态模型排行及相关信息: 1. 智谱·AI 开源模型: CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,在 CogVLM 功能基础上具备 GUI 图像的 Agent 能力。代码链接:。 CogVLM17B:强大的开源视觉语言模型(VLM),在多模态权威学术榜单上综合成绩第一,在 14 个数据集上取得了 stateoftheart 或者第二名的成绩。代码链接:。 Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM6B,具有 62 亿参数;图像部分通过训练 BLIP2Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。代码链接:。 2. Gemini 模型:Gemini Ultra 在表 7 中的各种图像理解基准测试中都是最先进的,在回答自然图像和扫描文档的问题,以及理解信息图表、图表和科学图解等各种任务中表现出强大的性能。在 zeroshot 评估中表现更好,超过了几个专门在基准训练集上进行微调的现有模型,适用于大多数任务。在 MMMU 基准测试中取得了最好的分数,比最先进的结果提高了 5 个百分点以上,并在 6 个学科中的 5 个学科中超过了以前的最佳结果。 3. 多模态思维链提示方法:Zhang 等人(2023)提出了一种多模态思维链提示方法,多模态 CoT 模型(1B)在 ScienceQA 基准测试中的表现优于 GPT3.5。
2025-03-18
【深度拆解】ChatGPT-4o背后的技术革新:从语言模型到多模态跨越
ChatGPT4o 背后的技术革新具有重要意义。人类的感知多样,仅靠语言描述世界远远不够,多模态理解非常有用,能更全面学习世界、理解人类需求等。2023 年 9 月 GPT4v 发布,将大语言模型竞赛带入多模态模型时代,如 ChatGPT 能看图说话、画图,Google 的 Gemini 支持多种模态,但 OpenAI 常抢先发布。今年 5 月 OpenAI 发布 GPT4o,向智能体方向迈进,其是之前技术的集大成者,通过端到端神经网络混合训练视觉、语音和文本数据,平均音频输入反应时间为 300 毫秒,能感悟人类表达的情绪等。OpenAI 未公开 GPT4o 技术细节,唯一线索来自内部炼丹师的博客 AudioLM。此外,GPT4 是 OpenAI 的多模态工具,在编程任务中表现出色,ChatGPT 是用户友好界面,可与高级语言模型交互。2024 年 5 月 14 日 OpenAI 发布 GPT4o,效率高、价格降低、延迟缩短。9 月 16 日 OpenAI 推出 o1 系列模型,在复杂任务中表现优异,o1mini 适合编码任务,两个模型已在 ChatGPT 中提供,有免费或收费版本。
2025-03-09
现在是2025年3月18日,我现在要整理一份AI行业的最新动态,在每天早上十点发布,请你整理今天的最新动态,10条左右
以下是 2025 年 3 月 18 日 AI 行业的最新动态: 1. 3 月 AI 发展持续升温。 2. 3 月潞晨科技发布 OpenSora。 3. 3 月 Suno 发布 V3 版本爆火。 4. OpenAI CPO Kevin Weil 访谈亮点:GPT5 近在眼前,将融合多个模型能力,快速推进,AI 代码自动化将在今年内达到 99%,强化推理能力和大规模预训练是关键方向,AI 不仅会写代码,还将让人人都能成为软件创造者。 5. 2025 年职场思考与建议:高管们面临“经验贬值”与“转型焦虑”,非 AI 公司的估值与融资变难,软件开发方式正被重构,“等风来”的代价越来越高,加入 AI 公司也并非万能,市场冷却下招聘更挑剔。 6. 你的孩子可能已经在用 AI“作弊”。 7. 过去一年,头部 AI 应用的品类变化不显著,创意工具仍占据最大比重。 8. 2024 年 9 月,OpenAI 发布新一代语言模型 o1,采用全新训练与推理方案,结合强化学习技术,显著增强推理能力,可能通过生成内部“思维链”模拟人类系统 2 思维方式。 9. 5 月伊莉雅离开 OpenAI,AI 竞争白热化。 10. 5 月伊利亚成立新公司,估值超五亿美金。
2025-03-18
最新的AI技术动态
以下是关于最新的 AI 技术动态的相关内容: AI 技术的学习路径: 偏向技术研究方向: 数学基础:线性代数、概率论、优化理论等。 机器学习基础:监督学习、无监督学习、强化学习等。 深度学习:神经网络、卷积网络、递归网络、注意力机制等。 自然语言处理:语言模型、文本分类、机器翻译等。 计算机视觉:图像分类、目标检测、语义分割等。 前沿领域:大模型、多模态 AI、自监督学习、小样本学习等。 科研实践:论文阅读、模型实现、实验设计等。 偏向应用方向: 编程基础:Python、C++等。 机器学习基础:监督学习、无监督学习等。 深度学习框架:TensorFlow、PyTorch 等。 应用领域:自然语言处理、计算机视觉、推荐系统等。 数据处理:数据采集、清洗、特征工程等。 模型部署:模型优化、模型服务等。 行业实践:项目实战、案例分析等。 2024 年 AI 大事纪: 3 月:AI 发展持续升温,潞晨科技发布 OpenSora,Suno 发布 V3 版本爆火。 4 月:英伟达发布硬件股价飙升。 5 月:苹果发布 AI 芯片,张吕敏发布 IC light,AI 竞争白热化,伊莉雅离开 OpenAI 并成立新公司,估值超五亿美金。 7 月:快手开源 LivePortrait 模型,表情迁移。 8 月:StabilityAI 老板成立新公司发布 flux 大模型。 9 月:阿里云发布模型,海螺 AI 参战,Google 发布 GameGen 实时生成游戏,通义千问 2.5 系列全家桶开源,华为发布 cloud matrix 云计算基础设施,GPT 高级语音模式上线,Meta 发布 AI 眼镜 Orion,AI 代码编辑器 cursor 爆火。 10 月:Pika 发布 1.5 模型,诺奖颁发给 AI 奠基人,特斯拉发布机器人,Adobe 发布 Illustrator+Al 生成矢量图,智谱 AI 发布 autoGLM,腾讯混元开源 3D 模型。 AI 技术的发展历程和前沿技术点: 发展历程: 早期阶段(1950s 1960s):专家系统、博弈论、机器学习初步理论。 知识驱动时期(1970s 1980s):专家系统、知识表示、自动推理。 统计学习时期(1990s 2000s):机器学习算法(决策树、支持向量机、贝叶斯方法等)。 深度学习时期(2010s 至今):深度神经网络、卷积神经网络、循环神经网络等。 前沿技术点: 大模型(Large Language Models):GPT、PaLM 等。 多模态 AI:视觉 语言模型(CLIP、Stable Diffusion)、多模态融合。 自监督学习:自监督预训练、对比学习、掩码语言模型等。 小样本学习:元学习、一次学习、提示学习等。 可解释 AI:模型可解释性、因果推理、符号推理等。 机器人学:强化学习、运动规划、人机交互等。 量子 AI:量子机器学习、量子神经网络等。 AI 芯片和硬件加速。 需要注意的是,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-16
今天有什么ai新动态
以下是近期的 AI 新动态: 2024 年 3 月:AI 发展持续升温,潞晨科技发布 OpenSora,Suno 发布 V3 版本爆火。 2024 年 4 月:英伟达发布硬件,股价飙升。 2024 年 5 月:苹果发布 AI 芯片,张吕敏发布 IC light,AI 竞争白热化,伊莉雅离开 OpenAI 并成立新公司,估值超五亿美金。 2024 年 7 月:快手开源 LivePortrait 模型,实现表情迁移。 2024 年 8 月:StabilityAI 老板成立新公司发布 flux 大模型。 2024 年 9 月:阿里云发布模型,海螺 AI 参战,Google 发布 GameGen 实时生成游戏,通义千问 2.5 系列全家桶开源,华为发布 cloud matrix 云计算基础设施,GPT 高级语音模式上线,Meta 发布 AI 眼镜 Orion,AI 代码编辑器 cursor 爆火。 2024 年 10 月:Pika 发布 1.5 模型,诺奖颁发给 AI 奠基人,特斯拉发布机器人,Adobe 发布 Illustrator+Al 生成矢量图,智谱 AI 发布 autoGLM,腾讯混元开源 3D 模型。 12 月 5 日的 AI 新动态: Clone Robotics:仿生机器人公司致力于生产高仿真产品,技术和外观的进步让人类与机器人的边界变得越来越模糊。 Humane 发布 AI 驱动操作系统 CosmOS,具有多种核心功能,支持多种输入方式,并可实时从互联网获取数据为用户提供服务。 DeepMind 发布天气预测 AI 模型 GenCast,可预测未来 15 天的天气和极端天气风险,与顶级预测系统相比表现更优,且模型代码、权重和预测数据已开源。 OpenAI 的 ChatGPT 用户突破 3 亿。 在法律法规方面: 虽然 AI 概念不新,但近期数据生成和处理的进步改变了该领域及其产生的技术。例如,生成式 AI 模型的能力发展带来机会的同时也引发了关于潜在风险的新辩论。 并非所有 AI 风险都源于不良行为者的故意行为,有些可能是意外后果或缺乏适当控制导致的。 对 AI 特定风险及其潜在危害进行了初步评估,并参考了其威胁的价值,包括安全、公平、隐私、人权、社会福祉和繁荣等。 交叉的 AI 风险评估确定了一系列高级风险,框架将寻求通过适当干预来优先处理和减轻这些风险。例如,安全风险包括对人类和财产的身体损害以及对心理健康的损害。
2025-03-12
如何把图片生成动态立体图
目前在将图片生成动态立体图方面,相关技术和方法还在不断发展和探索中。常见的途径可能包括使用专业的图形设计软件,如 3D 建模工具,通过对图片进行深度分析和建模来实现动态立体效果。但具体的操作过程会因软件的不同而有所差异。另外,一些新兴的 AI 图像生成技术也可能在未来为这一需求提供更便捷的解决方案。
2025-03-05
最新的AI行业动态和进展有哪些,包含2025年
以下是关于最新的 AI 行业动态和进展(包含 2025 年)的内容: 2024 年: 图片超短视频的精细操控:包括表情、细致动作、视频文字匹配。 有一定操控能力的生成式短视频:风格化、动漫风最先成熟,真人稍晚。 AI 音频能力长足进展:带感情的 AI 配音基本成熟。 “全真 AI 颜值网红”出现,可以稳定输出视频,可以直播带货。 游戏 AI NPC 有里程碑式进展,出现新的游戏生产方式。 AI 男/女朋友聊天基本成熟:记忆上有明显突破,可以较好模拟人的感情,产品加入视频音频,粘性提升并开始出圈。 实时生成的内容开始在社交媒体内容、广告中出现。 AI Agent 有明确进展,办公场景“AI 助手”开始有良好使用体验。 AI 的商业模式开始有明确用例:数据合成、工程平台、模型安全等。 可穿戴全天候 AI 硬件层出不穷,虽然大多数不会成功。 中国 AI 达到或超过 GPT4 水平;美国出现 GPT5;世界上开始现“主权 AI”。 华为昇腾生态开始形成,国内推理芯片开始国产替代(训练替代要稍晚)。 AI 造成的 DeepFake、诈骗、网络攻击等开始进入公众视野,并引发担忧。 AI 立法、伦理讨论仍然大规模落后于技术进展。 2025 2027 年: AI 3D 技术、物理规则成熟:正常人无法区别 AI 生成还是实景拍摄。 全真 AI 虚拟人成熟:包含感情的 AI NPC 成熟,开放世界游戏成熟;游戏中几乎无法区别真人和 NPC。 AR/VR 技术大规模商用。 接近 AGI 的技术出现。 人与 AI 配合的工作方式成为常态,很多日常决策开始由 AI 来执行。 AI 生产的数据量超过全人类生产数据量,“真实”成为稀缺资源。 具身智能、核聚变、芯片、超导、机器人等技术有明显进展突破。 “人的模型”出现,出现“集中化 AGI”与“个人 AGI”的历史分叉。 AI 引发的社会问题开始加重,结构性失业开始出现。 AGI 对于地缘政治的影响开始显露。 此外,还有以下相关动态: 算力瓶颈不只是单纯的技术和建设问题,而是影响整个行业竞争格局的重要变量。 逐渐进入多模态灵活转换的新时代,实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换。 人类劳动形式逐步“软件化”,复杂劳动被抽象为可调用的软件服务,劳动流程被大幅标准化和模块化,劳动能力像“即插即用”的工具一样易于获取。 AI 行业目前仍处于严重亏损的阶段,商业化进程仍有巨大提升空间。 云厂商是产业链中毋庸置疑的“链主”。 2024 年,头部 AI 应用的品类变化并不显著。创意工具(如图像和视频内容创作)依然占据最大比重。To P(面向专业用户)应用展现出强大的市场潜力,ToB(面向企业)应用发展路径相对复杂,ToC 应用面临较大的挑战。 在 AI 应用领域,Copilot 和 AI Agent 是两种主要的技术实现方式。 北美和欧洲贡献了 AI 移动应用市场三分之二的份额,众多中国 AI 公司积极出海。 2024 年 10 月的大事记包括: Gartner 发布 2025 年十大战略技术趋势。 DeepSeek 开源多模态 LLM 框架 Janus。 司南开源大模型能力评估模型 CompassJudger。 Anthropic 发布新功能 computer use,发布 Claude 3.5 Haiku,更新 Claude 3.5 Sonnet。 Stability AI 发布 Stable Diffusion 3.5。 x.AI 正式推出 API。 ComfyUI V1 官方桌面版开放内测。 华为发布纯血操作系统鸿蒙 OS NEXT。 Jina AI 推出高性能分类器 Classifier API。 OpenAI 发布图像生成模型 sCM。 Midjourney 上线外部图片编辑器。 Runway 发布动画视频功能 ActOne。 Ideogram 推出 AI 画板工具 Canvas。 Genmo 开源视频生成模型 Mochi 1。 荣耀发布操作系统 MagicOS 9.0。 美国 14 岁少年与 C.AI 聊天后离世。 新华社发文表示警惕「AI 污染」乱象。 港中文&趣丸推出 TTS 模型 MaskGCT。 科大讯飞发布讯飞星火 4.0 Turbo。 阿里通义代码模式开始内测。 Anthropic Claude 新增数据分析功能。 北京市大中小学推广 AI 学伴和 AI 导学应用。 稚晖君开源「灵犀 X1」全套资料。 OpenAI 高管 Miles Brundage 离职。
2025-02-17
最新的AI行业动态和进展有哪些
以下是最新的 AI 行业动态和进展: 1. 《2024 年度 AI 十大趋势报告》发布,其中提到大模型创新方面,架构优化加速涌现,融合迭代大势所趋;Scaling Law 泛化方面,推理能力成皇冠明珠,倒逼计算和数据变革;AGI 探索方面,视频生成点燃世界模型,空间智能统⼀虚拟和现实;AI 应用格局方面,第⼀轮洗牌结束,聚焦 20 赛道 5 大场景;AI 应用竞争方面,多领域竞速运营大于技术,AI 助手兵家必争;AI 应用增长方面,AI+X 赋能类产品大干快上,原生 AI 爆款难求;AI 产品趋势方面,多模态上马,Agent 席卷⼀切,高度个性化呼之欲出;AI 智变千行百业,左手变革生产力,右手重塑行业生态;AI 行业渗透率方面,数据基础决定初速度,用户需求成为加速度;AI 创投方面,投融资马太效应明显,国家队出手频率提升。 2. 2024 年 9 月的 AI 行业大事记: 9 月 12 日:李继刚再现神级 Prompt,玩法持续翻新;Mistral 发布首个多模态模型 Pixtral 12B。 9 月 13 日:商汤 Vimi 相机开放微博小程序;元象开源中国最大 MoE 大模型 XVERSEMoEA36B;OpenAI 发布 o1 模型。 9 月 14 日:人工智能生成合成内容标识办法(征求意见稿);Jina AI 发布 ReaderLM 和 Jina Embeddings V3。 9 月 18 日:DeepSeek 发文庆祝登上 LMSYS 榜单国产第一,几小时后 Qwen 新模型表示不服。 9 月 19 日:云栖大会;通义万相 AI 生视频上线;快手可灵 1.5 模型新增运动笔刷能力。 9 月 20 日:腾讯元器智能体对外发布;秘塔科技产品经理 JD 走红 AI 圈;阶跃跃问接入 Step2 万亿参数 MoE 语言大模型。 9 月 21 日:大模型测试基准研究组正式成立。 9 月 23 日:钉钉 365 会员上线。 9 月 24 日:讯飞星火 API 全新升级;豆包大模型全系列发布&更新。 9 月 25 日:Vidu API 正式开放,加速企业级视频创作;OpenAI 发布高级语音功能;西湖心辰开源 WestlakeOmni。 3. 2024 年,国内 AI 行业融资总金额增加,但事件数同比下降,马太效应越发明显,资本更青睐热点和高成熟度赛道。智能驾驶在各细分赛道中独占鳌头,AI+教育、AI+游戏、AI+医疗等赛道投资总额也有增长。政府积极推进 AI 原生行业发展,北京、上海、武汉等城市出台系列政策吸引人才和企业,国家队频繁投资体现政策支持。
2025-02-17
最新的AI排行榜
以下是最新的 AI 排行榜相关信息: 3 月 9 日榜单: 文生图:Ideogram 2a(官方评价这是 Ideogram 迄今为止最快、最实惠的文生图模型) 文生视频:SkyReels、海螺01director、Pixverse4.0 图生视频:SkyReels、Pixverse4.0、Adobe Firefly 测评涵盖了 Midjourney,Flux,即梦,Recraft,ideogram,SD3.5,Sora,可灵,通义,即梦,海螺,pixverse,pika,vidu,luma 等 50+国内外热门模型,还有 Veo 2.0 等最新模型上线。本周最出乎意料的是最新上的模型 SkyReels,在文生视频和图生视频榜单都排名靠前。 生成式 AI 季度数据报告 2024 月 1 3 月: 赛道方面:天花板潜力为数亿美金;对标公司有 Xmind 等;总体趋势平稳增长,15.93%;月平均增速 34 万 PV/月;原生产品占比中等。 竞争方面:Top1 占比 32%;Top3 占比 82%;马太效应弱;网络效应中;大厂是否入局是,但大厂占比较低;技术门槛中。 23 年 12 月至 24 年 3 月月访问量排行榜及变化情况: 非大厂的 Top1 公司及产品:Whimsical Al,估值融资 3000 万$(2021),最新月 PV 为 237 万。2023 年 4 月,月访问量 382 万,Whimsical AI、gitmind AI 分别位列第一、第二的位置,月访问量合计占比 84%。2024 年 3 月,月访问量 812 万,Whimsical AI 整年看处于增长态势,仍位列第一,月访问量达到 237 万;ProcessOn 凭借其原有客户积累,月访问量快速增长,位列第二名,占比 25%。 记忆辅助榜单中,2023 年 4 月,月访问量为 83 万,Rewind AI 以 43 万的访问量位居第一,占赛道月总访问量的 52%。Personal.ai 和 Heyday 分别以 25 万和 8 万的访问量位列二、三,分别占赛道月总访问量的 30%和 10%。2024 年 3 月,月访问量增长至 245 万,rabbit inc.以 128 万的访问量跃居第一,占赛道月总访问量的 52%。Humane 和 Rewind AI 分别以 46 万和 22 万的访问量位列二、三,分别占赛道月总访问量的 19%和 9%。 相关网址: https://www.xiaohongshu.com/user/profile/65890e73000000003d035101?xsec_token=AB67OV1KW_ANCcrYRU_oRTJKJ9xLtexbMgyoJq68rxQA%3D&xsec_source=pc_search aiwatch.ai
2025-04-15
有哪些最新的ai技术可用在课堂教学上
以下是一些可应用在课堂教学上的最新 AI 技术: 1. 智慧技术助理:为教师提供辅助,帮助教师在课前、课中、课后呈现新的教学样态,驱动学生高效和差异化学习。 2. 生成式人工智能:可用于为教师减负,例如辅助设计教学内容、生成提示词等。 3. 个性化学习支持:通过 AI 技术实现对学生的个性化学习支持,如智能评估学生的学习情况,为每个学生提供定制化的学习方案。 4. 教育过程和结果的结构化表征:利用 AI 进行分析,帮助教师更好地了解学生的学习过程和结果。 5. 多维度数据采集与评价:AI 可以整合行为、情感、认知等多维度数据,为学生绘制发展全景图,实现更全面的教育评价。 需要注意的是,AI 在教育中是“助手”而非“替代”,教师应充分利用这些成熟的技术促进教育变革。
2025-04-13
ai在教学中的最新应用
以下是 AI 在教学中的一些最新应用: 1. MIT 为孩子开设免费的 AI 课程,涵盖了 AI 在跨学科领域的应用,如 AI 与气候、AI 与大学录取、AI 对美国大选的影响等。孩子们需要思考如何用气候数据写好故事、预测气候变换走向,从数据分析角度了解大学录取中的相关问题,以及识别 AI 深度伪造的新媒体材料等。 2. 张翼然提出用 AI 为教师减负,为有初步 AI 使用经验、渴望了解最新技术进展并交流的老师提供了相关技巧和分享。例如,在智慧技术助理加持下探索教学新样态,分享全球 AI 技术在教育界的新发展和应用案例。 3. 从 AI 助教到智慧学伴的应用探索中,提出调整教学理念,将 AI 作为教学辅助工具和合作伙伴。学习利用 AI 工具的优势应用于教学,如自动生成练习、个性化反馈等,同时确认输出质量。根据 AI 能力设计开放性作业,调整考核方式,继续发挥教师在提供情感支持、培养团队合作等方面的优势。
2025-04-11
最新的生命科学有关的 AI动向
以下是生命科学领域有关 AI 的最新动向: 在医疗健康生物制药方面,AI 技术极大地加速了研究,在抗癌、抗衰老、早期疾病防治等方面发挥着重要作用。例如,AI 提前三年诊断胰腺癌;两名高中生与医疗技术公司合作发现与胶质母细胞瘤相关的新靶基因;AI 帮助抗衰老,筛查出高效的药物候选物;利用 AI 寻找阿尔兹海默症的治疗方法;通过神经网络分析患者体液中的生物标志物,早期诊断帕金森。 Nature Methods 主题特刊聚焦于 AI 在生物学中的应用,探讨了计算生物学多领域,强调高精度蛋白质结构预测成就,提及了 AI 在蛋白质组学数据分析中的应用、机器学习可解释性挑战,以及科研人员对 AI 工具培训的需求,同时探讨了 AI 与生物医学数据结合的新时代。 Flagship Pioneering 创始人 Noubar Afeyan 提出 AI for Science 的下一步是 MultiAgent,旨在实现类似自动驾驶的科研自动化,推动生命科学领域的革命性进展。
2025-04-10
请问有什么AI最新在零售行业的应用,最好有趣,实用有建设性
以下是 AI 在零售行业的一些有趣、实用且有建设性的最新应用: 1. 舆情、投诉、突发事件监测及分析:通过 AI 技术实时监测和分析消费者的反馈和市场动态,帮助企业及时做出应对策略。 2. 品牌营销内容撰写及投放:利用 AI 生成吸引人的营销文案,并精准投放到目标受众。 3. 自动化库存管理:基于历史销售数据和其他相关因素,预测未来的库存需求,优化库存配置,降低成本。 4. 自动生成或完成 SKU 类别选择、数量和价格分配:提高商品管理的效率和准确性。 5. 客户购物趋势分析及洞察:深入了解消费者的购物偏好和趋势,为企业的产品开发和营销策略提供依据。 此外,在医疗药品零售领域,AI 也有广泛的应用: 1. 药品推荐系统:根据用户购买记录和症状描述等数据,推荐合适的非处方药品和保健品,提高销售转化率。 2. 药品库存管理:分析历史销售数据、天气、疫情等因素,预测药品需求量,优化库存策略。 3. 药品识别与查询:借助计算机视觉技术,用户通过手机拍摄药品图像即可获取相关信息。 4. 客户服务智能助手:基于自然语言处理技术,回答顾客关于购药、用药、保健等常见问题。 5. 药店运营分析:分析销售、顾客流量、库存等大数据,发现潜在问题和优化空间。 6. 药品质量监控:利用机器视觉、图像识别等技术检测药品的包装、标签、颜色等是否合格。 7. 药品防伪追溯:利用区块链等技术实现全流程的药品溯源,保障药品供应链的安全和可信度。 总之,AI 技术在零售行业的应用能够提升购物体验、优化运营管理、降低成本,并为企业创造更多的价值。
2025-04-10
我想了解最新的ai的即时信息(最新资讯与ai工具)
以下是为您提供的最新 AI 即时信息和工具: 4 月 1 日 AI 资讯: 【AI 模型及应用】 OpenAI:将会开源一个推理模型,ChatGPT 即将推出推理强度控制选项,Gpt4o 生图能力面向免费用户。 Gemini 2.5 Pro:免费使用,任何人都可以使用 Canvas 进行编码和创作。 【AI 视频】 Higgsfield:发布 50 多个电影级摄影机动作预设,提升动态镜头表现力。 luma:为 Ray 2 引入摄像机运动概念,可基于预设镜头并组合编辑。 Remakes:支持基于用户上传图像直接编辑,并融合 Remade 视频特效,简化创意流程。 Meta:宣布推出 MoCha 系统,实现电影级说话角色合成效果。 【AI 3D】 HSMR:推出从单张图像重建人体 3D 骨骼和网格模型的系统。 krea:引入 AI 3D 生成能力,扩展其创意工具的功能范围。 PGC:推出基于物理的单一姿势高斯布料模拟技术,提升数字服装的真实感。 【AI 音频】 MiniMax Audio:发布全新 Speech02 语音模型,提升语音合成质量。 3 月 19 日 AI 资讯: 【AI 模型】 英伟达:发布全球首个开源人形机器人基础模型 Isaac GR00T N1 及相关 GTC 信息。 谷歌 Gemini:放出了两个功能 Canvas 和 Audio Overview。 【AI 视频】 STAbility AI:发布 Stable Virtual Camera,2D 图像转化 3D 视频。 Domo AI:推出“图片说话”功能,带口型匹配。 【AI 3D】 Roblox:推出 AI 3D 技术 Cube 3D。 Claude MCP Unity 版本推出。 【AI 音乐】 AI 音乐工具 Udio:推出 v1.5 Allegro。 LVAS Agent:基于多智能体协作的长视频音频合成。 获取 AI 资讯的渠道: 公众号:超时空视角、AI 替代人类。 小红书/抖音:EverAI。 B 站:Ever AI 酱(这里会有教程及 AI 工具界面操作)。 关于“通往 AGI 之路”知识库和社区平台: WaytoAGI(通往 AGI 之路)是一个致力于人工智能(AI)学习的中文知识库和社区平台。为学习者提供系统全面的 AI 学习路径,覆盖从基础概念到实际应用的各个方面。 汇集了上千个人工智能网站和工具,提供最新的 AI 工具、AI 应用、AI 智能体和行业资讯。 提供丰富的学习资源,包括文章、教程、工具推荐以及最新的 AI 行业资讯等。 社区定期组织活动,如视频挑战赛、模型创作大赛等,鼓励成员在实践中学习,促进交流与合作。 引领并推广开放共享的知识体系,倡导共学共创等形式,孵化了 AI 春晚、离谱村等大型共创项目。 在没有任何推广的情况下,WaytoAGI 一年时间已有超过 100 万用户和超千万次的访问量。 目前合作过的公司/产品包括阿里云,通义千问,淘宝,智谱,支付宝,豆包,火山引擎,marscode,coze,堆友,即梦,可灵,MiniMax 海螺 AI,阶跃星辰,百度,Kimi,吐司,liblib,华硕,美团,美的,360,伊利,魔搭,央视频,Civitai,Openart,Tripo3D,青椒云等。
2025-04-10