以下是关于多模态 Agent 的最新动态:
《质朴发言:视觉-语言理解模型的当前技术边界与未来应用想象|Z 研究第 2 期》
《2024 年度 AI 十大趋势报告》
原文链接:https://mp.weixin.qq.com/s/dYLqW8dNOcQw59UtQwXNgA来源:质朴发言发文时间:2024.01.22近期,生成式AI领域的浪潮催化了多模态模型的探索,研究人员不断尝试使用更多模态数据的编码,以训练出能够理解和处理多种类型数据的模型。本份研究报告集中讨论了基于Transformer架构的视觉-语言模型,这些模型优化了从视觉输入到语言输出的转换过程。报告的范围专注于视觉和语言之间的交互,而不考虑单纯的视觉到视觉的计算机视觉任务。综上,本报告旨在为所有关心大模型事业的伙伴,提供一个全面而深入的视角,以理解视觉-语言理解模型的发展历程、现状及未来趋势。?目录建议结合要点进行针对性阅读。?一、视觉分析技术1、Transformer视觉模型优点2、Transformer视觉模型的局限二、图像-语言模型三、视频-语言模型四、LLM多模态Agent五、应用场景1、多模态内容理解与处理2、智能交互与自动化3、具身智能4、未来发展趋势(2024-?)5、视频生成模型mapping六、未来发展方向1、技术路径而言:利用预训练LLMs进行指令调整2、应用场景而言:赋予机器理解多模态的能力七、References八、附录
随着⼤模型对图像和视频信息的处理能⼒快速提升,预计2025年将开始出现更为综合性的多模态交互,AI能够通过物联⽹、特定信息等多种感知通道进⾏协同。多模态输⼊和输出使AI交互性更强、交互频次更⾼,适⽤场景也更加丰富,AI产品整体⽔平显著提升。Agent作为融合感知、分析、决策和执⾏能⼒的智能体,能够根据⽤户历史⾏为和偏好,主动提供建议、提醒并个性化执⾏能⼒,为⽤户提供⾼度个性化的任务。其交互的主动性和⾃动化远超现有工具。从技术和配套设施两⽅⾯发展来看,从2025年开始,AI Agent即将⼴泛投⼊使⽤。量⼦位智库认为,AI Agent有望带来独属于AI 2.0时代的交互⽅式、产品形态和商业模式。从个性化推荐到直接⽣成个性化内容,AIGC能够使⽤户体验的个性化程度有明显提升,这将帮助产品进⼀步完善⽤户体验,并通过提⾼⽤户忠诚度和迁移成本,实现差异化定价和进⼀步的服务增值,对产品的差异化竞争有重⼤意义。⽬前,基于AIGC的⾼度个性化已经在AI教育(个性化题库及教学安排)、AI陪伴(AI个⼈助理及虚拟伙伴)、AI营销(商品个性化推荐、营销内容个性化⽣成)领域有明显进展。在硬件端搭载的多款AI智能助⼿也已开始以⾼度个性的个⼈助理作为宣传重点。
从2022年11月18日到2023年7月26日,多模态Agents的迅速增长(Li et al.,2023)近年来,随着大型语言模型(LLM,如GPT-3)的发展,研究者开始尝试将LLM作为中枢神经调用多模态模型(LLM多模态agent),以进一步提升视觉理解任务的效果。严格来讲,2023年兴起的LLM多模态agent并不算是视觉基础模型的又一技术迭代,而是将现有技术融合的新尝试,是一种集成了多种模态数据处理能力的AI技术LLM多模态Agent的优点:(1)其高度的灵活性和扩展性。它可以根据不同的任务需求,调用最合适的模型来处理任务,无论是文本、图像或是声音数据。这种模型的扩展性能使其能够适应多样化的任务和数据类型,优化资源使用,提升效率;(2)因为无需训练,系统开发周期快,成本很低。LLM多模态Agent面临的局限性:(1)它的调试和工程化难度较高,这可能意味着在维护和升级过程中需要更多的成本和技术投入;(2)由于多个组件的紧密耦合,单点故障可能导致整个系统风险增加;(3)没有涌现出新的能力。LLM多模态Agent适用的场景包括:(1)需要综合处理视频、语音和文本等多种信息的复杂环境。例如,在自动驾驶汽车中,需要融合处理来自摄像头、传感器的视觉信息以及语音指令;(2)高度交互和灵活的用户界面也是LLM多模态Agent发挥优势的场景。这在如客户服务机器人或是交互式娱乐应用中尤为明显,它们需要与用户进行自然流畅的交互,并理解用户通过多种渠道表达的需求和指令。