Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

腾讯agent开发

Answer

AppAgent 是由腾讯开发的一种基于大型语言模型(LLM)的多模态 Agent 框架。

其主要特点和功能包括:

  • 多模态代理:能够处理和理解多种类型的信息(如文本、图像、触控操作等)。
  • 直观交互:通过模仿人类的直观动作(如点击和滑动屏幕)来与手机应用程序交互,能够在手机上执行各种任务,例如在社交媒体上发帖、帮用户撰写和发送邮件、使用地图、在线购物,甚至进行复杂的图像编辑等。

对于之后模仿数据的反利用也有不错的应用场景,例如互联网或 AI 或涉及到原型+UE 的工作都可以在基于模仿数据的基础上进行反推,进而让设计出的产品原型和 UE 交互更优解。

AppAgent 在 50 个任务上进行了广泛测试,涵盖了 10 种不同的应用程序。该项目由腾讯和德州大学达拉斯分校的研究团开发。

相关链接:

  • 官方网站:https://appagent-official.github.io
  • 相关报道:https://x.com/xiaohuggg/status/1738083914193965528?s=20
Content generated by AI large model, please carefully verify (powered by aily)

References

Han:基于现有能力项目应用的思考

|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||AppAgent:让AI模仿人类在手机上操作APP|通过appagent的模仿能力不断提升,<br>对于之后模仿数据的反利用也有不错的应用场景,<br>例如互联网或AI或涉及到原型+UE的工作都可以在基于模仿数据的基础上进行反推,<br>进而让设计出的产品原型和UE交互更优解。|AI学习模型|AppAgent可以通过自主学习和模仿人类的点击和滑动手势,能够在手机上执行各种任务。<br>它可以在社交媒体上发帖、帮你撰写和发送邮件、使用地图、在线购物,甚至进行复杂的图像编辑...<br>AppAgent在50个任务上进行了广泛测试,涵盖了10种不同的应用程序。<br>该项目由腾讯和德州大学达拉斯分校的研究团开发。|主要功能特点:<br>-多模态代理:AppAgent是一个基于大语言模型的多模态代理,它能够处理和理解多种类型的信息(如文本、图像、触控操作等)。这使得它能够理解复杂的任务并在各种不同的应用程序中执行这些任务。<br>-直观交互:它能通过模仿人类的直观动作(如点击和滑动屏幕)来与智能手

质朴发言:视觉-语言理解模型的当前技术边界与未来应用想象|Z 研究第 2 期

Gemini是由Google开发的一系列新的多模态模型,其最大亮点之一是其原生多模态大模型的设计。它能够处理不同形式的数据(语言+听力+视觉),并在一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性。Agent能力:调用多模态,完成实时场景交互,通过不同模态之间的准确推理,能够概括和无缝理解、操作以及结合不同类型的信息,包括文本、代码、音频、图像和视频,为用户提供了自然的交互体验演示案例:在烹饪场景中,Gemini Ultra通过一系列图像和音频的交互展示了其在处理用户提问、图像细节以及多模态推理中的出色表现,模型准确回答了用户的问题,体现其调用多模态能力的统一性腾讯:AppAgent多模态Agent框架AppAgent是由腾讯开发的一种基于大型语言模型(LLM)的多模态Agent框架,由大型语言模型驱动,能够掌握并使用任何应用程序来执行复杂任务。它通过直观的点击和滑动手势与应用程序交互,模仿类似人类的动作,操作复杂功能演示案例:在使用Adobe Lightroom进行图像编辑的测试中,AppAgent通过实时截图和展示应用程序UI的XML文件,可以准确感知、推理并响应任务要求的能力

XiaoHu.AI日报

?Xiaohu.AI日报「12月22日」✨✨✨✨✨✨✨✨1⃣️?OpenSaaS-免费开源的SaaS模板:提供预配置的功能丰富平台,便于构建应用。包含用户认证、内置博客、支付系统等。特别适合小型团队和个人开发者。?http://opensaas.sh?https://x.com/xiaohuggg/status/1738129354243383719?s=202⃣️?TasteTime Machine-味道时光机:宮下芳明教授开发,模拟不同时间段食物味道。可使新鲜食物味道变成放置数日的味道,反之亦然。例:即刻享受放置一晚的咖喱浓郁味道。?https://x.com/xiaohuggg/status/1738113688794763739?s=203⃣️?AppAgent-人类操作模拟AI:自主学习模仿人类手势,执行多种手机任务。由腾讯和德州大学达拉斯分校研究团队开发。?https://appagent-official.github.io?https://x.com/xiaohuggg/status/1738083914193965528?s=204⃣️?️DREAM-Talk-照片说话项目:字节跳动开发,单张图片生成说话面部动画。支持多种情感表达和多语言。?https://magic-research.github.io/dream-talk/?https://x.com/xiaohuggg/status/1738061130034266560?s=205⃣️

Others are asking
AI Agents(智能体)
AI 智能体(Agents)是人工智能领域中一个重要的概念: 1. 从 AGI 的发展等级来看,智能体不仅具备推理能力,还能执行全自动化业务,但目前许多 AI Agent 产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 2. 作为大模型的主要发展方向之一,智能体中间的“智能体”其实就是大模型(LLM)。通过为 LLM 增加工具、记忆、行动、规划这四个能力来实现。目前行业里主要用到的是 langchain 框架,它把 LLM 与 LLM 之间以及 LLM 与工具之间通过代码或 prompt 的形式进行串接。 3. 从智能体的起源探究来看,心灵社会理论认为智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,每个层次由多个 Agent 负责,每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务。同时存在专家 Agent、管理 Agent、学习 Agent 等不同类型的 Agent 及其相应功能。从达特茅斯会议开始讨论人工智能,到马文·明斯基引入“Agent”概念,“AI”和“Agent”就彻底聚齐,往后被称之为 AI Agent。
2025-04-15
B端AI Agent
以下是关于 B 端 AI Agent 的相关知识: 一、概念定义 1. 智能体(Agent)简单理解就是 AI 机器人小助手,参照移动互联网,类似 APP 应用的概念。随着 ChatGPT 与 AI 概念的爆火,出现了很多相关新名词,如 bot 和 GPTs 等。AI 大模型是技术,面向用户提供服务的是产品,因此很多公司关注 AI 应用层的产品机会。 C 端案例:如社交方向,用户注册后先捏一个自己的 Agent,然后让其与他人的 Agent 聊天,两个 Agent 聊到一起后真人再介入;还有借 Onlyfans 入局打造个性化聊天的创业公司。 B 端案例:字节扣子和腾讯元器若为面向普通人的低代码平台,类似 APP 时代的个人开发者,那么帮助 B 端商家搭建 Agent 就类似 APP 时代专业做 APP 的。 2. 智能体开发平台:最早接触到的扣子 Coze 是通过一篇科技报道,如 2 月 1 日,字节正式推出 AI 聊天机器人构建平台 Coze 的国内版“扣子”,主要用于开发下一代 AI 聊天机器人。国内还有很多智能体开发平台,如 Dify.AI,但个人较常用的是扣子,所以常对比字节扣子和腾讯元器。 3. 关注智能体的原因:目前 AI Agent 的概念在市场上未达成共识,存在被滥用现象。AI Agent 指的是一种智能代理系统,接近人类大脑,可形成记忆、达成行动规划、自动交互、主动预测。其应用具有个性化、自主完成任务、多 Agent 协作等特点。目前 AI Agent 应用大多集中在 2B 场景,面向个人消费者的产品少,一方面是高度智能化的 Agent 能力需打磨,概念落地有距离;另一方面是 AI 和娱乐消费诉求结合少,主要带来生产方式和效率变革,个人消费者方向目前只看到“私人助理”场景。
2025-04-15
有关 ai agent 的科普文章
以下是为您提供的关于 AI Agent 的科普内容: AI Agent 是一个融合了多学科精髓的综合实体,包括语言学、心理学、神经学、逻辑学、社会科学和计算机科学等。它不仅有实体形态,还有丰富的概念形态,并具备许多人类特有的属性。 目前,关于 AI Agent 存在一些情况。例如,网络上对其的介绍往往晦涩难懂,让人感觉神秘莫测,其自主性、学习能力、推理能力等核心概念,以及如何规划和执行任务、理解并处理信息等方面,都像是笼罩在一层神秘面纱之下。 另外,以国与国之间的外交为例来解释相关协议。假设每个 AI 智能体(Agent)就是一个小国家,它们各自有自己的语言和规矩。各国大使馆试图互相沟通、做生意、交换情报,但现实中存在诸多问题,如协议各异、要求不同等。 如果您想了解更多关于 AI Agent 的详细内容,可访问: 。
2025-04-15
,AI agent 发展趋势,技术状态,商业模式
以下是关于 AI Agent 的发展趋势、技术状态和商业模式的相关信息: 发展趋势: 2024 年内,办公场景“AI 助手”开始有良好使用体验,实时生成的内容开始在社交媒体内容、广告中出现。 2025 2027 年,接近 AGI 的技术出现,人与 AI 配合的工作方式成为常态,很多日常决策开始由 AI 来执行。 技术状态: 目标实现基于 ReAct、SFT、RAG、强化学习等实现自主规划能力的 AI Agent,构建具备认知、决策智能的 Agent 智能体框架。 专注文本/多模态大模型、AI Agent 技术创新与应用。 商业模式: 依据不同类型销售市场的特点,结合一站式 AI 搭建平台将销售部署的产品化和模版化,让企业更容易落地和应用 AI 能力。 销售智能体 Blurr.AI 占位交易环节,解决 2B 销售获客的痛点,且具有向前后端环节延展的势能。
2025-04-13
AGENT
智能体(Agent)在人工智能和计算机科学领域是一个重要概念,指能够感知环境并采取行动以实现特定目标的实体,既可以是软件程序,也可以是硬件设备。 智能体具有以下特点: 1. 自主系统:通过感知环境(通常通过传感器)并采取行动(通常通过执行器)来达到某种目标。 2. 关键组成部分: 规划:将大型任务分解为更小、可管理的子目标,有效处理复杂任务。 反思和完善:对过去的行为进行自我批评和反思,从错误中吸取教训,完善未来步骤,提高最终结果质量。 记忆:包括短期记忆,用于所有的上下文学习;长期记忆,通过利用外部向量存储和快速检索实现长时间保留和回忆信息。 工具使用:学习调用外部 API 来获取模型权重中缺失的额外信息。 以下是一些与智能体相关的资源目录: 关于 2025AGENT 智能体全球创作大赛: 1. 报名:通过→首页的“立即参赛”按钮进入报名页面,填写相关信息并提交即可,且参赛完全免费。 2. 提交作品:在本网站直接提交,若采用 flowith 搭建了 Agent 可以在微博、小红书、即刻平台发布,并@Flowith 官方,可获得额外会员奖励。 3. 奖项设置:设有金、银、铜奖和多个单项奖,获奖后将获得组委会颁发的奖金和证书,需保证联系方式准确以便联系。 4. 知识产权归属:参赛作品的知识产权归参赛者所有,但组委会有权在宣传和展示中使用参赛作品。
2025-04-12
AI workflow在企业中是否比Agent应用价值和场景更多
AI workflow 和 Agent 在企业中的应用价值和场景各有特点。 Agentic Workflows 具有以下优势: 1. 灵活性、适应性和可定制性:能够根据任务难度进行调整和演变,通过组合不同模式实现定制,在需求和复杂性增长时进行迭代升级。 2. 在复杂任务上的性能提升:将复杂任务分解为更小、可管理的步骤,显著优于确定性的零样本方法。 3. 自我纠正和持续学习:能够评估自身行为,完善策略,从过去经验中学习,在每次迭代中变得更有效和个性化。 4. 操作效率和可扩展性:可以高精度自动化重复任务,减少人工操作和运营成本,还能轻松扩展。 Agentic Workflow 的应用场景包括原子设计模式的组合、与人类反馈循环集成等。例如,Agentic RAG 在检索增强生成流程中引入了一个或多个 AI Agents,在规划阶段可进行查询分解等操作,还能评估数据和响应的相关性和准确性。 一般来说,Workflow 是一系列旨在完成特定任务或目标的相互连接的步骤。最简单的工作流是确定性的,遵循预定义步骤序列。有些工作流利用大模型或其他 AI 技术,分为 Agentic 和非 Agentic 两类。非 Agentic 工作流中,大模型根据指令生成输出。Agentic Workflow 是由单个或几个 AI Agents 动态执行的一系列连接步骤,被授予权限收集数据、执行任务并做出决策,利用 Agents 的核心组件将传统工作流转变为响应式、自适应和自我进化的过程。 综上所述,不能简单地说 AI workflow 在企业中比 Agent 应用价值和场景更多,这取决于企业的具体需求和任务特点。
2025-04-09
未来ai发展尤其对于腾讯的发展有什么方向性的可能
以下是关于腾讯在未来 AI 发展方向的一些可能: 1. 2024 年数字科技趋势:从连接、交互、计算和智能四个维度,对 100 多项未来技术和重点方向给出趋势性判断。包括星地直连的卫星互联网、垂直起降飞机的未来交通网、能源、信息和交通的多网协同,使未来网络连接的广度和深度都迎来无限可能。报告下载地址:(发布时间:2024/01/23) 2. 金融业大模型应用:强调大模型技术对金融业带来的革命性影响,包括提高效率、降低成本、创新服务和优化风险管理等方面。通过深入分析多个案例,展示大模型在金融服务、风险管理、客户服务和营销策略等领域的应用,同时指出实施大模型技术面临的挑战,如数据隐私、算法偏见和监管合规等。报告下载地址:(发布时间:2023/11/30) 3. 在基础模型和开源生态方面: 合成数据方面:量变不能直接产生质变,质量和结构至关重要;需要从扩充数据转向创造知识,通过系统化方法提升训练数据质量。 游戏开发、影视制作、工业设计、VR 构建等领域:面临数据积累和模型优化以实现产业赋能的挑战,当前瓶颈包括训练数据稀缺和泛化能力有限,未来方向可能是 GANs 数据生成和迁移学习优化。 材质还原方面:基于几何模型的空间结构特征生成真实感材质与纹理映射,纹理生成方法多元化,核心技术不断突破,AI 赋能加速发展,应用场景持续扩展。
2025-04-10
腾讯元器智能体
智能体是随着 ChatGPT 与 AI 概念爆火而出现的新名词,如“智能体 Agent”“bot”和“GPTs”等。简单理解,智能体就是 AI 机器人小助手,参照移动互联网,类似 APP 应用的概念。AI 大模型是技术,面向用户提供服务的是产品,因此很多公司关注 AI 应用层的产品机会。 在做智能体创业的公司有不少,C 端案例中,比如在社交方向,用户注册后先捏一个自己的智能体,然后让其与他人的智能体聊天,两个智能体聊到一起后再真人介入。B 端案例中,如果字节扣子和腾讯元器是面向普通人的低代码平台,类似 APP 时代的个人开发者,还有机会帮助 B 端商家搭建智能体。 国内有很多智能体开发平台,如字节的扣子 Coze、Dify.AI 等。个人常用的是扣子,本篇主要对比字节扣子和腾讯元器。 在 2025 年 1 月的国内月活榜中,腾讯元器排名 A101+1,分类为智能体,网址是 yuanqi.tencent.com,活跃用户为 5 万人,环比变化为0.1748,所属公司为腾讯。
2025-02-14
腾讯 Hunyuan
腾讯混元是腾讯推出的一系列模型,包括腾讯混元视频生成模型。以下是关于腾讯混元的一些重要信息: 上个月 5 号,宣布开源大语言模型混元 Large 和 3D 大模型 Hunyuan3D1.0。 近期开源了超大混元视频生成模型 HunyuanVideo,具备 130 亿参数,表现出色。该模型支持文生视频生成,未来将支持图生视频,特点包括超强的真实质感、很强的语义理解、可以切换镜头。 开源地址:https://github.com/Tencent/HunyuanVideo 。普通用户也可以去腾讯元宝 APP,进入 AI 应用查看,可能需要申请资格,但腾讯处理速度较快。 2024 年 12 月 4 日有相关报道。 1 月 24 日,腾讯宣布推出 Hunyuan3D1.0 ,地址为 https://github.com/Tencent/HunyuanLarge 。
2025-02-10
腾讯系ai生成视频的平台
腾讯系生成视频的平台主要有以下两个: 1. 腾讯 Hunyuan:这是一个 130 亿参数的开源视频模型。具有高质量视频生成能力,动作连贯自然,镜头切换灵活。具备强大语义跟随能力,适配新一代语言模型作为文本编码器,采用类似 Sora 的 DiT 架构,显著提升影视级动态表现力。其官网为:https://aivideo.hunyuan.tencent.com ,代码:https://github.com/Tencent/HunyuanVideo 2. 腾讯智影:具有数字人播报功能。 此外,通过 ChatGPT 生成文案,将文案复制到支持 AI 文字转视频的工具内,也可实现短视频自动生成。比如手机版剪映的图文成片功能。区别于专业剪辑软件复杂的操作页面,这类 AI 视频制作工具让大众生产视频更轻松上手。
2025-02-10
腾讯智影的功能
腾讯智影具有以下功能: 1. 数字人播报功能:可实现通过文字生成数字人的播报内容。 2. 短视频自动生成:通过 ChatGPT 生成文案,将文案复制到工具内实现短视频自动生成。当系统匹配的素材不符合要求时可手动替换。与专业剪辑软件相比,操作更简便,让大众生产视频更轻松。 此外,在 AI 领域还有其他相关产品和应用,如: 1. 彩云天气 APP:利用 AI 技术提供准确的天气预报预警,保障生命财产安全。 2. 腾讯觅影:对医疗影像进行分析,辅助医生诊断。 3. 钉钉会议管理功能:利用 AI 技术管理会议流程,提高会议效率。 4. 微拍堂书法作品拍卖频道:利用 AI 技术对书法作品进行鉴定和评估,为书法爱好者提供作品销售渠道。 在制作 PPT 方面,好用的 AI 工具包括: 1. Gamma:在线 PPT 制作网站,通过输入文本和想法提示快速生成幻灯片,支持嵌入多媒体格式。 2. 美图 AI PPT:通过输入简单文本描述生成专业 PPT 设计,包含丰富模板库和设计元素。 3. Mindshow:AI 驱动的 PPT 辅助工具,提供智能设计功能,包括自动布局、图像选择和文本优化等。 4. 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用语音识别和自然语言处理技术优势,提供智能文本生成、语音输入、文档格式化等功能。
2025-01-10
有没有能分析拆解腾讯视频的AI工具?
目前有使用 Gemini 1.5 Pro 来分析和拆解腾讯视频的工具。以下是一些相关信息: 大家可以放自己的案例,本文档可编辑。 郑跃葵:拿个库布里克的电影来分析,连大师手法都学会了。 大峰 AI 绘画:太酷啦又多了一个 AI 视频创作助手。 Jones:b 站大学复习有救了。 对!:拉片太方便了。 Shock:而且可以干掉人工标注了,安徽那边数据标注众包要失业了。 清慎:1. 影视二创长剪短,一键生成小帅、小美、大壮、丧彪的故事;2. 警察叔叔查监控,一句话找出监控中的可疑现象;3. 替代 Opus 等长剪短工具。 测试者阿强:好用,准确度很高,把前几天用 AI 做的功夫熊猫之离谱村版丢进去分析,效果很好。拆解作品。 测试者张余和 Ling、洋洋也有拆解结果,Gemini 1.5 Pro 给出了全文。 您可以尝试使用 Gemini 1.5 Pro 来满足您对腾讯视频的分析拆解需求。
2024-12-11
stable video diffusion开发
以下是关于 Stable Video Diffusion 开发的相关信息: SVD 介绍: 简介:Stable Video Diffusion 是 Stability AI 于 2023 年 11 月 21 日发布的视频生成式大模型,用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。它支持多种功能,用户可调整多种参数,但对硬件要求较高,支持的图片尺寸较小,应用场景受限。 模型版本:开源了两种图生视频的模型,一种能生成 14 帧的 SVD,另一种是可以生成 25 帧的 SVDXL,发布时通过外部评估超越了人类偏好研究中领先的封闭模型。 主要贡献:提出系统的数据管理工作流程,将大量未经管理的视频集合转变为高质量数据集;训练出性能优于现有模型的文本到视频和图像到视频模型;通过特定领域实验探索模型中运动和 3D 理解的强先验,预训练的视频扩散模型可转变为强大的多视图生成器,有助于克服 3D 领域数据稀缺问题。 部署实战避坑指南: 直接使用百度网盘里准备好的资源,可规避 90%的坑。 若一直报显存溢出问题,可调低帧数或增加 novram 启动参数。 云部署实战中,基础依赖模型权重有两个 models–laion–CLIPViTH14laion2Bs32Bb79K 和 ViTL14.pt,需放到指定路径下。 总结: Sora 发布后,此前的视频生成模型相形见绌,但 Stable Video Diffusion 作为开源项目可在自己机器上自由创作无需充值。SVD 生成的视频画质清晰,帧与帧过渡自然,能解决背景闪烁和人物一致性问题,虽目前最多生成 4 秒视频,与 Sora 的 60 秒差距大,但在不断迭代。我们会持续关注其技术及前沿视频生成技术,尝试不同部署微调方式,介绍更多技术模型,更多精彩内容后续放出。 同时,您还可以加入「AIGCmagic 社区」群聊交流讨论,涉及 AI 视频、AI 绘画、Sora 技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群。
2025-04-15
stable diffusion开发公司
Stable Diffusion 是由初创公司 StabilityAI、CompVis 与 Runway 合作开发的。其核心技术来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach。该项目的技术基础主要来自于他们之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。其原理包括使用新颖的文本编码器(OpenCLIP)将文本输入转换为向量表示,利用扩散模型将随机噪声图像逐渐变换为目标图像,在扩散过程中以文本向量和噪声图像作为条件输入给出变换的概率分布,最后使用超分辨率放大器将生成的低分辨率图像放大到更高分辨率。 Stable Diffusion 总共有 1B 左右的参数量,可以用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等丰富的任务。在文生图任务中,将一段文本输入到模型中,经过一定迭代次数输出符合文本描述的图片;图生图任务则在输入文本基础上再输入一张图片,模型根据文本提示对输入图片进行重绘。输入的文本信息通过 CLIP Text Encoder 模型编码生成与文本信息对应的 Text Embeddings 特征矩阵,用于控制图像生成。源代码库为 github.com/StabilityAI/stablediffusion ,当前版本为 2.1 稳定版(2022.12.7),其代码模型权重已公开发布,可以在大多数配备有适度 GPU 的电脑硬件上运行。
2025-04-15
runway的开发公司
Runway 是由一家总部位于旧金山的 AI 创业公司开发的。其在 2023 年初推出的 Gen2 代表了当前 AI 视频领域最前沿的模型。目前 Runway 支持在网页(https://runwayml.com/ )、iOS 访问,网页端目前支持 125 积分的免费试用额度(可生成约 105s 视频),iOS 则有 200 多,两端额度貌似并不同步。
2025-04-15
stable diffusion开发公司
Stable Diffusion 是由初创公司 Stability AI、CompVis 与 Runway 合作开发的。其核心技术来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach。该项目的技术基础主要来自于他们之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。其原理包括使用新颖的文本编码器(OpenCLIP)将文本输入转换为向量表示,利用扩散模型将随机噪声图像逐渐变换为目标图像,在扩散过程中以文本向量和噪声图像作为条件输入给出变换概率分布,最后使用超分辨率放大器将生成的低分辨率图像放大到更高分辨率。 Stable Diffusion 总共有 1B 左右的参数量,可以用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等丰富的任务。其代码模型权重已公开发布,可以在大多数配备有适度 GPU 的电脑硬件上运行,当前版本为 2.1 稳定版(2022.12.7),源代码库为 github.com/StabilityAI/stablediffusion 。
2025-04-15
对于用cursor来开发,有没有好好用prompt来使cursor变得更加好用
以下是关于如何用 prompt 使 Cursor 变得更好用的相关内容: 在 prompt 方面,Devin 有一个特别有帮助的文档(https://docs.devin.ai/learnaboutdevin/prompting),它会教您什么样的 prompt 在与 Devin 沟通时最有效,比如明确定义成功的标准,如跑通某个测试或访问某个链接能对得上等。将同样的原则应用到 Cursor 中,会发现 Cursor 变得聪明很多,能自主验证任务完成情况并进行迭代。 Cursor 在生成单测方面表现出色。相对 GPT 等工具,Cursor 解决了上下文缺失和难以实现增量更新的问题。它可以向量化整个代码仓库,在生成单测代码时能同时提供目标模块及对应的上下游模块代码,生成结果更精确。例如,使用适当的 Prompt 能返回基于 Vitest 的结果,调整成本较小。 Cursor 支持使用.cursorrules 文件设定项目的系统提示词,针对不同语言可设定不同的 Prompt。@AIChain 花生做了一个 Cursor 插件解决提示语管理问题,可选择不同的.cursorrules 文件,还可从 https://cursor.directory/ 和 https://cursorlist.com/ 寻找提示词。此外,还有一个提示语小技巧,给已有的提示语追加上特定规则,可使模型在搜索资源和思考时默认使用英语,回复转换成中文,或更灵活地根据提问语言进行回复。
2025-04-14
我是一个前端开发人员,在工作中,我可以使用哪些ai工具提效
以下是一些适合前端开发人员在工作中提效的 AI 工具: 1. 辅助编程工具: GitHub Copilot:由 GitHub 联合 OpenAI 和微软 Azure 团队推出,支持多种语言和 IDE,能快速提供代码建议。 通义灵码:阿里巴巴团队推出,提供多种编程辅助能力。 CodeWhisperer:亚马逊 AWS 团队推出,由机器学习技术驱动,实时提供代码建议。 CodeGeeX:智谱 AI 推出的开源免费编程助手,基于 130 亿参数的预训练大模型。 Cody:Sourcegraph 推出的代码编写助手,借助强大的代码语义索引和分析能力。 CodeFuse:蚂蚁集团支付宝团队推出的免费 AI 代码助手。 Codeium:通过提供代码建议等帮助提高编程效率和准确性。 更多辅助编程 AI 产品,可查看:https://www.waytoagi.com/category/65 。每个工具功能和适用场景不同,可根据需求选择。 2. 测试用例生成:AI 在生成测试用例方面具有显著优势,能自动化和智能化生成高覆盖率的测试用例,减少人工编写时间和成本。通过合理应用 AI 工具,可提高测试效率、增强测试覆盖率和发现潜在问题,从而提升软件质量和用户体验。 3. 网页原型图生成工具: 即时设计:https://js.design/ ,可在线使用的「专业 UI 设计工具」,注重云端文件管理和团队协作。 V0.dev:https://v0.dev/ ,Vercel Labs 推出的 AI 生成式用户界面系统,能通过文本或图像生成代码化的用户界面。 Wix: ,用户友好,无需编码知识即可创建和自定义网站,提供广泛模板和设计选择,以及多种功能。 Dora:https://www.dora.run/ ,通过一个 prompt,借助 AI 3D 动画生成强大网站。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-14