Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

有什么ai根据脚本完成鼠标键盘的自动化操作的学习吗

Answer

GPT-4V-Act 是一个多模态 AI 助手,能够模拟通过鼠标和键盘进行网页浏览。

应用场景:基于 AI 的能力、项目目标人群和服务内容类型,可用于以后互联网项目产品的原型设计自动化生成,使生成效果更符合用户使用习惯,同时优化广告位的出现位置、时机和频率。

技术类型:AI 学习模型

简介:它可以模拟人类浏览网页时的行为,如点击链接、填写表单、滚动页面等。通过视觉理解技术识别网页上的元素,像人眼一样“看到”按钮、文本框、图片等,并理解其功能和用途。目的是让 AI 自动完成一些人工操作任务,提高工作效率,方便人们使用网页界面。

主要特点:

  1. 视觉处理:能够处理视觉信息,但支持程度有限。
  2. 自动标记:使用 JS DOM 自动标记器为 UI 元素分配数字 ID,支持 COCO 数据格式的导出。
  3. 鼠标和键盘操作:能够执行点击和输入字符操作。
  4. 特殊键码输入:目前不支持输入特殊键码(如回车、页面上移、页面下移)。
  5. 其他功能:滚动、提示用户提供更多信息、记住与任务相关的信息等功能尚未支持。

工作原理:GPT

Content generated by AI large model, please carefully verify (powered by aily)

References

Han:基于现有能力项目应用的思考

|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||GPT-4V-Act:一个多模态AI助手,能够像人类一样模拟通过鼠标和键盘进行网页浏览。|基于AI的能力+项目目标人群+服务内容类型=以后互联网项目产品的原型设计自动化生成的效果会更符合用户使用习惯,同时以后广告位的出现的位置和时机,频率也更有效果。|AI学习模型|它可以模拟人类浏览网页时的行为,如点击链接、填写表单、滚动页面等。<br>它通过视觉理解技术识别网页上的元素,就像人眼一样,能够“看到”按钮、文本框、图片等,并理解它们的功能和用途。<br>这个工具的目的是让AI能够自动完成一些需要人工操作的任务,从而提高工作效率,帮助人们更容易地使用各种网页界面。|主要特点:<br>1、视觉处理:能够处理视觉信息,但支持程度有限。<br>2、自动标记:使用JS DOM自动标记器为UI元素分配数字ID,支持COCO数据格式的导出。<br>3、鼠标和键盘操作:能够执行点击和输入字符操作。<br>4、特殊键码输入:目前还不支持输入特殊键码(如回车、页面上移、页面下移)。<br>5、其他功能:滚动、提示用户提供更多信息、记住与任务相关的信息等功能也尚未支持。|工作原理:<br>GPT

Others are asking
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
ai视频教学
以下是为您提供的 AI 视频教学相关内容: 1. 第一节回放 AI 编程从入门到精通: 课程安排:19、20、22 和 28 号四天进行 AI 编程教学,周五晚上穿插 AI 视频教学。 视频预告:周五晚上邀请小龙问露露拆解爆火的 AI 视频制作,视频在视频号上有大量转发和播放。 编程工具 tree:整合多种模型,可免费无限量试用,下载需科学上网,Mac 可拖到文件夹安装,推荐注册 GitHub 账号用于代码存储和发布,主界面分为工具区、AI 干活区、右侧功能区等。 网络不稳定处理:网络不稳定时尝试更换节点。 项目克隆与文件夹:每个项目通过在本地新建文件夹来区分,项目运行一轮一轮进行,可新建会话,终端可重开。 GitHub 仓库创建:仓库相当于本地项目,可新建,新建后有地址,可通过多种方式上传。 Python 环境安装:为方便安装提供了安装包,安装时要选特定选项,安装后通过命令确认。 代码生成与修改:在 tree 中输入需求生成代码,可对生成的代码提出修改要求,如添加滑动条、雪花形状、颜色等,修改后审查并接受。 2. AI 视频提示词库: 神秘风 Arcane:Prompt:a robot is walking through a destroyed city,,League of Legends style,game modelling 乐高 Lego:Prompt:a robot is walking through a destroyed city,,lego movie style,bright colours,block building style 模糊背景 Blur Background:Prompt:a robot is walking through a destroyed city,,emphasis on foreground elements,sharp focus,soft background 宫崎骏 Ghibli:Prompt:a robot is walking through a destroyed city,,Spirited Away,Howl's Moving Castle,dreamy colour palette 蒸汽朋克 Steampunk:Prompt:a robot is walking through a destroyed city,,fantasy,gear decoration,brass metal robotics,3d game 印象派 Impressionism:Prompt:a robot is walking through a destroyed city,,big movements
2025-04-20
ai写程序
以下是关于使用 AI 写程序的相关内容: 1. 对于技术纯小白: 从最基础的小任务开始,让 AI 按照最佳实践写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,以学会必备的调试技能。 若学习写 chrome 插件,可让 AI 按照最佳实践生成简单的示范项目,包含全面的典型文件和功能,并讲解每个文件的作用和程序运行的逻辑。若使用 o1mini,可在提示词最后添加生成创建脚本的要求,并请教如何运行脚本(Windows 机器则是 create.cmd)。 2. 明确项目需求: 通过与 AI 的对话逐步明确项目需求。 让 AI 帮助梳理出产品需求文档,在后续开发时每次新起聊天将文档发给 AI 并告知在做的功能点。 3. 在独立游戏开发中的经验: 单独让 AI 写小功能没问题,但对于复杂的程序框架,可把不方便配表而又需要撰写的简单、模板化、多调用 API 且牵涉小部分特殊逻辑的代码交给 AI。 以 Buff 系统为例,可让 AI 仿照代码写一些 Buff。但目前 Cursor 生成复杂代码需要复杂的前期调教,ChatGPT 相对更方便。 教 AI 时要像哄小孩,及时肯定正确的,指出错误时要克制,不断完善其经验。 4. 相关资源和平台: AI 写小游戏平台:https://poe.com/ 图片网站:https://imgur.com/ 改 bug 的网站:https://v0.dev/chat 国内小游戏发布平台:https://open.4399.cn/console/ 需要注意的是,使用 AI 写程序时,对于技术小白来说,入门容易但深入较难,若没有技术背景可能提不出问题,从而影响 AI 发挥作用。
2025-04-19
现在比较好用的AI硬件工具推荐一下,比如鼠标,眼镜,耳机啥的
以下是为您推荐的一些 AI 硬件工具: 1. 对于将 Raspberry Pi 连接到其他设备的配件,您可以参考: 防止过热的散热器 MicroUSB 转 USB 适配器,用于 Logitech 键盘的无线传感器 用于显示器的 MiniHDMI 转 HDMI 适配器 键盘和鼠标:推荐 2. 在可穿戴方面,以 GenAI 硬件为例,Meta 雷朋眼镜是具有代表性的产品。您还可以查看 GenAI 硬件榜单获取更多信息,比如: ,该榜单包含多个分类,数据来源包括 google、tiktok、twitter、亚马逊等。
2025-04-13
需要做一个自动化出视频的工作流
以下是一个关于自动化出视频工作流的详细介绍: 优势: 全自动化处理,解放双手。 40 秒快速出片,效率提升。 成本低廉,每条仅需 0.0x 元。 输出质量稳定专业。 DeepseekR1 保证文案质量。 还能改进,例如可以加入配套 BGM,让视频更有感染力;增加更丰富的画面内容和转场效果;使用免费节点替代付费插件,进一步降低成本;优化模板样式,支持更多展示形式;增加自动化程度,支持批量处理。 工作流程: 1. 可以在扣子商店体验,建议自己搭建。 2. 工作流调试完成后,加入到智能体中,可以选择工作流绑定卡片数据,智能体则通过卡片回复。 3. 选择发布渠道,重点如飞书多维表格,填写上架信息(为了快速审核,选择仅自己可用),确认发布等待审核,审核通过后即可在多维表格中使用。 4. 创建飞书多维表格,添加相关字段,配置选择“自动更新”,输入相关字段后,“文案视频自动化”字段捷径会自动调用工作流,生成视频。 5. 表单分享,实现“填写表单,自动创建文案短视频”的效果。 6. 全自动视频合成使用多视频融合插件,一键导出成品。但需注意节点产生的视频是异步生成,可能无法马上展现,需耐心等待几秒。 如果您还有其他疑问或需要进一步的帮助,请随时联系。
2025-04-14
自动化控制电脑
以下是关于自动化控制电脑的相关信息: Google 正在开发名为“Project Jarvis”的 AI 项目,预计年底亮相。该项目旨在实现 AI 自动化操作 Chrome 浏览器中的任务,借助升级版 Gemini 2.0。“Jarvis”作为 Chrome 扩展短暂曝光,可作为上网伴侣,帮助用户完成自动化任务,通过截图分析屏幕内容,使用 Gemini 2.0 模型决定执行操作,例如预订餐厅或下单,预计将在 Gemini 2.0 发布后上线,可能在下个月。 目前没有更多关于自动化控制电脑的其他详细内容。
2025-04-10
自动化
以下是关于自动化的相关内容: Python 在自动化方面的应用: Python 以其简洁语法和强大库支持,成为自动化任务的首选语言之一。 办公软件自动化: Pythondocx 用于创建、修改和提取 Word 文档。 Openpyxl 或 xlsxwriter 用于操作 Excel 文件。 Pythonpptx 用于创建和修改 PowerPoint 演示文稿。 PyPDF2 用于分割、合并、裁剪和转换 PDF 文件,还能添加自定义数据、查看选项和密码,以及检索文本和元数据。 爬虫: Requests 用于发送 HTTP 请求,适合网络请求自动化。 Selenium 用于自动化 Web 浏览器交互,模拟用户行为。 BeautifulSoup 和 lxml 用于解析 HTML 和 XML 文档,提取网页数据。 测试自动化: Unittest 和 pytest 支持自动化测试。 容器与虚拟化自动化: Dockerpy 用于自动化 Docker 容器的创建和管理。 HR 政策海报生成的自动化工作流: 通过飞书和扣子的结合配置工作流,实现 HR 政策海报的自动化生成。但为保证质量,不建议完全自动化,生成内容最好有人把关。还可进一步配置机器人定时执行工作流,并将海报发送到指定群聊,实现端到端的自动化。 新工业革命中的自动化: 在生物制药和医疗保健等领域,机器可以学习并复制人的专业知识,实现规模扩展。自动化和机器人技术实现了规模,并解决了“未工业化”生物学的最大弱点,使生物技术能够大规模扩展。
2025-04-10
如何用rpa来实现读取本地excel表格里的内容进行筛选,提取某些数据值后,再自动化填写到飞书的多维表格去。怎么来实现这个功能
要使用 RPA 实现读取本地 Excel 表格内容进行筛选,并将提取的数据值自动化填写到飞书的多维表格,可参考以下步骤: 1. 关于扣子:“”(Coze)是字节跳动在 2024 年上线的新一代一站式 AI Bot 开发平台,也被称为“字节版 GPTs”。它是一个低门槛的 AI 应用开发平台,其核心目标是让没有编程基础的用户也能够轻松参与到 AI 生态的建设中。 2. 登录后,在左侧功能列表的工作空间中,点击右上角“+字段”创建工作流,自行输入名称和描述。 3. 已做好工作流后,逐步拆解每个节点的配置: 开始节点:此节点不需要做任何配置,没有输入以及输出。 读取飞书表格内容节点:点击开始节点后面的“+”,搜索“飞书多维表格”,选择“search_record”功能。添加后,点击该节点的配置,在界面右侧的参数框中,需要填写 app_token、field_names。filter 是对数据的筛选条件,没有筛选需求可直接忽略。其中,app_token 是多维表格的唯一标识符,即表格 URL 中的一段;field_names 则是要读取的具体字段,比如“标题”、“内容”,以作为后续操作的输入。该节点运行后,就能将多维表格中的内容提取出来。
2025-04-09
普通人想学习AI自动化,make和coze哪个更推荐一点
对于普通人学习 AI 自动化,Make 和 Coze 哪个更适合的问题,以下是一些相关信息供您参考: Make 对于编程小白比较友好,其思考过程较长,有助于学习,但不太适合专业选手,因为思考过程较慢,可能会让人有点不耐烦。Make 具有国内版优势,包括深度理解中国开发场景和技术生态、完全免费、无需翻墙、流畅稳定,还具备完整的 IDE 功能(代码编写、项目管理、插件管理、源代码管理等)。您可以通过进行尝试。 Coze 是一款 AI Agent 的衍生产品,其价值在于可以跟进当前 AI Agent 工具的发展情况,发现商业化机会,还能用于做产品 Demo。在学习新知识如 RAG 时,可以先通过 Claude 了解细节概念,再通过 Coze 搭建 Demo 进行实践。在学习 RAG 过程中,还可以利用 Coze 的知识库能力创建如产品资料问答机器人等 Bot。 总的来说,如果您是编程小白,Make 可能更适合;如果您希望跟进 AI 工具发展并进行实践操作,Coze 可能更符合您的需求。但最终的选择还需根据您的具体学习目标和个人偏好来决定。
2025-04-08
AI在非标自动化机构设计上有哪些应用
AI 在非标自动化机构设计上的应用包括以下方面: 1. 智能体应用: 决策智能体设计,使用语言模型遍历预定义的决策树。 轨道智能体,为智能体配备更高层次的目标,限制解决空间,要求遵循标准作业程序并使用预先设定的“工具”库。 通用人工智能体,完全依赖语言模型的推理能力进行所有的计划、反思和纠正。 2. AI 绘画应用: 快速草图,帮助设计师快速创建草图和概念图,便于探索和调整设计方案。 自动化创意设计,快速创建各种设计方案,加快设计过程和减少犯错。 自动化颜色匹配,自动匹配色彩,使设计作品更协调美观。 自动化插图绘制,帮助设计师自动化绘制插图,如手绘、卡通风格插图等。 3. 计算机视觉工具库应用: Roboflow 的开源计算机视觉工具库 Supervision 新增了高级视频分析功能,其开发的自动计数工具能识别物体、追踪姿态并进行动作计数。该工具库是全方位的计算机视觉平台,支持多种注释和图像格式,提供过滤、标签、分割、预处理和增强图像数据的功能,还集成了 OpenAI、Meta AI 等的模型,并提供一系列工具来组织视觉数据、自动化标签和部署基础模型。
2025-03-31