Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如何识别网页内容

Answer

识别网页内容通常可以通过以下步骤实现:

  1. 内容识别:使用智能算法分析网页的 HTML 结构,确定网页的主要内容区域。
  2. 文本提取:在识别出内容区域后,提取这些区域的文本内容,包括从 HTML 标签中获取可见文本,同时忽略脚本、样式和其他无需翻译的代码。
  3. 预处理:对提取出的文本进行处理,清除不必要的空格、特殊字符和格式信息,进行标准化。
  4. 翻译调用:将预处理后的文本拼接到 Prompt 模板中请求相关模型的 API 进行翻译。
  5. 结果整合:翻译完成后,将原文和译文对照整合回网页、字幕中,常见的展示形式有原文保持不变,译文以悬浮框、下划线注释或平行文本呈现。
  6. 用户界面交互:用户可通过鼠标悬停、点击等操作控制翻译的显示与否,工具会根据用户操作实时显示或隐藏译文。

另外,在获取网页内容时,初版提示词实验中对大模型对话产品的外链解析能力依赖较大,但这种方式易受平台反爬机制制裁。转换思路,通过用户浏览器以浏览器插件形式本地提取网页内容是一种稳定且经济的解决方案。开发时,可拿着初版提示词询问 AI 来确定需要插件获取哪些网页元素。例如 SeeAct 能力可以在多种不同网站上识别网页上的各种元素,执行不同任务。

Content generated by AI large model, please carefully verify (powered by aily)

References

翻译场景最佳实践:从传统机翻到智能语境适配

近日,翻译插件「[沉浸式翻译](https://mp.weixin.qq.com/s/gCxajSAtKKC0T14KRZxxzw)」在接入智谱GLM模型的翻译能力后,凭借优秀的产品体验得到用户青睐。智谱BigModel开放平台与“沉浸式翻译”深度合作,将免费模型GLM-4-Flash接入并优化,上线后收获大量用户好评,用户留存数据表现佳。以下案例综合官方的优化思路,旨在给到翻译场景的软件服务公司更多启发,也欢迎创业者添加企业微信,与解决方案专家探讨方案细节。[heading3]大模型翻译方案[content]提供一版推荐的Prompt供大家参考英文版本中文版本评测结果[heading3]网页翻译工程侧方案[content]方案架构方案说明:内容识别:沉浸式翻译工具使用智能算法来分析网页的HTML结构,识别出网页的主要内容区域。文本提取:在识别出内容区域后,工具会提取这些区域的文本内容。这包括从HTML标签中提取可见文本,忽略掉脚本、样式和其他不需要翻译的代码。预处理:提取出的文本可能会包含一些不必要的空格、特殊字符或者格式信息,需要对这些文本进行预处理,清除格式,标准化空格,以便于进行翻译。翻译调用:将预处理后的文本拼到Prompt模板中请求智谱模型API。结果整合:翻译完成后,将原文和译文对照地整合回网页、字幕中,通常是原文保持不变,译文以悬浮框、下划线注释或是平行文本的形式展示。用户界面交互:用户可以通过鼠标悬停、点击等交互方式来控制翻译的显示与否,工具会根据用户的操作实时显示或隐藏译文。

这款 AI 浏览器插件,想让你的网页链接分享更高级

在成功验证了纯提示词方案后,接下来就是产品化开发阶段。虽然代码编程不是我的强项,但配合Cursor、Windsurf这类AI编程工具,插件的实现效果相当不错。所以,我想试着分享一些关键过程,尤其是提示词封装环节,希望对有意开发AI产品的朋友有所启发。与提示词智能体不同,产品化开发需要考虑更多:1.如何稳定的获取网页内容?2.如何选择适合的AI大模型API服务?3.面向大模型API,如何构建生产级提示词?[heading2]1)如何稳定的获取网页内容??[content]在上述初版提示词实验中,获取网页内容极大依赖于大模型对话产品的外链解析能力。然而,这种方式非常容易遭到平台反爬机制的制裁。在实验过程中,最影响提示词方案效果的因素,不是大模型的生成质量,而是无法稳定地捕获网页内容。转换思路来看,网页内容通常以明文形式展示在用户浏览器中,内容平台不可能对用户设备进行反爬制裁。通过用户浏览器,以浏览器插件形式本地提取网页内容,正是一种稳定、经济的解决方案。以下是AI Share Card插件所获取的网页元素清单:附:开发时,如何确定需要插件获取哪些网页元素?你可以拿着初版提示词,询问AI:我希望通过浏览器插件,获取提示词中所需的标签页标题、链接、内容元素,请你帮我设计获取相关元素的js代码参考对话如下,也可以直接在Cursor、Windsurf里提示AI帮你完成开发

Han:基于现有能力项目应用的思考

|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||SeeAct:一个基于GPT-4V通用网络代理|这个能力有几个方面的使用场景:<br>1、无代码开发:通过对于互联网网站或app的样式、功能识别=反推产品设计;<br>2、运营推广广告位优化:通过结合知名网站或app对广告位的了解=反推广告位设计;<br>3、自动化助理:结合这个能力为基础+GPTs接口思路=类闭环的自动化助理;<br>4、每日新闻:内容收集汇总+固定格式|AI学习模型,AI助手|它可以在多种不同网站上识别网页上各种元素,执行各种不同的任务,<br><br>例如,在苹果官网上比较iPhone 15 Pro Max和iPhone 13 Pro Max的区别,并给出购买建议。<br><br>在旅游网站上搜索航班信息等。<br><br>SeeAct展示了从推测性规划、网页内容推理到错误自我纠正等多种能力。<br><br>SeeAct的创新之处在于它结合了多模态模型的视觉感知能力和自然语言处理能力,使其能够理解和操作网页内容。|SeeAct的主要能力:<br><br>1、执行网站任务:SeeAct能够在任何网站上执行特定任务

Others are asking
最好的总结网页内容的AI工具
以下是一些总结网页内容的 AI 工具: 1. Yeadon 开发的基于 Cursor+Coze 工作流的网页内容提取插件: Cursor 是一款具有 AI 功能的革新性代码编辑器。 Coze 工作流是通过可视化方式对多种功能进行组合的工具。 该插件能够实现对网页链接的提取、LLM 对网页内容的总结、LLM 输出三个变量(主角、文章概括、金句提取)、通过图片搜索工具搜主角图片以及进行排版,得到图文总结卡片。 2. Kimi Copilot:安装后,在浏览网络文章时点击插件图标或使用快捷键 Ctrl/Cmd+Shift+K,即可一键召唤 Kimi.ai 总结网页内容,总结详细且免费。 3. Strut:一款支持人工智能的协作工作区,将笔记、文档和写作项目整合在一起。 此外,还有一些相关的产品化开发思路和技术方案: 1. 在产品化开发阶段,需要明确技术方案,封装 API 调用提示词。 2. 稳定获取网页内容可通过用户浏览器以浏览器插件形式本地提取,这是一种稳定、经济的解决方案。
2025-03-14
deepseek 直接抓取网页内容
DeepSeek 直接抓取网页内容的相关工作流程如下: 1. 内容获取:只需输入新闻链接,系统就能自动提取核心内容。开始节点的入参包括新闻链接和视频合成插件 api_key。添加网页图片链接提取插件,以 1ai.net 的资讯为例,输入新闻后会提取出很多链接,其中第一条通常是新闻主图。利用图片链接提取提示词,通过调整图片的节点,将 url 属性的图片内容转化为 image 属性的图片。 2. 文字部分:使用链接读取节点将文字内容提取出来,在提取链接后面接上一个大模型节点,如 DeepSeek R1 模型,用来重写新闻成为口播稿子。若想加上自己的特征,可在提示词里写个性化台词。需注意,DeepSeek R1 基础版本限额使用,可在专业版手动接入。 此外,ChatGPT 无法直接抓取网页内容,其限制原因是不会直接抓取 URL 内容,仅依赖内部知识库或通过必应搜索,且必应搜索结果(尤其中文)往往不够准确。解决方法是手动复制网页内容,粘贴为 Markdown 或纯文本后再提交给 ChatGPT,解析效果更佳。 宝玉日报中提到,通过飞书快捷方式+DeepSeek R1 可实现自动翻译、改写、图片 OCR、AI 抓取等,提高工作效率。关键流程为从 URL 抓取内容➝DeepSeek R1 翻译➝自动改写文章风格➝生成高质量文章。还有更多工作流,如文本翻译、图片翻译、AI 生成爆款标题,飞书模板可直接使用。Deep Research 提示词模板有三大核心要素,包括背景信息(XML 包裹)、任务要求(分析主题、检索范围)、输出格式(语言、表格),适用于生成深度报告、信息检索、数据整理等场景。对于处理大规模代码,可粘贴几千行代码并用 XML 包裹,若让 AI 编写代码,可生成代码、搜索相关代码库。ChatGPT 免费用户可用 GPT4o mini 语音版。
2025-03-12
如果我想让快速提取网页内容,并将其中的数据提取为表格或文档,我应该使用哪一款AI软件?
以下是一些可以帮助您快速提取网页内容并将数据提取为表格或文档的 AI 软件及相关建议: 1. 利用 AI 搜索与权威网站结合获取关键数据,AI 可辅助提取结构化表格数据或编写抓取程序。但要注意,信息收集过程中,AI 仅作辅助,最终内容需人工主导校验,避免误导性结论。 2. 对于数据处理,可以借助传统工具如 Excel,结合 AI 指导高效操作数据筛选与图表生成。 3. 分析与撰写时,通过整理数据,利用 AI 辅助分析后撰写报告初稿,可指定风格并校验数据与结论准确性。 此外,Mistral 发布了全新聊天应用,基于 Pixtral Large 124B 多模态模型,支持网络搜索、写作画布与 Flux Pro 图像生成功能。其网络搜索工具可获取最新信息,写作画布功能适合文档创作与协作,高质量图像生成工具 Flux Pro 支持免费使用。您可以通过在线体验: 了解更多。
2024-11-22
AI应用于信息展示除了以下这段还能写啥?人工智能对演示文稿、网页、微信公众号和Markdown工具都有影响,正重塑信息展示领域。例如,AI可以简化演示文稿设计布局的调整;通过AI能分析用户行为,优化网页内容和结构;在微信公众号利用AI实现个性化推送和智能回复,提升响应和互动质量。Markdown也可利用AI实现智能化编辑和检查。
以下是 AI 应用于信息展示的其他方面: 1. GPT4VAct 作为多模态 AI 助手,能够模拟人类通过鼠标和键盘进行网页浏览,基于 AI 的能力、项目目标人群和服务内容类型,可实现未来互联网项目产品原型设计的自动化生成,使效果更符合用户使用习惯,同时优化广告位的出现位置、时机和频率。 2. 在电影制作方面,可综合应用 AI 工具,如使用 ChatGPT 撰写脚本、分镜、人物设定和旁白,使用 Midjourney 生成静态分镜图片,使用 Runway 生成动态分镜片段,使用 AI 配音软件制作旁白。 3. 在写作方面,AI 可用于草拟各类初稿,如博客文章、论文、宣传材料、演讲、讲座等。还能帮助改进已有的文本,以不同风格创建草稿,激发作者创作出更好的作品,以及协助完成如写邮件、创建销售模板、提供商业计划下一步等任务。
2024-08-15
有没有什么浏览器AI插件是可以阅读网页内容并总结的?最好能识别网页上的数字并对数字做一些计算
根据搜索结果,确实存在一些浏览器AI插件能够阅读网页内容并进行总结,部分还具备识别和计算数字的能力: 1. Sider 网页总结器:这是一款Chrome年度精选插件,能够快速总结大量文本,包括论文、文章或网站,提供易于理解的内容,帮助用户节省时间 。 2. Kimi Copilot 和 Kimi阅读助手:这两款插件基于Kimi的长文本大模型,可以一键总结网页内容,并且提供结构化总结,用户还可以对总结的内容继续提问 。 3. 百度的公式识别技术:虽然不是浏览器插件,但这项技术可以识别试卷中的数学公式及题目内容,并以Latex格式返回公式内容,适用于需要处理数学文档的场景 。 4. MixerBox Calculator:这是一个结合AI的数学计算插件,能够提供快速、准确的计算结果,优化计算过程,并识别计算中的缺陷给出建议 。 这些工具可以帮助用户更高效地处理网页信息,无论是进行内容总结还是执行数学计算。用户可以根据自己的需求选择合适的插件进行安装使用。
2024-07-07
公共议题:AI如何助力HR业务? 研讨目标: 深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景 机会识别与场景落地:基于组织现状,识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物): 请输出10个业务价值高、具备可行性的AI应用场景介绍,并说明what(场景是什么)、why(为什么值得做)、How(如何落地);
以下是为您生成的 10 个业务价值高、具备可行性的 AI 应用场景介绍: 1. 人才招聘与筛选 What:利用 AI 技术对求职者的简历进行自动筛选和分析,评估其与岗位的匹配度。 Why:节省 HR 大量的时间和精力,提高招聘效率和准确性。 How:通过自然语言处理和机器学习算法,训练模型识别关键信息和技能。 2. 员工培训与发展 What:根据员工的技能水平和职业发展目标,定制个性化的培训计划。 Why:提升员工的能力和绩效,增强员工对企业的忠诚度。 How:利用大数据分析员工的工作表现和学习需求,推荐相关课程和学习资源。 3. 薪酬福利管理 What:运用 AI 预测市场薪酬趋势,为企业制定合理的薪酬策略。 Why:保持企业薪酬的竞争力,吸引和留住优秀人才。 How:收集和分析行业薪酬数据,结合企业的财务状况和战略目标进行优化。 4. 员工绩效评估 What:借助 AI 实时监测员工的工作表现,提供客观的绩效评估。 Why:减少人为偏差,确保评估的公正性和准确性。 How:利用工作流程数据和行为分析模型进行评估。 5. 员工关系管理 What:通过 AI 分析员工的情绪和满意度,及时发现问题并解决。 Why:营造良好的工作氛围,提高员工的工作积极性和创造力。 How:使用情感分析技术处理员工的反馈和交流信息。 6. 组织架构优化 What:利用 AI 分析企业的业务流程和人员配置,提供组织架构调整建议。 Why:提高企业的运营效率和灵活性,适应市场变化。 How:基于数据分析和模拟优化算法进行评估和推荐。 7. 人力资源规划 What:根据企业的战略目标和业务发展预测人力资源需求。 Why:提前做好人才储备和招聘计划,保障企业的正常运营。 How:运用数据分析和预测模型进行规划。 8. 企业文化传播 What:使用 AI 生成个性化的企业文化宣传内容,提高传播效果。 Why:增强员工对企业文化的认同感和归属感。 How:利用自然语言生成技术和个性化推荐算法。 9. 智能客服 What:在 HR 服务中引入 AI 客服,解答员工常见问题。 Why:快速响应员工需求,提高服务质量。 How:训练智能客服模型,涵盖常见的 HR 问题和解决方案。 10. 人才库管理 What:利用 AI 对人才库进行分类和更新,提高人才库的利用效率。 Why:方便快速找到合适的人才,降低招聘成本。 How:运用数据挖掘和分类算法进行管理。
2025-04-14
公共议题:AI如何助力HR业务? 研讨目标: 深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景 机会识别与场景落地:基于组织现状,识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物): 请输出3-5个业务价值高、具备可行性的AI应用场景介绍,并说明what(场景是什么)、why(为什么值得做)、How(如何落地);
以下是为您提供的 3 个业务价值高、具备可行性的 AI 应用场景介绍: 场景一:AI 在企业招聘中的应用 What:利用 AI 技术进行简历筛选、人才匹配和面试评估。 Why:能够快速处理大量简历,提高招聘效率和准确性,节省人力和时间成本,同时更精准地找到符合岗位需求的人才。 How:通过引入相关的 AI 招聘软件,与企业现有的招聘系统集成,对简历进行关键词提取和分析,利用机器学习算法进行人才匹配,并通过视频面试中的语音和表情分析辅助评估候选人。 场景二:AI 助力个性化人力资源管理 What:根据员工的个人特点和工作表现,提供个性化的培训计划、职业发展建议和绩效评估。 Why:能够充分发挥员工的潜力,提高员工满意度和忠诚度,促进企业的长期发展。 How:收集员工的工作数据、学习记录和绩效表现等信息,运用 AI 算法进行分析和预测,为员工制定专属的发展方案,并通过移动应用或内部系统向员工推送相关建议和培训课程。 场景三:AI 打造无人值守的 HR 平台 What:实现 HR 业务的自动化处理,如员工请假审批、薪酬计算和福利发放等。 Why:减少人工操作的错误和繁琐流程,提高 HR 工作的效率和准确性,使 HR 人员能够专注于更有价值的战略工作。 How:整合企业内部的各种 HR 系统和数据,利用 RPA 和 AI 技术实现流程的自动化,同时建立监控和预警机制,确保平台的稳定运行。
2025-04-14
人脸识别软件
以下是为您整合的关于人脸识别软件的相关信息: 在“【已结束】AI 创客松 参与同学自我介绍和分类”中,Dylan 擅长人脸识别算法和动作捕捉产品。 在“SmartBotX 模块化桌面机器人——说明文档”中,桌面客户端提供面部识别或跟踪功能的展示,可能用于安全监控、用户识别或交互式体验。 在“14、LayerStyle 副本”中,使用 YoloV8 模型可以检测人脸、手部 box 区域或者人物分割,支持输出所选择数量的通道。同时,Mediapipe 模型可以检测人脸五官,分割左右眉、眼睛、嘴唇和牙齿。
2025-04-12
本地人脸识别工具
以下为一些本地人脸识别工具的相关信息: PersonMaskUltra:为人物生成脸、头发、身体皮肤、衣服或配饰的遮罩。具有超高的边缘细节,模型代码来自。节点选项包括:face(脸部识别)、hair(头发识别)、body(身体皮肤识别)、clothes(衣服识别)、accessories(配饰识别)、background(背景识别)、confidence(识别阈值)、detail_range(边缘细节范围)、black_point(边缘黑色采样阈值)、white_point(边缘黑色采样阈值)、process_detail(设为 False 将跳过边缘处理以节省运行时间)。还有 V2 升级版 PersonMaskUltraV2,增加了 VITMatte 边缘处理方法,在 PersonMaskUltra 的基础上改变了 detail_method(边缘处理方法)、detail_erode(遮罩边缘向内侵蚀范围)、detail_dilate(遮罩边缘向外扩张范围)。 YoloV8Detect:使用 YoloV8 模型检测人脸、手部 box 区域,或者人物分割。支持输出所选择数量的通道。需在下载模型文件并放到 ComfyUI/models/yolo 文件夹。节点选项包括:yolo_model(yolo 模型选择)、mask_merge(选择合并的遮罩)。输出包括 mask(输出的遮罩)、yolo_plot_image(yolo 识别结果预览图)、yolo_masks(yolo 识别出来的所有遮罩)。 MediapipeFacialSegment:使用 Mediapipe 模型检测人脸五官,分割左右眉、眼睛、嘴唇和牙齿。节点选项包括:left_eye(左眼识别开关)、left_eyebrow(左眉识别开关)、right_eye(右眼识别开关)、right_eyebrow(右眉识别开关)、lips(嘴唇识别开关)、tooth(牙齿识别开关)。 此外,关于 AI 换脸,有开源免费的解决方案 facefusion: 本机解决方案:需要 python 环境及安装多个依赖软件,对编程知识有一定要求,且运行推理计算速度依赖 GPU,本地计算机若无 GPU 或 GPU 显存较小,执行速度缓慢,不推荐本地化安装。 云服务解决方案:可利用云厂商如阿里云的 PAI 和 AutoDL 已提供的大模型运行环境和计算能力,需产生一定费用。以 AutoDL 为例,注册后在算力市场中选择可接受价格的算力服务器,建议选取 GPU 配置更高的算力设备。通过在算法社区查找 facefusion 镜像,选择合适的镜像启动 GPU 服务器。
2025-04-12
人脸识别
以下是关于人脸识别的相关信息: SmartBotX 模块化桌面机器人的桌面客户端提供面部识别或跟踪功能的展示,可能用于安全监控、用户识别或交互式体验。 设计:AIGC 世代的设计新范式 ver 东华.pdf 中提到了人脸识别相关技术,如 MTCNN、Centerface、LUVLi Face Alignment 等人脸检测和人脸对齐技术,以及 InsightFace 等人脸识别技术。 LayerStyle 副本中的 PersonMaskUltra 节点具有脸部、头发、身体皮肤、衣服、配饰和背景等的识别功能,还包括识别阈值、边缘细节范围、黑色和白色采样阈值等节点选项。PersonMaskUltraV2 是其升级版,增加了 VITMatte 边缘处理方法,并对边缘处理做了相关改变。
2025-04-12
COE团队需要什么AI能力,比如AI辅助编程;AI部署+和调优;AI智能体;AI提示词; OCR识别
COE 团队可能需要以下 AI 能力: 1. AI 辅助编程:虽然 AI CODING 目前适用于小场景和产品的第一个版本,但在复杂应用中可能存在需求理解错误导致产品出错的情况。 2. AI 部署和调优:涵盖服务器创建、搭建微信机器人到引入 coze API 的全过程,包括 Docker 部署、本地运行、RailWay 部署等多种方式。 3. AI 智能体:从最初只有对话框的 chatbot 到有更多交互方式,低代码或零代码的工作流等场景做得较好。例如以证件照为例,实现了相关智能体和交互。创建智能体工作流包括创建、编辑人设、编排设计等步骤。 4. AI 提示词:在编写系统提示词时需要用{{input}}作为参数引入,以使大模型知道需要生成与输入相关的结果。 5. OCR 识别:未提及相关具体内容。 同时,在图像能力方面,支持图片生成、图片识别、图生图等,可选择 Dal3、stable diffusion、replicate、midjourney、CogView3、vision 模型。具有丰富插件,支持个性化插件扩展,已实现多角色切换、文字险、敏感词过滤、聊天记录总结、文档总结和对话、联网搜索等插件。通过上传知识库文件可自定义专属机器人,作为数字分身、智能客服、私域助手使用,基于 LinkAI 实现。
2025-04-09