识别网页内容通常可以通过以下步骤实现:
另外,在获取网页内容时,初版提示词实验中对大模型对话产品的外链解析能力依赖较大,但这种方式易受平台反爬机制制裁。转换思路,通过用户浏览器以浏览器插件形式本地提取网页内容是一种稳定且经济的解决方案。开发时,可拿着初版提示词询问 AI 来确定需要插件获取哪些网页元素。例如 SeeAct 能力可以在多种不同网站上识别网页上的各种元素,执行不同任务。
近日,翻译插件「[沉浸式翻译](https://mp.weixin.qq.com/s/gCxajSAtKKC0T14KRZxxzw)」在接入智谱GLM模型的翻译能力后,凭借优秀的产品体验得到用户青睐。智谱BigModel开放平台与“沉浸式翻译”深度合作,将免费模型GLM-4-Flash接入并优化,上线后收获大量用户好评,用户留存数据表现佳。以下案例综合官方的优化思路,旨在给到翻译场景的软件服务公司更多启发,也欢迎创业者添加企业微信,与解决方案专家探讨方案细节。[heading3]大模型翻译方案[content]提供一版推荐的Prompt供大家参考英文版本中文版本评测结果[heading3]网页翻译工程侧方案[content]方案架构方案说明:内容识别:沉浸式翻译工具使用智能算法来分析网页的HTML结构,识别出网页的主要内容区域。文本提取:在识别出内容区域后,工具会提取这些区域的文本内容。这包括从HTML标签中提取可见文本,忽略掉脚本、样式和其他不需要翻译的代码。预处理:提取出的文本可能会包含一些不必要的空格、特殊字符或者格式信息,需要对这些文本进行预处理,清除格式,标准化空格,以便于进行翻译。翻译调用:将预处理后的文本拼到Prompt模板中请求智谱模型API。结果整合:翻译完成后,将原文和译文对照地整合回网页、字幕中,通常是原文保持不变,译文以悬浮框、下划线注释或是平行文本的形式展示。用户界面交互:用户可以通过鼠标悬停、点击等交互方式来控制翻译的显示与否,工具会根据用户的操作实时显示或隐藏译文。
在成功验证了纯提示词方案后,接下来就是产品化开发阶段。虽然代码编程不是我的强项,但配合Cursor、Windsurf这类AI编程工具,插件的实现效果相当不错。所以,我想试着分享一些关键过程,尤其是提示词封装环节,希望对有意开发AI产品的朋友有所启发。与提示词智能体不同,产品化开发需要考虑更多:1.如何稳定的获取网页内容?2.如何选择适合的AI大模型API服务?3.面向大模型API,如何构建生产级提示词?[heading2]1)如何稳定的获取网页内容??[content]在上述初版提示词实验中,获取网页内容极大依赖于大模型对话产品的外链解析能力。然而,这种方式非常容易遭到平台反爬机制的制裁。在实验过程中,最影响提示词方案效果的因素,不是大模型的生成质量,而是无法稳定地捕获网页内容。转换思路来看,网页内容通常以明文形式展示在用户浏览器中,内容平台不可能对用户设备进行反爬制裁。通过用户浏览器,以浏览器插件形式本地提取网页内容,正是一种稳定、经济的解决方案。以下是AI Share Card插件所获取的网页元素清单:附:开发时,如何确定需要插件获取哪些网页元素?你可以拿着初版提示词,询问AI:我希望通过浏览器插件,获取提示词中所需的标签页标题、链接、内容元素,请你帮我设计获取相关元素的js代码参考对话如下,也可以直接在Cursor、Windsurf里提示AI帮你完成开发
|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||SeeAct:一个基于GPT-4V通用网络代理|这个能力有几个方面的使用场景:<br>1、无代码开发:通过对于互联网网站或app的样式、功能识别=反推产品设计;<br>2、运营推广广告位优化:通过结合知名网站或app对广告位的了解=反推广告位设计;<br>3、自动化助理:结合这个能力为基础+GPTs接口思路=类闭环的自动化助理;<br>4、每日新闻:内容收集汇总+固定格式|AI学习模型,AI助手|它可以在多种不同网站上识别网页上各种元素,执行各种不同的任务,<br><br>例如,在苹果官网上比较iPhone 15 Pro Max和iPhone 13 Pro Max的区别,并给出购买建议。<br><br>在旅游网站上搜索航班信息等。<br><br>SeeAct展示了从推测性规划、网页内容推理到错误自我纠正等多种能力。<br><br>SeeAct的创新之处在于它结合了多模态模型的视觉感知能力和自然语言处理能力,使其能够理解和操作网页内容。|SeeAct的主要能力:<br><br>1、执行网站任务:SeeAct能够在任何网站上执行特定任务