Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

表格图片转成表格

Answer

以下是关于表格图片转成表格的相关内容：

从开发视角来看，在《我每天是如何使用 ChatGPT 的（从科学家和开发者的视角）》中提到应用案例——编程和控制台工具，其中涉及从图像和图表中提取数据。具体做法是，截图文档或网页中的表格和图表，将这些图片上传到 ChatGPT，让其转换成 Python 列表、字典或者重新绘制的图表，以便进一步处理、分析这些数据，或保存以便将来使用。当第一次尝试这种方法并成功时，会让人感到大开眼界，而且该方法甚至对 PDF 文件也同样有效。

Content generated by AI large model, please carefully verify (powered by aily)

References

开发视角：《我每天是如何使用 ChatGPT 的（从科学家和开发者的视角）》

考虑到前面的功能，结合ChatGPT的OCR技术和图像输入怎么样？我会截图文档或网页中的表格和图表，把这些图片上传到ChatGPT，并让它转换成Python列表、字典或者重新绘制的图表。这样，我就可以进一步处理、分析这些数据，或保存以便将来使用。我第一次尝试这种方法并成功时，真是大开眼界。而且，它甚至对PDF文件也同样有效。

Others are asking

ai如何什么生成表格

AI 生成表格通常可以通过以下技术实现： 1. 利用变分自编码器（VAEs）和序列到序列模型（Seq2Seq）等技术生成表格文件、表格公式，并清理、创建、转换和分析表格中的文本数据，例如表格结构设计、数据分析表、表格自动化等。 2. 借助一些办公软件中的 AI 插件，如飞书中的相关插件，先通过 AI 理解图片中的内容并填充到表格列中，然后利用自带插件总结生成相关指令。此外，在多模态数据生成中，结构化数据生成包括表格生成，多模态合成数据从大类来看有非结构化数据（图片、视频、语音等）和结构化数据（表格等）两大类。非结构化数据生成包括文本生成、图像生成、音频和语音生成、视频生成、3D 生成、合成数据生成等。

处理 excel 表格的 AI 工具

以下是一些可用于处理 Excel 表格的 AI 工具： 1. Excel Labs：这是一个 Excel 插件，新增了基于 OpenAI 技术的生成式 AI 功能，可在 Excel 中直接利用 AI 进行数据分析和决策支持。 2. Microsoft 365 Copilot：微软推出的整合了 Word、Excel、PowerPoint 等办公软件的 AI 工具，通过聊天形式，用户告知需求后，Copilot 会自动完成任务，如数据分析或格式创建。 3. Formula Bot：提供数据分析聊天机器人和公式生成器两大功能，用户可通过自然语言交互式地进行数据分析和生成 Excel 公式。 4. Numerous AI：支持 Excel 和 Google Sheets 的 AI 插件，除公式生成外，还能根据提示生成相关文本内容、执行情感分析、语言翻译等任务。 5. Ajelix：可处理 Excel 和 Google Sheets 表格的 AI 工具，链接为。 6. FormX.ai：能够自动从表格和文档中提取数据的 AI 工具，链接为。随着技术的不断发展，未来可能会有更多 AI 功能被集成到 Excel 中，进一步提高工作效率和数据处理的智能化水平。内容由 AI 大模型生成，请仔细甄别。

飞书多维表格+deepseek可以干什么

飞书多维表格和 DeepSeek 结合可以实现以下功能： 1. 打造专属的好文推荐网站：当您阅读到好文章时，可以一键存储到飞书多维表格，经过 AI 处理，自动在您的博客网站上呈现出来。实现该功能需要以下步骤：创建带有 AI 能力（以 DeepSeek R1 为主）的飞书多维表格。使用 Trae 生成网页，呈现多维表格的内容。使用 Trae 生成浏览器插件，一键存入多维表格。 2. 批量处理信息，提升工作效率：用户可以批量转换文风、快速回复消息，甚至利用 AI 生成文案，操作简单、便捷。 3. 为非技术人群提供便捷的 AI 应用：普通人无需编程知识也能轻松使用 AI。

如何用rpa来实现读取本地excel表格里的内容进行筛选，提取某些数据值后，再自动化填写到飞书的多维表格去。怎么来实现这个功能

要使用 RPA 实现读取本地 Excel 表格内容进行筛选，并将提取的数据值自动化填写到飞书的多维表格，可参考以下步骤： 1. 关于扣子：“”（Coze）是字节跳动在 2024 年上线的新一代一站式 AI Bot 开发平台，也被称为“字节版 GPTs”。它是一个低门槛的 AI 应用开发平台，其核心目标是让没有编程基础的用户也能够轻松参与到 AI 生态的建设中。 2. 登录后，在左侧功能列表的工作空间中，点击右上角“+字段”创建工作流，自行输入名称和描述。 3. 已做好工作流后，逐步拆解每个节点的配置：开始节点：此节点不需要做任何配置，没有输入以及输出。读取飞书表格内容节点：点击开始节点后面的“+”，搜索“飞书多维表格”，选择“search_record”功能。添加后，点击该节点的配置，在界面右侧的参数框中，需要填写 app_token、field_names。filter 是对数据的筛选条件，没有筛选需求可直接忽略。其中，app_token 是多维表格的唯一标识符，即表格 URL 中的一段；field_names 则是要读取的具体字段，比如“标题”、“内容”，以作为后续操作的输入。该节点运行后，就能将多维表格中的内容提取出来。

利用飞书多维表格，做一个类似于客服机器人可以怎么做？

利用飞书多维表格做一个类似于客服机器人，可以按照以下步骤进行： 1. 创建一个拟人化的 bot，比如起名叫青青，设定其为人设是一个可爱有趣的少女，擅长回答各种刁钻的问题。完成 BOT 捏好后点击发布。 2. 发布时配置飞书多维表格：输出为文本时，第一步配置为文本。配置多维表格输入表单，选择用控件的字段选择器，给字段标题随便起个名字如“question”。在完善捷径的商家信息这里，可以选择全量发布，也可以选择仅自己可用。为了审核快一些，可以选择仅自己可用。等审核通过之后，就可以在飞书多维表格里面看到发布成功。 3. 还可以探索字段捷径的各种玩法（不含 bot），比如直接创建一个多维表格，第一列是几个成语，第二列是 AI 字段捷径生成的对成语的解释。左边输入一列，比如一列成语，右边配置 AI 字段。此外，还有一些相关信息供您参考： “Show Me 扣子 AI 挑战赛大消费行业专场圆满落幕，探索 AI 与大消费行业的深度结合”中提到了一些相关作品，如帮助企业快速建立产品智能客服体系、ERP 高智版：扣子销售订单管理大师、亚马逊商品评论智析、AI 电商设计师等。 2024 年历史更新（归档）中包含了关于飞书多维表格字段捷径配置 COZE 的 BOT 青青的相关内容。

excel表格导出的用户的对话记录，来进行自定义标签并打标，有哪些好用的现成方案或者工具

目前在 Excel 表格导出的用户对话记录进行自定义标签并打标方面，以下是一些常见且好用的工具和方案： 1. Microsoft Excel 本身：可以利用其数据筛选、排序和函数功能来辅助标签和打标。 2. Google Sheets：具有类似 Excel 的功能，且在线协作方便。 3. R 语言：通过编程实现复杂的数据分析和标签处理。 4. Python 及相关库，如 Pandas：能够灵活处理数据和进行标签操作。但具体选择哪种方案或工具，取决于您的具体需求、技术水平和使用习惯。

有没有把pdf转成word的ai

以下是一些可以将 PDF 转换成 Word 的 AI 工具和方法： 1. DeepL（网站）：，点击页面「翻译文件」按钮，上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译（浏览器插件）：，安装插件后，点击插件底部「更多」按钮，选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre（电子书管理应用）：，下载并安装 calibre，并安装翻译插件「Ebook Translator」。 4. 谷歌翻译（网页）：，使用工具把 PDF 转成 Word，再点击谷歌翻译「Document」按钮，上传 Word 文档。 5. 百度翻译（网页）：，点击导航栏「文件翻译」，上传 PDF、Word、Excel、PPT、TXT 等格式的文件，支持选择领域和导出格式（不过进阶功能基本都需要付费了）。 6. 彩云小译（App）：下载后点击「文档翻译」，可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译（不过有免费次数限制且进阶功能需要付费）。 7. 微信读书（App）：下载 App 后将 PDF 文档添加到书架，打开并点击页面上方「切换成电子书」，轻触屏幕唤出翻译按钮。请注意，内容由 AI 大模型生成，请仔细甄别。

数据分析转成可视化图

以下是关于将数据分析转成可视化图的相关内容：实践 1：用 Kaggle 的天气数据集绘制气温趋势折线图与月降雨天数柱状组合图项目要求：绘制气温趋势折线图+月降雨天数柱状组合图，即双 y 轴图形。打开数据集，分析数据：发现第一行有着 Formatted Date，Precip Type，Temperature 表头，这三列与数据可视化目的明显关联，Formatted Date 数据提取整理后可作横坐标，Precip Type 数据反映月降雨天数，Temperature 数据反映气温趋势。新建 python 文件，开始编程：选择 python 文件，命名保存。调用库：读取数据：文件格式为 csv，可用 pandas 库。数据处理：处理出 x 轴及有关气温、降雨的数据。创建图表、添加标题与图例、保存并显示图形。试运行与 Debug：可能出现左纵坐标数据明显有误的情况，如降雨天数数值过大。原因是一天记录了多个时刻的天气状况，而写代码时未考虑，直接把出现“rain”的都记录了进去。给 MarsCode 说明问题，重新生成代码，结果符合预期，可视化目的实现。 ChatGPT 助力数据分析：实际案例与技巧问题与技巧：公用逻辑：在 user prompt 限定 SQL 和数据分析及其返回格式，不用 system prompt 的原因：一是 system prompt 已承载表结构信息；二是 user prompt 遵循力度更高。分开定义单维度数据和多维度数据的 prompt，而不直接丢给让 GPT 判断的原因：存在两种结果导向的 prompt 约有 50%几率 GPT 会犯傻，最好在发送请求前用条件运算符区分格式的 prompt，代码判断后决定使用。前端渲染图表：SQL 分析的接口或个性化分析解析的数据文件所获得的 tableData，其格式与渲染表格的格式一样为对象数组。让 GPT 判断出对象的 key 值映射：keyMap，得知维度、数据项、数据值的 key，就可拿到并处理成图表所需的 series、xAxis。流程：第一个 user prompt：限定 SELECT SQL，要求不要用 SELECT查询全部列，仅回复一条 SELECT SQL 语句，至少查询两列：数据项、数据值，且不能直接查询长类型字段。 system prompt 是表结构信息，如有难以理解的字段可告知 GPT 字段意义，多个表可分开描述。校验 GPT 生成的 SQL，不通过直接返回提示，通过再执行 SQL 查询数据。数据分析的 user prompt：提示数据分析，限定返回的 JSON 格式：conclusion、keyMap、title。采取分开定义单维度数据和多维度数据的 prompt，根据结果数据 tableData 的维度，用条件运算符选择对应的 prompt，再传递给 GPT。结果数据 tableData 跟随接口一起返回到前端，已通过 SQL 查询的数据，不能让 GPT 又生成一次。

我想把文字转成语音

以下是关于文字转语音的相关信息：使用 DubbingX 2.0.3 进行文字转语音：界面与国内版相似，第一个选项是文字转语音，操作方式与国内版相同。重点介绍第二项“创建您的语音克隆”：上传语音（即想克隆的声音原始文件）。给声音命名，方便以后配音选择。选择语言。勾选相关选项，点击右下角转变即可生成。注意：若原音频带有背景音乐，最好在剪影中去除，以获得更好更纯净的音色模型。去除原音频中的背景杂音：打开剪映。点击开始创作，导入原始的音频或视频。在制作 AI 视频过程中的音频制作环节：利用 AI 配音工具（如 Adobe Firefly）将小说文本转换为语音，添加背景音乐和音效。游戏中的文字转语音：可使用 GVoice 提供的语音录制和识别能力，中文识别率优秀。 ChatGPT 返回的中文文字，通过内部自研的 TTS 服务选择合适的声音播放出来。

我想做个生成知识点讲解视频的工具，是转成PPT加自动配音好，还是转成不同的网页然后生成每一页的口播稿更好？

在选择生成知识点讲解视频的工具时，转成 PPT 加自动配音和转成不同的网页然后生成每一页的口播稿各有其优缺点。转成 PPT 加自动配音的优点在于 PPT 形式较为直观、规范，能够以图文并茂的方式展示知识点，自动配音可以节省录制音频的时间。缺点是可能在页面布局和动画效果上需要较多的调整，且自动配音的质量和语气可能不够自然。转成不同的网页然后生成每一页的口播稿的优点是网页的设计更加灵活，可以融入更多的交互元素，口播稿能够更贴合讲解的需求。但缺点是网页的制作可能相对复杂，需要一定的技术知识，而且口播稿的生成质量可能参差不齐。最终的选择取决于您的具体需求和技术能力。如果您更注重展示效果的规范性和简洁性，且对音频质量要求不是特别高，PPT 加自动配音可能是个不错的选择。如果您希望有更多的交互和灵活性，并且有能力处理网页制作和口播稿的优化，那么转成网页和生成口播稿可能更适合您。

文学性强、逻辑性差的文字描述转成图片或图表的AI工具有什么

以下是一些可以将文学性强、逻辑性差的文字描述转成图片或图表的 AI 工具： 1. AI“词生卡”：通过将抽象的文字描述转化为直观的逻辑图表和流程图，改变处理和呈现信息的方式。例如，在商业领域可根据项目描述自动生成流程图，还能用于自定义活动海报、商务名片、简历等，实现文图双输出。 2. 以下工具可用于绘制逻辑视图、功能视图和部署视图： Lucidchart：流行的在线绘图工具，支持多种图表创建，用户可通过拖放界面轻松操作。 Visual Paradigm：全面的 UML 工具，提供多种架构视图创建功能。 ArchiMate：开源建模语言，与 Archi 工具配合使用，支持逻辑视图创建。 Enterprise Architect：强大的建模、设计和生成代码工具，支持多种架构视图。 Microsoft Visio：广泛使用的图表和矢量图形应用程序，提供丰富模板。 draw.io（现称为 diagrams.net）：免费在线图表软件，支持多种图表类型创建。 PlantUML：文本到 UML 转换工具，通过编写描述生成序列图等。 Gliffy：基于云的绘图工具，提供架构图创建功能。 Archi：免费开源工具，用于创建 ArchiMate 和 TOGAF 模型。 Rational Rose：IBM 的 UML 工具，支持多种视图创建。如果您想将小说做成视频，可以参考以下工具和流程：工具与网址： 1. Stable Diffusion（SD）：AI 图像生成模型，基于文本描述生成图像。网址： 2. Midjourney（MJ）：AI 图像生成工具，适用于创建小说中的场景和角色图像。网址： 3. Adobe Firefly：Adobe 的 AI 创意工具，生成图像和设计模板。网址： 4. Pika AI：文本生成视频的 AI 工具，适合动画制作。网址： 5. Clipfly：一站式 AI 视频生成和剪辑平台。网址： 6. VEED.IO：在线视频编辑工具，具有 AI 视频生成器功能。网址： 7. 极虎漫剪：结合 Stable Diffusion 技术的小说推文视频创作提效工具。网址： 8. 故事 AI 绘图：小说转视频的 AI 工具。网址：一般流程包括文本分析、角色与场景生成、视频编辑与合成等。

将歌曲MP3转成视频形式的AI工具

以下是一些将歌曲 MP3 转成视频形式的相关 AI 工具及操作步骤：工具推荐： 1. TME Studio：腾讯音乐开发的 AI 音频工具箱，常用功能为音频分离，可用于将人声和伴奏从歌曲中提取出来。地址：https://y.qq.com/tme_studio/index.html/editor 2. Vocalremover：包含音频分离、变调、BPM 查询等功能，常用的是变调和 BPM 查询。建议在准备素材阶段，就将音频调整到所需调，并获取到 BPM。地址：https://vocalremover.org/zh/keybpmfinder 实操步骤： 1. 准备音频素材：使用干声转换，在软件中分别导入人声干声和伴奏，放在两个轨道上。干声是用来转成 MIDI 做 AI 演唱的。注意，如果是男歌女唱或者女歌男唱，请在导入前先进行变调后再导入（不会变调的可参考工具推荐）。通常女声比男声高 5 个 key 左右，不绝对，大家根据听感测试调整即可。 2. 干声转换：在转换之前，先将工程 BPM 设置为与歌曲一致（界面顶部，前面是 BPM 后面是拍数，把 BPM 修改为上述操作获取到的数字），这一步是为了后续微调的时候方便音符对齐节奏。设置完成后，将音频轨道的文件拖入到空白的歌手轨道，即可进行干声转换。 3. 选择歌手：软件左侧有歌手可以选择，长按拖动到歌手轨道的头像处即可切换歌手。

可以增强图片清晰的的ai

以下是一些可以增强图片清晰度的 AI 工具： 1. Magnific：https://magnific.ai/ 2. ClipDrop：https://clipdrop.co/imageupscaler 3. Image Upscaler：https://imageupscaler.com/ 4. Krea：https://www.krea.ai/ 更多工具可以查看网站的图像放大工具库：https://www.waytoagi.com/category/17 此外，PMRF 也是一种全新的图像修复算法，它具有以下特点：擅长处理去噪、超分辨率、着色、盲图像恢复等任务，生成自然逼真的图像。不仅提高图片清晰度，还确保图片看起来像真实世界中的图像。能够应对复杂图像退化问题，修复细节丰富的面部图像或多重损坏的图片，效果优质。详细介绍：在线体验：项目地址：这些 AI 画质增强工具都具有不同的特点和功能，可以根据您的具体需求选择合适的工具进行使用。

图片提取文字

以下是关于图片提取文字的相关信息：大模型招投标文件关键数据提取方案：输入模块设计用于处理各种格式的文档输入，包括 PDF、Word、Excel、网页等，转换成可解析的结构化文本。多种文件格式支持，对于图片，可以借助 OCR 工具进行文本提取，如开放平台工具：。网页可以使用网页爬虫工具抓取网页中的文本和表格数据。谷歌 Gemini 多模态提示词培训课：多模态技术可以从图像中提取文本，使从表情包或文档扫描中提取文本成为可能。还能理解图像或视频中发生的事情，识别物体、场景，甚至情绪。 0 基础手搓 AI 拍立得：实现工作流包括上传输入图片、理解图片信息并提取图片中的文本内容信息、场景提示词优化/图像风格化处理、返回文本/图像结果。零代码版本选择 Coze 平台，主要步骤包括上传图片将本地图片转换为在线 OSS 存储的 URL 以便调用，以及插件封装将图片理解大模型和图片 OCR 封装为工作流插件。

图片变清晰

以下是关于图片变清晰的相关内容：使用清影大模型：输入一张图片和相应提示词，清影大模型可将图片转变为视频画面，也可只输入图片让模型自行发挥想象生成有故事的视频。选用尽可能清晰的图片，上传图片比例最好为 3:2（横版），支持上传 png 和 jpeg 图像。如果原图不够清晰，可采用分辨率提升工具将其变清晰。提示词要简单清晰，可选择不写 prompt 让模型自行操控图片动起来，也可明确想动起来的主体，并以“主体+主题运动+背景+背景运动”的方式撰写提示词。常见的 AI 画质增强工具： Magnific：https://magnific.ai/ ClipDrop：https://clipdrop.co/imageupscaler Image Upscaler：https://imageupscaler.com/ Krea：https://www.krea.ai/ 更多工具可查看网站的图像放大工具库：https://www.waytoagi.com/category/17 用 AI 给老照片上色并变清晰：将照片放入后期处理，使用 GFPGAN 算法将人脸变清晰。然后将图片发送到图生图中，打开 stableSR 脚本，放大两倍。切换到 sd2.1 的模型进行修复，vae 选择 vqgan，提示词可不写以免对原图产生干扰。

怎么让图片动起来

要让图片动起来，可以参考以下几种方法： 1. 使用即梦进行图生视频：只需上传图片至视频生成模块，提示词简单描绘画面中的动态内容即可生成时长为 3 秒钟的画面。运镜类型可根据剧本中的镜头描绘设置，主要设置以随机运镜为主。生成速度根据视频节奏选择，比如选择慢速。 2. 使用 Camera Motion：上传图片：点击“Add Image”上传图片。输入提示词：在“Prompt”中输入提示词。设置运镜方向：选择想要的运镜方向，输入运镜值。设置运动幅度：运动幅度和画面主体运动幅度有关，与运镜大小无关，可以设置成想要的任意值。其它：选择好种子（seed），是否高清（HD Quality），是否去除水印（Remove Watermark）。生成视频：点击“create”，生成视频。 3. 对于复杂的图片，比如多人多活动的图：图片分模块：把长图分多个模块。抠出背景图：智能抠图，用工具把要动的内容去除掉，用 AI 生成图片部分。绿幕处理前景图：将要拿来动起来的部分抠出，放在绿幕背景里或者画的背景颜色，导出图片。前景图动态生成视频：用 AI 视频生成工具写入提示词让图片动起来，比如即梦、海螺、混元等。不停尝试抽卡。生成视频去掉背景：用剪映把抽卡合格的视频放在去掉内容的背景图片，视频的背景用色度抠图调整去掉。多个视频放在背景图片，一起动即可。

图片文字转文档

图片文字转文档可以通过以下方式实现： coze 插件中的 OCR 插件：插件名称：OCR 插件分类：实用工具 API 参数：Image2text，图片的 url 地址必填用途：包括文档数字化、数据录入、图像检索、自动翻译、文字提取、自动化流程、历史文献数字化等。例如将纸质文档转换为可编辑的电子文档，自动识别表单、票据等中的信息，通过识别图像中的文字进行搜索和分类，识别文字后进行翻译，从图像中提取有用的文字信息，集成到其他系统中实现自动化处理，保护和传承文化遗产。插件的使用技巧：暂未提及。调用指令：暂未提及。 PailidoAI 拍立得（开源代码）：逻辑：用户上传图片后，大模型根据所选场景生成相关的文字描述或解说文本。核心：包括图片内容识别，大模型需要准确识别图片中的物体、场景、文字等信息；高质量文本生成，根据图片生成的文字不仅需要准确，还需符合专业领域的要求，保证文字的逻辑性、清晰性与可读性。场景应用：产品文档生成（电商/零售）：企业可以利用该功能将商品的图片（如电器、服饰、化妆品等）上传到系统后，自动生成商品的详细描述、规格和卖点总结，提高电商平台和零售商的商品上架效率，减少人工编写文案的工作量。社交媒体内容生成（品牌营销）：企业可使用图片转文本功能，帮助生成社交媒体平台的营销文案。通过上传产品展示图片或品牌活动图片，模型可自动生成具有吸引力的宣传文案，直接用于社交媒体发布，提高营销效率。法律文件自动生成（法律行业）：法律行业可以使用图片转文本技术，自动提取合同、证据材料等图片中的文本信息，生成法律文件摘要，辅助律师快速进行案件分析。

如何去除图片中的文字内容

以下是去除图片中文字内容的方法： 1. 图像预处理：图像去噪：使用去噪算法（如高斯滤波、中值滤波）去除图像中的噪声。图像增强：通过增强算法（如直方图均衡化、对比度增强）提升图像的清晰度和对比度。 2. 图像分割：使用图像分割算法将图片中的文字和背景分离。常用的分割算法包括阈值分割、边缘检测和基于区域的分割方法。 3. 文字检测：在分割后的图像中，使用文字检测算法（如基于深度学习的文本检测模型）识别出文字区域。 4. 文字识别：对检测到的文字区域进行文字识别，将文字内容转换为计算机可处理的文本数据。常用的文字识别技术包括基于深度学习的端到端文本识别模型和传统的 OCR（Optical Character Recognition）技术。 5. 后处理：根据需求进行后处理，如去除残余的噪点、填补文字区域的空白等。 6. 机器学习模型训练（可选）：如有足够的数据，可以采用机器学习技术训练模型，通过学习样本中的文字特征来自动去除图片上的文字。 7. 优化算法：对整个处理流程进行优化，提高处理速度和准确度。可以采用并行计算、硬件加速等方法提升算法的效率。 8. 移动端集成：将设计好的算法和模型集成到移动应用程序中，以实现去除图片文字的功能。可以使用移动端开发框架（如 iOS 的 Core ML、Android 的 TensorFlow Lite）来实现模型的部署和调用。此外，像 Gemini 2.0 Flash 等工具也可以通过自然语言指令来去除图片中的文字，指令如“去掉 XXX”。DALL·E 也能实现去掉图片中的错误文字等操作。