Chat with Wiki - 用大模型将扫描版PDF进行OCR的工具

Answer

以下是一些关于用大模型将扫描版 PDF 进行 OCR 的工具的相关信息：

kimi 目前不支持扫描版本的 PDF，需要纯文字才能识别。
大模型招投标文件关键数据提取方案中的输入模块设计，支持多种格式的文档输入，包括 PDF 等。对于图片，可以借助开放平台工具文档内容提取中的 OCR 工具进行文本提取。
在 0 基础跨界 AI 编程共学零基础手搓 AI 拍立得-银海的相关内容中，提到了将 OCR 添加到工作流程中，输入为一张图片，具备图像理解和识别图像文本信息两个能力，之后以这两个能力生成的内容为输入使用大模型生成文案标题和文案。

Content generated by AI large model, please carefully verify (powered by aily)

References

截止2月4日，kimi还不支持扫描版本的pdf，还是要纯文字的才能识别，感谢姚怡枝尝试告知无人之路GO无人之路2024-02-01 20:58发表于浙江https://mp.weixin.qq.com/s/yBeW02l9ULQYGaOxO2R4PA引子最近上下班的地铁上在读《深度学习入门--基于Python的理论与实现》，希望补一补这一波AI浪潮的基础。这是日本作者斎藤康毅深度学习“鱼书”系列的第一本，非常好读。这个系列的特点是从0开始，深入浅出；我已经刷到第三本了，强烈推荐给所有想要了解深度学习的同学。因为可读性强，刷得快，一个星期就完本；但读完之后总是觉得不踏实，对自己的掌握程度不确定。自然而然地问，大语言模型能帮我复习、测试和巩固吗？于是，开启了探索之旅。要让大模型根据书本的内容来与我交互，首先需要将整本书喂给它，这一步是关键。而这第一步就成了很多大模型产品的门槛。首先是ChatGPT，由于众所周知的原因，它的网络非常不稳定，我上传了很多次本书的PDF都没有成功：再试试支持超长上下文的Claude吧，发现它有10MB的附件限制，而这个PDF文档是11.3MB，超长限制?还有什么办法呢？这时候，耳边响起了“kimi”的声音！

大模型招投标文件关键数据提取方案

用于处理各种格式的文档输入，包括PDF、Word、Excel、网页等，转换成可解析的结构化文本。多种文件格式支持：需要支持从多种格式（PDF、Word、Excel、TXT等）中提取文本。对于图片，可以借助OCR工具进行文本提取，（开放平台工具：[文档内容提取](https://www.bigmodel.cn/dev/howuse/fileqa)）。网页可以使用网页爬虫工具（如Scrapy、BeautifulSoup、Selenium）抓取网页中的文本和表格数据。通过解析HTML的DOM结构，提取目标数据。（平台暂无工具）参考代码

0基础跨界AI编程共学零基础手搓AI拍立得-银海

[heading2]智能章节本章节首先表明底部图像已完成，介绍了其包含logo、小程序、文本、图片和装饰物的布局流程。接着提到接下来要进行文字生成部分，先保存现有流程再做文本。还解答了能否添加多个图片的问题，称可以通过设多个image变量输入多张图片。最后简单提及一个电饭锅。[57:57](https://waytoagi.feishu.cn/minutes/obcnmql24qtl7oh7cv281n82?t=3477000)图像流与工作流结合，医美局河图生成中的图像理解输入要求本章节图像流已完成，接下来要将图像流与工作流以及文本生成相结合以生成完整图片。创建医美局河图生成文本拼接图像流的工作流，其输入节点为一张图片，在插件使用的图像理解环节，若输入参数为URL信息可直接使用，不是则需转换，目前偏向实体识别，不需要OCR模型。[01:00:46](https://waytoagi.feishu.cn/minutes/obcnmql24qtl7oh7cv281n82?t=3646000)nimbus演示添加OCR到工作流程并结合大模型根据图像理解和OCR内容生成文案标题和文案本章节主要是进行添加OCR的简单演示，将OCR添加到工作流程中，输入为一张图片，这样就具备图像理解和识别图像文本信息两个能力。之后以这两个能力生成的内容为输入使用大模型，通过引用相关信息，根据要求生成文案标题和文案，用户提示词的写法是重点。[01:03:22](https://waytoagi.feishu.cn/minutes/obcnmql24qtl7oh7cv281n82?t=3802000)用户提示词的简单写法：模仿风格输出标题与正文