Chat with Wiki - 长文本处理

Answer

以下是关于长文本处理的相关信息：

通义千问发布了一个模型并开源了两个模型，其中一个在长文本处理方面有显著提升。

开源的 Qwen2.5-1M 大模型推出 7B、14B 两个尺寸，在处理长文本任务中稳定超越 GPT-4o-mini，同时开源推理框架，在处理百万级别长文本输入时可实现近 7 倍的提速，首次将开源 Qwen 模型的上下文扩展到 1M 长度。在上下文长度为 100 万 Tokens 的大海捞针任务中，Qwen2.5-1M 能够准确地从 1M 长度的文档中检索出隐藏信息，仅有 7B 模型出现少量错误。对于更复杂的长上下文理解任务，通义官方选择了[RULER]、[LV-Eval]和[LongbenchChat]等测试集。

Qwen2.5-1M 系列模型在大多数长上下文任务中显著优于之前的 128K 版本，特别是在处理超过 64K 长度的任务时表现出色。Qwen2.5-14B-Instruct-1M 模型不仅击败了 Qwen2.5-Turbo，还在多个数据集上稳定超越 GPT-4o-mini，可作为现有长上下文模型的优秀开源替代。

此外，还有关于利用 Langchain+Ollama+RSSHub 实现本地部署资讯问答机器人的内容，包括导入依赖库、从订阅源获取内容、为文档内容生成向量等步骤。其中使用了 feedparse 用于解析 RSS 订阅源，ollama 用于在 python 程序中跑大模型，文本向量模型 bge-m3 具有支持多语言、长文本输入、集成多种检索能力等特点。

Content generated by AI large model, please carefully verify (powered by aily)

References

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

本次开源的Qwen2.5-1M大模型，我们推出7B、14B两个尺寸，均在处理长文本任务中稳定超越GPT-4o-mini；同时开源推理框架，在处理百万级别长文本输入时可实现近7倍的提速。这也是我们首次将开源Qwen模型的上下文扩展到1M长度。1M长度≈100万个单词≈150万个汉字≈2部《红楼梦》[heading2]长文本处理能力[content]在上下文长度为100万Tokens的大海捞针（Passkey Retrieval）任务中，Qwen2.5-1M能够准确地从1M长度的文档中检索出隐藏信息，仅有7B模型出现了少量错误。对于更复杂的长上下文理解任务，通义官方选择了[RULER](https://github.com/hsiehjackson/RULER)、[LV-Eval](https://github.com/infinigence/LVEval)和[LongbenchChat](https://github.com/THUDM/LongAlign)，这些测试集也在[此博客](https://qwenlm.github.io/zh/blog/qwen2.5-turbo/#more-complex-long-text-tasks)中进行了介绍。从这些结果中，我们可以得出以下几点关键结论：1.显著超越128K版本：Qwen2.5-1M系列模型在大多数长上下文任务中显著优于之前的128K版本，特别是在处理超过64K长度的任务时表现出色。2.性能优势明显：Qwen2.5-14B-Instruct-1M模型不仅击败了Qwen2.5-Turbo，还在多个数据集上稳定超越GPT-4o-mini，因此可以作为现有长上下文模型的优秀开源替代。

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

[heading4]Qwen2.5-1M模型-百万Tokens处理速度提升近7倍[content]版本：7B、14B两个尺寸主要优势：长文本处理能力：在处理长文本任务中稳定超越GPT-4o-mini，首次将开源Qwen模型的上下文扩展到1M长度。推理速度提升：引入基于MInference的稀疏注意力优化，处理1M长度输入序列的预填充速度提升了3.2倍到6.7倍。上下文长度扩展至100万tokens，可处理约150万汉字（相当于2部《红楼梦》）开源平台：Huggingface：https://huggingface.co/spaces/Qwen/Qwen2.5-1M-DemoModelscope：https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo

本地部署资讯问答机器人：Langchain+Ollama+RSSHub 实现 RAG

|导入依赖库加载所需的库和模块。其中，feedparse用于解析RSS订阅源ollama用于在python程序中跑大模型，使用前请确保ollama服务已经开启并下载好模型|从订阅源获取内容下面函数用于从指定的RSS订阅url提取内容，这里只是给了一个url，如果需要接收多个url，只要稍微改动即可。然后，通过一个专门的文本拆分器将长文本拆分成较小的块，并附带相关的元数据如标题、发布日期和链接。最终，这些文档被合并成一个列表并返回，可用于进一步的数据处理或信息提取任务。|为文档内容生成向量这里，我们使用文本向量模型bge-m3。https://huggingface.co/BAAI/bge-m3bge-m3是智源研究院发布的新一代通用向量模型，它具有以下特点：支持超过100种语言的语义表示及检索任务，多语言、跨语言能力全面领先（M ulti-Lingual）最高支持8192长度的输入文本，高效实现句子、段落、篇章、文档等不同粒度的检索任务（M ulti-Granularity）同时集成了稠密检索、稀疏检索、多向量检索三大能力，一站式支撑不同语义检索场景（M ulti-Functionality）从hf下载好模型之后，假设放置在某个路径/path/to/bge-m3，通过下面函数，利用FAISS创建一个高效的向量存储。|实现RAG