Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

使用llm的爬虫工具推荐下,开源免费

Answer

以下是为您推荐的开源免费的使用 LLM 的爬虫工具:

  1. Jina 开源的网页内容爬取工具:Reader API 能从网址提取出核心内容,并将其转化为干净、易于大语言模型处理的文本,确保为您的 AI 智能体及 RAG 系统提供高品质的数据输入。
  2. Scrapy 库(Python 语言):在 crawlab 可以做到分布式爬取,非常高效。
  3. GPT Crawler:主要运用 typescript 进行数据爬取。
  4. 在开源的项目中,为实现对含有 JavaScript 内容的网页抓取,不使用 Python 自己的 request 库,而是使用 playwright 之类的浏览器,并将网页内容按照一定规则转化成 markdown 格式,方便 LLM 后续的理解和抓取。

同时,对于爬虫工具的选择,还需根据您的具体需求和技术熟悉程度来决定。

Content generated by AI large model, please carefully verify (powered by aily)

References

AIGC Weekly #67

[Reader:jina开源的网页内容爬取工具](https://jina.ai/reader/)[content]将网络信息灌输到大语言模型(LLM)中是实现信息实体化的关键步骤,但这一过程充满挑战。最直接的方法是直接抓取网页内容并提取其HTML数据。然而,抓取操作往往复杂且容易受到封锁,且原始HTML往往包含大量无用的元素,如多余的标记和脚本代码。Reader API解决了这些问题,它能从网址提取出核心内容,并将其转化为干净、易于大语言模型处理的文本,确保为你的AI智能体及RAG系统提供高品质的数据输入。[heading2][CiCi:字节AI聊天机器人推出客户端和浏览器插件](https://www.ciciai.c[content]字节的豆包或者CiCi虽然移动版的体验非常离谱,过于想把每个能力都在界面上展示了。但是网页是真不错,尤其是海外版本还避免了模型问题,浏览器插件和客户端也还行。特别是浏览器插件支持翻译和总结,翻译体验做的很好,总结的内容和客户端还是同步的。有需求的可以白嫖一下。[heading2][Perplexity-Inspired LLM Answer Engine:开源的AI搜索应用[content]一个开源的类似Perplexity的AI搜索应用,含构建复杂答案引擎所需的代码和指令,利用Groq、米斯特拉尔人工智能的Mixtral、Langchain.JS、勇敢搜索、服务器应用编程接口和开放人工智能的功能。该项目旨在根据用户查询有效返回来源、答案、图像、视频和后续问题,是对自然语言处理和搜索技术感兴趣的开发人员的理想起点。

巧妇还要种米来炊:怎么准备LLM的数据?很接地气的经验总结

爬虫行业数据对于常识性内容,需要和产品、项目和相关内容专家确认范围,先请判断需要哪些论文或者文本,网站,或者是网站上面存有的文件等等。如果是下载好的论文和文本放在本地放在第二阶段处理。这里第一阶段,我们主要用网络爬虫的方法进行爬取,针对于网页的文本和图片进行爬取。我在工程事件里采用的爬虫主要是用python语言的scrapy库,在crawlab可以做到分布式爬取,非常高效。这里有教程。Scrapy入门教程|菜鸟教程(runoob.com)https://www.runoob.com/w3cnote/scrapy-detail.html快速教程(crawlab.cn)https://docs.crawlab.cn/zh/guide/basic-tutorial/#%E5%88%9B%E5%BB%BA%E7%88%AC%E8%99%AB界面非常友好,可以同时跑好多任务做到csv或json导出举个例子,我这里要爬取国家基础教育资源网的实验材料。这种有结构清晰的网页比较好爬取按教程里做网页结构分析,一次可以跑很多个网页任务。然后获得如下内容:比如这里获取到网页内容和网页指向的文件等等...这里也有一个开源的爬虫工具很好用,GPT Crawler,主要运用typescript进行数据爬取。这里有链接GitHub:https://github.com/BuilderIO/gpt-crawler爬虫方法只能针对一个网址里包含某一系列内容进行爬取,即对于每个网址需要个性化定制爬虫脚本。而且在GPT Crawler里,我尝试过爬虫,认为它自由度不是很高,无法handle多变多样的网页,也可能是我对typescript不熟的原因,我强烈推荐用scrapy或者美丽汤BeautifulSoup,当然别的语言也可以,但我主要用python。

[Agentic AI] 搏一搏,$20变$500:一小时魔改Cursor变身Devin

相比于Cursor,Devin的一个很大的优势是它可以使用更多的工具。比如可以调用浏览器进行搜索,可以浏览网页,甚至可以调用它自己的大脑,用LLM的智能对内容进行分析。这些在Cursor里都是不支持的,但好消息是,因为我们可以通过.cursorrules直接控制给Cursor的prompt,而且它又有运行命令的能力,因此这又构成了一个闭环。我们可以事先准备好一些写好的程序,比如Python库或者命令行,然后在.cursorrules里面向它介绍这些工具的用法,这样它就可以learning on the fly,自然而然的学会如何使用这些工具来完成它的任务。而事实上,这些工具本身也可以使用Cursor在一两分钟内写出来。比如对于网页浏览这个工具,我在[开源的项目](https://github.com/grapeot/devin.cursorrules)里就用Cursor做了一个参考实现。其中有一些需要注意的技术决策,比如为了实现对含有JavaScript内容的网页的抓取,我们在这里不使用Python自己的request库,而是使用playwright之类的浏览器。同时,为了更好地跟LLM沟通,方便它对后续内容的理解和抓取,我们并没有单纯地使用beautiful soup来提取这个网页的文本内容,而是将它按照一定规则转化成了markdown格式,因而保留了它的class name和超链接等等更细节的基础信息,通过这样的方式,在更底层的方面支持LLM撰写后续的爬虫。类似的,对于搜索的工具,有一个小坑是,不论是Bing还是Google,它们的API的搜索质量都远远不如客户端,这主要是历史原因造成的,API和网页端分别是不同的组来负责,但是duckduckgo则没有这样的问题,因此我们使用的参考实现用的是duckduckgo的免费API。

Others are asking
LLM应用可观测性
LLM 应用的可观测性主要体现在以下方面: LangChain:借助 LangSmith 提供更好的日志、可视化、播放和跟踪功能,以便监控和调试 LLM 应用。LangSmith 是基于 Web 的工具,能查看和分析细化到 class 的输入和输出,还提供跟踪功能,用于记录和展示 LLM 应用的执行过程和状态,以及 LLM 的内部信息和统计数据。 Langfuse:为大模型应用提供开源可观测性和分析功能,在可视化界面中可探索和调试复杂的日志和追踪,并使用直观的仪表板改善成本、降低成本、减少延迟,提高响应质量。 此外,微软(中国)的《面向大模型的新编程范式》报告中也强调了在线监控和可观测性的重要性。
2025-04-11
LLM模型响应时间较长,如何处理超时时间问题
处理 LLM 模型响应时间过长导致的超时问题,可以考虑以下方法: 1. 参数有效调整:这是一种新颖的微调方法,通过仅训练一部分参数来减轻微调 LLM 的挑战。这些参数可能是现有模型参数的子集,或者是一组全新的参数,例如向模型添加一些额外的层或额外的嵌入到提示中。 2. 优化提示设计:采用合适的提示方法,如零样本提示、一次性提示、Fewshot prompting 等。零样本提示是只给出描述任务的提示;一次性提示是让 LLM 执行任务的单个示例;Fewshot prompting 是让 LLM 执行任务的少量示例。同时,可以使用结构化模式设计提示,包含上下文、问题示例及相应答案等组件,以指示模型应如何响应。 3. 避免频繁调整某些参数:尤其是 Top K 和 Top P,不需要经常对其进行调整。 4. 关注模型响应质量:即使有良好的提示设计,模型输出仍可能不稳定,需要持续关注和优化。 5. 考虑成本和时间:微调大型模型可能耗时且成本高,为大模型提供服务也可能涉及额外麻烦和成本,需要综合评估和优化。
2025-04-11
除了LLM,就没有AI模型了吗?
除了 LLM ,还有很多其他类型的 AI 模型。以下为您详细介绍: 1. 生成式 AI:可以生成文本、图片、音频、视频等内容形式。其中生成图像的扩散模型就不是大语言模型。 2. 机器学习:电脑找规律学习,包括监督学习、无监督学习、强化学习。 监督学习:有标签的训练数据,算法的目标是学习输入和输出之间的映射关系,包括分类和回归。 无监督学习:学习的数据没有标签,算法自主发现规律。经典任务包括聚类,比如拿一堆新闻文章,让模型根据主题或内容特征分成具有相似特征的组。 强化学习:从反馈里学习,最大化奖励或最小化损失,类似训小狗。 3. 深度学习:一种参照人脑有神经网络和神经元的方法(因为有很多层所以叫深度)。神经网络可以用于监督学习、无监督学习、强化学习。 4. 谷歌的 BERT 模型:可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类。 2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制(SelfAttention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。生成式 AI 生成的内容,叫做 AIGC 。
2025-04-11
linux下安装 anythingLLM
以下是在 Linux 下安装 AnythingLLM 的相关指导: 1. 安装地址:https://useanything.com/download 。 2. 安装完成后会进入配置页面,主要分为三步: 第一步:选择大模型。 第二步:选择文本嵌入模型。 第三步:选择向量数据库。 3. AnythingLLM 中有 Workspace 的概念,可以创建自己独有的 Workspace 与其他项目数据进行隔离。 首先创建一个工作空间。 上传文档并且在工作空间中进行文本嵌入。 选择对话模式,提供了 Chat 模式(大模型会根据自己的训练数据和上传的文档数据综合给出答案)和 Query 模式(大模型仅仅会依靠文档中的数据给出答案)。 4. 完成上述配置后,即可与大模型进行对话。 此外,在 GitHubDaily 开源项目列表 2023 年复盘的 AIGC 部分中,也有关于 AnythingLLM 的介绍: 是一个可打造成企业内部知识库的私人专属 GPT!可以将任何文档、资源或内容转换为大语言模型(LLM)知识库,使得在对话过程中可引用到里面的内容。 本文的思路来源于视频号博主黄益贺,作者按照他的视频进行了实操,并附加了一些关于 RAG 的额外知识。
2025-03-27
anythingLLM本地部署
以下是关于本地部署大模型以及搭建个人知识库的相关内容: 一、引言 作者是大圣,一个致力于使用 AI 工具将自己打造为超级个体的程序员,目前沉浸于 AI Agent 研究。本文将分享如何部署本地大模型及搭建个人知识库,读完可学习到如何使用 Ollama 一键部署本地大模型、了解 ChatGPT 信息流转、RAG 概念及核心技术、通过 AnythingLLM 搭建本地化数据库等。 五、本地知识库进阶 如果想要对知识库进行更灵活掌控,需要额外软件 AnythingLLM,它包含所有 Open WebUI 能力,并额外支持选择文本嵌入模型和向量数据库。 安装地址:https://useanything.com/download 。安装完成后进入配置页面,主要分为三步: 1. 第一步:选择大模型。 2. 第二步:选择文本嵌入模型。 3. 第三步:选择向量数据库。 构建本地知识库: AnythingLLM 中有 Workspace 概念,可创建独有 Workspace 与其他项目数据隔离。 1. 首先创建一个工作空间。 2. 上传文档并在工作空间中进行文本嵌入。 3. 选择对话模式,提供 Chat 模式(大模型根据训练数据和上传文档综合给出答案)和 Query 模式(大模型仅依靠文档数据给出答案)。 配置完成后可进行测试对话。 六、写在最后 作者推崇“看十遍不如实操一遍,实操十遍不如分享一遍”。如果对 AI Agent 技术感兴趣,可联系作者或加其免费知识星球(备注 AGI 知识库)。 本文思路来源于视频号博主黄益贺,作者按照其视频进行实操并附加了一些关于 RAG 的额外知识。
2025-03-26
LLM的原理
LLM(大语言模型)的工作原理如下: 以“我今天吃了狮子头和蔬菜”这句话为例,在 Transformer 中,会由 Attention 层对其加入更多信息补充,如“狮子头是一道菜”“今天是星期六”等,这些补充信息作为输入给到下一个 Attention 层,层与层之间,哪些信息补充、保留、传递,由模型自主学习,最终模型把海量数据以关系网形式“消化”并保留重要相关性。 形象地说,就像人阅读文章时的连贯性注意力过程,在阅读理解时,脑子里会消化吸收记忆,记忆的不是点状知识,而是网状经验。 大模型以词向量和 Transformer 模型学习海量知识,把知识作为向量空间中的关系网存储,接受输入时通过向量空间中的匹配进行输出。 观察大模型回复,是一个字一个字流式输出的,因为大模型确实在一个字一个字地推理生成内容。比如输入法输入联想,根据输入的单个字推测下一个字,加入上下文能帮助模型理解下一个字。但存在两个问题:一是全量数据计算算力吃不消,二是仅算字的概率易被不相干信息干扰,此时词向量机制和 Transformer 模型中的 Attention 自注意力机制解决了难题。 另外,RAG 对大语言模型的作用就像开卷考试对学生,事实性知识与 LLM 的推理能力相分离,被存储在容易访问和及时更新的外部知识源中,分为参数化知识(模型训练中学习得到,隐式储存在神经网络权重中)和非参数化知识(存储在外部知识源,如向量数据库中)。
2025-03-25
有没有好的AI爬虫工具
以下是为您推荐的一些 AI 爬虫工具: FireCrawl 开源爬虫工具:无需站点地图,可抓取任何网站的所有可访问子页面。抓取内容可转换为 Markdown 格式,支持 JavaScript 动态内容,并提供易用 API,简化内容爬取和转换。链接:https://x.com/imxiaohu/status/1780592067586269465 MediaCrawler:支持小红书、抖音、快手、B 站和微博等平台内容抓取,集成 IP 代理池防封,支持视频、图片、评论等多种数据格式保存。链接:https://github.com/NanmiCoder/MediaCrawler 、https://x.com/imxiaohu/status/1769569874601546034?s=20
2025-03-28
小红书爬虫智能体
以下是关于小红书爬虫智能体的相关内容: 创建智能体: 1. 输入人设等信息,放上创建的工作流。 2. 配置完成后进行测试。 工作流配置及注意事项: 1. 工作流 2 中【所有视频片段拼接】节点使用的插件 api_token 填的是您的 token,为避免他人调用消耗您的费用,可将 api_token 作为工作流 2 最开始的输入,用户购买后输入 token 再发布。 2. 对于 Coze 智能体,使用单 Agent 对话流模式,编排对话流时注意配置 cookie 等,使用代码节点进行数据处理,注意代码节点输出的配置格式。测试时找到一篇小红书笔记,试运行对话流,确保成功。发布时选择多维表格,注意输出和输入类型等配置。 智能体示例: 小众打卡地智能体,输入旅游目的地城市可推荐 3 个小众打卡地的小红书类文案及精美配图。其核心价值包括发掘特色景点、提供个性化建议、帮助获取高质量旅行参考信息及提供小红书文案。搭建思路重点包括录入小红书相关文案参考知识库、通过文本模型组成搜索词搜索并提取相关 url、滤除需安全认证网站等、提取小众地点输出及进行图片搜索等。
2025-03-15
ai爬虫
以下是关于 AI 爬虫的相关信息: Firecrawl Extract 是一款只需文字提示就能爬取任意网络数据的工具。它具有以下特点: 1. 通过自然语言提示,能轻松将网页内容转换为结构化数据,无需手动写脚本。 2. 支持复杂数据提取,例如联系人信息、任务描述、动态价格等。 3. 兼容多语言与国际网站,能够抓取 JavaScript 渲染的动态页面内容。 4. 提供 API 集成,支持大规模数据处理,可提取数千个结果,解决上下文限制问题。 相关链接: 另外,对于不会代码的人,也可以尝试使用 Python 和 AI 来完成爬虫应用。例如,可以让 ChatGPT 帮忙写抓取特定文章(如地址为 https://mp.weixin.qq.com/s/KUnXlDlgRs_6D5RFpQbnQ )正文内容的程序,然后在 Colab 里运行。
2025-02-08
免费的网页爬虫相关Ai工具
以下是一些免费的网页爬虫相关 AI 工具: Hexomatic:https://hexomatic.com/ WebscrapeAI:https://webscrapeai.com/ Kadoa:https://www.kadoa.com/ GPT Crawler:https://github.com/BuilderIO/gptcrawler 能够利用爬虫,自动抓取与整合指定 URL 地址中的各种信息,并生成一个 output.json 的数据文件。将其喂给 ChatGPT,便可快速定制您的专属 GPT,打造个人知识库或者智能助理。 此外,在开源项目方面: 在里有用 Cursor 做的网页浏览工具的参考实现。其中为实现对含有 JavaScript 内容的网页抓取,使用 playwright 之类的浏览器而非 Python 自己的 request 库,同时为方便 LLM 理解和抓取,将网页内容按规则转化成 markdown 格式保留细节基础信息。 对于搜索工具,duckduckgo 的免费 API 被用于参考实现,因其搜索质量优于 Bing 和 Google 的 API。
2025-01-25
有与网页爬虫相关的AI工具吗
以下是一些与网页爬虫相关的 AI 工具: Hexomatic:https://hexomatic.com/ WebscrapeAI:https://webscrapeai.com/ Kadoa:https://www.kadoa.com/ GPT Crawler:https://github.com/BuilderIO/gptcrawler 能够利用爬虫,自动抓取与整合指定 URL 地址中的各种信息,并生成一个 output.json 的数据文件。将其喂给 ChatGPT,便可快速定制专属 GPT,打造个人知识库或者智能助理。 此外,在开源项目中也有相关工具,如: 在里有用 Cursor 实现的网页浏览工具参考,其中为实现对含有 JavaScript 内容的网页抓取,使用了 playwright 之类的浏览器,将网页内容转化成 markdown 格式以支持 LLM 后续的爬虫。 对于搜索工具,duckduckgo 的免费 API 可避免一些质量问题。
2025-01-25
python实现网页爬虫
以下是使用 Python 实现网页爬虫的详细步骤: 首先,在 Colab 中抓取网页的正文内容,需要使用 Python 的 requests 库来获取网页的 HTML 源代码,然后使用 BeautifulSoup 库来解析 HTML 并提取所需的正文部分。 在开始之前,要确保已经在 Colab 环境中安装了 beautifulsoup4 和 requests 库。如果没有安装,可以使用以下命令安装: ``` !pip install beautifulsoup4 requests ``` 然后,使用以下代码抓取并解析指定的网页内容: ```python import requests from bs4 import BeautifulSoup def get_webpage_content: response = requests.get soup = BeautifulSoup 这里根据实际网页结构调整提取正文的部分 例如:content = soup.find return content url = 'https://mp.weixin.qq.com/s/KUnXlDlgRs_6D5RFpQbnQ' print ``` 请注意,由于网页的结构随时可能发生变化,所以提取正文内容的部分(即 soup.find 那一行)可能需要根据实际的 HTML 结构进行调整。如果文章有反爬虫机制,可能还需要进一步的处理,比如设置请求头模拟浏览器访问等。 在和 AI 配合写代码的过程中,如果遇到了 Bug,可以直接将问题报给 ChatGPT,然后再把 ChatGPT 给出的结果粘贴回去(如果还不行,就反复调试)。 另外,Python 在自动化方面应用广泛,例如办公软件自动化(pythondocx 用于 Word 文档、openpyxl 或 xlsxwriter 用于 Excel 文件、pythonpptx 用于 PPT、PyPDF2 用于 PDF)、爬虫(requests 用于发送 HTTP 请求、selenium 用于模拟浏览器交互、BeautifulSoup 和 lxml 用于解析 HTML 和 XML 文档)、测试自动化(unittest 和 pytest)、容器与虚拟化自动化(dockerpy 用于 Docker 容器管理)等。
2025-01-02
自动生成提示词的开源工具有哪些
以下是一些自动生成提示词的开源工具: 1. Freepik 推出的 Reimagine AI 工具:用户上传图片即可自动生成提示词,无需输入文字。它还能实时提供无限滚动结果展示,边操作边生成图像,通过调整提示词实时修改图片细节,并支持多种风格切换。相关链接:https://freepik.com/pikaso/reimagine 、https://x.com/imxiaohu/status/1770437135738581414?s=20 2. StreamMultiDiffusion 项目:使用区域文本提示实时生成图像,具有交互式操作体验,每个提示控制一个区域,实现精准图像生成。相关链接:https://arxiv.org/abs/2403.09055 、https://github.com/ironjr/StreamMultiDiffusion?tab=readmeovfile 、https://huggingface.co/spaces/ironjr/SemanticPalette 、https://x.com/imxiaohu/status/1770371036967850439?s=20 3. 【SD】自动写提示词脚本 One Button Prompt:可以在主菜单输入人物提示词,在“高级”中设置提示词混合,还具有一键运行放大的模块,包括完整的文生图放大和图生图放大,甚至可接入其他脚本和 controlnet。获取方式:添加公众号【白马与少年】,回复【SD】。
2025-04-12
开源flux模型如何快速使用
以下是关于开源 Flux 模型快速使用的方法: 1. 模型的下载: 如果因为环境问题,可以在网盘中下载。 siglipso400mpatch14384(视觉模型):siglip 由 Google 开发的视觉特征提取模型,负责理解和编码图像内容。工作流程包括接收输入图像、分析图像的视觉内容并将这些视觉信息编码成一组特征向量。打开 ComfyUI\models\clip,在地址栏输入 CMD 回车,打开命令行,输入下面的命令拉取模型(也可以在网盘里下载)。 image_adapter.pt(适配器):连接视觉模型和语言模型,优化数据转换。工作流程包括接收来自视觉模型的特征向量、转换和调整这些特征,使其适合语言模型处理。通过 https://huggingface.co/spaces/fancyfeast/joycaptionprealpha/tree/main/wpkklhc6 下载,放到 models 的 Joy_caption 文件夹里,如果该文件夹不存在,就新建一个。 MetaLlama3.18Bbnb4bit(语言模型):大型语言模型,负责生成文本描述。工作流程包括接收经过适配器处理的特征、基于这些特征生成相应的文本描述、应用语言知识来确保描述的连贯性和准确性。打开 ComfyUI\models\LLM,地址栏输入 CMD 回车,在命令行里面输入下面命令。 2. 下载地址: ae.safetensors 和 flux1dev.safetensors 下载地址:https://huggingface.co/blackforestlabs/FLUX.1dev/tree/main 。 准备了夸克和百度的网盘链接,方便部分同学下载: flux 相关模型(体积较大)的夸克网盘链接:https://pan.quark.cn/s/b5e01255608b 。 flux 相关模型(体积较大)的百度网盘链接:https://pan.baidu.com/s/1mCucHrsfRo5SttW03ei0g?pwd=ub9h 提取码:ub9h 。 如果 GPU 性能不足、显存不够,底模可以使用 fp8 的量化版模型,速度会快很多,下载地址:https://huggingface.co/Kijai/fluxfp8/tree/main 。 3. 工作流下载: 最后我们再下载 dev 的工作流: 。或者下面官方原版的图片链接,图片导入 comfyUI 就是工作流:https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png 。我们打开 ComfyUI,把工作流或图片拖拽到 ComfyUI 里。
2025-04-08
开源AI Agent软件有哪些
以下是一些开源的 AI Agent 软件: 1. AutoGPT 和 BabyAGI:在去年 GPT4 刚发布时风靡全球科技圈,给出了让 LLM 自己做自动化多步骤推理的解题思路。 2. Coze:新一代的一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot,集成了丰富的插件工具。 3. Mircosoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 4. 文心智能体:百度推出的基于文心大模型的智能体(Agent)平台,支持开发者根据自身需求打造大模型时代的产品能力。 5. MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行设计良好的工作流。 6. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景,提供多种成熟模板,功能强大且开箱即用。 7. 钉钉 AI 超级助理:依托于钉钉强大的场景和数据优势,在处理高频工作场景如销售、客服、行程安排等方面表现出色。 此外,智谱·AI 开源的语言模型中也有与 Agent 相关的,如 AgentLM7B、AgentLM13B、AgentLM70B 等。
2025-03-29
mcp 有什么开源的方案吗
Anthropic 于 2024 年 11 月推出并开源了 MCP(模型上下文协议)。MCP 就像一个“转接头”或“通用插座”,能统一不同的外部服务,如 Google Drive、GitHub、Slack、本地文件系统等,通过标准化接口与大语言模型对接。开发者基于 MCP 规范开发一次“接口适配器”(MCP 服务器),就能让所有兼容 MCP 的模型(MCP 客户端)无缝接入,无需针对每个模型单独适配,大幅提升兼容性与开发效率。MCP 里面还包含 SSE(ServerSent Events),是一种允许服务器向浏览器推送实时更新的技术。MCP 像为 AI 模型量身定制的“USBC 接口”,可以标准化地连接 AI 系统与各类外部工具和数据源。与传统 API 相比,MCP 是单一协议,只要一次整合就能连接多个服务;具有动态发现功能,AI 模型能自动识别并使用可用的工具;支持双向通信,模型不仅能查询数据,还能主动触发操作。相关链接:
2025-03-27
帮我列举2025年3月1日以来,国内外、闭源开源模型厂商的更新记录。
以下是 2025 年 3 月 1 日以来,国内外、闭源开源模型厂商的部分更新记录: 2025 年 3 月 20 日,OpenAI 推出了一套全新的音频模型,旨在通过 API 为开发者提供更智能、更可定制的语音代理支持,包括改进的语音转文本和文本转语音功能,为语音交互应用带来显著提升。 李开复公开表示 OpenAI 面临生存危机,商业模式不可持续。他强调中国的 DeepSeek 以极低成本提供接近的性能,开源模式将主导未来 AI 发展。他认为企业级 AI 应用将成为投资重点,资源限制反而促进了创新。李开复大胆预测,中国将出现三大 AI 玩家,竞争愈发激烈。 SuperCLUE 发布《中文大模型基准测评 2025 年 3 月报告》,指出 2022 2025 年经历多阶段发展,国内外模型差距缩小。测评显示 o3mini总分领先,国产模型表现亮眼,如 DeepSeekR1 等在部分能力上与国际领先模型相当,且小参数模型潜力大。性价比上,国产模型优势明显。DeepSeek 系列模型深度分析表明,其 R1 在多方面表现出色,蒸馏模型实用性高,不同第三方平台的联网搜索和稳定性有差异。 以上信息来源包括: 《》 《》 《》
2025-03-26
现在Ai作图用什么?还是以前的Stable Diffusion吗?还是又出现了新的开源软件?
目前在 AI 作图领域,Stable Diffusion 仍然是常用的工具之一。Stable Diffusion 是 AI 绘画领域的核心模型,能够进行文生图和图生图等图像生成任务,其完全开源的特点使其能快速构建强大繁荣的上下游生态。 除了 Stable Diffusion,也出现了一些新的相关开源软件和工具,例如: :Stability AI 开源的 AI 图像生成平台。 :拥有超过 700 种经过测试的艺术风格,可快速搜索查找各类艺术家,并支持一键复制 Prompt。 同时,市面上主流的 AI 绘图软件还有 Midjourney,其优势是操作简单方便,创作内容丰富,但需要科学上网并且付费。如果您想尝试使用 Stable Diffusion,可以参考 B 站【秋葉 aaaki】这个 Up 主的视频了解具体的安装方法。
2025-03-24
推荐一个免费的论文写作ai
以下为您推荐一些免费的论文写作相关的 AI 工具和服务: 1. 文献管理和搜索: Zotero:结合 AI 技术,能自动提取文献信息,助您管理和整理参考文献。 Semantic Scholar:由 AI 驱动的学术搜索引擎,提供文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:通过 AI 技术提供文本校对、语法修正和写作风格建议,提升语言质量。 Quillbot:基于 AI 的重写和摘要工具,可精简和优化论文内容。 3. 研究和数据分析: Google Colab:提供基于云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于数据分析和可视化。 Knitro:用于数学建模和优化,助力复杂数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,高效处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,有丰富模板库和协作功能,简化编写过程。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:通过与已发表作品比较,检测潜在抄袭问题。 6. AIGC 论文检测网站: :提供免费的 AI 内容检测工具,识别文本是否由 AI 生成。使用时将文本粘贴到在线工具中点击检测按钮获取分析结果。 GPTZero:专门检测 GPT3 生成内容,适用于教育和出版行业。上传文档或输入文本,系统分析并提供报告。 Content at Scale:提供 AI 内容检测功能,将文本粘贴到在线检测工具中获取分析结果。 7. 免费的 AI 理解论文服务: https://www.aminer.cn/:如果是计算机领域尤其是人工智能话题,可订阅感兴趣的话题,网站提供免费的 AI 理解论文服务,每篇论文处理一次全站可看,多数论文有免费 PDF 下载链接。 使用这些工具时,要结合自身写作风格和需求,选择最合适的辅助工具。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-12
WaytoAGI:找到了AI知识付费的免费源头,让更多人因AI而强大!
WayToAGI(通往AGI之路)是一个由热爱AI的专家和爱好者共同建设的开源AI知识库。它具有以下特点和优势: 1. 整合了各种AI资源,让大家能轻松学习AI知识,应用各类AI工具和实战案例。 2. 提供了一系列开箱即用的工具,如文生图、文生视频、文生语音等的详尽教程。 3. 时刻追踪AI领域最新进展并更新,每次访问都有新收获。 4. 涵盖丰富的内容,包括AI视频、AI绘画、AI音乐、AI艺术、AI即兴戏剧、AI Agent共学等。 5. 为用户提供全面系统的AI学习路径,辅助思考,让学习过程少走弯路。 6. 自 2023 年 4 月 26 日诞生,在无推广情况下,一年已有超 70 万用户和超千万次访问量。社群的口号是让更多的人因 AI 而强大,有很多学社和共学共建的活动。访问“waytoagi.com”即可找到社群。
2025-04-12
有没有免费制作数字人的网站?
以下是一些免费制作数字人的网站及使用方法: HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法:点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片。上传后效果如图所示,My Avatar处显示上传的照片。点开大图后,点击Create with AI Studio,进入数字人制作。写上视频文案并选择配音音色,也可以自行上传音频。最后点击Submit,就可以得到一段数字人视频。 DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法:点击上面的网址,点击右上角的Create vedio。选择人物形象,可以点击ADD添加照片,或者使用DID给出的人物形象。配音时,可以选择提供文字选择音色,或者直接上传一段音频。最后,点击Generate vedio就可以生成一段视频。打开自己生成的视频,可以下载或者直接分享给朋友。 KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很AI。 使用方法:点击上面的网址,注册后获得120免费k币,这里选择“照片数字人口播”的功能。点击开始创作,选择自定义照片。配音时,可以选择提供文字选择音色,或者直接上传一段音频。打开绿幕按钮,点击背景,可以添加背景图。最后,点击生成视频。 此外,在剪映中也可以生成数字人:在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费的、适合的数字人形象,比如“婉婉青春”。选择数字人形象时,软件会播放声音,可判断是否需要,点击右下角的“添加数字人”,将其添加到当前视频中。软件会根据提供的内容生成对应音视频,并添加到当前视频文件的轨道中。左下角会提示渲染完成,可点击预览按钮查看效果。还可以为视频增加背景图片,删除先前导入的文本内容,点击左上角的“媒体”菜单并点击“导入”按钮,选择本地图片上传,将图片添加到视频轨道上,通过拖拽轨道右侧竖线使其与视频对齐。
2025-04-11
depseek免费使用网站
以下是一些关于 DeepSeek 免费使用的相关信息: 有一些公众号文章提到了 DeepSeek 的相关内容,如“DeepSeek 卡顿?别急!这些平替平台让你畅快用”“终于找到稳定、免费使用满血版 DeepSeek 的地方!”等,您可以通过以下链接查看具体文章: 关于获取字节火山 DeepSeek 系列 API 完整教程及使用方法,有以下要点: 包含火山方舟 DeepSeek 申请免费额度教程。 API 使用方式包括飞书多维表格调用、Coze 智能体调用、浏览器插件调用。 可以使用邀请码 D3H5G9QA,邀请链接:https://www.volcengine.com/activity/deepseek?utm_term=202502dsinvite&ac=DSASUQY5&rc=D3H5G9QA ,邀请可拿 3000 万 tokens。 即日起至北京时间 20250218 23:59:59,所有用户均可在方舟享受 DeepSeek 模型服务的价格优惠。 DeepSeek 有几种含义,如 deepseek 公司叫深度求索,其网页和手机应用目前免费,API 调用收费,DeepSeek R1 大模型权重文件开源,可本地部署。
2025-04-10
免费ai视频网站
以下是一些免费的 AI 视频网站: ProductHunt 2023 年度最佳产品榜单中提到的: Dora AI:用一次 prompt 生成网站,支持文字转网站、生成式 3D 互动、高级 AI 动画。 Bard(免费):谷歌推出的官方 ChatGPT 竞争者。 Chat.DID(免费):有史以来首个允许人们以人类方式与 AI 进行视频聊天的 APP,现已进入测试阶段。 Pika(免费):将创意转化为动态视频的概念视频平台。 4 月 1 日 AI 资讯汇总中未明确提及具体的免费 AI 视频网站,但包含了一些 AI 相关的视频方面的资讯,如 Higgsfield 发布 50 多个电影级摄影机动作预设,luma 为 Ray 2 引入摄像机运动概念,Remakes 支持基于用户上传图像直接编辑并融合 Remade 视频特效,Meta 宣布推出 MoCha 系统实现电影级说话角色合成效果等。 MIT 上线了给 8 18 岁孩子的免费 AI 课程 Day of AI 网站,但该网站的课程资源面向家长、老师群体,大孩子可自学,小孩子可能需要家长辅助。
2025-04-10
免费ai网站
以下为一些免费的 AI 网站: 1. 麻省理工学院(MIT)为 8 18 岁孩子推出的 AI 课程网站 Day of AI,该课程包含在 MIT 的 RAISE 项目中,完全免费,但面向家长和老师群体,大孩子可自学,小孩子可能需要家长辅助。 2. Poe AI 平台,这是一个支持与多个智能 AI 机器人(如 GPT 4 等)进行实时在线交流的聊天网站,注册账号后可免费使用,部分功能需付费订阅,官网地址:https://poe.com/ ,可在官网帮助中心找到具体教程。 3. 以下是一些与代码相关的免费 AI 网站: CodeWhisperer:亚马逊发布的免费 AI 编程助手,链接:https://aws.amazon.com/codewhisperer/ 。 Codeium:基于人工智能的 AI 辅助编程与代码生成平台,链接:https://www.codium.ai/ 。 Cursor:新的 IDE,使用 AI 辅助编程,与 OpenAI 有深入合作,链接:https://www.cursor.so/ 。 Ghostwriter:知名在线编程 IDE Replit 推出的 AI 编程助手,链接:https://replit.com/site/ghostwriter 。 4. 以下是一些与音频相关的免费 AI 网站: Resemble:AI 人声生成工具,链接:https://www.resemble.ai/ 。 Altered Studio:专业的 AI 变声软件,链接:https://www.altered.ai/ 。 Voicemod:AI 变声工具,链接:https://www.voicemod.net/aivoices/ 。 Krisp:人工智能降噪应用程序,链接:https://krisp.ai/ 。
2025-04-10