Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

聊天大模型微调怎么做，哪些大模型微调效果比较好

Answer

对于聊天大模型的微调，主要有以下几点建议：

数据质量很重要如果没有高质量的数据集，即使使用监督微调（SFT）或其他微调方法，效果也不会太好。高质量的对话数据是微调聊天大模型的基础。
选择合适的大模型基座在数据质量较高的前提下，选择参数量更大的大模型（如 Chatglm2-6B、Baichuan2-7B 等）进行微调，效果会更好。模型容量越大，微调潜力越大。
尝试不同的微调方法有一些常见的微调方法，包括 SFT、LoRA、P-tuning v2 等。不同方法在成本、可控性和效果上有所权衡，需要根据实际需求选择合适的方式。
关注微调后的可控性过度微调可能会破坏大模型的通用理解能力，导致一些问题。因此在微调时需要注意保持一定的可控性。

综合以上几点，对于聊天大模型的微调，建议先准备高质量的对话数据，选择合适的大模型基座，并尝试不同的微调方法，在保证效果的同时也要注重可控性。这样可以更好地定制出适合自身需求的聊天大模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

开发：产品视角的大模型 RAG 应用

3. 如何让 LLM 应用性能登峰造极

质朴发言：大模型未来发展：RAG vs 长文本，谁更胜一筹？｜Z 沙龙第 8 期

多模态大模型入门指南-长文慎入【持续更新】

创作：基于百川大模型向微信群大佬们虚心学习

Others are asking

热点的大模型微调蒸馏工具有哪些

以下是一些热点的大模型微调蒸馏工具： FLUX.1：包括 FLUX.1（可商用，为本地开发和个人使用定制，生成速度快，内存占用小，在 Apache 2.0 许可下公开提供，支持在 Replicate、fal.ai 和 Comfy UI 等平台使用，且支持用户根据自己数据集微调）。其训练参数高达 120 亿，在图像质量、提示词跟随等多方面超越流行模型，工作原理基于混合架构，结合变换器和扩散技术。基于阿里云 PAI 平台：可复现 R1 蒸馏及蒸馏训练模型过程。部署 32b 的蒸馏模型展示效果，包括模型部署（如选中模型卡片后的操作、选择 vLLM 部署、涉及竞价系统等）、蒸馏数据获取（在本地 python 环境或 notebook gallery 建立实例执行代码获取蒸馏数据集）等。 DeepSeek：PaaS 平台支持多机分布式部署，满足推理性能要求，能一站式完成模型蒸馏。可登录 Pad 控制台通过 model gallery 进行部署，如 Deepseek R1 模型，可选择 SG 浪或 Vim 推理框架，根据资源出价部署，部署后可在模型在线服务 EAS 查看状态。还介绍了模型 API 调用、服务关停、蒸馏概念、应用场景及部署实操等。

deepseek v3微调

以下是关于 Deepseek V3 微调的相关信息：云舒文章总结卡 2.0 提示词全面支持 Deepseek V3，效果媲美 Claude3.7。V3 需要为 0324 更新的版本，DS 官网及 API 已更新，如调用其它平台 API 需要查看 DS 版本号。提示词复制链接：。横版为 1080 x 800 卡片提示词，竖版为 750 x 不限高卡片提示词。各平台均需下载 html 文件，打开后才能查看真实效果，平台自带预览因兼容性问题无法正常展示效果。Claude 使用平台包括 Claude3.7 官网、API、Cursor，使用时需要下载为 HTML 文件打开查看效果。Deepseek 使用平台包括 Deepseek 官网、API（V3 需要为 0324 更新的版本），Deepseek 需要复制代码到 html 文件里，然后保存进行查看。关于智能纪要，会带着大家复现模型的蒸馏和微调，并讲解相关知识。用 Deepseek RE Zero 蒸馏出带思考的数据，基于 Deepseek V3 微调，进行冷启动，再做强化学习，还从非公布模型提取微调数据，加上人类偏好，最终形成 R1。Deepseek R1 反过来蒸馏数据微调 V3，形成互相帮助的局面。北京时间 00:30 至 08:30 期间，DeepSeek API 价格大幅下调，DeepSeekV3 降至原价的 50%。

有哪些针对CoT能力的微调工具

以下是一些针对 CoT 能力的微调工具： 1. Selfconsistency CoT：使用手动设计的 Prompt 生成采样一组不同的推理路径，再通过“多数投票”找到推理步骤中“最一致”的路径，使用这条解码路径驱动原始的贪心解码方式来提示 CoT 性能。 2. MMCoT：侧重使用微调方法嵌入 CoT，通过将语言和图像合并在一个包含推理生成与答案推理的两阶段的框架中，使用微调大模型赋予输入多模态 CoT 的能力。 3. GoTInput 方法：通过对 CoT 生成的思维图进行抽取构建三元组，并使用 GNN 将文本、图像与 CoT 统一，从而生成包含 CoT 信息的最终答案。 4. VCoT：解决了一个输出多模态的问题，通过以生成图片的“标题”以及识别核心关注点作为图像生成的启动过程，通过递归的方式填充图像信息，从而实现输出多模态。此外，在将 DoT 扩展到预训练的扩散语言模型 Plaid 1B 并在更复杂的推理任务上进行评估时，自回归模型和扩散模型在使用 CoT 或 DoT 进行微调时都显示出显著提高的性能。在微调 Plaid 1B 时，也探索了几种替代方案。在强化学习驱动的合成数据生成与模型优化流程中，也涉及到 CoT 的相关应用和优化，如初始 CoT 生成、CoT 存储等。

本地部署大模型，如何微调建立本地知识库

以下是关于本地部署大模型并微调建立本地知识库的详细步骤：一、使用 AnythingLLM 进行本地知识库搭建 1. 安装 AnythingLLM 安装地址：https://useanything.com/download 安装完成后进入配置页面，主要分为三步：第一步：选择大模型第二步：选择文本嵌入模型第三步：选择向量数据库 2. 构建本地知识库在 AnythingLLM 中创建自己独有的 Workspace 与其他项目数据隔离。上传文档并在工作空间中进行文本嵌入。选择对话模式，提供了 Chat 模式（大模型根据训练数据和上传文档数据综合给出答案）和 Query 模式（大模型仅依靠文档中的数据给出答案）。二、张梦飞的全本地部署教程 1. 部署大语言模型下载并安装 Ollama 点击进入，根据电脑系统，下载 Ollama：https://ollama.com/download 下载完成后，双击打开，点击“Install” 安装完成后，将下方地址复制进浏览器中。如果出现下方字样，表示安装完成：http://127.0.0.1:11434/ 下载 qwen2:0.5b 模型如果是 Windows 电脑，点击 win+R，输入 cmd，点击回车；如果是 Mac 电脑，按下 Command（⌘）+Space 键打开 Spotlight 搜索，输入“Terminal”或“终端”，然后从搜索结果中选择“终端”应用程序。复制相关命令行，粘贴进入，点击回车。三、智能纪要中的相关内容在智能纪要中，许键介绍了模型 API 调用方法与知识库创建，包括获取 API key 位置及调用设置，详细讲解了创建 Rag 应用（知识库）流程，如上传非结构化文件、数据解析、切分段落等操作，并回答了诸多问题。同时还涉及工作流创建、模型能力及相关问题的探讨，以及通义千问相关应用及明天课程安排交流等内容。总之，本地部署大模型并建立本地知识库需要按照上述步骤进行操作和配置，同时不断实践和探索，以达到理想的效果。

如何做 deepseek 微调

要进行 DeepSeek 微调，以下是一些相关的知识和步骤： 1. 模型蒸馏微调：会带着大家复现模型的蒸馏和微调，并讲解相关知识。用 Deepseek RE Zero 蒸馏出带思考的数据，基于 Deepseek V3 微调，进行冷启动，再做强化学习，还从非公布模型提取微调数据，加上人类偏好，最终形成 R1。 2. 本地部署介绍：如果拥有云服务器，可以进行本地部署，了解满血版本地部署的实际情况。 3. 免费额度说明：在 freely.aliyun.com 可领取 500 元免费额度，但有使用限制，不能部署满血版和较大的增流模型。 4. 平台服务差异：了解 DLC、DSW 和 EAS 等模型部署平台服务的差别。 5. 对于微调的全过程，建议阅读 Unsloth 笔记本和 HuggingFace 的《如何微调开放式 LLMs》，也可以使用《如何在一小时内阅读论文》作为指南。 6. 更加完善的训练说明，可直接阅读官方论文：DeepSeekAI《DeepSeekR1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948

怎么本地部署ai模型，并进行微调

以下是本地部署 AI 模型并进行微调的主要步骤： 1. 选择合适的部署方式：包括本地环境部署、云计算平台部署、分布式部署、模型压缩和量化、公共云服务商部署等，根据自身的资源、安全和性能需求进行选择。 2. 准备训练所需的数据和计算资源：确保有足够的训练数据覆盖目标应用场景，并准备足够的计算资源，如 GPU 服务器或云计算资源。 3. 选择合适的预训练模型作为基础：可以使用开源的预训练模型如 BERT、GPT 等，也可以自行训练一个基础模型。 4. 针对目标任务进行模型微调训练：根据具体应用场景对预训练模型进行微调训练，优化模型结构和训练过程以提高性能。 5. 部署和调试模型：将训练好的模型部署到生产环境，对部署的模型进行在线调试和性能优化。 6. 注意安全性和隐私保护：大模型涉及大量数据和隐私信息，需要重视安全性和合规性。此外，关于本地部署还有以下相关内容：如果拥有云服务器如何进行本地部署，以及满血版本地部署的实际情况。在 freely.aliyun.com 可领取 500 元免费额度，但有使用限制，不能部署满血版和较大的增流模型。介绍了 DLC、DSW 和 EAS 等模型部署平台服务的差别。会带着大家复现模型的蒸馏和微调，并讲解相关知识。 PaaS 平台支持多机分布式部署，满足推理性能要求，使用独占资源和专有网络，能一站式完成模型蒸馏。登录 Pad 控制台，通过 model gallery 进行部署，如 Deepseek R1 模型，可选择 SG 浪或 Vim 推理框架，根据资源出价，部署后可在模型在线服务 EAS 查看状态。介绍了模型 API 的调用方法，包括查找位置、获取 token 等，强调使用后要及时停止或删除服务以避免持续付费。总的来说，部署和训练自己的 AI 模型需要综合考虑多方面因素，包括部署方式、数据准备、模型训练、部署调试以及安全性等。需要根据具体需求选择合适的方法，并注意优化各个环节以提高模型性能和应用效果。

大模型的系统提示词

大模型的系统提示词主要包括以下方面： 1. 在“五津：一键生成‘摸鱼打工猫’视频”中，针对用户选择的主题和回答，总结用户的创作意图，如“打工猫摸鱼的 2 小时，在巴厘岛能看一场日落”，并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词，以数组形式输出到“tishici”，将用户意图输出到“biaoti”。 2. 在“云中江树：智能对决：提示词攻防中的 AI 安全博弈”中，系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意；模型侧对于有能力的厂商应增强安全性并平衡性能，开发者则要在开发中带着安全意识优化系统提示词，加入安全引导和禁止内容等；输出侧可使用传统防御和内容过滤手段，并针对大模型特点进行私有数据泄露等检查。此外，还提到间接注入和提示词泄露的情况，间接注入常发生在应用获取依赖外部数据资源时，攻击者通过隐藏恶意指令完成攻击；提示词泄露指试图操纵模型输出获取部分或全部系统提示词，大模型输出内容可分为系统提示词、用户提示和助手提示词三段，通过攻击手段可获取系统提示词。

通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash，这3个视觉理解大模型哪个最厉害？

以下是对通义千问 Qwen2.5VL 模型的介绍：版本：有 3B、7B 和 72B 三个尺寸版本。主要优势：视觉理解能力：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。视频理解能力：支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。万物识别：擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。精准的视觉定位：采用矩形框和点的多样化方式对通用物体定位，支持层级化定位和规范的 JSON 格式输出。全面的文字识别和理解：提升 OCR 识别能力，增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析：设计了更全面的文档解析格式，称为 QwenVL HTML 格式，能够精准还原文档中的版面布局。增强的视频理解：引入动态帧率（FPS）训练和绝对时间编码技术，支持小时级别的超长视频理解，具备秒级的事件定位能力。开源平台： Huggingface：https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope：https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat：https://chat.qwenlm.ai 然而，对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型，目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容，因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看，其在视觉理解方面具有较强的能力和优势。

目前全世界最厉害的对视频视觉理解能力大模型是哪个

目前在视频视觉理解能力方面表现出色的大模型有： 1. 昆仑万维的 SkyReelsV1：它不仅支持文生视频、图生视频，还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。擅长万物识别，能分析图像中的文本、图表、图标、图形和布局等。

目前全世界最厉害的视频视觉理解大模型是哪个

目前全世界较为厉害的视频视觉理解大模型有以下几个： 1. 昆仑万维的 SkyReelsV1：不仅支持文生视频、图生视频，是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元：语义理解能力出色，能精准还原复杂的场景和动作，如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5：全球最快的 AI 视频生成模型，Turbo 模式下可在 10 秒内生成视频，最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能，具备顶尖动漫生成能力。

目前全世界最厉害的视觉理解大模型是哪个

目前在视觉理解大模型方面，较为突出的有 DeepSeek 的 JanusPro 模型，它将图像理解和生成统一在一个模型中；还有通义千问的视觉理解模型，其价格有较大降幅。此外，Pixverse V3.5 是全球最快的 AI 视频生成模型，在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型，因为这取决于不同的评估标准和应用场景。

大模型对话产品的优劣

大模型对话产品具有以下优点： 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验，具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接，产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务，适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景，如私有领域知识问答、个性化聊天机器人、智能助手等。大模型对话产品也存在一些缺点： 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情，全靠用户脑补，导致用户上头期短，疲劳度高，长期留存低。 3. 无法回答私有领域问题（如公司制度、人员信息等）。 4. 无法及时获取最新信息（如实时天气、比赛结果等）。 5. 无法准确回答专业问题（如复杂数学计算、图像生成等）。

推理类模型，以deepseek为代表，与此前的聊天型ai，比如chatgpt3.5，有什么差异

推理类模型如 DeepSeek 与聊天型 AI 如 ChatGPT3.5 存在以下差异： 1. 内部机制：对于大语言模型，输入的话会被表示为高维时间序列，模型根据输入求解并表示为回答。在大模型内部，是根据“最大化效用”或“最小化损失”计算，其回答具有逻辑性，像有自己的思考。 2. 多模态能力：ChatGPT3.5 是纯语言模型，新一代 GPT 将是多模态模型，能把感官数据与思维时间序列一起作为状态，并装载在人形机器人中，不仅能对话，还能根据看到、听到的事进行判断，甚至想象画面。 3. 超越人类的可能性：有人假设人按最大化“快乐函数”行动，只要“效用函数”足够复杂，AI 可完全定义人，甚至超越人类。如在“短期快乐”与“长期快乐”的取舍上，人类难以找到最优点，而 AI 可通过硬件算力和强化学习算法实现，像 AlphaGo 击败世界冠军，在复杂任务上超越人类。 4. 应用领域：文字类的总结、润色、创意是大语言模型 AI 的舒适区，如从 ChatGPT3.5 问世到 ChatGPT4 提升，再到 Claude 3.5 sonnet 在文学创作领域取得成绩，只要有足够信息输入和合理提示词引导，文案编写可水到渠成。

可以同时接多个大模型api的聊天应用

以下是一些可以同时接多个大模型 API 的聊天应用： 1. 熊猫大侠：基于 COW 框架的 ChatBot 实现步骤能实现打造属于自己的 ChatBot（文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等）、常用开源插件的安装应用等功能。支持多平台接入，如微信、企业微信、公众号、飞书、钉钉等。可选择多模型，如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等。支持多消息类型，包括文本、语音和图片，以及基于自有知识库进行定制的企业智能客服功能。有多种部署方法，如本地运行、服务器运行、Docker 的方式。风险与注意事项：微信端因非常规使用有封号危险，不建议主力微信号接入；操作需依法合规，对大模型生成的内容注意甄别，禁止用于非法目的，处理敏感或个人隐私数据时注意脱敏。相关教程：张梦飞同学写的更适合小白的使用教程 2. DIN：全程白嫖拥有一个 AI 大模型的微信助手搭建步骤：搭建，用于汇聚整合多种大模型接口，并可白嫖大模型接口。搭建，这是个知识库问答系统，可将知识文件放入，并接入大模型作为分析知识库的大脑来回答问题。若不想接入微信，其自身有问答界面。搭建接入微信，配置 FastGpt 将知识库问答系统接入微信，建议先用小号以防封禁风险。拓展功能：搭建完后想拓展 Cow 的功能，可参考 Yaki.eth 同学的教程，里面的 cow 插件能进行文件总结、MJ 绘画。 3. LLM 开源中文大语言模型及数据集集合中的外部挂件应用 wenda：地址：简介：一个 LLM 调用平台。为小模型外挂知识库查找和设计自动执行动作，实现不亚于大模型的生成能力。 JittorLLMs：地址：简介：计图大模型推理库：笔记本没有显卡也能跑大模型，具有成本低，支持广，可移植，速度快等优势。 WebCPM 地址：简介：一个支持可交互网页搜索的中文大模型。 GPT Academic：地址：简介：为 GPT/GLM 提供图形交互界面，特别优化论文阅读润色体验，支持并行问询多种 LLM 模型，兼容复旦 MOSS, llama, rwkv, 盘古等。 ChatALL：地址：简介：ChatALL（中文名：齐叨）可以把一条指令同时发给多个 AI，可以帮助用户发现最好的回答。

微信聊天记录整理助手

以下是关于微信群聊总结 AI 助手（JS and Electron ver）的详细介绍：脚本版本运行：会弹出二维码，使用微信扫码登录，登录成功后程序持续抓取群聊记录，保存在本地文件中，位置在 data/日期文件夹/群名.txt，不会上传到第三方。手动运行总结程序，在每天结束时对某个群的内容进行总结，命令为：npm run summarize./data/20230823/xxx.txt 总结语音生成的配置。项目介绍：这是基于微信机器人的微信群聊总结助手，能自动收集群聊记录并用 AI 总结发送到指定群聊。是较简单能实现完整功能的项目，用 JS 简单封装。每次执行 summarize 命令会生成三个总结文件。提示：使用本项目登录微信可能存在封号风险，请慎重使用并遵守相关平台规则。下载与支持：本项目由免费白嫖 GPT 的智囊 AI技术支持。自己跑不起来但需要群聊总结的同学，可加机器人微信号：aoao_eth，把机器人拉进群里。新版本：桌面应用：可使用桌面版，一键监控、总结、发送，也可用脚本版手动运行监控和总结。下载后直接打开配置 app key 即可运行监控和总结，一键总结，一键发送到群内。如需要 windows 版本，可自己构建或者直接代码运行，代码在 app 文件夹中，欢迎构建成功的同学提供 windows 安装包。截图展示的功能：每日群聊监控和数据统计（界面实时更新）一键总结，一键查看总结结果，一键发送到群聊聊天记录实时查看，直接发送内容到群聊随时更新的配置，可配置截取的文本长度和结尾词等机器人状态监控，账号切换正常运行界面，点击对话可看到实时对话和记录，同时可直接输入内容对话微信登录界面

微信聊天机器人

以下是关于搭建 AI 微信聊天机器人的相关内容： 1. 纯 GPT 大模型能力的微信聊天机器人搭建：开始搭建，配置腾讯云轻量应用服务器，配置部署 COW 组件。在复制的 dockercompose.yml 文件中修改具体配置来串联微信号和已创建好的 AI 机器人。配置参数参考官方来源：https://docs.linkai.tech/cow/quickstart/config 。编排模板中，名称的全大写描述需对应，如 open_ai_api_key 对应 OPEN_AI_API_KEY 。私聊或群聊时，最好加上前缀触发机器人回复，如配置的对应配置参数 SINGLE_CHAT_PREFIX，群聊中对应参数是 GROUP_CHAT_PREFIX，机器人只会回复群里包含@bot 的消息。GROUP_NAME_WHITE_LIST 用来配置哪些群组的消息需要自动回复。 2. 直接对接 Coze 平台 Bot 的微信聊天机器人搭建：微信有多种功能，个人微信/微信群目前 Coze AI 平台不支持直接对接，微信公众号、微信服务号、微信客服支持与 Coze AI 平台对接。 Coze 的国内版已正式发布 API 接口功能，可直接对接个人微信和微信群。 3. 熊猫大侠：基于 COW 框架的 ChatBot 实现步骤： COW 是基于大模型搭建的 Chat 机器人框架，将多模型塞进微信里的实现方案。有更适合小白的使用教程：【保姆级】一步一图，手把手教你把 AI 接入微信副本。实现内容包括打造属于自己的 ChatBot（文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等）、常用开源插件的安装应用。正式开始前需知道： ChatBot 相较于在各大模型网页端使用区别：本实现思路需接入大模型 API（API 单独付费）。风险与注意事项：微信端因非常规使用有封号危险，不建议主力微信号接入；只探讨操作步骤，请依法合规使用，大模型生成内容注意甄别，禁止用于非法目的，处理敏感或个人隐私数据注意脱敏。支持多平台接入：微信、企业微信、公众号、飞书、钉钉等。支持多模型选择：GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等。支持多消息类型：能处理文本、语音和图片，以及基于自有知识库进行定制的企业智能客服功能。支持多部署方法：本地运行、服务器运行、Docker 的方式。

用ai帮助聊天

以下是关于用 AI 帮助聊天的相关内容： Cursor 官方： Chat 聊天：允许您与看到您的代码库的 AI 交谈。聊天室始终可以看到您当前的文件和光标，您可以向它询问诸如“这里有 bug 吗”等问题。您可以使用⌘+Shift+L 或“@”将特定代码块添加到上下文中，也可以使用⌘+Enter 与整个代码库聊天。代码库答案：使用@Codebase 或⌘Enter 询问有关您的代码库的问题，Cursor 会搜索您的代码库以查找与您的查询相关的代码。引用您的代码：带有@符号的参考代码可用作 AI 的上下文，只需键入@即可查看文件夹中所有文件和代码符号的列表。使用图像：点击聊天下方的图片按钮，或将图片拖到输入框中，将视觉上下文包含在聊天中。学习笔记：Generative AI for Everyone 吴恩达：阅读方面：可以让 LLM 检查文本错误、总结长句。客服人员针对每一位用户传递大量信息时，可内置 LLM 快速总结信息提供给决策管理层，使用 LLM 进行语义分析，将邮箱、客户留言等外部信息传递给相关部门。构建处理信息的 LLM 模型时，要设置好提示词，持续优化。聊天方面：聊天机器人可用于做旅游计划、职业咨询、做饭建议等，不仅能生成文本，还能产生进一步行动，如处理文本后发送订单信息等。建立聊天机器人的流程为：开始于内部聊天机器人，确保良好表现并避免问题；设置人为参与链路；确保安全后，让机器人对接用户。大语言模型行与不行：能做类似于应届生能做的事；不可做的包括时间限制（如 GPT3 只有 2022 年 1 月前的数据）、会出现幻觉、接受有限的 prompt、输出有限制、不可以很好处理结构化数据、可能输出有害的信息。 @Chat：此功能目前仅适用于 Cmd K。您可以在 Cmd K 中使用@Chat 将当前聊天消息添加为上下文，当您与希望应用于编辑或生成代码的 AI 进行对话时很有用。

帮助聊天的ai

以下是关于帮助聊天的 AI 的相关信息： Cursor： Chat 聊天：允许您与看到您的代码库的 AI 交谈。聊天室始终可以看到您当前的文件和光标，您可以向它询问诸如“这里有 bug 吗”等问题。您可以使用⌘+Shift+L 或“@”将特定代码块添加到上下文中，使用⌘+Enter 与整个代码库聊天。 Codebase Answers 代码库答案：使用@Codebase 或⌘Enter 询问有关您的代码库的问题，Cursor 会搜索您的代码库以查找与您的查询相关的代码。 Reference your Code 引用您的代码：带有@符号的参考代码，用作 AI 的上下文。只需键入@即可查看文件夹中所有文件和代码符号的列表。 Use Images 使用图像：点击聊天下方的图片按钮，或将图片拖到输入框中，将视觉上下文包含在聊天中。 Claude： Claude AI 是一款由 Anthropic 公司开发的 AI 助手，是基于自然语言处理技术和人工智能算法的聊天机器人。它能使用自然语言理解技术理解人类语言，并使用自然语言生成技术进行回答和梳理，以开创性计算机科学家克劳德·香农（Claude Shannon）的名字命名，利用最先进的机器学习技术、自然语言处理和深度学习算法，为各种应用提供支持，包括但不限于数据分析、自动化和个性化辅助。注册步骤： 1. 访问 Claude 的官方网站。 2. 点击注册或登录界面中的“Sign Up”或“Continue with email”选项。 3. 填写邮箱地址并设置密码，然后提交表单。 4. 系统会向邮箱发送一封验证邮件，打开邮件并使用其中的验证码完成邮箱验证。若在注册过程中遇到需要海外手机号接收验证码的问题，可能的解决方案有： 1. 使用虚拟海外号服务，如 SMSActivate、SMSPool 等，购买一个海外虚拟手机号来接收 Claude 的验证码。 2. 借助第三方服务网站如 uiuihao.com 完成注册您的 Claude 账号。 3. 若有海外朋友，可请他们帮忙接收验证码，并将验证码告知您。完成注册后，若希望升级到 Claude Pro 版本以获取更强大功能和更高的 API 调用限额，需填写支付信息并选择合适的订阅计划。需注意，订阅 Claude Pro 可能需要使用海外支付方式。Claude.ai 目前处于公开测试阶段，未付费用户使用平台可能会受到一些限制。若在注册过程中遇到问题，可参考其他用户分享的详细注册教程和解决策略。

我想要通过建筑草图生成效果图，有什么工具和流程可以使用

以下是使用悠船工具将建筑草图生成效果图的流程和相关介绍： 1. 基础使用：提示词：在右侧填写提示词，右上可下载对应图片。参数调整：参数详解参考下方「参数详解」。注意任何点击都会重新生成图片，免费用户可能会提示超出套餐，所以别乱点。最右侧是所有生成图片的略缩图。 2. 图片调整：变化：分为细微和强烈，细微改变幅度小，强烈改变幅度大。高清：有“直接”和“创意”两种模式，“直接”表示啥都不变直接出高清，“创意”表示在图片基础上进行微小的优化调整。风格变化：基于生成的图片作为上传图片（垫图）再创作。拓展：可上下左右拓展图片。缩放：指的是镜头，比如 2x 就是镜头拉远 2 倍。局部重绘：选择区域要大一些，太小的无法进行修改。 3. 图像参考：在悠船中可以利用垫图和提示词配合生成符合要求的建筑、风景、文物等。只需将图片复制到悠船的提示词框里面，并填写对应的提示词描述。

将照片改成卡通效果用什么ai会比较简单易操作

以下几种 AI 工具可以将照片改成卡通效果，操作相对简单易操作： 1. ChatGPT 4o：支持上传照片后直接生成“吉卜力卡通风格”图像，提示词只需简单写“吉卜力风格化”即可，后续会话中只需上传图片，无需重复输入提示词。参考链接：

视频生成效果对比

以下是为您整理的关于视频生成的相关内容：百度“秒哒”：特点：无代码编程、多智能体协作、多工具调用，一句话生成应用、网站、小游戏。优势：更适合普通用户，直接输出结果，看不到写代码过程。智能体协作矩阵支持灵活组建虚拟开发团队，工具集成强大，完成即部署。试玩链接（临时有效）：相关链接：电商视频生成神器 Product Anyshoot：功能：商品图秒变视频展示，模特自动拿着、穿戴、摆放商品。特点：支持所有电商品类，5000+模板可自定义修改。优势：商品还原度高，视频真实流畅，对比效果优于 Pika 和阿里通义 Wanx。在线体验：相关链接： Meta 发布的 Meta Movie Gen 文生视频模型：组成：由视频生成和音频生成两个模型组成。 Movie Gen Video：30B 参数 Transformer 模型，可从单个文本提示生成 16 秒、16 帧每秒的高清视频，相当于 73K 个视频 tokens。能执行精确视频编辑，如添加、删除或替换元素，或背景替换、样式更改等全局修改。在个性化视频方面，在保持角色身份一致性和运动自然性方面取得 SOTA 性能。 Movie Gen Audio：13B 参数 Transformer 模型，可接受视频输入以及可选的文本提示，生成与视频同步的高保真音频。训练方式：通过预训练微调范式完成，在骨干网络架构上沿用了 Transformer，特别是 Llama3 的许多设计。预训练阶段在海量的视频文本和图像文本数据集上进行联合训练，学习对视觉世界的理解。微调阶段精心挑选一小部分高质量视频进行有监督微调，以进一步提升生成视频的运动流畅度和美学品质。为提高效果，引入流匹配（Flow Matching）作为训练目标，使得视频生成的效果在精度和细节表现上优于扩散模型。扩散模型通过从数据分布逐渐加入噪声，然后在推理时通过逆过程去除噪声来生成样本，用大量的迭代步数逐步逼近目标分布。流匹配则是通过直接学习样本从噪声向目标数据分布转化的速度，模型只需通过估计如何在每个时间步中演化样本，即可生成高质量的结果。

目前文字转视频，效果比较理想的工具有哪些？

目前文字转视频效果比较理想的工具包括： 1. Pika：是一款出色的文本生成视频 AI 工具，擅长动画制作，并支持视频编辑。 2. SVD：若熟悉 Stable Diffusion，可安装此最新插件，能在图片基础上直接生成视频，由 Stability AI 开源。 3. Runway：老牌 AI 视频生成工具，提供实时涂抹修改视频的功能，但需收费。 4. Kaiber：视频转视频 AI，能够将原视频转换成各种风格的视频。 5. Sora：由 OpenAI 开发，可以生成长达 1 分钟以上的视频。更多的文生视频的网站可以查看这里：此外，Sora v2 即将发布，支持 1 分钟视频生成，提供文本转视频、文本+参考图片转视频以及文本+视频转视频功能。Runway 还有 Act One 角色参考视频功能，能实现视频表演和声音的角色转移，支持通过拍摄视频驱动另一个视频，保持表情和口型同步。

当前效果比较好的对口型，换脸，配音AI应用

以下是一些效果较好的对口型、换脸、配音的 AI 应用： Runway：网址为 https://runwayml.com ，有网页和 app 方便使用。工具教程：即梦：网址为 https://dreamina.jianying.com/ ，是剪映旗下产品，生成 3 秒，动作幅度有很大升级，有最新 S 模型和 P 模型。工具教程： Minimax 海螺 AI：网址为 https://hailuoai.video/ ，非常听话，语义理解能力非常强。视频模型： Kling：网址为 kling.kuaishou.com ，支持运动笔刷，1.5 模型可以直出 1080P30 帧视频。视频模型： Vidu：网址为 https://www.vidu.studio/ haiper：网址为 https://app.haiper.ai/ Pika：网址为 https://pika.art/ ，可控性强，可以对嘴型，可配音。工具教程：智谱清影：网址为 https://chatglm.cn/video ，开源了，可以自己部署 cogvideo。工具教程： PixVerse：网址为 https://pixverse.ai/ ，人少不怎么排队，还有换脸功能。工具教程：通义万相：网址为 https://tongyi.aliyun.com/wanxiang/ ，大幅度运动很强。 luma：网址为 https://lumalabs.ai/ 即梦 AI 对口型的相关教程：功能介绍：「对口型」是即梦 AI「视频生成」中的二次编辑功能，现支持中文、英文配音。目前主要针对写实/偏真实风格化人物的口型及配音生成，为用户的创作提供更多视听信息传达的能力。可上传包含完整人物面容的图片，进行视频生成，待视频生成完成后，点击预览视频下的「对口型」按钮，输入台词并选择音色，或上传配音文件进行对口型效果生成。目前支持语言：中文（全部音色），英文（推荐「超拟真」内的音色）技巧：上传写实/近写实的人物单人图片，目前不支持多人物图片对口型；输入 prompt，选择参数，点击生成视频，尽量确保人物无形变等扭曲效果；确保人物生成的情绪与希望匹配的口型内容匹配；在生成的视频下方，点击【对口型】；输入或上传需要配音的内容，注意视频生成时长和配音试听时长尽量对齐，点击生成。先对口型，再超分补帧关于 AI 短片的相关信息： AI 图片与视频生成的新能力与应用：图片编辑功能：Midjourney 新增本地图片上传编辑入口，可进行局部重绘、扩图和风格转换等操作。视频生成模型：解梦新出 p 模型和 s 模型，p 模型支持人物多动作和变焦，易改变画风；s 模型生成速度快、积分消耗少，能保持原始画风但语义理解有限。特效玩法：皮卡和 Pixforce 有特效玩法，如人物爆炸、漂浮等，可用于优化视频效果。视频转会：Runway 的 GN3 模型支持上传视频并转换风格，可用于实现多元宇宙等风格穿梭的片子，也能将简单场景转换为难以拍摄的场景。视频生成中的角色生视频技术：角色生视频突破关键帧限制：当前视频生成多依赖关键帧，而角色生视频不再是关键帧输入，而是直接传入角色本身，可更灵活生成视频，如让小男孩从左跑到右。多角色参考生成创意视频：支持上传多张图，最多三张，可将人物、衣服、背景等元素融合生成视频，如小男孩穿裙子在宇宙飞。角色对口型技术：如吉梦的对口型技术，支持文本朗诵和本地配音，能根据输入生成人物开口讲话的视频，但有上传人物长相等限制。不同工具的角色生视频效果：对比了吉梦、Runway 等工具的角色生视频效果，如 Runway 的 x one 在身体、头部、眼神动态上表现更好。角色生视频的应用场景：可用于规避机器人念台词的尴尬瞬间，让机器人有更丰富的表情和神态。角色生视频的未来发展：未来视频生成将摆脱纯关键帧方式，采用多模态信息输入，如定义角色和场景的三视图等。

有哪些效果好的开源OCR模型值得推荐

以下是一些效果较好的开源 OCR 模型推荐： 1. Mistral OCR：当前最强的 OCR 模型，具有多语言支持，超越 Gemini 2.0 Flash，可在 Le Chat 及 API 调用。ElevenLabs 赠送 $25 Mistral API 额度，免费领取！领取地址： 2. Gemini 2.0 Flash：也是一款 OCR 模型。