以下是关于 siliconflow 部署 deepseek 的教程:
基于 FP4 优化的 DeepSeek-R1 使用 TensorRT-LLM 部署:
在 Docker+RAGFlow+Ollama 中配置本地部署的 DeepSeek 模型:
云端模型部署实操:
模型蒸馏概念、应用场景及本地部署实操:
目前,英伟达基于FP4优化的DeepSeek-R1检查点现已在Hugging Face上开源。模型地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4[heading3]后训练量化[content]模型将Transformer模块内的线性算子的权重和激活量化到了FP4,适用于TensorRT-LLM推理。这种优化将每个参数从8位减少到4位,从而让磁盘空间和GPU显存的需求减少了约1.6倍。[heading3]使用TensorRT-LLM部署[content]要使用TensorRT-LLM LLM API部署量化后的FP4权重文件,并为给定的提示生成文本响应,请参照以下示例代码:硬件要求:需要支持TensorRT-LLM的英伟达GPU(如B200),并且需要8个GPU来实现tensor_parallel_size=8的张量并行。性能优化:代码利用FP4量化、TensorRT引擎和并行计算,旨在实现高效、低成本的推理,适合生产环境或高吞吐量应用。对于此次优化的成果,网友表示惊叹。「FP4魔法让AI未来依然敏锐!」网友Isha评论道。网友algorusty则声称,有了这次的优化后,美国供应商能够以每百万token 0.25美元的价格提供R1。「还会有利润。」网友Phil则将这次的优化与DeepSeek本周的开源5连发结合了起来。「这展示了硬件和开源模型结合的可能性。」他表示。DeepSeek全面开源
我们返回RAGFlow中,打开右上角设置,进入模型提供商,显示如下界面接着我们就开始配置我们本地部署的DeepSeek模型选择Ollama,配置如下信息,模型是什么取决你运行的模型是什么基础URL如下配置设置完成之后,点击确定即可,然后显示如下界面那么再导入一个embedding模型,这个嵌入模型可以用于文本的向量化导入成功之后,界面如下接着我们设置系统模型设置设置好后,就可以返回知识库,进行创建知识库了进入数据集,导入文件即可,当然可以设置文件夹当作知识库,大家自行设置导入完毕之后,需要将文件进行解析之后,大模型才会懂得文件内容是什么。可以批量进行解析,文件解析速度按照你本机的GPU性能,即显卡的性能,越好的显卡,解析越快,越差则反之解析好之后,进入检索测试即可测试没有问题,那么对于文件来说,模型是可以进行检索的,下一步就可以进入聊天界面了助理设置可以自行进行设置
[43:45](https://waytoagi.feishu.cn/minutes/obcnyb5s158h8yi8alo4ibvl?t=2625000)云端模型部署实操与使用方法讲解本章节许键介绍为B端用户提供专有模型服务价格优势后,开始实操演示。指导大家登录Pad控制台,讲解model gallery工具及模型。演示部署Deepseek R1和千问7B模型,包括选框架、资源、出价等,还介绍查看部署状态、日志方法,最后说明用postman在线调试模型获取名称及后续使用方式。[01:00:51](https://waytoagi.feishu.cn/minutes/obcnyb5s158h8yi8alo4ibvl?t=3651000)大语言模型部署、作业要求及API调用讲解本章节许键介绍模型部署相关内容。部署时用V1 chat completion s接口,注意模型名称、大小写等。布置作业为成功部署大语言模型并调试,提交带钉钉昵称的截图。还讲解API调用方法、费用、停止服务方式等,提醒注意保密API key,若竞不到价可加价尝试进行本地蒸馏模型部署。[01:09:22](https://waytoagi.feishu.cn/minutes/obcnyb5s158h8yi8alo4ibvl?t=4162000)模型蒸馏概念、应用场景及本地部署实操讲解本章节许键先介绍云平台部署不慢,接着讲解模型蒸馏概念、方式,阐述其应用场景及修复模型幻觉的作用。随后进行实操演示,带领大家在model gallery部署7B instruct模型,展示部署步骤、资源竞价等内容,部署完成后用简单问题测试模型并呈现错误回答。