Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

你知道vllm吗

Answer

vLLM 是由加州大学伯克利分校开发的。其核心技术是 PageAttention,吞吐量比 HuggingFace Transformers 高出 24 倍。相较于 FasterTrainsformer,vLLM 更加简单易用,不需要额外进行模型的转换,支持 fp16 推理。详细的推理文档见:inference-speed/GPU/vllm_example 。同时,随着大模型参数规模的不断增长,在有限的算力资源下,提升模型的推理速度逐渐变为一个重要的研究方向,常用的推理加速框架包含 lmdeploy、TensorRT-LLM、vLLM 和 JittorLLMs 等。

Content generated by AI large model, please carefully verify (powered by aily)

References

部署加速

[TensorRT-LLM](https://github.com/NVIDIA/TensorRT-LLM/tree/main)由NVIDIA开发,高性能推理框架详细的推理文档见:[inference-speed/GPU/TensorRT-LLM_example](https://github.com/LlamaFamily/Llama-Chinese/tree/main/inference-speed/GPU/TensorRT-LLM_example)[heading5]vLLM[content][vLLM](https://github.com/vllm-project/vllm)由加州大学伯克利分校开发,核心技术是PageAttention,吞吐量比HuggingFace Transformers高出24倍。相较与FasterTrainsformer,vLLM更加的简单易用,不需要额外进行模型的转换,支持fp16推理。详细的推理文档见:[inference-speed/GPU/vllm_example](https://github.com/LlamaFamily/Llama-Chinese/blob/main/inference-speed/GPU/vllm_example/README.md)

Sora:大型视觉模型的背景、技术、局限性和机遇综述 【官方论文】

视觉模型的规模化定律。有了LLMs的规模化定律,自然会问视觉模型的发展是否遵循类似的规模化定律。最近,Zhai等人[24]展示了,有足够训练数据的ViT模型的性能-计算前沿大致遵循(饱和)幂律。继他们之后,谷歌研究[25]提出了一种高效稳定训练22B参数ViT的方法。结果显示,使用冻结模型产生嵌入,然后在顶部训练薄层可以实现出色的性能。Sora作为一个大型视觉模型(LVM),符合这些规模化原则,揭示了文本到视频生成中的几种新兴能力。这一重大进展强调了LVMs实现类似LLMs所见进步的潜力。新兴能力。LLMs中的新兴能力是在某些规模上——通常与模型参数的大小有关——表现出的复杂行为或功能,这些行为或功能并未被开发者明确编程或预期。这些能力被称为“新兴”,因为它们源于模型在多样化数据集上的全面训练,以及其庞大的参数数量。这种组合使模型能够形成联系并做出超越简单模式识别或死记硬背的推断。通常,这些能力的出现不能通过从小规模模型的性能外推来直接预测。虽然许多LLMs,如ChatGPT和GPT-4,展示了新兴能力,但直到Sora的出现,展示类似能力的视觉模型还很少。根据Sora的技术报告,它是第一个展示确认新兴能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。除了其新兴能力,Sora还展示了其他显著能力,包括遵循指令、视觉提示工程和视频理解。Sora的这些功能方面代表了视觉领域的重大进步,并将在后续部分进行探讨和讨论。

质朴发言:视觉-语言理解模型的当前技术边界与未来应用想象|Z 研究第 2 期

当前视觉-语言模型(vision-language model,VLM)的商业化场景局限在视频的分析搜索。然而,其更广阔的应用前景在于将这些模型作为信息输入的媒介,进而驱动程序或模型完成其他操作。例如,CogAgent、AppAgent和AutoRT等系统将VLM作为核心组件,使机器得以理解和处理多模态信息。在视觉学习过程中,模型主要学习的是图像表征,而不是内在的逻辑联系,这与语言学习不同。而如果能将视觉模型与大型语言模型结合,利用后者来解读更复杂的概念,视觉模型将更接近于理解真实世界的通用人工智能。进一步而言,视觉语言模型的精进在现实世界,有助于机器更深层次地理解和交互物理世界,本质上是将复杂的视觉信息转化为更直观、易于理解的语言形式,从而深化对物理世界的认识。视觉作为人类获取信息的主要方式之一,通过视觉到语言的转换,机器能够更直观地理解物理世界,例如分析图像或视频内容,描述场景中的物体、动作和事件,这对理解物理世界的动态变化至关重要。语言作为人类交流的基本工具,当机器能够将视觉信息转化为语言,其交互能力将显著提升。这意味着机器可以更自然地与人类沟通,提供有关视觉环境的信息,实现更有效的人机交互,从而为我们畅想具身智能提供可能性。

Others are asking
类似于ollama和vllm这样的LLM 框架有哪些
以下是类似于 ollama 和 vllm 的 LLM 框架: 1. Encoderonly 框架(也叫 AutoEncoder),典型代表如 BERT 等。 2. Encoderdecoder 框架,典型代表如 T5 和 GLM 等。 3. Decoderonly 框架(也叫 AutoRegressive),典型代表如 GPT 系列、LLaMa、PaLM 等。 此外,还有一些在 LLM 应用中发挥重要作用的框架,如: 1. LangChain:是当前大模型应用开发的主流框架之一,提供了一系列工具和接口,其核心在于“链”概念,包括 Model I/O、Retrieval、Chains、Agents、Memory 和 Callbacks 等组件,生态系统还包括 LangSmith、LangGraph 和 LangServe 等工具。 2. LlamaIndex:在促进 LLM 和整合上下文数据方面表现出色,抽象出许多提示链的细节,与外部 API 的接口,从向量数据库检索上下文数据,并在多个 LLM 调用中维持内存。
2025-02-17
你知道Pyhton量化交易吗
Python 量化交易方面,以 Claude 3.7 为例,它在面对生成能在聚宽跑的量化交易模型这一自由命题时,给出了两个方案。一个是最简单的双均线策略,类似于红圈(均线金叉)买入,绿圈(均线死叉)卖出,同时辅以其他技术指标和指数强弱做筛选,这是量化入门策略。另一个是量价动量策略,其中包含了量化交易机构常参考的几个因子。在经历三轮报错和反馈后,Claude 很快成功跑出了一份完整的代码,其模型思路有明确的选股池和择时信号。
2025-04-14
你知道Pyhton量化交易吗
Python 量化交易方面,以 Claude 3.7 为例,它在面对生成能在聚宽跑的量化交易模型这一自由命题时,给出了两个方案。一个是最简单的双均线策略,类似于红圈(均线金叉)买入,绿圈(均线死叉)卖出,同时辅以其他技术指标和指数强弱做筛选,这是量化入门策略,相当于鸡兔同笼的经典问题。另一个是量价动量策略,其中的几个因子是量化交易机构常参考的。在经历三轮报错和反馈后,Claude 很快成功跑出了一份完整的代码,该代码有明确的选股池和择时信号。编程第一法则是当代码以奇怪方式跑起来,就不要动它。
2025-04-14
我想要自学AI相关的知识,但不知道从哪里开始,需要一个行动方案,我未来想做一个ai产品经理
以下是为您提供的自学 AI 知识并成为 AI 产品经理的行动方案: 1. 应用方面: 深入了解 Prompt,选择适合自己的 AI 对话、绘画和语音产品,每天使用并用于解决实际问题或提升效率。 2. 分析方面: 大量阅读各类文章、视频以及行业报告,理解各知识之间的关系。 3. 掌握相关技能: 了解目前 AI 提示词工程师岗位的招聘技能要求,例如: 本科及以上学历,计算机科学、人工智能、机器学习相关专业背景。 熟悉 ChatGPT、Llama、Claude 等 AI 工具的使用及原理,并具有实际应用经验。 熟练掌握 ChatGPT、Midjourney 等 AI 工具的使用及原理。 负责制定和执行 AI 项目,如 Prompt 设计平台化方法和模板化方法。 了解并熟悉 Prompt Engineering,包括常见的 Prompt 优化策略(例如 CoT、Fewshot 等)。 对数据驱动的决策有深入的理解,能够基于数据分析做出决策。 具有创新思维,能够基于业务需求提出并实践 AI first 的解决方案。 对 AI 技术与算法领域抱有强烈的好奇心,并能付诸实践。 对 AIGC 领域有深入的理解与实际工作经验,保持对 AI 技术前沿的关注。 具备一定的编程和算法研究能力,能应用新的 AI 技术和算法于对话模型生成。 具有一定的编程基础,熟练使用 Python、Git 等工具。 4. 了解产品经理工作: 调研市场、思考需求、转化需求、思考解决方案、设计解决方案、分配任务、进行测试、实现解决方案。 像善用提示词工程的人一样,将需求抽象再具象成产品。 总之,要成为 AI 产品经理,需要不断学习和实践,适应行业的发展和变化。
2025-04-12
你知道哪些ai游戏
以下是为您介绍的一些 AI 游戏: 1. 《Suck Up!》:这是一款由 Proxima 工作室开发的“喜剧欺骗游戏”。玩家在游戏中扮演吸血鬼,通过换装、与 LLM 驱动的 NPC 对话来使其放下警惕,最终成功吸血足够多的居民获得胜利。上线仅三周,在全网播放火速突破千万,在 youtube 上引起大量关注,评论区网友赞不绝口,主创对其未来很有信心。 2. 《PUBG:BATTLEGROUNDS》:其中的 AI 队友可帮助玩家寻找战利品、驾驶载具,并协作完成目标。能模拟真人队友行为,实时分析战场情况,互动分享战利品并提供战略建议,提升了游戏中的战术协作性和乐趣。 3. 采用 NVIDIA ACE 全新 AI 游戏角色引擎的游戏:让 NPC 拥有感知、思考、决策和行动能力,可与玩家互动、适应环境变化,并根据玩家行为进行调整,成为“活角色”。
2025-04-08
你有知道那些做AI比较厉害的培训课程
以下是一些比较厉害的 AI 培训课程: B 站 up 主的课程:每节 15 分钟,免费且内容好,涵盖 AI 艺术字等。 由白马老师和麦菊老师带领的 AI 星图及相关创作课程,包括毛毡字、光影字、机甲字等。 16 号晚上中老师会带领的炼丹操作课程,炼丹需提前准备一些图,老师会提前发布内容让大家准备。 关于 AI 文旅视频的课程,几位老师带来了干货课程,工作流开源,学习后可制作类似视频。 高效 PB 及相关案例课程,有厉害的伙伴,案例在社区,有多种 battle 方式,会有菩萨老师专门介绍。 11 月 2 号左右将开展博物馆奇妙日主题活动的新的 AI 视频主题课程。 AI 音乐相关课程,有 AI 音乐的流派和 prompt 电子书,格林同学做了翻译。 以下是一些其他的课程资源: 一位投资人推荐的课程: MIT Deep Learning: Stanford CS 324Advances in Foundational Models: The Full Stack LLM Bootcamp: 野菩萨的课程: 预习周课程:包括 AI 绘画电脑配置要求、高效 AIGC 创意者的数字人工具包、SD 插件安装方法、画静为动的 AIGC 视频制作讲解等。 基础操作课:涵盖 AI 绘画通识课、AI 摄影虚拟的真实、AI 电影 穿越的大门等内容。 核心范式课程:涉及词汇的纸牌屋、核心范式应用、控制随机性等方面。 SD WebUi 体系课程:包括 SD 基础部署、SD 文生图、图生图、局部重绘等。 ChatGPT 体系课程:有 ChatGPT 基础、核心 文风、格式、思维模型等内容。 ComfyUI 与 AI 动画课程:包含部署和基本概念、基础工作流搭建、动画工作流搭建等。 应对 SORA 的视听语言课程:涉及通识 欢迎参加电影的葬礼、影像赏析、基础戏剧影视文学等。 如果想要免费获得野菩萨的课程,可以来参与 video battle,每期的 video battle 的评委野菩萨老师都非常严格,需要寓意深度审美并存。冠军奖励 4980 课程一份,亚军奖励 3980 课程一份,季军奖励 1980 课程一份,入围奖励 598 野神殿门票一张。 您可以扫码添加菩萨老师助理,了解更多课程信息。
2025-04-01
绘画小白,怎么知道即梦绘画的提示词怎么写
对于绘画小白来说,以下是一些关于即梦绘画提示词编写的方法和要点: 1. 用自然语言详细描述画面内容,避免使用废话词。比如,如果要画一个人物,要描述其服饰、发型、妆容、配饰、表情、背景等元素。 2. 强调人机交互,对输出图片根据想象进行二次和多次微调,确定情绪、风格等锚点再发散联想。 3. 考虑趣味性与美感,趣味性可以通过反差、反逻辑、超现实方式带来视觉冲击,美感需在美术基础不出错前提下形式与内容结合。 4. 对于特定的主题,如魔法少女,发散联想其服饰、场景、相关元素等,并可采用反逻辑反差方式。 5. 了解光源知识也很重要,光源包含自然光(如太阳光、月光)、人造光(如手电筒、路灯、闪光灯等,掌控性和对比度强)、环境光(来自周围自然环境,是折射光线,在表现主体与环境关系时重要)。不同的光,如暖光与冷光会带来不同情绪,光的方向对画面叙事很重要,不同方向光线能体现氛围、表达情绪。光的质量(硬光、强光、柔光)也会对塑造角色形象产生作用,掌握这些知识对写提示词很重要。 6. 可以参考一些实际的示例,比如皮克斯风格的三宫格漫画:一只小狗,坐在办公桌前,文字“KPI达标了吗?”。一只小狗,拿着一个写满计划的大本子,微微皱着眉头,文字“OKR写好了吗?”。一只小狗坐在电脑前,文字“PPT做好了吗?”。 您可以按照以上方法和要点,结合自己的创意和需求,尝试编写即梦绘画的提示词。
2025-03-23