Chat with Wiki - stable video diffusion开发

Answer

以下是关于 Stable Video Diffusion 开发的相关信息：

SVD 介绍：

简介：Stable Video Diffusion 是 Stability AI 于 2023 年 11 月 21 日发布的视频生成式大模型，用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。它支持多种功能，用户可调整多种参数，但对硬件要求较高，支持的图片尺寸较小，应用场景受限。
模型版本：开源了两种图生视频的模型，一种能生成 14 帧的 SVD，另一种是可以生成 25 帧的 SVD-XL，发布时通过外部评估超越了人类偏好研究中领先的封闭模型。
主要贡献：提出系统的数据管理工作流程，将大量未经管理的视频集合转变为高质量数据集；训练出性能优于现有模型的文本到视频和图像到视频模型；通过特定领域实验探索模型中运动和 3D 理解的强先验，预训练的视频扩散模型可转变为强大的多视图生成器，有助于克服 3D 领域数据稀缺问题。

部署实战避坑指南：

直接使用百度网盘里准备好的资源，可规避 90%的坑。
若一直报显存溢出问题，可调低帧数或增加 novram 启动参数。
云部署实战中，基础依赖模型权重有两个 models–laion–CLIP-ViT-H-14-laion2B-s32B-b79K 和 ViT-L-14.pt，需放到指定路径下。

总结： Sora 发布后，此前的视频生成模型相形见绌，但 Stable Video Diffusion 作为开源项目可在自己机器上自由创作无需充值。SVD 生成的视频画质清晰，帧与帧过渡自然，能解决背景闪烁和人物一致性问题，虽目前最多生成 4 秒视频，与 Sora 的 60 秒差距大，但在不断迭代。我们会持续关注其技术及前沿视频生成技术，尝试不同部署微调方式，介绍更多技术模型，更多精彩内容后续放出。

同时，您还可以加入「AIGCmagic 社区」群聊交流讨论，涉及 AI 视频、AI 绘画、Sora 技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个方向，可私信或添加微信号：【m_aigc2022】，备注不同方向邀请入群。

Content generated by AI large model, please carefully verify (powered by aily)

References

Stable Video Diffusion模型核心内容与部署实战

1、直接使用百度网盘里面准备好的资源，可以规避掉90%的坑；2、如果一直报显存溢出问题，可以调低帧数或增加novram启动参数；3、针对云部署实战部分，基础依赖模型权重有两个models–laion–CLIP-ViT-H-14-laion2B-s32B-b79K和ViT-L-14.pt，需要放到指定路径下；4、加入「AIGCmagic社区」群聊，一起交流讨论，涉及AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向，可私信或添加微信号：【m_aigc2022】，备注不同方向邀请入群！！[heading1]——总结——[content]在Sora发布之后，似乎在这之前的所有视频生成模型都已黯淡无光，难以与之争锋！然而Stable Video Diffusion作为开源项目，我们可以在自己的机器上自由创作而无需充值，这也是其独特优势！从技术角度看，SVD生成的视频画质非常清晰，帧与帧之前的过渡也非常的自然，无论是背景闪烁的问题，还是人物一致性的保持都能够得到妥善解决！尽管目前只能生成最多4秒的视频，与Sora生成的60s视频差距很远，但是SVD还在不断迭代，相信其终将再次强大！！！同时，我们会持续关注SVD技术及前沿视频生成技术，尝试多种不同的部署微调方式，介绍更多视频生成的技术模型，更多精彩内容会在后续文章中放出，敬请期待！！！

Stable Video Diffusion模型核心内容与部署实战

Stable Video Diffusion是Stability AI于2023年11月21日发布的视频生成式大模型，一种用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。SVD模型不仅支持文本、图像生成视频，还支持多视角渲染和帧插入提升视频帧率。用户可以调整模型选择、视频尺寸、帧率及镜头移动距离等参数。SVD模型对硬件要求较高，对于缺乏硬件资源的普通用户有一定限制，同时其支持的图片尺寸较小，限制了它的应用场景。尽管SVD与其他商用产品在帧率、分辨率、内容控制、风格选择和视频生成时长等方面存在差距，但其开源属性和对大规模数据的有效利用构成了其独特优势。[heading2]模型版本[heading2][content]当时，Stable Video Diffusion开源了两种图生视频的模型，一种是能够生成14帧的SVD，另一种则是可以生成25帧的SVD-XL。在以基础形式发布时，通过外部评估，发现这些模型超越了人类偏好研究中领先的封闭模型。[heading2]主要贡献[heading2][content]提出一个系统的数据管理工作流程，将大量未经管理的视频集合转变为用于生成视频建模的高质量数据集。使用此工作流程，训练最先进的文本到视频和图像到视频模型，其性能优于所有现有模型。通过进行特定领域的实验来探索SVD模型中运动和3D理解的强先验。具体来说，预训练的视频扩散模型可以转变为强大的多视图生成器，这可能有助于克服3D领域中的数据稀缺问题。

2025 年 AI 指数报告，斯坦福.pdf

Sample from the Chatbot Vision ArenaSource:Chatbot Arena Leaderboard,2025Pixtral-Large-2411ClaudeSonnet(20241022)Sonnet(20240620)Gemini-1.5-Flash-002GPT-4o-2024-05-13Gemini-1.5-Pro-002ChatGPT-4o-latest(2024-11-20)Gemini-Exp-1206Gemini-2.0-Flash-ExpGemini-2.0-Flash-Thinking-Exp-1219Elo ratingFigure 2.3.8Table of ContentsChapter 2 Preview123Artificial Intelligence Index Report 20252.3 Image and Video Chapter 2:Technical PerformanceHighlight:The Rise of Video GenerationAs highlighted in last year’s AI Index,recent years have witnessed the rise of video generation models capable of creating videos from text prompts.While earlier models demonstrated some promise,they were plagued by significant limitations,such as producing low-quality videos,omitting sound,or generating only very short clips.However,2024 marked a significant leap forward in AI video generation,with several major industry players unveiling advanced video generation systems.In November 2023,Stability AI launched its Stable Video Diffusion model,their first foundation model capable of generating high-quality videos(Figure 2.3.9).The modelStill generations from Stable Video DiffusionSource:Stability AI,2025