以下是一些与 diffusion 技术相关的重要论文:
|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||DiffusionLight:Google发明了一种估算照片中光照条件的新方法|视频商品植入更加便捷。|视频,图片|该技术可以在照片中加入一个看起来像是真实反射环境的铬球。这个铬球可以帮助计算出照片中的光照是怎样的。<br><br>然后,他们使用这些光照信息在照片中添加新的物体,使得这些物体看起来好像是在原来的光照条件下拍摄的一样。<br><br>简单地说就是:检测图片中的光源(光照信息),然后根据光源,把其他物体对象插入到图片中,能达到相同的光影效果,毫无违和感。|这项技术的一个关键创新是它不需要昂贵或复杂的设备来捕获光照条件。它只需要一张图片和强大的算法。这意味着它可以用于从专业电影制作到手机摄影的各种应用,为艺术家和开发者创造新的可能性。<br><br>该技术可以用于多种输入图像,如室内外场景、特写镜头、绘画和人脸照片。|工作原理如下:<br><br>1、输入图片:你提供一张照片,比如一个室内场景。<br><br>2、添加铬球:使用DiffusionLight技术,在照片中的合适位置绘制一个铬球。这个
SD 1.4官方项目:[CompVis/stable-diffusion](https://link.zhihu.com/?target=https%3A//github.com/CompVis/stable-diffusion)SD 1.5官方项目:[runwayml/stable-diffusion](https://link.zhihu.com/?target=https%3A//github.com/runwayml/stable-diffusion)SD 2.x官方项目:[Stability-AI/stablediffusion](https://link.zhihu.com/?target=https%3A//github.com/Stability-AI/stablediffusion)diffusers库中的SD代码pipelines:[diffusers/pipelines/stable_diffusion](https://link.zhihu.com/?target=https%3A//github.com/huggingface/diffusers/tree/main/src/diffusers/pipelines/stable_diffusion)SD核心论文:[High-Resolution Image Synthesis with Latent Diffusion Models](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2112.10752)SD Turbo技术报告:[adversarial_diffusion_distillation](https://link.zhihu.com/?target=https%3A//static1.squarespace.com/static/6213c340453c3f502425776e/t/65663480a92fba51d0e1023f/1701197769659/adversarial_diffusion_distillation.pdf)
GAN(2014):这个是现代图像生成技术的开端,2014年的时候深度学习已经火了起来,但是当时主要的能力是识别图像,GAN的作者Ian Goodfellow(Bengio的学生,在Google,Apple都工作过)打破了这个限制,通过GAN就可以让算法具有想像力,完成文生图的任务。扩散模型(Diffusion Model,2020):GAN带来了对图像生成的很多兴趣,但有两大缺点,计算量大和难以控制,所以随后出现了很多其它图像生成算法,当前胜出的就是扩散模型。奠基的文章是Berkeley()的Ho,Jain,Abbeel的Denoising Diffusion Probabilistic Models(2020)。[扩散模型的双向统计图模型.png](https://v88cxopssb.feishu.cn/file/KpSbbzCBmoRxytxVLvIcMquenCf)Diffusion是一个经典的把统计理论应用到AI中的算法,正向的扩散过程将图片逐步变成随机噪声,而逆向的扩散过程就从随机噪声生成图片,我借机回顾了一下在Berkeley Evans Hall上的随机过程课,所谓“扩散过程”,就是“连续马尔可夫过程”,和一滴墨水放到水里这样的布朗运动()有类似性。而通过加入足够强的限制(每次扩散必须是小幅高斯噪声),就使得这个随机过程具有良好的数学性质和刻画能力,通过深度学习SGD训练,就能得到生成图像的逆向模型了。潜扩散模型(Latent Diffusion Model,2021):扩散模型可以生成高质量的图像,这是相比GAN的优点,但是因为图像数据维度很高(每一个像素点就是3个颜色维度),所以训练和推理起来都还比较困难。因此扩散模型提出后第二年(2021年),就有降低复杂度的成果出现,Rombach等人的High-Resolution Image Synthesis with Latent Diffusion Models是最重要的文章。