A review of Denoising Diffusion Probabilistic Models
Introduction
现在 (2023年3月29日) 所谓的扩散模型大多数指的是2020年所发表的Denoising Diffusion Probabilistic Models,简称为DDPM。其实“扩散”的思想更早见于Diffusion Probabilistic Models(Sohl-Dickstein et al.),但是由于当时的算力以及模型计算Loss是基于图像而不是噪声,所以没有很好的效果。
在2020年以后,许多基于原始DDPM模型的工作开始大量出现,包括对模型的架构、采样过程、图像预处理的改进,当然扩散的思想也不再局限于计算机视觉(CV)领域,而是开始应用于多模态(Multimodal)、自然语言处理(NLP)、语音(Audio)等各种领域。而在2022年,OPENAI的DALL·E 2以及后来的NovalAI的成功,让扩散模型商用化(当然训练模型所用的资源也是我们无法想象的😱),也让“扩散模型”进入了大众的视野(比如我😁)。
作为一种生成式模型,DDPM的出现打破了GAN、VAE等在图像生成领域的“垄断”,它有着很强(?)的数学理论,解决了生成 ...
DDIB
Stanford University
图片均来自于原论文🫡
Motivation
现有对于Unpair的图像域之间的转换(即一类I2I任务)大多数需要在训练过程中同时加入两域的图像,比如UNIT-DDPM。这样做阻碍了数据分离和隐私保护(which hinders data separation and privacy protection),比如有些时候源域或者目标域的数据集无法获得,或者涉及个人隐私。
在训练时耦合两域意味着需要更大的显存和计算量,而且需要对给定域对的耦合损失进行优化。
Method
模型基于DDIM(看源码是guided-diffusion实现的DDIM),训练时分别在源域和目标域训练两个扩散模型。
在转换时,源域的扩散模型相当于一个编码器,将图片编码到隐空间;目标域的扩散模型相当于一个解码器,用来恢复图像。
具体算法流程:
至于ODESolve是啥,原文给了很多说明与证明,并且从数学上说明了方法的正确性。想看懂的话需要了解分数模型和概率流。这里就不去证明啦😺
从本质上讲,DDIM可以视为一个薛定谔桥,连接了源域与目标域,两个DD ...
UNIT-DDPM
Durham University
所有图片均来源于原论文
Motivation
Image to Image任务有时不能保证两个域之间的图片是成对的,比如图像风格转换,一张照片可能找不到与其对应的莫奈风格的画。
GAN的方式存在模式崩溃等训练不稳定的情况(已经是老生常谈的话题了🥱)。
因此提出一种类似于CycleGAN的基于扩散模型(DDPM)的方式。
Contribution
基于双域马尔可夫链的生成模型,介绍了一种马尔可夫过程的I2I转换方法,该方法近似源域和目标域的数据分布,使它们相互关联。
不需要对抗训练,模型能根据各种噪声水平的扰动生成捕捉高频变化的真实输出。
马尔科夫链蒙特卡罗采样(Markov Chain Monte Carlo Sampling)的新用途——所提出的采样算法可以根据未配对的源域图像来合成目标域图像。
Methods
原始的DDPM是无监督的,生成条件也只与上一步生成的结果有关,因此核心目标之一就是讲目标域的图像糅合到训练与采样的过程。
(需要DDPM相关的理论😁)
Model Structure
模型架构没有什么特别的修改,与基本 ...
SDEdit
Stanford University
Motivation
指导图像合成任务需要平衡图像真实性与服从图像与指导的符合程度。
目前带指导图像合成技术大多数基于GAN架构,这类方法通常需要额外的训练数据或者损失函数。
(文章确实比较简单,但是意义重大)
Methods
引入了SDEdit方法,Stochastic Differential Editing
给定一张原图的Stoke,对其添加噪声,直至模糊了细节信息,同时保留了结构与大体颜色信息
根据代码,模型训练时的逆向过程是1000步,那么添加噪声就用了0.5*1000=500步,相对的逆向过程变成了500步。
使用了预训练的模型,所以文章本身并没有训练网络,直接用的前人的工作😶🌫️😶🌫️
加噪的程度决定了真实程度与stoke符合的程度,作为一种权衡。
经过实验可知在[0.4,0.6]的比例时比较好的。
代码流程:
Experiment
文章测试了自己手绘的stoke和代码生成的stoke,结果发现都OK。
其他的结果见论文🫡
SinDiffusion
USTC MSRA
前置
单图像生成(Single Image Generate)
单图像生成目的是通过学习一幅图像的内部patch分布来生成多样化的结果,具体而言就是使用一张图片进行训练,然后可以生成与原图内容相似的不同图片,并且可以用于图像编辑(Image editing)、图像协调(Image harmonization)等。
扩散模型
扩散模型的灵感来源于非平衡热力学过程,分为前向过程与后向过程,前向过程通过给一幅图片不断增加噪声,然后后向过程训练模型去噪的能力。
通过上述过程,模型可以通过一幅全噪声的图片,生成完整的图像,因此其也是一种生成式的模型。
与GAN相比,基于Diffusion的模型训练过程比较稳定(不需要对抗过程),有比较完备的数学公式推导,其过程可以用数学公式表述。
前向过程:
xt=αˉtx0+1−αˉtϵ\mathbf{x}_{t} =\sqrt{\bar{\alpha}_{t}} \mathbf{x}_{0}+\sqrt{1-\bar{\alpha}_{t}} \epsilon
xt=αˉtx0+1−αˉtϵ
后 ...
GET3D
英伟达
Motivation
目前3D模型生成需求非常大(比如游戏建模,还有元宇宙)。最传统的方式是建模师去人工建模,但是这样的方式非常耗时耗力,人工在短时间内生成大量3D模型不太现实。依据当前的需求,3D模型生成的模型,希望能够满足如下条件:
能生成详细的集合细节与拓扑形状;
能够输出纹理网络(显式表达),以能够输入到现有软件中进行编辑和应用;
在训练时使用2D图像进行监督(因为比3D的图像能容易获得)。
目前的生成模型都不能同时满足以上的需求:
Contribution
提出了GET3D模型,该模型满足所有提出的条件:能够直接生成显式的3D纹理网络,并且能够控制纹理细节与拓扑结构;该模型结合了可微显式表面提取与可微渲染,前者能够直接优化和输出具有任意拓扑的3D纹理网格,后者能够用2D图像训练模型,能够使用现有2D图像合成任务中比较成熟的鉴别器。
可以拓展到其他任务:使用CLIP嵌入的文本指导形状生成;在无监督的条件下,学习使用先进的可微渲染技术生成分离出来的材料(decomposed material,材料纹理图片?)和依赖于视图的照明效果。
Method ...
GRAF
University of Tübingen
Motivation
传统的图像生成通常基于GAN网络,已经可以生成清晰足以以假乱真的图片,但是以这种方式学习得到的模型忽视了生成因素(与人类理解或绘制一张图的方式相比),比如光线与物体的关系等等(文章中表述为潜在因素)。
近期有工作提出了3D感知图像生成,在生成图像时考虑了相机的姿态,使用可微渲染技术显式映射到图像,从而提供对场景内容和视点的控制。但是真实的3D图像难以得到,因此一般采用2D的图像进行监督,获得2D图像的方式一般需要:离散化3D表示,比如中间特征(HoloGAN)或者完整的3D特征(PlatonicGAN)的体素网络。若采用完整的体素网络表示,体素的表示的三次内存增长将限制为低分辨率并导致可见伪影;相反虽然中间特征的体素网络更紧凑,但是这需要额外学习 3D 到 2D 的映射,以将抽象特征解码为 RGB 值,从而导致在高分辨率视图中表示的不一致性。
Contribution
本文证明了分辨率低(内存限制)、高分辨率的不一致性(中间表示的不足)可以用条件辐射场来解决。
具体的贡献:
提出了GRAF——基于未处理的 ...
NeRF Derivation
NeRF
NeRF对光线有着强定义,即将其作为纯几何光学来看待:
处于稳态;
不考虑光的粒子性;
表面可以吸收与发射,但是无散射;
发射光的表述与观察方向无关。
光线由射线r(t)=o+tdr(t) = \mathbf{o} + t\mathbf{d}r(t)=o+td表示,其中o\mathbf{o}o表示光线光源的位置,即光的出发点;d\mathbf{d}d表示光线的方向(角度),一般来说是单位向量。如此定义r(t)r(t)r(t)即可表示光线在t的度量下(如果表示时间,那就是t时刻)光的位置。
假设光在空间中直线传播,所到达的位置处粒子的密度可以考虑为撞击到粒子的概率,即在很微小的一段距离内撞击到粒子的概率为σ(x)\sigma(\mathbf{x})σ(x),也称其为密度场。x\mathbf{x}x是空间的坐标,在此可表示为光此时处于x\mathbf{x}x的位置,根据前面对光的描述可知,在给定(o,d)(\mathbf{o},\mathbf{d})(o,d)的前提下,光线rrr的位置与ttt有关,因此可以将密度场改写为标量形式σ(t)\sigma(t)σ(t ...
A review on RawNeRF
Google Research
是我组会PPT改来的,可能有一些简略,有任何疑问可以和我讨论🎶
Motivation
NeRF使用LDR图片作为输入,对于拍摄光照不足或者过亮的场景,如果继续使用LDR,那么效果会很差。
对于过亮的场景,LDR是被裁剪过的图像,将亮度范围限制在[0,1]中,因此恢复过程中会失去高光(被裁剪)。
对于过暗的场景,相机对原始图像的处理会破坏掉原有的噪声分布,虽然噪声下降了,但是却引入了明显的偏差。将这种图像进行重建时会产生明显的误差,使颜色变得错误。(噪声大)
使用Raw格式图像进行训练,不仅能对噪声有很好的鲁棒性,还能渲染成为HDR的图像,即可以引入HDR的各种合成技术(改变焦距、曝光时间等等)。
Contribution
提出一种新颖的训练方式,使用原始Raw格式图像进行训练,称之为RawNeRF。
RawNeRF在具有噪声的数据集上表现优于NeRF,可以作为一种多图形去噪器。
在这种训练方式重建的图像基础上,改变焦点、曝光等参数获得多样的图片。
Method
Raw camera measurements
生成图像时的噪声主 ...
ImagiT
简介
提出了一个新的模型ImagiT。它结合了机器翻译和图像生成,首先学习从源句子生成图像,然后利用源句子和生成的图像(其实是视觉表示)来生成目标翻译。这样一来,在推理的时候就不需要再输入对应的图片了。
模型介绍
ImagiT 利用了端到端机器翻译的编码器-解码器结构。在编码器和解码器之间,增加了一个imagination来生成语义等价的视觉表示。模型由以下模块组成:源文本编码器、生成想象网络、图像描述、多模态聚合和翻译解码器。
给定一个源语言句子,ImagiT 首先对其进行编码,并通过一个注意力生成器将文本表示转换为视觉特征,这可以有效地捕获全局和局部级别的语义,并且生成的视觉表示可以被认为是语义等价的重建句子。多模态聚合旨在聚合文本和视觉特征。最后,模型学习基于联合特征生成目标语言句子。
文本编码器
编码器就是基于的多层Transformer编码器
生成想象网络
该网络基于条件增强的常见做法(见原文),先对文本进行增强,然后通过Attngan的做法(见原文):F0、F1是两个视觉特征转换器,有相似的架构,包含一个全连接层和四个反卷积层,以获得图像大小的特征向 ...