这两个叫法其实对应的是同一篇文章。
想较于之前的做法,这篇文章的一个特点是在latent space里做diffusion。
需要说明的是,在latent space里做图像生成不是这篇文章的原创。
再多一些细节,stable diffusion可以认为是 latent diffusion在工程化上的拓展,使用了clip提取text embedding来做conditioning(LDM 原文里用的是bert),另外在更大的数据集上进行了训练。