发展史
第一阶段:GAN 与 VAE 的基础奠定 (2014 - 2017)
2014 年:创世之年
- [GAN] 基础 GAN (Ian Goodfellow 等)
- 技术点: 首次提出 Generator(生成器)和 Discriminator(判别器)的极大极小博弈理论(Minimax Game)。解决了让神经网络“无中生有”生成数据的数学框架。
- [VAE] 基础 VAE (Kingma & Welling)
- 技术点: 引入变分推断(Variational Inference)和重参数化技巧(Reparameterization Trick),将输入图像映射到一个连续的概率分布(隐空间)中,再解码成新图像。
2015 年:CNN 的引入
- [GAN] DCGAN (Alec Radford 等)
- 技术点: 首次将卷积神经网络(CNN)与 GAN 结合。去除了池化层,使用步长卷积(Strided Convolutions)和批量归一化(Batch Norm),大幅稳定了 GAN 的训练过程,成为后续几年 GAN 的标准范式。
2016 年:自回归与图像翻译
- [Autoregressive] PixelRNN / PixelCNN (DeepMind)
- 技术点: 将图像视为一维序列,利用 RNN 或掩码卷积(Masked Convolution)逐个像素预测颜色。数学上完美,但计算极慢。
- [GAN] Pix2Pix (Berkeley)
- 技术点: 基于条件 GAN(cGAN),首次实现了“配对”的图像到图像翻译(如:线稿变实景图)。
- [GAN] InfoGAN
- 技术点: 引入互信息(Mutual Information),实现了对生成图像特征(如角度、光照、粗细)的无监督解耦控制。
2017 年:解决模式崩溃与高分辨率起步
- [GAN] WGAN / WGAN-GP (Martin Arjovsky 等)
- 技术点: GAN 历史上的神作。引入 Wasserstein 距离(推土机距离)代替 JS 散度,加上梯度惩罚(Gradient Penalty),从根本上用严格的数学证明解决了 GAN 训练不稳定和模式崩溃(Mode Collapse)的问题。
- [GAN] ProGAN (Nvidia)
- 技术点: 提出**渐进式增长(Progressive Growing)**训练策略。先训练 $4\times4$ 的低分辨率网络,稳定后再逐渐加入新层直到 $1024\times1024$。首次生成了高清的伪造人脸。
- [GAN] CycleGAN (Berkeley)
- 技术点: 提出循环一致性损失(Cycle Consistency Loss),实现了无配对的图像翻译(比如把视频里的马全部变成斑马,而不需要一模一样姿势的训练集)。
- [VAE] VQ-VAE (DeepMind)
- 技术点: 提出了离散的向量量化编码本(Codebook)。彻底解决了传统 VAE 生成图像模糊的问题,为后来所有的离散隐空间模型(包括 DALL-E)打下地基。
第二阶段:架构融合与扩散模型的数学成型 (2018 - 2020)
2018 年:风格化控制的极致
- [GAN] StyleGAN (Nvidia)
- 技术点: 放弃了传统的随机噪声输入,将隐向量 $z$ 映射到中间隐空间 $W$,并引入 AdaIN(自适应实例归一化)操作。实现了对生成图像“粗略(姿态)”到“精细(肤色)”各个层级的显式风格解耦控制。
2019 年:细节修补与量化提升
- [GAN] StyleGAN2 (Nvidia)
- 技术点: 针对第一代产生的水珠状伪影(Artifacts),用权重解调(Weight Demodulation)替换了 AdaIN,并引入了路径长度正则化,成为人脸生成领域的统治级模型。
- [VAE] VQ-VAE-2 (DeepMind)
- 技术点: 使用多尺度分层自回归模型处理 VQ-VAE 的隐变量,生成的图像质量首次可以匹敌 BigGAN。
2020 年:扩散时代的惊雷
- [Diffusion] DDPM (Ho 等人,UC Berkeley)
- 技术点: Denoising Diffusion Probabilistic Models。虽然扩散概念 2015 年就提出了,但 DDPM 建立了一套优美且可计算的变分下界目标函数,将复杂的去噪过程简化为预测噪声。这是现代所有扩散模型(Midjourney, SD)的直系数学鼻祖。
- [Transformer] ViT (Google)
- 技术点: 首次证明 Transformer 架构可以直接用于图像(将图像切分为 $16\times16$ 的 Patches)。为后续模型抛弃 U-Net 转向 DiT 架构埋下伏笔。
第三阶段:跨模态大一统与 AIGC 爆发 (2021 - 2022)
2021 年:文本真正“理解”了图像
- [跨模态基础] CLIP (OpenAI)
- 技术点: 对比语言-图像预训练。使用 4 亿对图文数据,将文本和图像映射到同一个高维向量空间。它是后来所有“文生图”模型的“眼睛”和评判标准。
- [Autoregressive] DALL-E (OpenAI)
- 技术点: 结合 VQ-VAE(把图像变成离散 Token)和 GPT-3 架构(把文本和图像 Token 拼接起来自回归生成)。首次实现了真正的复杂语义理解和文生图。
- [Autoregressive] VQGAN (Taming Transformers)
- 技术点: 结合了 VQ-VAE 的编码本、GAN 的对抗损失和 Transformer。生成的图像极具艺术感,是早期 AI 艺术家的最爱。
2022 年:扩散模型统治世界 (AIGC 元年)
- [Diffusion] Classifier-Free Guidance (CFG)
- 技术点: 无分类器引导。允许模型在有条件(文本)和无条件之间插值,极大地提升了扩散模型对文本提示词的服从度,这是文生图能落地的关键数学技巧。
- [Diffusion] DALL-E 2 (OpenAI)
- 技术点: 提出 Diffusion Prior 概念,直接利用 CLIP 生成的图像嵌入(Image Embedding)作为扩散模型的输入,实现了惊人的语义组合能力。
- [Diffusion] Stable Diffusion (CompVis/Stability AI)
- 技术点: 提出 Latent Diffusion Models (LDM)。将像素空间的去噪转移到了 VAE 压缩后的隐空间 (Latent Space),计算量降低了数十倍,让 AI 绘图可以在 8GB 显存的消费级显卡上运行。开源彻底改变了行业规则。
第四阶段:精准控制、效率革命与架构重构 (2023 - 2024)
2023 年:生产力工具的成型
- [Diffusion 控制] ControlNet (张吕敏)
- 技术点: 冻结原始 SD 模型权重,通过零卷积(Zero Convolutions)引入外部条件(如边缘检测 Canny、深度图 Depth、人体姿态 OpenPose)。实现了从“开盲盒”到“工业级精确控制”的跨越。
- [微调技术] LoRA (Low-Rank Adaptation 应用于图像)
- 技术点: 原本用于语言模型的低秩微调技术被引入图像领域。只需注入极少量的权重参数(几 MB 到百 MB),就能让大模型学会特定的画风或人脸。
- [Diffusion 演进] SDXL (Stability AI)
- 技术点: 采用双文本编码器(OpenCLIP + CLIP ViT-L),大幅扩充 U-Net 参数(2.6B),原生支持 $1024\times1024$ 分辨率,并引入了 Base + Refiner(基础生成+细节优化)的双模型架构。
- [效率革命] LCM (Latent Consistency Models) / LCM-LoRA
- 技术点: 基于一致性模型理论,将原本需要 20-50 步的扩散过程压缩到 2-4 步,实现了实时的 AI 图像生成。
- [系统工程] DALL-E 3 (OpenAI)
- 技术点: 使用了极其详细的 Image Captioning(图像标注)技术重新训练模型,将其与 ChatGPT 深度绑定。彻底解决了模型听不懂长难句、画不好英文单词拼写的问题。
2024 年:超越 U-Net 与扩散模型 (DiT 与流匹配)
- [DiT 架构] Sora (OpenAI)
- 技术点: 抛弃了经典的 U-Net 卷积架构,提出 Diffusion Transformer (DiT)。将视频降维为时空斑块(Spacetime Patches),证明了 Transformer 在视觉生成上的 Scaling Law(规模法则)。
- [Flow Matching / DiT] Stable Diffusion 3 (SD3)
- 技术点: 引入 MM-DiT (多模态扩散 Transformer),为文本和图像提供独立的权重组。底层数学上从传统的扩散变分下界,转向了流匹配 (Flow Matching/Rectified Flow),让去噪轨迹从弯曲变得更加平直(直线),减少了计算误差。
- [Flow Matching] Flux.1 (Black Forest Labs)
- 技术点: 当前开源界的最强王者。高达 12B 的参数量,结合流匹配和旋转位置编码 (RoPE),彻底解决了手部生成变形、文字拼写和复杂语义组合的问题,逼真度超越所有闭源模型。