发展史

第一阶段：GAN 与 VAE 的基础奠定 (2014 - 2017)

2014 年：创世之年

[GAN] 基础 GAN (Ian Goodfellow 等)
- 技术点： 首次提出 Generator（生成器）和 Discriminator（判别器）的极大极小博弈理论（Minimax Game）。解决了让神经网络“无中生有”生成数据的数学框架。
[VAE] 基础 VAE (Kingma & Welling)
- 技术点： 引入变分推断（Variational Inference）和重参数化技巧（Reparameterization Trick），将输入图像映射到一个连续的概率分布（隐空间）中，再解码成新图像。

2015 年：CNN 的引入

[GAN] DCGAN (Alec Radford 等)
- 技术点： 首次将卷积神经网络（CNN）与 GAN 结合。去除了池化层，使用步长卷积（Strided Convolutions）和批量归一化（Batch Norm），大幅稳定了 GAN 的训练过程，成为后续几年 GAN 的标准范式。

2016 年：自回归与图像翻译

[Autoregressive] PixelRNN / PixelCNN (DeepMind)
- 技术点： 将图像视为一维序列，利用 RNN 或掩码卷积（Masked Convolution）逐个像素预测颜色。数学上完美，但计算极慢。
[GAN] Pix2Pix (Berkeley)
- 技术点： 基于条件 GAN（cGAN），首次实现了“配对”的图像到图像翻译（如：线稿变实景图）。
[GAN] InfoGAN
- 技术点： 引入互信息（Mutual Information），实现了对生成图像特征（如角度、光照、粗细）的无监督解耦控制。

2017 年：解决模式崩溃与高分辨率起步

[GAN] WGAN / WGAN-GP (Martin Arjovsky 等)
- 技术点： GAN 历史上的神作。引入 Wasserstein 距离（推土机距离）代替 JS 散度，加上梯度惩罚（Gradient Penalty），从根本上用严格的数学证明解决了 GAN 训练不稳定和模式崩溃（Mode Collapse）的问题。
[GAN] ProGAN (Nvidia)
- 技术点： 提出**渐进式增长（Progressive Growing）**训练策略。先训练 $4\times4$ 的低分辨率网络，稳定后再逐渐加入新层直到 $1024\times1024$。首次生成了高清的伪造人脸。
[GAN] CycleGAN (Berkeley)
- 技术点： 提出循环一致性损失（Cycle Consistency Loss），实现了无配对的图像翻译（比如把视频里的马全部变成斑马，而不需要一模一样姿势的训练集）。
[VAE] VQ-VAE (DeepMind)
- 技术点： 提出了离散的向量量化编码本（Codebook）。彻底解决了传统 VAE 生成图像模糊的问题，为后来所有的离散隐空间模型（包括 DALL-E）打下地基。

第二阶段：架构融合与扩散模型的数学成型 (2018 - 2020)

2018 年：风格化控制的极致

[GAN] StyleGAN (Nvidia)
- 技术点： 放弃了传统的随机噪声输入，将隐向量 $z$ 映射到中间隐空间 $W$，并引入 AdaIN（自适应实例归一化）操作。实现了对生成图像“粗略（姿态）”到“精细（肤色）”各个层级的显式风格解耦控制。

2019 年：细节修补与量化提升

[GAN] StyleGAN2 (Nvidia)
- 技术点： 针对第一代产生的水珠状伪影（Artifacts），用权重解调（Weight Demodulation）替换了 AdaIN，并引入了路径长度正则化，成为人脸生成领域的统治级模型。
[VAE] VQ-VAE-2 (DeepMind)
- 技术点： 使用多尺度分层自回归模型处理 VQ-VAE 的隐变量，生成的图像质量首次可以匹敌 BigGAN。

2020 年：扩散时代的惊雷

[Diffusion] DDPM (Ho 等人，UC Berkeley)
- 技术点： Denoising Diffusion Probabilistic Models。虽然扩散概念 2015 年就提出了，但 DDPM 建立了一套优美且可计算的变分下界目标函数，将复杂的去噪过程简化为预测噪声。这是现代所有扩散模型（Midjourney, SD）的直系数学鼻祖。
[Transformer] ViT (Google)
- 技术点： 首次证明 Transformer 架构可以直接用于图像（将图像切分为 $16\times16$ 的 Patches）。为后续模型抛弃 U-Net 转向 DiT 架构埋下伏笔。

第三阶段：跨模态大一统与 AIGC 爆发 (2021 - 2022)

2021 年：文本真正“理解”了图像

[跨模态基础] CLIP (OpenAI)
- 技术点： 对比语言-图像预训练。使用 4 亿对图文数据，将文本和图像映射到同一个高维向量空间。它是后来所有“文生图”模型的“眼睛”和评判标准。
[Autoregressive] DALL-E (OpenAI)
- 技术点： 结合 VQ-VAE（把图像变成离散 Token）和 GPT-3 架构（把文本和图像 Token 拼接起来自回归生成）。首次实现了真正的复杂语义理解和文生图。
[Autoregressive] VQGAN (Taming Transformers)
- 技术点： 结合了 VQ-VAE 的编码本、GAN 的对抗损失和 Transformer。生成的图像极具艺术感，是早期 AI 艺术家的最爱。

2022 年：扩散模型统治世界 (AIGC 元年)

[Diffusion] Classifier-Free Guidance (CFG)
- 技术点： 无分类器引导。允许模型在有条件（文本）和无条件之间插值，极大地提升了扩散模型对文本提示词的服从度，这是文生图能落地的关键数学技巧。
[Diffusion] DALL-E 2 (OpenAI)
- 技术点： 提出 Diffusion Prior 概念，直接利用 CLIP 生成的图像嵌入（Image Embedding）作为扩散模型的输入，实现了惊人的语义组合能力。
[Diffusion] Stable Diffusion (CompVis/Stability AI)
- 技术点： 提出 Latent Diffusion Models (LDM)。将像素空间的去噪转移到了 VAE 压缩后的隐空间 (Latent Space)，计算量降低了数十倍，让 AI 绘图可以在 8GB 显存的消费级显卡上运行。开源彻底改变了行业规则。

第四阶段：精准控制、效率革命与架构重构 (2023 - 2024)

2023 年：生产力工具的成型

[Diffusion 控制] ControlNet (张吕敏)
- 技术点： 冻结原始 SD 模型权重，通过零卷积（Zero Convolutions）引入外部条件（如边缘检测 Canny、深度图 Depth、人体姿态 OpenPose）。实现了从“开盲盒”到“工业级精确控制”的跨越。
[微调技术] LoRA (Low-Rank Adaptation 应用于图像)
- 技术点： 原本用于语言模型的低秩微调技术被引入图像领域。只需注入极少量的权重参数（几 MB 到百 MB），就能让大模型学会特定的画风或人脸。
[Diffusion 演进] SDXL (Stability AI)
- 技术点： 采用双文本编码器（OpenCLIP + CLIP ViT-L），大幅扩充 U-Net 参数（2.6B），原生支持 $1024\times1024$ 分辨率，并引入了 Base + Refiner（基础生成+细节优化）的双模型架构。
[效率革命] LCM (Latent Consistency Models) / LCM-LoRA
- 技术点： 基于一致性模型理论，将原本需要 20-50 步的扩散过程压缩到 2-4 步，实现了实时的 AI 图像生成。
[系统工程] DALL-E 3 (OpenAI)
- 技术点： 使用了极其详细的 Image Captioning（图像标注）技术重新训练模型，将其与 ChatGPT 深度绑定。彻底解决了模型听不懂长难句、画不好英文单词拼写的问题。

2024 年：超越 U-Net 与扩散模型 (DiT 与流匹配)

[DiT 架构] Sora (OpenAI)
- 技术点： 抛弃了经典的 U-Net 卷积架构，提出 Diffusion Transformer (DiT)。将视频降维为时空斑块（Spacetime Patches），证明了 Transformer 在视觉生成上的 Scaling Law（规模法则）。
[Flow Matching / DiT] Stable Diffusion 3 (SD3)
- 技术点： 引入 MM-DiT (多模态扩散 Transformer)，为文本和图像提供独立的权重组。底层数学上从传统的扩散变分下界，转向了流匹配 (Flow Matching/Rectified Flow)，让去噪轨迹从弯曲变得更加平直（直线），减少了计算误差。
[Flow Matching] Flux.1 (Black Forest Labs)
- 技术点： 当前开源界的最强王者。高达 12B 的参数量，结合流匹配和旋转位置编码 (RoPE)，彻底解决了手部生成变形、文字拼写和复杂语义组合的问题，逼真度超越所有闭源模型。

第一阶段：GAN 与 VAE 的基础奠定 (2014 - 2017)​

第二阶段：架构融合与扩散模型的数学成型 (2018 - 2020)​

第三阶段：跨模态大一统与 AIGC 爆发 (2021 - 2022)​

第四阶段：精准控制、效率革命与架构重构 (2023 - 2024)​

第一阶段：GAN 与 VAE 的基础奠定 (2014 - 2017)

第二阶段：架构融合与扩散模型的数学成型 (2018 - 2020)

第三阶段：跨模态大一统与 AIGC 爆发 (2021 - 2022)

第四阶段：精准控制、效率革命与架构重构 (2023 - 2024)