Diffusion Models 이해하기

study note

Diffusion Models

이 문서는 Diffusion Models 학습 노트 이다. 수식·직관·아키텍처·응용 도메인(CV, Audio, Video, 3D)을 연결해 "왜 diffusion이 현대 생성 AI의 주류가 되었는가" 를 설명하는 것을 목표로 한다.


1. Diffusion Models란 무엇인가?

Diffusion Model은 확률적 생성 모델(Probabilistic Generative Model) 의 한 종류로,

  • 데이터를 점진적으로 노이즈로 붕괴시키는 과정(forward process)
  • 노이즈에서 원본 데이터를 복원하는 과정(reverse process)

을 학습한다.

핵심 아이디어는 다음 한 문장으로 요약된다.

복잡한 데이터 분포를 한 번에 생성하지 말고, 아주 쉬운 문제(노이즈 제거)를 여러 번 반복해서 풀자.


2. Forward Process (Noise Injection)

Forward diffusion은 고정된 확률 과정이며 학습 대상이 아니다.

2.1 정의

데이터 x0x_0에 대해, 단계적으로 Gaussian noise를 추가한다.

[q(xtxt1)=N(xt;1βtxt1,βtI)][ q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I) ]

tt가 커질수록 xtx_t순수한 가우시안 노이즈에 가까워진다.

2.2 중요한 성질

  • 전체 과정은 닫힌 형태(closed form) 로 표현 가능
  • 임의의 tt에서 바로 xtx_t를 샘플링 가능

[xt=αˉtx0+1αˉtϵ][ x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon ]


3. Reverse Process (Denoising)

Reverse process는 신경망이 학습해야 하는 핵심 부분이다.

3.1 목표

  • 주어진 noisy sample xtx_t에서
  • 추가된 noise ϵ\epsilon 또는 원본 x0x_0를 예측

3.2 학습 목표 (DDPM)

가장 널리 쓰이는 형태:

[LDDPM=Ex0pdata,  tU(1,T),  ϵN(0,I)[ϵϵθ(xt,t)22]][ \boxed{ \mathcal{L}_{\text{DDPM}}= \mathbb{E}_{x_0 \sim p_{\text{data}}, \; t \sim \mathcal{U}(1,T), \; \epsilon \sim \mathcal{N}(0,I)} \left[ \left\| \epsilon - \epsilon_\theta(x_t, t) \right\|_2^2 \right] } ]

즉,

"이 단계에서 추가된 노이즈를 맞혀라"

라는 단순한 회귀 문제로 바뀐다.

3.3 수식 설명

  • 각 기호가 의미하는 것
기호의미
(L\mathcal{L})학습 손실
(E\mathbb{E}_{\cdot})기댓값
(x0x_0)원본 데이터
(tt)diffusion step
(ϵ\epsilon)실제 가우시안 노이즈
(ϵθ\epsilon_\theta)모델이 예측한 노이즈
(22\|\cdot\|_2^2)L2 norm 제곱 (MSE)
(pdatap_{\text{data}})실제 데이터셋이 따르는 알 수 없는 진짜 분포
(N(0,I)\mathcal{N}(0, I))연속 정규 분포 (Continuous Normal Distribution) [실수]
(U(1,T)\mathcal{U}(1, T))이산 균등 분포 (Uniform Discrete Distribution) [정수]
  • 연산 과정
    1. 실제 데이터 (x0x_0)를 하나 뽑고
    2. 랜덤한 timestep (tt)를 고르고
    3. 랜덤한 가우시안 노이즈 (ϵ\epsilon)를 생성한 뒤
    4. (x0x_0)에 노이즈를 섞어 (xtx_t)를 만들고
    5. 모델이 예측한 노이즈와 실제 노이즈의 제곱 오차 평균을 최소화한다

4. 왜 Diffusion은 잘 작동하는가?

DDPM은 노이즈를 예측하도록 학습되지만, 이는 가우시안 역과정의 KL divergence를 최소화하는 것과 동치이며, 결국 ELBO를 통해 데이터 로그우도의 하한을 최대화하는 최대우도 기반 생성모델이다.
상세문서

4.1 Autoregressive 대비 장점

AutoregressiveDiffusion
Error 누적Error 누적 없음
순차 생성점진적 복원
긴 시퀀스 불안정안정적

4.2 GAN 대비 장점

GANDiffusion
학습 불안정매우 안정적
Mode collapse거의 없음
명시적 likelihood 없음likelihood 기반

5. Diffusion + Neural Network Architecture

5.1 Backbone의 역할

Diffusion model 자체는 "학습 방식" 이지 아키텍처가 아니다.

노이즈 제거 함수는 어떤 네트워크로도 구현 가능하다.

5.2 대표적 Backbone

  • U-Net (이미지, 오디오)
  • Transformer (DiT, Video, 3D)
  • Hybrid (U-Net + Attention)

6. Conditional Diffusion (Text-to-X)

현대 diffusion 모델의 핵심은 조건부 생성이다.

6.1 구조 개요

Text Encoder (CLIP, T5)
        ↓
Cross-Attention
        ↓
Diffusion Backbone

6.2 왜 텍스트인가?

  • 명확한 의미 전달
  • 추상적 제어 가능
  • 도메인 독립적 인터페이스

텍스트는 Universal Control Interface로 작동한다.


7. Latent Diffusion

7.1 문제

Pixel-space diffusion은 계산 비용이 매우 큼.

7.2 해결

  • Autoencoder로 latent space로 압축
  • Diffusion은 latent에서 수행
Image → Encoder → Latent → Diffusion → Decoder → Image

7.3 대표 모델

  • Stable Diffusion
  • AudioLDM
  • VideoLDM

8. 도메인별 Diffusion 활용

8.1 Image Generation

  • Stable Diffusion
  • Imagen
  • DALL·E 2

출력: latent feature → RGB image


8.2 Video Generation

  • Video Diffusion Models
  • Sora (개념적으로)

출력: 시간 축을 포함한 latent sequence


8.3 Audio / Music Generation

  • AudioLDM
  • Riffusion

출력 형태:

  • waveform
  • mel-spectrogram

8.4 3D Generation

Diffusion은 3D 표현 자체를 생성한다.

  • NeRF / SDF latent diffusion
  • Point cloud diffusion

출력: [f(x,y,z)density,color][ f(x, y, z) → density, color ]


9. Diffusion vs Autoregressive vs Flow

기준DiffusionAutoregressiveFlow
학습 안정성매우 높음높음중간
생성 속도느림 (개선 중)빠름매우 빠름
품질매우 높음높음중간

10. 핵심 요약

Diffusion models reformulate generation as a sequence of denoising steps, enabling stable, high-fidelity synthesis of complex continuous data such as images, audio, video, and 3D representations. By decoupling semantic conditioning from signal generation, diffusion has become the dominant paradigm for modern generative AI beyond text.

  • Diffusion은 구조가 아니라 생성 패러다임
  • Transformer는 diffusion을 구현하는 강력한 함수 근사기
  • Text-to-X는 multimodal conditional diffusion 문제

11. 확장 학습 키워드

  • DDPM / DDIM
  • Classifier-Free Guidance
  • Consistency Models
  • Diffusion Transformers (DiT)
  • 3D-aware Diffusion