RLHF 개요

study note

RLHF 개요

1. 서론

  • 정의: RLHF는 인간 피드백을 활용한 강화학습으로, 기존의 수작업 보상 함수 대신 인간의 선호(preference)를 반영한 보상 모델을 학습하여 AI를 인간 가치에 맞게 정렬시키는 방법이다.
  • 등장 배경: 전통적 RL은 보상 함수를 직접 설계해야 하는데, 복잡한 작업에서는 적절한 보상 정의가 어렵다. RLHF는 이 문제를 해결하기 위해 제안되었다.

2. 학습 과정 단계

  1. Supervised Fine-Tuning (SFT)

    • 대규모 데이터셋(예: 인간이 작성한 답변)을 이용해 언어모델을 초기 학습.
    • 목적: 모델이 기본적인 지시(instruction)를 따를 수 있도록 함.
  2. Reward Model Training

    • 인간 평가자가 모델 출력 쌍(A vs B)에 대해 선호를 표시.
    • 이를 통해 선호 데이터를 수집하고, 이를 기반으로 보상 모델을 학습.
    • 보상 모델은 입력-출력 쌍에 대해 “얼마나 인간 선호에 맞는지”를 점수화한다.

    [Rθ(x,y)PreferenceScore(yx)][ R_\theta(x,y) \approx \text{PreferenceScore}(y|x) ]

  3. Reinforcement Learning (Policy Optimization)

    • 보상 모델을 이용해 정책(policy)을 강화학습으로 최적화.
    • 대표적으로 PPO(Proximal Policy Optimization) 알고리즘을 사용.
    • 목적: 모델이 인간 선호에 맞는 출력을 지속적으로 생성하도록 학습.

3. 수식적 표현

  • 정책 (πϕ)(\pi_\phi)를 보상 모델 (Rθ)(R_\theta)에 따라 최적화: [maxϕ E(x,y)πϕ[Rθ(x,y)]][ \max_\phi \ \mathbb{E}_{(x,y)\sim \pi_\phi}[R_\theta(x,y)] ]
  • PPO의 목적 함수: [LCLIP(ϕ)=E[min(rt(ϕ)A^t, clip(rt(ϕ),1ϵ,1+ϵ)A^t)]][ L^{CLIP}(\phi) = \mathbb{E}\left[\min\left(r_t(\phi)\hat{A}_t, \ \text{clip}(r_t(\phi), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right] ] 여기서 (rt(ϕ))(r_t(\phi))는 정책 비율, (A^t)(\hat{A}_t)는 advantage 추정치.

4. 장점과 한계

  • 장점
    • 인간 가치와 선호를 반영 → 모델 정렬(alignment) 강화
    • 복잡한 보상 설계 문제를 인간 피드백으로 대체
  • 한계
    • 인간 피드백 수집 비용이 큼
    • 보상 모델이 편향될 수 있음
    • 대규모 RLHF 학습은 계산 자원 소모가 큼

5. 주요 적용 사례

  • NLP: ChatGPT, InstructGPT → 대화 모델 정렬
  • CV: 이미지 생성 모델에서 인간 선호 기반 품질 평가
  • 도메인 특화:
    • Game AI → 플레이어 선호 기반 NPC 행동 조정
    • HAR(Human Action Recognition) → 안전 행동 인식에서 인간 평가자 피드백 반영

6. 관련 논문

  • 원 논문: “Fine-Tuning Language Models from Human Preferences” (Christiano et al., 2017)
  • 혁신성: 인간 피드백을 보상 모델로 변환하여 RL에 통합
  • 후속 연구: Direct Preference Optimization(DPO), Constitutional AI 등 RLHF의 한계를 보완하는 다양한 접근 등장.

결론

RLHF는 인간 피드백 → 보상 모델 → 강화학습 최적화라는 3단계 과정을 통해 AI를 인간 가치에 맞게 정렬시키는 핵심 방법론이다.
현재 LLM, 이미지 생성, 게임 AI, HAR 등 다양한 분야에서 적용되고 있으며, 향후 효율적 피드백 수집·편향 완화·자원 최적화가 주요 연구 과제로 남아 있다.