RLHF 개요

1. 서론

정의: RLHF는 인간 피드백을 활용한 강화학습으로, 기존의 수작업 보상 함수 대신 인간의 선호(preference)를 반영한 보상 모델을 학습하여 AI를 인간 가치에 맞게 정렬시키는 방법이다.
등장 배경: 전통적 RL은 보상 함수를 직접 설계해야 하는데, 복잡한 작업에서는 적절한 보상 정의가 어렵다. RLHF는 이 문제를 해결하기 위해 제안되었다.

2. 학습 과정 단계

Supervised Fine-Tuning (SFT)
- 대규모 데이터셋(예: 인간이 작성한 답변)을 이용해 언어모델을 초기 학습.
- 목적: 모델이 기본적인 지시(instruction)를 따를 수 있도록 함.
Reward Model Training
- 인간 평가자가 모델 출력 쌍(A vs B)에 대해 선호를 표시.
- 이를 통해 선호 데이터를 수집하고, 이를 기반으로 보상 모델을 학습.
- 보상 모델은 입력-출력 쌍에 대해 “얼마나 인간 선호에 맞는지”를 점수화한다.
$[ R_\theta(x,y) \approx \text{PreferenceScore}(y|x) ]$
Reinforcement Learning (Policy Optimization)
- 보상 모델을 이용해 정책(policy)을 강화학습으로 최적화.
- 대표적으로 PPO(Proximal Policy Optimization) 알고리즘을 사용.
- 목적: 모델이 인간 선호에 맞는 출력을 지속적으로 생성하도록 학습.

3. 수식적 표현

정책 $(\pi_\phi)$ 를 보상 모델 $(R_\theta)$ 에 따라 최적화: $[ \max_\phi \ \mathbb{E}_{(x,y)\sim \pi_\phi}[R_\theta(x,y)] ]$
PPO의 목적 함수: $[ L^{CLIP}(\phi) = \mathbb{E}\left[\min\left(r_t(\phi)\hat{A}_t, \ \text{clip}(r_t(\phi), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right] ]$ 여기서 $(r_t(\phi))$ 는 정책 비율, $(\hat{A}_t)$ 는 advantage 추정치.

4. 장점과 한계

장점
- 인간 가치와 선호를 반영 → 모델 정렬(alignment) 강화
- 복잡한 보상 설계 문제를 인간 피드백으로 대체
한계
- 인간 피드백 수집 비용이 큼
- 보상 모델이 편향될 수 있음
- 대규모 RLHF 학습은 계산 자원 소모가 큼

5. 주요 적용 사례

NLP: ChatGPT, InstructGPT → 대화 모델 정렬
CV: 이미지 생성 모델에서 인간 선호 기반 품질 평가
도메인 특화:
- Game AI → 플레이어 선호 기반 NPC 행동 조정
- HAR(Human Action Recognition) → 안전 행동 인식에서 인간 평가자 피드백 반영

6. 관련 논문

원 논문: “Fine-Tuning Language Models from Human Preferences” (Christiano et al., 2017)
혁신성: 인간 피드백을 보상 모델로 변환하여 RL에 통합
후속 연구: Direct Preference Optimization(DPO), Constitutional AI 등 RLHF의 한계를 보완하는 다양한 접근 등장.

결론

RLHF는 인간 피드백 → 보상 모델 → 강화학습 최적화라는 3단계 과정을 통해 AI를 인간 가치에 맞게 정렬시키는 핵심 방법론이다.
현재 LLM, 이미지 생성, 게임 AI, HAR 등 다양한 분야에서 적용되고 있으며, 향후 효율적 피드백 수집·편향 완화·자원 최적화가 주요 연구 과제로 남아 있다.