RLHF 개요
1. 서론
- 정의: RLHF는 인간 피드백을 활용한 강화학습으로, 기존의 수작업 보상 함수 대신 인간의 선호(preference)를 반영한 보상 모델을 학습하여 AI를 인간 가치에 맞게 정렬시키는 방법이다.
- 등장 배경: 전통적 RL은 보상 함수를 직접 설계해야 하는데, 복잡한 작업에서는 적절한 보상 정의가 어렵다. RLHF는 이 문제를 해결하기 위해 제안되었다.
2. 학습 과정 단계
-
Supervised Fine-Tuning (SFT)
- 대규모 데이터셋(예: 인간이 작성한 답변)을 이용해 언어모델을 초기 학습.
- 목적: 모델이 기본적인 지시(instruction)를 따를 수 있도록 함.
-
Reward Model Training
- 인간 평가자가 모델 출력 쌍(A vs B)에 대해 선호를 표시.
- 이를 통해 선호 데이터를 수집하고, 이를 기반으로 보상 모델을 학습.
- 보상 모델은 입력-출력 쌍에 대해 “얼마나 인간 선호에 맞는지”를 점수화한다.
-
Reinforcement Learning (Policy Optimization)
- 보상 모델을 이용해 정책(policy)을 강화학습으로 최적화.
- 대표적으로 PPO(Proximal Policy Optimization) 알고리즘을 사용.
- 목적: 모델이 인간 선호에 맞는 출력을 지속적으로 생성하도록 학습.
3. 수식적 표현
- 정책 를 보상 모델 에 따라 최적화:
- PPO의 목적 함수: 여기서 는 정책 비율, 는 advantage 추정치.
4. 장점과 한계
- 장점
- 인간 가치와 선호를 반영 → 모델 정렬(alignment) 강화
- 복잡한 보상 설계 문제를 인간 피드백으로 대체
- 한계
- 인간 피드백 수집 비용이 큼
- 보상 모델이 편향될 수 있음
- 대규모 RLHF 학습은 계산 자원 소모가 큼
5. 주요 적용 사례
- NLP: ChatGPT, InstructGPT → 대화 모델 정렬
- CV: 이미지 생성 모델에서 인간 선호 기반 품질 평가
- 도메인 특화:
- Game AI → 플레이어 선호 기반 NPC 행동 조정
- HAR(Human Action Recognition) → 안전 행동 인식에서 인간 평가자 피드백 반영
6. 관련 논문
- 원 논문: “Fine-Tuning Language Models from Human Preferences” (Christiano et al., 2017)
- 혁신성: 인간 피드백을 보상 모델로 변환하여 RL에 통합
- 후속 연구: Direct Preference Optimization(DPO), Constitutional AI 등 RLHF의 한계를 보완하는 다양한 접근 등장.
결론
RLHF는 인간 피드백 → 보상 모델 → 강화학습 최적화라는 3단계 과정을 통해 AI를 인간 가치에 맞게 정렬시키는 핵심 방법론이다.
현재 LLM, 이미지 생성, 게임 AI, HAR 등 다양한 분야에서 적용되고 있으며, 향후 효율적 피드백 수집·편향 완화·자원 최적화가 주요 연구 과제로 남아 있다.