🎯 개요
-
멀티모달 입력(Pose Sequence + RGB Image)을 기반으로
인간 행동을 단일 라벨이 아닌 **확률 분포(distribution)**로 추론하는
Distribution-Aware Human Action Recognition 시스템.
-
기존 HAR의 one-hot 분류 한계를 극복하기 위해
500개 행동 클래스에 대한 **행동 상태 분포(Action State Distribution)**를 예측하며,
Top-k 행동 조합을 통해 복합·연속 행동을 유연하게 해석한다.
-
안전(Safety), 헬스케어(Healthcare), 보안(Security) 등
도메인에 고정되지 않은 범용 행동 표현 모델을 목표로 설계되었다.
✨ 프로젝트 핵심 아이디어
기존 HAR 시스템의 한계:
- 행동을 **하나의 정답 클래스(one-hot)**로 강제
- 복합·연속 행동 표현의 한계
- 안전 도메인에서의 모호한 행동 경계 처리 불가
본 프로젝트는 이를 해결하기 위해:
“행동을 하나의 라벨이 아닌, 확률 분포로 표현한다”
는 설계 철학을 채택.
🧠 Distribution-Aware Action Modeling
- 최종 출력은 500개 행동 클래스에 대한 확률 분포
- 실제 사용 시:
- 거의 0에 수렴하는 클래스는 자연스럽게 무시
- 의미 있는 top-k 행동 조합만 활용
예시 출력
walk : 45%
run : 38%
stand : 0.9%
sit_down : 0.03%
...
-
데이터셋에 명시적으로 존재하지 않는 행동(
fast_run등)도top-k 조합 기반으로 유연하게 해석 가능
-
특정 도메인에 고정되지 않은 범용 행동 표현 모델 지향
🏗️ 시스템 아키텍처

입력 모달리티
- Pose Sequence (Skeleton-based temporal data)
- RGB Image (Contextual visual information)
주요 구성 요소
- Pose Encoder
- Factorized Attention (Temporal / Spatial 분리)
- 단기·중기 행동 패턴 추출
- Temporal Aggregation
- Transformer 기반 장기 시계열 모델링
- Image Encoder
- 경량 CNN 기반 시각 정보 인코딩
- Multimodal Fusion
- Concatenation + 정규화
- 선택적 Cross-Attention 구조
모든 모듈은 독립·결합 사용이 가능하도록 설계되어
실험 및 확장에 유연함을 가짐
⚙️ 학습 전략 및 데이터 설계
데이터셋
- MPOSE: 포즈 기반 사전 학습
- HAA500: 최종 파인튜닝 (500-class)
핵심 학습 전략
- 클래스 불균형 완화
- 프레임 수 기준 클래스 평탄화
- Hard Decision Boundary 회피
- 행동 간 연속성을 보존하도록 학습 루프 설계
- Distribution 유지 학습
-
모델이 “정답 하나”가 아닌
행동 상태 분포 공간을 학습하도록 유도
-
🔑 주요 기능
- 멀티모달 행동 인식 (Pose + RGB)
- 500-class 행동 분포 예측
- Top-k 기반 행동 조합 추론
- 실시간 추론을 고려한 경량화 구조
- 범용 도메인 적용 가능 (안전·헬스케어·보안 등)
🧩 기술적 도전과 해결
1. 레이블 노이즈
- → 데이터 클리닝 및 프레임 단위 정제 파이프라인 구축
2. 도메인 편향
- → 클래스별 샘플 수 균형화 및 일반화 중심 학습 전략
3. 실시간 성능
- → 경량 CNN + Factorized Attention으로 계산량 최적화
📊 결과 및 산출물
- Hugging Face Hub에 모델 공개
- Google Colab 기반 재현 가능한 학습 노트북 제공
- 실시간 추론 가능한 프로토타입 구조 검증