HAR Safety AI

🎯 개요

  • 멀티모달 입력(Pose Sequence + RGB Image)을 기반으로

    인간 행동을 단일 라벨이 아닌 **확률 분포(distribution)**로 추론하는

    Distribution-Aware Human Action Recognition 시스템.

  • 기존 HAR의 one-hot 분류 한계를 극복하기 위해

    500개 행동 클래스에 대한 **행동 상태 분포(Action State Distribution)**를 예측하며,

    Top-k 행동 조합을 통해 복합·연속 행동을 유연하게 해석한다.

  • 안전(Safety), 헬스케어(Healthcare), 보안(Security) 등

    도메인에 고정되지 않은 범용 행동 표현 모델을 목표로 설계되었다.


✨ 프로젝트 핵심 아이디어

기존 HAR 시스템의 한계:

  • 행동을 **하나의 정답 클래스(one-hot)**로 강제
  • 복합·연속 행동 표현의 한계
  • 안전 도메인에서의 모호한 행동 경계 처리 불가

본 프로젝트는 이를 해결하기 위해:

“행동을 하나의 라벨이 아닌, 확률 분포로 표현한다”

는 설계 철학을 채택.


🧠 Distribution-Aware Action Modeling

  • 최종 출력은 500개 행동 클래스에 대한 확률 분포
  • 실제 사용 시:
    • 거의 0에 수렴하는 클래스는 자연스럽게 무시
    • 의미 있는 top-k 행동 조합만 활용

예시 출력

walk       : 45%
run        : 38%
stand      : 0.9%
sit_down   : 0.03%
...

  • 데이터셋에 명시적으로 존재하지 않는 행동(fast_run 등)도

    top-k 조합 기반으로 유연하게 해석 가능

  • 특정 도메인에 고정되지 않은 범용 행동 표현 모델 지향


🏗️ 시스템 아키텍처

model architecture

입력 모달리티

  • Pose Sequence (Skeleton-based temporal data)
  • RGB Image (Contextual visual information)

주요 구성 요소

  • Pose Encoder
    • Factorized Attention (Temporal / Spatial 분리)
    • 단기·중기 행동 패턴 추출
  • Temporal Aggregation
    • Transformer 기반 장기 시계열 모델링
  • Image Encoder
    • 경량 CNN 기반 시각 정보 인코딩
  • Multimodal Fusion
    • Concatenation + 정규화
    • 선택적 Cross-Attention 구조

모든 모듈은 독립·결합 사용이 가능하도록 설계되어

실험 및 확장에 유연함을 가짐


⚙️ 학습 전략 및 데이터 설계

데이터셋

  • MPOSE: 포즈 기반 사전 학습
  • HAA500: 최종 파인튜닝 (500-class)

핵심 학습 전략

  • 클래스 불균형 완화
    • 프레임 수 기준 클래스 평탄화
  • Hard Decision Boundary 회피
    • 행동 간 연속성을 보존하도록 학습 루프 설계
  • Distribution 유지 학습
    • 모델이 “정답 하나”가 아닌

      행동 상태 분포 공간을 학습하도록 유도


🔑 주요 기능

  • 멀티모달 행동 인식 (Pose + RGB)
  • 500-class 행동 분포 예측
  • Top-k 기반 행동 조합 추론
  • 실시간 추론을 고려한 경량화 구조
  • 범용 도메인 적용 가능 (안전·헬스케어·보안 등)

🧩 기술적 도전과 해결

1. 레이블 노이즈

  • → 데이터 클리닝 및 프레임 단위 정제 파이프라인 구축

2. 도메인 편향

  • → 클래스별 샘플 수 균형화 및 일반화 중심 학습 전략

3. 실시간 성능

  • → 경량 CNN + Factorized Attention으로 계산량 최적화

📊 결과 및 산출물

  • Hugging Face Hub에 모델 공개
  • Google Colab 기반 재현 가능한 학습 노트북 제공
  • 실시간 추론 가능한 프로토타입 구조 검증

🔗 링크