Uni-HAR Phase 1: Project Design & Architecture

From One-hot Classification to Continuous Action State Space

Motivation & Background

Uni-HAR (Universal Human Action Recognition) 는
인간 행동을 단일 라벨로 강제 분류하는 기존 HAR 접근의 한계를 인식하고,
행동을 확률 분포 기반의 연속적인 상태 공간(Action State Space) 으로 모델링하기 위해 설계된
멀티모달 행동 인식 프레임워크입니다.

이 프로젝트의 출발점은 대학 캡스톤 디자인으로 진행했던 'AI 기반 낙상 감지 앱 프로젝트' 였습니다.

당시 프로젝트에서는:

팀원들이 직접 촬영한 영상 데이터를 기반으로
MediaPipe를 활용해 포즈 키포인트를 추출하고
stand / sit / bow / walk / fall
5개 행동 클래스를 One-hot label로 분류하는 포즈 기반 HAR 모델을 구현했습니다.

모델은 통제된 실험 환경에서는 준수한 정확도를 보였지만, 실환경 테스트 과정에서 구조적 한계를 명확히 드러냈습니다.

캡스톤 프로젝트에서 드러난 문제의식

1️⃣ 행동은 명확한 경계(Hard Boundary)를 갖지 않는다

실제 인간의 행동은 서서히 변하고, 여러 행동이 중첩되며, 맥락에 따라 다르게 해석됩니다.

예를 들어:

걷다가 뛰기 시작하는 과도기 구간
넘어지기 직전의 불안정하게 비틀거리는 자세
의도되지 않은 위험 행동의 전조 상태

그러나 One-hot 기반의 고전적 HAR 모델은 이러한 중간 상태(Intermediate State) 를 표현할 방법이 없었습니다.

2️⃣ 안전/헬스케어 도메인에서 단일 클래스 예측은 위험하다

실제 산업(안전, 헬스케어 등)에서 중요한 것은 "정답 하나를 정확히 맞추는 것"이 아니라, "위험의 가능성을 놓치지 않는 것" 입니다.

하지만 단일 클래스 분류는:

모델 내부에 존재하는 '불확실성(Uncertainty)'을 숨기고
확신하지 못한 상태를 시스템 외부(Rule-based System)로 전달하지 못합니다.

이로 인해 보수적인 판단이나 시간에 따른 행동 변화 분석이 불가능해집니다.

Why Human Actions Should Not Be Single Labels

"사람은 버튼처럼 행동하지 않는다."

강화학습(RL)과 상태 공간 모델링을 공부하면서, 행동 인식에도 같은 질문이 떠올랐습니다. "왜 행동 인식은 상태 공간(State Space)으로 다루지 않을까?"

행동은 이산적인 점(Point)이 아니라 연속적인 영역(Region) 입니다. 걷기와 뛰기 사이, 앉기 직전의 균형 상태 등은 모두 연속적인 상태 공간 상의 위치로 보는 편이 훨씬 자연스럽습니다.

Design Shift: From Classification to Action State Space

이 문제의식을 바탕으로, Uni-HAR에서는 행동 인식을 다음과 같이 재정의했습니다.

행동 = 단일 정답 라벨이 아닌, 확률 분포로 표현되는 상태 공간상의 위치

Distribution-based Output

출력 설계:
각 차원은 하나의 기초 행동 클래스를 의미합니다.
목표는 단순히 $\text{argmax}$ 를 맞추는 것이 아니라, 물리적으로 의미 있는 확률 분포를 형성하는 것입니다.

이러한 접근을 통해 얻을 수 있는 이점은 명확합니다:

Top-k 행동 조합 해석: 불확실성 자체를 유용한 정보로 활용
도메인별 규칙 기반(Rule-based) 후처리 용이성
미정의 행동 표현: 학습 데이터셋에 없는 행동도 암묵적으로 표현 가능

Example: > walk (0.45) + run (0.38) "현재 사용자는 빠른 이동(Fast Locomotion) 상태에 있다"고 시스템이 해석 가능

Why Multimodal HAR? (The 'Unified' Approach)

캡스톤 프로젝트에서는 포즈(Pose) 단일 모달만 사용했지만, 실환경에서는 가림(Occlusion), 관절 인식 실패, 조명 및 카메라 각도 변화 등 수많은 노이즈가 발생했습니다.

이를 보완하기 위해 Uni-HAR는 모달리티를 통합(Unified)했습니다.

Pose Sequence: 관절 기반의 구조적이고 기하학적인 움직임 정보
RGB Video Sequence: 주변 환경과의 상호작용, 맥락(Context) 및 외형 정보

단일 모달의 약점을 상호 보완하는 멀티모달 입력 기반의 HAR 아키텍처를 설계함으로써, 모델의 강건성(Robustness)을 극대화했습니다.

Practical Advantages & The Next Engineering Challenge

분포 기반의 멀티모달 프레임워크인 Uni-HAR는 실무적으로 다음과 같은 강력한 장점을 가집니다.

Threshold 기반의 세밀한 위험 감지
행동 전이(Transition) 패턴 분석
ML 추론 결과와 Symbolic AI(규칙 기반 시스템)의 유연한 결합

하지만, 새로운 엔지니어링 문제가 발생했습니다. 행동의 맥락을 완벽히 이해하기 위해 RGB 120프레임과 Pose 데이터를 통째로 Transformer와 ResNet에 태우는 현재의 구조는 무려 220 GFLOPs 이상의 엄청난 연산량을 요구했습니다. 이대로는 On-device 엣지 환경의 CCTV나 모바일 기기에서 실시간으로 구동할 수 없었습니다.

지능(분포 기반 행동 추론)은 유지하되, 연산량은 극단적으로 줄일 수는 없을까?
이 고민이 바로 다음 포스팅, Phase 2: On-device 추론을 위한 Vision KV Caching과 1.58-bit 양자화 최적화 로 이어집니다.