📄 [Phase 2] Uni-HAR: On-device Optimization Log

From 221 GFLOPs Bottleneck to MPU-Deployable Ultra-Lightweight Inference

1. The Bottleneck: 지능의 대가 (The Cost of Intelligence)

Phase 1 연구를 통해 범용적이고 강건한 확률 분포 기반의 HAR 모델(Uni-HAR)을 구축하는 데 성공했습니다. 하지만, 모델의 지능(표현력)을 극대화한 대가는 현실 세계의 하드웨어 한계라는 벽으로 돌아왔습니다.

학부 캡스톤 시절(Phase 0)의 1D-CNN과 현재(Phase 1)의 Uni-HAR 모델 연산량을 fvcore 라이브러리로 직접 프로파일링한 결과는 극명했습니다.

[Phase 0] 기존 1D-CNN 모델 (포즈 단일 모달)

Total MFLOPs: 0.5099 MFLOPs 
-> 초경량이지만 예측이 불안정하고 미세한 동작 구분이 불가능.

[Phase 1] Uni-HAR 모델 (Multimodal, Factorized Transformer)

Total FLOPs: 221,567,666,944 FLOPs
Total GFLOPs: 221.5677 GFLOPs (Parameters: 14.2M)

[Major Component FLOPs Breakdown]
- Image Encoder: 218.23 GFLOPs (98.5%)
- Pose Backbone: 3.32 GFLOPs (1.5%)

-> 프로파일링 상세 결과 확인

문제 인식: 221 GFLOPs는 서버급 GPU에서는 무리가 없지만, 타겟 환경인 제한된 Edge Device(Jetson, MPU 등)에서는 Out-of-Memory(OOM)와 실시간 처리 불가(Frame Drop) 를 유발하는 치명적인 수치였습니다.

이에 1차 모델의 높은 지능(Representation Power)은 유지한 채, 이를 엣지 디바이스에 올리기 위해 기존 모델의 forward 구조를 해체(Decoupling)하고 **세 가지 하드웨어 친화적 최적화(Hardware-Aware Optimization)**를 적용한 StreamingUniHAR 아키텍처를 새롭게 설계했습니다.

2. Optimization Step 1: Feature Caching (Stream-Aware Inference)

"Vision Domain에 LLM의 KV Cache 원리를 이식하다"

전체 연산의 98.5% (218 GFLOPs) 가 Image Encoder(ResNet18)에서 발생했습니다. 이는 120프레임 단위의 슬라이딩 윈도우 추론 시, 윈도우가 1프레임 이동할 때마다 과거의 119프레임에 대한 RGB 특징을 무의미하게 중복 연산(Coupled Forward) 하고 있었기 때문입니다.

해결 방안 (Architecture Decoupling): Autoregressive LLM이 이전 토큰 연산을 반복하지 않기 위해 사용하는 KV Cache 개념을 Vision 파이프라인에 이식했습니다. 통짜 모델 구조를 프레임 단위의 Feature Extractor와 Temporal Aggregator로 분리했습니다.

# StreamingUniHAR의 핵심 로직: 큐(Queue) 롤링 기반 캐싱
# 큐를 한 칸씩 밀고 최신 특징값을 맨 뒤에 삽입 (1프레임만 연산)
self.pose_raw_cache = torch.roll(self.pose_raw_cache, shifts=-1, dims=1)
self.pose_raw_cache[:, -1:, :, :] = curr_pose

self.img_feat_cache = torch.roll(self.img_feat_cache, shifts=-1, dims=1)
self.img_feat_cache[:, -1:, :] = curr_img_feat

결과: 윈도우 전체를 한 번에 연산하지 않고, 새로 들어오는 1개의 프레임에 대해서만 Image Encoder 연산을 수행하도록 변경하여 프레임당 순간 연산량을 221 GFLOPs에서 약 1.8 GFLOPs 수준으로 평탄화(Smoothing) 했습니다.

3. Optimization Step 2: Temporal Sparsity (Dynamic Skipping)

"가벼운 모달리티로 무거운 모달리티의 연산을 통제하다 (Cross-modal Sparsity)"

Image Encoder의 중복 연산을 캐싱으로 막았지만, 엣지 환경의 카메라는 피사체가 정지해 있을 때도 계속 돌아갑니다. 행동 인식 데이터셋 분석 결과, 인체가 멈춰 있는 구간(Redundancy)이 꽤 많음을 확인했습니다.

해결 방안: 가벼운 연산량(1.5%)을 가진 Pose 데이터를 활용해 무거운 연산량(98.5%)을 가진 RGB CNN 연산을 스킵하는 구조를 설계했습니다. 프레임 간 포즈 특징 벡터의 변화량( $\Delta$ )이 특정 Threshold 이하이면, 무거운 CNN 추출 자체를 생략(Zero-Compute) 하고 이전 프레임의 특징을 그대로 복사합니다.

# [Optimization] Temporal Sparsity Check
# 현재 포즈와 이전 포즈의 변화량(delta) 계산
delta = torch.norm(curr_pose - self.last_pose, p=2, dim=-1).mean().item()

if delta < self.threshold and self.last_img_feat is not None:
    # 움직임이 임계치 이하 -> 무거운 CNN 추출 과정 생략 (Zero-Compute)
    curr_img_feat = self.last_img_feat
    is_sparse = True
else:
    # 움직임 발생 -> 현재 프레임만 CNN 연산 실행
    curr_img_4d = curr_img.view(B, 3, curr_img.shape[-2], curr_img.shape[-1])
    curr_img_feat = self.image_encoder(curr_img_4d).unsqueeze(1)

결과: 평균적인 추론 시나리오에서 행동 변화가 없는 구간의 RGB 인코딩 연산을 완전히 차단하여, 전체 연산량을 추가로 30~40% 절감했습니다.

4. Optimization Step 3: 1.58-bit QAT (BitNet for Vision)

"MPU 탑재를 위한 극단적 양자화와 Adder-only 연산"

이미지 인코더 병목을 해결한 후, 마지막 타겟은 3.3 GFLOPs를 차지하는 Pose Backbone (Factorized Spatio-Temporal Transformer) 이었습니다. MPU(Microprocessor Unit) 레벨에서는 FP32 정밀도의 MAC(Multiply-Accumulate) 행렬 곱 연산 자체가 전력과 대역폭의 한계에 부딪힙니다.

해결 방안:
최신 LLM 경량화 트렌드인 BitNet b1.58의 극단적 양자화 기법을 Transformer 기반 비전 모델에 적용하는 실험을 진행 중입니다.

class WeightQuantSTE(torch.autograd.Function):
    @staticmethod
    def forward(ctx, weight):
        scale = weight.abs().mean().clamp(min=1e-8)
        quantized = torch.round(weight / scale).clamp(-1, 1) # {-1, 0, 1} 매핑
        ctx.save_for_backward(weight)
        return quantized * scale

class BitLinear(nn.Module):
    """기존 nn.Linear를 대체하는 1.58-bit 레이어"""
    def __init__(self, in_features, out_features, bias=True):
        super().__init__()
        self.weight = nn.Parameter(torch.randn(out_features, in_features) * 0.02)
        
    def forward(self, x):
        q_weight = WeightQuantSTE.apply(self.weight)
        return F.linear(x, q_weight, None)

QAT (Quantization-Aware Training): 미분 불가능한 양자화 함수의 역전파(Backpropagation)를 위해 STE(Straight-Through Estimator) 기반의 Custom Autograd를 구현하여 기존 MLP의 nn.Linear를 BitLinear로 교체했습니다.
하드웨어 관점의 이점: ALU(산술논리연산장치) 레벨에서 무거운 Multiplier(곱셈기)를 단순 Adder(가산기)로 치환. 파라미터 메모리 용량을 압축하여 DRAM 접근을 최소화하고 SRAM 내부에서 연산이 완료될 수 있는 토대를 마련했습니다.

5. Conclusion & Next Steps

Phase 2의 최적화 파이프라인 설계를 통해, Uni-HAR는 '연구실의 무거운 모델'에서 '현장의 엣지 디바이스(MPU)에서 실시간 동작 가능한 엔진' 으로 변모할 준비를 마쳤습니다.

[Summary of Transformation]

Phase 0: 가볍지만 멍청하다. (0.5 MFLOPs, 1D-CNN)
Phase 1: 똑똑하지만 무겁다. (221 GFLOPs, MPU OOM 발생)
Phase 2: 똑똑함을 유지하며 가벼워졌다. (Feature Caching & Sparsity로 프레임당 연산 99% 삭감, 1.58-bit QAT로 Transformer 연산 효율화)

[Future Work: Heterogeneous Dispatching] 다음으로 진행하고자 하는 주제는 이기종 하드웨어(CPU/GPU/NPU) 자동 할당 라우팅입니다.
가벼운 제어 로직(Sparsity 판단, Buffer 롤링)은 CPU가 전담하고, Feature Extraction과 QAT 병렬 행렬 연산은 Jetson Board등의 GPU/NPU로 Dispatching 하여 칩셋의 컴퓨팅 리소스 낭비를 0%로 만드는 통합 엔진 최적화를 이어나갈 예정입니다.