로봇 AI를 임베디드 플랫폼에 적용하다: 데이터셋 기록, VLA 미세 조정 및 온디바이스 최적화

최근 거대 언어 모델(LLM)의 발전은 텍스트 기반 추론에서 시각 정보를 활용하는 다중 모드 시스템으로의 전환을 가능하게 했습니다. 먼저 시각적 인식을 Vision–Language Models (VLM)에 통합하고, 최근에는 Vision–Language–Action (VLA) 모델을 통해 로봇의 행동을 생성하는 방식으로 발전해왔습니다. 하지만 이러한 모델들을 컴퓨팅, 메모리, 전력 제약이 까다롭고 실시간 제어가 필요한 임베디드 로봇 플랫폼에 적용하는 것은 여전히 어려운 과제입니다. 로봇 AI 기술이 임베디드 시스템으로 옮겨지는 과정은 단순한 모델 압축을 넘어 복잡한 시스템 엔지니어링 문제를 해결해야 하는 숙제를 안겨주고 있습니다.

동기식 제어 파이프라인에서 VLA 추론이 진행되는 동안 로봇 팔은 명령을 기다리며 정지하게 되어 진동 현상과 지연된 수정으로 이어질 수 있습니다. 이러한 문제를 해결하기 위해 비동기식 추론을 통해 생성과 실행을 분리하여 부드럽고 연속적인 움직임을 구현할 수 있습니다. 하지만 비효율적인 최종 엔드투엔드 추론 지연은 행동 실행 지속시간보다 짧어야만 효과적입니다. 이러한 시간적 제약은 모델의 처리량을 제한하는 상한선을 설정하며, 로봇 AI 시스템 설계에 중요한 고려 사항을 제공합니다. 단순히 모델을 축소하는 것이 아니라 아키텍처 분해, 지연 시간에 대한 인식적인 스케줄링, 하드웨어에 맞춘 실행과 같은 종합적인 접근 방식이 필요합니다.

🎥 데이터셋 기록: 무엇이 중요한가

단순히 더 많은 데이터를 확보하는 것보다 고품질의 일관된 데이터가 훨씬 더 중요합니다. 본 섹션에서는 시행착오를 통해 얻은 귀중한 경험을 바탕으로 구체적인 체크리스트와 스키마를 제공합니다. 저희는 “티백을 컵에 넣기”라는 과제에 대한 데이터셋을 기록하는 과정에서 다양한 노하우를 얻었습니다.

1) 일관성 확보

고정된 카메라를 사용하여 자세 드리프트(pose drift)를 방지해야 합니다. 기록 또는 평가 과정에서 로봇 진동이나 작업자의 환경 재설정으로 인해 카메라의 위치가 변경되면 정확도가 크게 손실될 수 있습니다. 또한 조명 환경을 최대한 제어하여 빛 변화에 영향을 덜 받도록 해야 합니다. 배경과 로봇, 객체 간의 대비를 높여 학습 효율을 높여야 합니다. 로봇 및 작업자 보정 파일을 백업하여 코드가 충돌하더라도 이전 에피소드를 재기록하지 않도록 해야 합니다. 로봇 AI 모델 학습의 효율성을 높이는 기본적인 원칙입니다.

2) 그리퍼 카메라 활용 (강력 추천)

장면 전체 뷰에서 움직이는 뷰포인트로 전환하면 전역 정확도가 향상되지만 카메라 수가 많을수록 지연 시간이 증가합니다. 따라서 최적의 균형을 찾아야 합니다. 저희의 경우 탑, 그리퍼, 왼쪽 카메라 3개를 사용하여 이러한 균형을 맞추었습니다. 그리퍼 카메라를 설치할 때는 케이블이 로봇의 움직임에 의해 걸리거나 분리되지 않도록 벨크로 또는 스트레인 릴리프 가이드로 고정하는 것이 좋습니다.

3) 전사 (Prehension) 능력 향상

그리퍼 클로에 열수축 튜브를 사용하여 마찰을 높이고 거칠기를 줄이며 미끄러짐을 방지하면 작업 성공률을 높여 정책 학습의 안정성을 향상시킬 수 있습니다. 이는 로봇 AI 시스템의 성능 향상을 위한 간단하면서도 효과적인 방법입니다.

4) 다양성 및 분할

데이터셋을 기록할 때 다양한 시작 위치 클러스터로 작업 공간을 나누고 각 클러스터에 최소 10개의 에피소드를 기록해야 합니다. 객체의 위치와 회전을 변경하여 다양성을 확보해야 합니다. 또한 학습 세트와 검증 세트를 구분하여 모델이 학습 세트에 과적합되는 것을 방지해야 합니다. 더 넓은 범위의 자유도를 커버할 수 있도록 다양한 움직임을 기록해야 하며, 실패하는 경우도 20% 정도 포함하여 모델의 전체 성공률을 높이는 것이 좋습니다.

🎛️ VLA 미세 조정

본 섹션에서는 실제 적용 과정에서 사용한 방법들을 소개합니다. 과제는 “티백을 집어 컵에 넣는다”로 설정하고, 120개의 에피소드를 활용하여 학습을 진행했습니다. 여기서 가장 중요한 것은 모델 성능과 일반화 능력 간의 균형을 찾는 것입니다. ACT의 경우 100개의 액션 청크를 사용했을 때 10만에서 16만 스텝 사이에서 최적의 균형을 찾을 수 있었습니다. SmolVLA 학습의 경우 더 많은 스텝이 필요하며, 과적합 직후에 훈련을 중단하는 것이 전체 정확도를 향상시키는 데 도움이 됩니다.

⚡ i.MX95 최적화

i.MX95는 6개의 Arm Cortex-A55 코어, Cortex-M7/M33, Mali GPU, ISP 및 eIQ® Neutron NPU를 통합하여 효율적이고 안전한 에지 추론을 지원하며, 다중 카메라 지원 및 강력한 I/O 기능을 제공합니다. 로봇 AI 기술을 i.MX95와 같은 임베디드 플랫폼에 최적화하기 위해서는 분할 정복, 양자화, 비동기식 추론과 같은 다양한 기술을 적용해야 합니다.

1) 분할 정복

VLA 그래프를 단일 그래프가 아닌 개별 로직 스테이지로 분해하여 각 구성 요소를 독립적으로 최적화, 스케줄링 및 배포할 수 있습니다. 이는 로봇 AI 시스템의 유연성과 효율성을 높이는 중요한 방법입니다.

2) 양자화

이미지 인코더와 LLM 사전 채우기 양자화는 정확도에 미치는 영향이 제한적인 반면, 액션 전문가의 디노이징 흐름 양자화는 성능 저하를 야기합니다. 이는 양자화 오류가 반복적인 디노이징 단계에서 누적되기 때문입니다. 따라서 액션 전문가 블록은 더 높은 정밀도를 유지하고 다른 블록은 8비트 혼합 정밀 또는 4비트 양자화와 같은 다양한 구성을 탐색했습니다.

3) 비동기식 추론: 제어 인식 스케줄링

동기식 제어 루프는 관찰, 모델 추론, 액션 실행의 순서로 작동하며, 추론 과정에서 로봇이 유휴 상태로 대기하면서 지연이 발생하고 진동 현상이 발생할 수 있습니다. 비동기식 추론은 액션 생성과 실행을 병렬로 수행하여 이러한 문제를 해결하고 제어 빈도를 높이며, 회복력을 향상시킵니다. 로봇 AI 시스템의 실시간 성능을 극대화하기 위해서는 액션 실행 지속시간보다 추론 지연 시간이 짧아야 합니다.

📊 i.MX95에서의 성과

본 섹션에서는 i.MX95 플랫폼에서 로봇 AI 모델을 최적화하여 달성한 성능 결과를 제시합니다. 테스트 세트 20개 에피소드와 검증 세트 10개 에피소드를 사용하여 정확도를 측정했습니다. 엑티브 모델(ACT)의 경우 ONNX FP32 포맷에서 2.86초의 지연 시간을 기록했으며, 최적화된 모델은 0.32초의 지연 시간을 기록하며 정확도와 성능 모두 향상되었습니다. SmolVLA 모델의 경우 ONNX FP32 포맷에서 29.1초의 지연 시간이 필요했습니다.

⏩ 다음 단계

향후에는 SmolVLA 모델의 정확도를 향상시키고, NPU를 활용하여 더 깊은 최적화를 수행할 계획입니다. 또한 단일 작업 설정을 넘어 더 넓은 범위의 시나리오를 지원하기 위해 시뮬레이션 환경을 구축하고, 강화 학습을 적용하여 정책을 개선하고, 시뮬레이션에서 현실로의 전이를 통해 실시간 성능을 향상시킬 것입니다. 이는 로봇 AI 기술을 임베디드 로봇 시스템에 적용하기 위한 표준화된 방법론을 구축하는 것을 목표로 합니다.