Categories: AI 뉴스 & 트렌드

헬스케어 로봇틱스를 위한 개방형 데이터셋과 기초 물리 AI 모델 공개

헬스케어 로봇틱스를 위한 개방형 데이터셋과 기초 물리 AI 모델 공개

헬스케어 로봇틱스의 새로운 지평을 열다: Open-H-Embodiment 공개

도입부: 헬스케어 AI의 진화와 데이터셋의 필요성

헬스케어 AI는 현재 주로 영상 분석 및 질병 진단에 집중되어 왔습니다. 과거의 데이터셋은 정적인 이미지 정보만을 담고 있어, 실제 의료 현장에서의 로봇 움직임, 힘 제어, 실시간 피드백 등 ‘행동’에 필요한 요소를 반영하지 못했습니다. 이러한 한계를 극복하고 헬스케어 헬스케어 로봇틱스 분야의 발전을 위해서는 로봇의 움직임, 센서 데이터, 실제 수술 장면 등 다양한 데이터를 포함하는 개방형 데이터셋 구축이 필수적이었습니다.

NVIDIA, Johns Hopkins University, Technical University of Munich 등 여러 기관의 협력을 통해 탄생한 Open-H-Embodiment는 헬스케어 로봇틱스 분야에 혁신적인 변화를 가져올 것으로 기대됩니다. 이 데이터셋은 단순한 데이터 제공을 넘어, 물리 AI(Physical AI) 연구를 위한 기반을 마련하고, 더 안전하고 효율적인 의료 서비스 제공에 기여할 것입니다.

1. Open-H-Embodiment: 협력적 데이터셋 구축의 시작

Open-H-Embodiment는 여러 기관의 참여자들과 함께 구축된 커뮤니티 기반의 데이터셋 프로젝트입니다. Axel Krieger 교수 (Johns Hopkins), Nassir Navab 교수 (Technical University of Munich), Mahdi Azizian 박사 (NVIDIA) 등 저명한 전문가들이 참여하여 이 프로젝트를 이끌고 있으며, 현재 35개 이상의 기관이 참여하고 있습니다. 이러한 다기관 협력은 다양한 로봇 플랫폼 및 수술 환경에 대한 데이터를 확보하여 데이터셋의 다양성과 활용성을 높였습니다.

Open-H-Embodiment는 헬스케어 로봇틱스 분야의 연구자들이 함께 만들어가는 결과물이며, 778시간의 CC-BY-4.0 라이선스 데이터와 함께 GR00T-H, Cosmos-H-Surgical-Simulator라는 두 가지 새로운 모델을 공개하여 연구자들의 활용을 돕고 있습니다.

2. GR00T-H: 수술 로봇을 위한 비전-언어-액션 모델

GR00T-H는 NVIDIA의 Isaac GR00T N 시리즈를 기반으로 하는 비전-언어-액션(VLA) 모델입니다. Open-H-Embodiment 데이터셋을 활용하여 약 600시간 동안 학습되었으며, 수술 로봇 작업에 특화된 최초의 정책 모델입니다. GR00T-H는 NVIDIA의 개방형 생태계를 활용하여 Cosmos Reason 2B를 VLM(Vision-Language Model) 백본으로 사용합니다. 이러한 모델은 헬스케어 로봇틱스 분야에서 로봇의 정확성과 효율성을 향상시키는 데 중요한 역할을 할 것입니다.

GR00T-H는 독특한 Embodiment Projectors, State Dropout, Relative EEF Actions, Metadata in Task Prompts와 같은 혁신적인 설계 요소를 채택하여 기존의 imitation learning의 한계를 극복하고 실제 환경에서의 성능을 향상시켰습니다. 특히, SutureBot 벤치마크에서 완전한 봉합을 수행하는 데 성공하여 뛰어난 성능을 입증했습니다.

3. Cosmos-H-Surgical-Simulator: 물리적으로 현실적인 수술 시뮬레이터

Cosmos-H-Surgical-Simulator는 action-conditioned 수술 로봇을 위한 World Foundation Model(WFM)입니다. 기존의 시뮬레이터는 실제 수술 환경의 복잡성을 제대로 반영하지 못하는 한계가 있었습니다. 예를 들어, 조직의 움직임, 빛의 반사, 혈액, 연기 등 다양한 요소를 고려하지 못했습니다. Cosmos-H-Surgical-Simulator는 이러한 문제를 해결하기 위해 NVIDIA Cosmos Predict 2.5 2B를 기반으로 fine-tuning되었으며, 물리적으로 현실적인 수술 영상을 생성하여 실제 환경과 유사한 시뮬레이션 환경을 제공합니다.

Cosmos-H-Surgical-Simulator는 600 rollouts을 시뮬레이션하는 데 40분밖에 걸리지 않아 실제 환경에서 벤치탑 방법으로 2일이 걸리는 작업 시간을 크게 단축시켜 주었습니다. 이는 헬스케어 로봇틱스 분야의 연구 개발 효율성을 높이는 데 크게 기여할 것입니다. 또한, 이 시뮬레이터는 조직 변형 및 도구 상호 작용을 암묵적으로 학습하여 실제 수술 환경과 더욱 유사한 데이터를 생성할 수 있습니다.

4. 미래를 향한 비전: 헬스케어 로봇틱스의 인공지능화

Open-H-Embodiment 프로젝트의 다음 단계는 지각적 제어를 넘어선 추론 능력 기반의 자율성을 확보하는 것입니다. 이는 마치 헬스케어 분야의 ChatGPT와 같은 혁신적인 시스템을 구축하는 것을 목표로 합니다. 이를 위해 Open-H-Embodiment는 의도, 결과, 실패 모드 등을 포함하는 주석 처리된 작업 트레이스를 통해 추론에 필요한 데이터를 확장해야 합니다.

이러한 노력에는 커뮤니티의 적극적인 참여가 필요하며, GitHub 레포지토리를 통해 헬스케어 로봇틱스의 미래를 함께 만들어 나갈 수 있습니다. 이러한 발전을 통해 AI 기반 로봇은 수술 과정을 설명하고 계획하며 변화하는 환경에 적응하여 더욱 안전하고 효율적인 의료 서비스를 제공할 수 있을 것입니다. 이 데이터셋은 헬스케어 로봇틱스 분야의 미래를 밝히는 중요한 이정표가 될 것입니다.

5. 지금 시작하세요: Open-H-Embodiment 활용하기

Open-H-Embodiment 데이터셋 및 모델을 활용하여 연구를 시작할 수 있도록 다양한 리소스가 제공되고 있습니다. GitHub 레포지토리, HF 모델, Cosmos Cookbook 등을 통해 쉽게 접근할 수 있으며, Hugging Face와 NVIDIA build.com에서 다양한 모델을 탐색하고 활용할 수 있습니다. 헬스케어 로봇틱스 분야의 발전에 동참하여 미래 의료 서비스의 혁신을 이끌어 주시기 바랍니다.

심층 분석 및 시사점

Array

원문 출처: The First Healthcare Robotics Dataset and Foundational Physical AI Models for Healthcare Robotics

PENTACROSS

Recent Posts

LangChain DeepAgents와 LangSmith를 활용한 하니싱 엔지니어링: AI 시스템의 신뢰성과 일관성 확보

LangChain DeepAgents와 LangSmith를 활용한 하니싱 엔지니어링: AI 시스템의 신뢰성과 일관성 확보 도입부: AI 시스템, 성능…

3시간 ago

자격증까지 챙겨라! 최고의 무료 머신러닝 강의 7가지

시작이 반이라는 머신러닝, 어디서부터 시작해야 할까요? 머신러닝이라는 단어를 들으면 뭔가 엄청난 지식과 복잡한 코딩이 필요할…

3시간 ago

미스트랄 스몰 4: 모든 기능을 하나로 통합한 119B 파라미터 MoE 모델

미스트랄 스몰 4: 모든 기능을 하나로 통합한 119B 파라미터 MoE 모델 미스트랄 스몰 4: 챗봇,…

4시간 ago

트랜스포머의 새로운 혁신: 어텐션 잔차 (Attention Residuals)!

## 트랜스포머 모델, 성능의 한계에 부딪혔다고요? 어텐션 잔차(Attention Residuals)가 해결책을 제시합니다! 😎 최근 몇 년간…

20시간 ago

IBM Granite 4.0 1B Speech: 경량 멀티 언어 음성 모델

IBM Granite 4.0 1B Speech: 경량 멀티 언어 음성 모델 IBM Granite 4.0 1B Speech:…

22시간 ago

LangChain Deep Agents: 복잡한 AI 작업도 문제없이! 꼼꼼 분석

LangChain Deep Agents: 복잡한 AI 작업도 문제없이! 꼼꼼 분석 AI 에이전트 기술이 발전하면서, 짧고 단순한…

1일 ago