넷플릭스가 터뜨린 영상 편집의 판도 변화: 물리 법칙까지 계산하는 AI 모델 VOID의 등장

단순히 픽셀을 채우는 기존 방식을 넘어, 객체 제거 후의 물리적 반응까지 완벽하게 시뮬레이션합니다.
쿼드마스크(Quadmask) 기술을 통해 배경과 객체, 그리고 상호작용 영역을 정교하게 구분하여 압도적인 결과물을 생성합니다.
2단계 추론 파이프라인으로 영상 편집의 고질병인 객체 왜곡(Morphing) 문제를 해결하고 결과물의 안정성을 극대화했습니다.

영상 편집의 가장 큰 비밀이자 골칫거리는 객체 제거였습니다. 단순히 화면에서 물체를 지우는 것은 쉬웠지만, 그 빈자리를 자연스럽게 메우는 것은 할리우드의 베테랑 전문가들도 수주를 매달려야 하는 난제였습니다. 예를 들어, 기타를 들고 있는 사람을 지우면 둥둥 떠 있는 기타가 남거나 어색한 왜곡이 발생하곤 했습니다. 하지만 넷플릭스와 INSAIT 연구진이 공개한 VOID(Video Object and Interaction Deletion)는 이러한 한계를 완전히 무너뜨렸습니다. VOID는 영상 편집의 새로운 기준을 제시하며, 현업 전문가들에게 시간과 비용을 획기적으로 절감할 수 있는 강력한 무기를 제공합니다.

이 기술이 가진 진정한 파괴력은 단순한 영상 채우기(Inpainting)가 아닌, 물리적 인과관계를 이해하는 능력에 있습니다. 기존 모델들은 그림자나 반사 같은 외형적 정보만 처리할 뿐, 객체가 사라진 후 그 자리에 남아있던 물체들이 어떻게 반응해야 하는지 계산하지 못했습니다. VOID는 CogVideoX를 기반으로 하여 장면의 맥락을 완벽하게 파악합니다. 기타를 든 사람이 사라지면, 기타가 중력에 의해 자연스럽게 바닥으로 떨어져야 한다는 사실을 물리적으로 계산하여 영상에 반영합니다. 이는 단순한 시각적 속임수를 넘어, 영상 제작의 물리적 정합성을 완성하는 획기적인 도약입니다.

쿼드마스크로 완성하는 정교한 공간 이해

VOID가 기존의 평범한 AI 도구들과 차별화되는 핵심 혁신은 쿼드마스크(Quadmask)에 있습니다. 기존 방식이 단순히 지울 영역과 남길 영역이라는 이진법적 사고에 갇혀 있었다면, VOID는 0부터 255까지의 4단계 수치를 사용하여 영역을 세밀하게 정의합니다. 삭제할 객체, 객체와 겹치는 영역, 물리적 상호작용으로 인해 변해야 할 영역, 그리고 고정된 배경을 명확하게 구분합니다. 이러한 구조적 시맨틱 맵(Semantic Map)을 통해 AI는 무엇을 지울지 결정할 뿐만 아니라, 그 변화가 주변 환경에 어떤 연쇄 반응을 일으킬지 계산합니다. 이 정밀함이 바로 편집자가 원하는 결과물의 퀄리티를 결정짓는 핵심 차이입니다.

2단계 추론으로 해결한 왜곡 문제

영상 생성이 대중화되면서 가장 큰 장애물 중 하나는 바로 객체 왜곡 현상이었습니다. 영상이 재생되는 동안 객체가 기괴하게 뭉개지거나 형태를 잃는 현상은 영상 편집자의 실무를 방해하는 치명적인 요소였습니다. VOID는 이를 위해 2단계 추론 파이프라인을 도입했습니다. 1단계에서는 기본적인 인페인팅을 수행하고, 2단계에서는 옵티컬 플로우(Optical Flow)를 활용해 객체의 형태를 고정합니다. 이 과정을 통해 첫 번째 단계에서 생성된 영상의 왜곡을 보정하고 객체의 궤적을 안정화합니다. 이는 단순히 편집 속도를 높이는 것을 넘어, 결과물의 상업적 활용 가치를 확보하는 필수적인 과정입니다.

학습 데이터의 차원이 다른 전략

VOID의 완성도가 높은 이유는 학습 데이터의 질 때문입니다. 연구진은 현실의 방대한 데이터를 흉내 내는 대신, 합성 데이터를 활용해 물리 법칙이 완벽하게 적용된 쌍(Pair) 데이터를 구축했습니다. HUMOTO와 Google의 Kubric 프레임워크를 사용하여 Blender 물리 시뮬레이션을 실행하고, 인간과 객체의 상호작용이 제거된 시나리오를 과학적으로 시뮬레이션했습니다. 이를 통해 AI는 눈대중이 아닌 물리 법칙에 기반한 VOID만의 논리를 학습했습니다. 영상 편집 전문가들이 현장에서 겪던 물리적 정합성 오류를 이제는 실시간에 가까운 속도로 해결할 수 있게 된 것입니다.

변화는 이미 시작되었습니다. 복잡한 수동 편집 과정에서 벗어나 AI의 강력한 연산 능력을 실무에 투입하십시오. VOID와 같은 차세대 AI 모델을 활용해 불필요한 작업 시간은 줄이고 크리에이티브한 본질에 집중할 때입니다.

심층 분석 및 시사점

VOID는 3D Transformer 기반의 CogVideoX를 인페인팅에 최적화하여 시간적 일관성을 확보했습니다. 쿼드마스크 기술을 통해 단순 픽셀 복구가 아닌 장면의 의미론적 구조를 모델이 이해하게 만들었습니다. 2단계 추론 파이프라인은 옵티컬 플로우를 사용하여 고질적인 객체 왜곡 문제를 해결하고 형태 안정성을 보장합니다. 물리 시뮬레이션 기반의 합성 데이터셋 활용은 실제 데이터 부족 문제를 해결한 혁신적인 데이터 전략입니다.

원문 출처: Netflix AI Team Just Open-Sourced VOID: an AI Model That Erases Objects From Videos — Physics and All

넷플릭스가 터뜨린 영상 편집의 변화. 물리 법칙까지 계산하는 AI 모델 VOID의 등장

쿼드마스크로 완성하는 정교한 공간 이해

2단계 추론으로 해결한 왜곡 문제

학습 데이터의 차원이 다른 전략

심층 분석 및 시사점

AI의 손발을 해방하라. MCP가 바꾸는 실무의 판도

앤스로픽의 독주와 오픈AI의 위기, 비상장 주식 시장이 경고하는 진짜 승자

클라우드 API 비용은 이제 끝. 구글 Gemma 4와 NVIDIA가 여는 로컬 AI의 새로운 시대

AI 에이전트 개발의 패러다임을 바꾼다: A-Evolve로 끝내는 수동 튜닝의 시대

PENTACROSS

넷플릭스가 터뜨린 영상 편집의 변화. 물리 법칙까지 계산하는 AI 모델 VOID의 등장

쿼드마스크로 완성하는 정교한 공간 이해

2단계 추론으로 해결한 왜곡 문제

학습 데이터의 차원이 다른 전략

심층 분석 및 시사점

AI의 손발을 해방하라. MCP가 바꾸는 실무의 판도

You May Also Like

앤스로픽의 독주와 오픈AI의 위기, 비상장 주식 시장이 경고하는 진짜 승자

클라우드 API 비용은 이제 끝. 구글 Gemma 4와 NVIDIA가 여는 로컬 AI의 새로운 시대

AI 에이전트 개발의 패러다임을 바꾼다: A-Evolve로 끝내는 수동 튜닝의 시대

PENTACROSS