Netflix VOID — 상호작용 인식 비디오 객체 삭제

Thu, 16 Apr 2026 00:00:00 +0900

개요

VOID — Video Object and Interaction Deletion — 는 Netflix와 INSAIT의 연구 프로젝트로, 기존 비디오 인페인팅이 무시하는 문제를 다룹니다: 객체를 제거하면 물리적 세계에 무슨 일이 일어나는가? 기타를 들고 있는 사람을 장면에서 제거하면 기존 방법은 공중에 떠 있는 기타를 남기거나 흐릿한 추측으로 영역을 채웁니다. VOID는 객체와 물리적 상호작용을 함께 제거하여 기타가 자연스럽게 떨어지게 합니다. CogVideoX를 기반으로 상호작용 인식 인페인팅에 맞게 미세 조정되었으며, 쿼드마스크 인코딩과 2패스 시스템으로 시간적으로 일관된 결과를 달성합니다. GitHub 스타 1,598개를 기록하고 있습니다.

2패스 파이프라인

VOID의 핵심 아키텍처는 공간적 정확도와 시간적 일관성을 모두 다루는 2패스 정제 시스템입니다. 패스 1은 기본 인페인팅을 수행합니다 — 대상 객체를 제거하고 그럴듯한 콘텐츠로 영역을 채웁니다. 이 패스는 객체가 점유한 공간에 무엇이 존재해야 하는지의 근본적인 질문을 처리하며, 상호작용 의존성 해결을 포함합니다.

패스 2는 시간적 일관성을 위한 워프 노이즈 정제를 적용합니다. 비디오 인페인팅은 채워진 영역이 프레임 간에 일관되어야 하기 때문에 이미지 인페인팅보다 근본적으로 더 어렵습니다. 단일 패스 접근 방식은 종종 깜빡이거나 이동하거나 미묘한 시간적 아티팩트를 포함하는 결과를 생성합니다. 패스 2의 워프 노이즈 정제는 기본 인페인팅 결과를 가져와 비디오의 광학 흐름에 따라 워프된 노이즈 패턴을 전파하여 정제합니다.

이 2패스 설계는 실용적인 엔지니어링 결정입니다. 공간적 정확도와 시간적 일관성을 동시에 최적화하려고 시도하면 서로 경쟁하는 목표가 생겨 둘 다 저하됩니다. 관심사를 분리함으로써 각 패스가 다른 패스의 출력을 기반으로 하면서 주요 목표에 집중할 수 있습니다.

flowchart LR
 A["비디오"] --> B["포인트 선택"]
 B --> C["SAM2 + VLM<br/>마스크 생성"]
 C --> D["패스 1<br/>기본 인페인팅"]
 D --> E["패스 2<br/>워프 노이즈 정제"]
 E --> F["클린 비디오"]

쿼드마스크 인코딩

쿼드마스크 인코딩 시스템은 아마도 VOID의 가장 기술적으로 독특한 기여입니다. 단순한 바이너리 마스크(제거 vs. 유지) 대신, VOID는 장면을 네 개의 의미적 영역으로 분할합니다: 제거할 주 객체, 객체가 다른 객체와 접촉하는 중첩 영역, 물리적 상호작용이 변할 영향 영역, 그리고 정적으로 유지되는 배경입니다.

이 4영역 분해는 모델에게 장면의 물리학에 대한 명시적 정보를 제공합니다. 중첩 영역이 상호작용 인식 인페인팅이 일어나는 곳입니다 — 모델은 이 영역의 객체가 제거된 객체에 의해 물리적으로 지지되거나 연결되어 있었음을 알고 있습니다. 영향 영역은 물리적 결과의 연쇄를 포착합니다: 쟁반을 들고 있는 사람이 제거되면 쟁반은 영향 영역에 진입하고, 모델은 물리적으로 무슨 일이 일어나야 하는지 결정해야 합니다.

기존의 바이너리 마스크는 제거를 단순한 채우기 작업으로 취급합니다. 쿼드마스크 인코딩은 이를 모델이 나머지 장면이 어떻게 진화해야 하는지에 대해 물리적으로 그럴듯한 결정을 내릴 수 있는 의미적 맥락을 가진 물리 정보 합성 문제로 변환합니다.

SAM2와 Gemini VLM을 이용한 마스크 생성

정확한 쿼드마스크 생성에는 공간적 경계와 의미적 관계 모두에 대한 이해가 필요합니다. VOID는 정밀한 공간 세그멘테이션을 위한 SAM2(Segment Anything Model 2)와 객체 상호작용의 의미적 이해를 위한 Gemini VLM(Vision-Language Model)을 결합합니다.

SAM2는 초기 객체 세그멘테이션을 제공합니다 — 대상 객체의 포인트 선택이 주어지면 비디오 전체에서 객체를 추적하는 정밀한 프레임별 마스크를 생성합니다. 그러나 SAM2만으로는 장면의 어떤 부분이 대상 객체와 물리적으로 상호작용하는지 결정할 수 없습니다. 여기서 Gemini VLM이 기여합니다: 장면을 분석하여 상호작용 영역, 접촉점, 영향 영역을 식별하고, 바이너리 마스크를 4영역 쿼드마스크로 변환하는 의미적 계층을 제공합니다.

이 하이브리드 접근 방식은 각 모델의 강점을 활용하기 때문에 효과적입니다. SAM2는 공간적 정밀도에 뛰어나지만 물리적 상호작용에 대한 의미적 이해가 부족합니다. VLM은 장면 의미를 이해하지만 픽셀 수준의 정밀도가 부족합니다. 함께 사용하면 공간적으로 정확하고 의미적으로 정보가 있는 마스크를 생성합니다.

하드웨어 요구사항과 한계

VOID는 40GB 이상의 VRAM을 요구하며, 소비자 사용이 아닌 연구 및 전문 프로덕션 카테고리에 확실히 자리매김합니다. 이 요구사항은 CogVideoX 기반 모델의 크기와 상호작용 인식 인페인팅을 위한 추가 매개변수에서 비롯됩니다. 2패스 파이프라인은 또한 추론 시간이 단일 패스 접근 방식에 비해 대략 두 배가 됨을 의미합니다.

Netflix와 INSAIT의 저자들은 이 작업을 즉시 배포 가능한 제품이 아닌 프로덕션 함의가 있는 연구 기여로 포지셔닝합니다. 핵심 통찰 — 상호작용 인식 제거가 쿼드마스크 인코딩을 통한 명시적 물리적 추론을 필요로 한다는 것 — 은 이 특정 구현이 리소스 집약적으로 남더라도 향후 비디오 편집 도구에 영향을 미칠 것입니다.

인사이트

VOID는 한번 이름이 붙으면 명백해지는 격차를 해결합니다: 물리적 효과를 제거하지 않고 비디오에서 객체를 제거하면 기이한 결과가 나옵니다. 쿼드마스크 인코딩 접근 방식이 핵심 혁신입니다 — 모델에게 물리적 상호작용에 대한 명시적 의미 영역을 제공함으로써 인페인팅을 텍스처 합성 문제에서 물리 정보 생성 문제로 변환합니다. 2패스 아키텍처는 공간적 정확도와 시간적 일관성의 경쟁 목표에 대한 실용적 해결책입니다. 40GB 이상의 VRAM 요구사항이 현재 접근성을 제한하지만, 개념적 프레임워크는 더 효율적인 아키텍처로 전파될 것입니다. 비디오 프로덕션 팀에게 이는 컴퓨팅 요구사항이 감소하면 후반 작업 워크플로우를 근본적으로 바꿀 수 있는 능력을 나타냅니다.