O serviço de streaming global Netflix introduziu o VOID, uma framework open-source projetada para remover objetos de vídeo preservando as interações físicas que eles criam, abordando limitações observadas em ferramentas tradicionais de inpainting e eliminação de objetos.
Historicamente, remover um objeto de uma cena tem sido direto, mas garantir que o ambiente se comporte de forma realista depois tem representado desafios significativos. Por exemplo, apagar uma pessoa segurando uma guitarra deixa o instrumento suspenso de forma não natural, e remover um mergulhador de uma piscina pode deixar a água imóvel. Equipas de efeitos visuais têm tradicionalmente corrigido esses problemas manualmente, um processo demorado que pode estender-se de dias a semanas para uma única cena.
O VOID, abreviação de Video Object and Interaction Deletion, destina-se a resolver estas complicações. Ao contrário dos métodos convencionais que meramente preenchem pixels ausentes, o sistema prevê resultados fisicamente consistentes para a cena uma vez que o objeto é removido.
Aproveita uma combinação de tecnologias para alcançar isto. O Gemini da Google analisa a cena para identificar áreas que serão afetadas pela eliminação, enquanto o SAM2 da Meta segmenta os objetos a serem removidos. Esses resultados são codificados numa quadmask, um mapa de quatro valores que indica quais áreas apagar, quais se sobrepõem, quais são fisicamente impactadas e quais permanecem intocadas. Um modelo de difusão de vídeo construído sobre o CogVideoX da Alibaba reconstrói então a cena de forma fisicamente plausível. Uma segunda passagem opcional aplica fluxo ótico para corrigir quaisquer distorções da reconstrução inicial.
Demonstrações do VOID mostram resultados convincentes: balões ascendem naturalmente quando um suporte é removido, blocos mantêm estabilidade quando blocos não relacionados são apagados, e superfícies de piscinas permanecem inalteradas após uma pessoa ser apagada. Num estudo de preferência humana com 25 participantes, o VOID foi favorecido 64,8 por cento das vezes, superando o Runway, uma alternativa comercial líder, que alcançou apenas 18,4 por cento.
Este lançamento marca a primeira ferramenta de IA publicamente disponível da Netflix Research. Licenciado sob Apache 2.0, o VOID pode ser usado comercialmente e está hospedado no Hugging Face. Os requisitos de hardware atualmente limitam o acesso, sendo necessária uma GPU com 40GB de VRAM para executar o modelo, mas otimizações futuras e custos reduzidos de infraestrutura podem alargar a disponibilidade. O VOID representa uma mudança na tecnologia de produção de vídeo, passando de ferramentas simples de eliminação para sistemas capazes de compreender e reconstruir cenas de forma realista, um desenvolvimento com implicações significativas para fluxos de trabalho profissionais.
O post Netflix Revela VOID: Framework Open-Source Para Remoção Fisicamente Consistente de Objetos em Vídeo apareceu primeiro no Metaverse Post.
