वैश्विक स्ट्रीमिंग सेवा Netflix ने VOID पेश किया है, जो एक ओपन-सोर्स फ्रेमवर्क है जिसे वीडियो से ऑब्जेक्ट्स को हटाने के लिए डिज़ाइन किया गया है, साथ ही उनके द्वारा बनाए गए भौतिक इंटरैक्शन को संरक्षित करते हुए, पारंपरिक इनपेंटिंग और ऑब्जेक्ट-इरेज़िंग टूल्स में देखी गई सीमाओं को संबोधित करता है।
ऐतिहासिक रूप से, किसी दृश्य से किसी ऑब्जेक्ट को हटाना सीधा रहा है, लेकिन इसके बाद वातावरण को यथार्थवादी ढंग से व्यवहार करवाना महत्वपूर्ण चुनौतियां पेश करता रहा है। उदाहरण के लिए, गिटार पकड़े हुए व्यक्ति को हटाने से वाद्ययंत्र अप्राकृतिक रूप से लटका रह जाता है, और पूल से गोताखोर को हटाने से पानी अप्रभावित रह सकता है। विजुअल इफेक्ट्स टीमों ने पारंपरिक रूप से इस तरह के मुद्दों को मैन्युअल रूप से ठीक किया है, एक समय लेने वाली प्रक्रिया जो एक दृश्य के लिए दिनों से हफ्तों तक चल सकती है।
VOID, जो Video Object and Interaction Deletion का संक्षिप्त रूप है, इन जटिलताओं को हल करने के लिए है। पारंपरिक तरीकों के विपरीत जो केवल लापता पिक्सेल को भरते हैं, यह सिस्टम ऑब्जेक्ट हटाए जाने के बाद दृश्य के लिए भौतिक रूप से सुसंगत परिणामों की भविष्यवाणी करता है।
यह इसे प्राप्त करने के लिए प्रौद्योगिकियों के संयोजन का लाभ उठाता है। Google का Gemini दृश्य का विश्लेषण करता है ताकि उन क्षेत्रों की पहचान की जा सके जो विलोपन से प्रभावित होंगे, जबकि Meta का SAM2 हटाए जाने वाले ऑब्जेक्ट्स को सेगमेंट करता है। इन आउटपुट को एक क्वाडमास्क में एनकोड किया जाता है, एक चार-मूल्य मानचित्र जो यह इंगित करता है कि कौन से क्षेत्रों को मिटाना है, कौन से ओवरलैप करते हैं, कौन से भौतिक रूप से प्रभावित होते हैं, और कौन से अछूते रहते हैं। Alibaba के CogVideoX पर निर्मित एक वीडियो डिफ्यूजन मॉडल फिर दृश्य को भौतिक रूप से प्रशंसनीय तरीके से पुनर्निर्माण करता है। एक वैकल्पिक दूसरा पास प्रारंभिक पुनर्निर्माण से किसी भी विकृति को ठीक करने के लिए ऑप्टिकल फ्लो लागू करता है।
VOID के प्रदर्शन सम्मोहक परिणाम दिखाते हैं: जब धारक को हटा दिया जाता है तो गुब्बारे स्वाभाविक रूप से ऊपर उठते हैं, असंबंधित ब्लॉक हटाए जाने पर ब्लॉक स्थिरता बनाए रखते हैं, और किसी व्यक्ति को मिटाए जाने के बाद पूल की सतह अप्रभावित रहती है। 25 प्रतिभागियों के साथ एक मानव प्राथमिकता अध्ययन में, VOID को 64.8 प्रतिशत समय पसंद किया गया, जो Runway से बेहतर प्रदर्शन कर रहा था, एक अग्रणी वाणिज्यिक विकल्प, जिसने केवल 18.4 प्रतिशत हासिल किया।
यह रिलीज़ Netflix Research के पहले सार्वजनिक रूप से उपलब्ध AI टूल को चिह्नित करती है। Apache 2.0 के तहत लाइसेंस प्राप्त, VOID का व्यावसायिक रूप से उपयोग किया जा सकता है और यह Hugging Face पर होस्ट किया गया है। हार्डवेयर आवश्यकताएं वर्तमान में पहुंच को सीमित करती हैं, मॉडल चलाने के लिए 40GB VRAM GPU की आवश्यकता होती है, लेकिन भविष्य के अनुकूलन और कम बुनियादी ढांचे की लागत उपलब्धता को व्यापक बना सकती है। VOID वीडियो उत्पादन तकनीक में एक बदलाव का प्रतिनिधित्व करता है, सरल इरेज़र टूल्स से उन सिस्टम की ओर बढ़ते हुए जो दृश्यों को समझने और यथार्थवादी रूप से पुनर्निर्माण करने में सक्षम हैं, पेशेवर वर्कफ़्लो के लिए महत्वपूर्ण प्रभावों वाला एक विकास।
पोस्ट Netflix Unveils VOID: Open-Source Framework For Physically Consistent Video Object Removal पहली बार Metaverse Post पर प्रकाशित हुई।

