संक्षेप में
- Alibaba का Qwen 3.5 Omni सीमांत दौड़ में वास्तविक रियल-टाइम ऑम्निमॉडल AI लाता है।
- नेटिव ऑडियो-विज़ुअल प्रोसेसिंग गति और सुसंगति में स्टिच किए गए मल्टीमॉडल पाइपलाइनों को पीछे छोड़ देती है।
- वॉइस क्लोनिंग, सिमेंटिक इंटरप्शन, और वाइब कोडिंग पूरी तरह से इंटरैक्टिव AI एजेंटों की ओर बदलाव का संकेत देते हैं।
Alibaba ने अभी तक का अपना सबसे महत्वाकांक्षी AI अपग्रेड जारी किया है।
कंपनी की Qwen टीम ने रविवार को Qwen 3.5 Omni जारी किया, जो इसके "ऑम्निमॉडल" AI का एक नया संस्करण है जो टेक्स्ट, इमेज, ऑडियो और वीडियो को एक साथ प्रोसेस करता है, और 36 भाषाओं में रियल टाइम में जवाब देता है, अपने मॉडल को वर्तमान में उपलब्ध नवीनतम अत्याधुनिक AI फाउंडेशनल मॉडल्स के समान युद्धक्षेत्र में रखता है।
"Omni" यहाँ सिर्फ एक मार्केटिंग बज़वर्ड नहीं है। आप जिन अधिकांश AI मॉडल्स के साथ इंटरैक्ट करते हैं वे मुख्य रूप से टेक्स्ट-इन, टेक्स्ट-आउट सिस्टम हैं। कुछ इमेज हैंडल करते हैं, कुछ वॉइस हैंडल करते हैं। Qwen 3.5 Omni उन सभी को नेटिवली, एक ही समय में हैंडल करता है, बिना थर्ड-पार्टी टूल्स के माध्यम से सब कुछ टेक्स्ट में बदलने की आवश्यकता के।
नया मॉडल तीन आकारों में आता है—Plus, Flash, और Light—सभी एक छोटी (आज के मानकों के अनुसार) 256,000-टोकन कॉन्टेक्स्ट विंडो को सपोर्ट करते हैं। इसे 100 मिलियन घंटे से अधिक के ऑडियो-विज़ुअल डेटा पर ट्रेन किया गया था—एक स्केल जो इसे अधिकांश प्रतिस्पर्धियों से अलग वेट क्लास में रखता है।
Qwen 3.5 Omni, Qwen 3 Omni Flash का विकास है, जो Alibaba का पिछला ऑम्निमॉडल मॉडल है जिसे दिसंबर 2025 में जारी किया गया था। वह संस्करण पहले से ही वीडियो और ऑडियो को एक साथ प्रोसेस करने की अपनी क्षमता से प्रभावित कर चुका था—यह कई विज़ुअल इनपुट्स को मिलाकर इमेज एडिटिंग निर्देशों को उन तरीकों से हैंडल कर सकता था जो प्रतिस्पर्धी नहीं कर सकते थे—और 234 मिलीसेकंड जितनी कम लेटेंसी के साथ वॉइस रिस्पॉन्स स्ट्रीम करता था।
यह Google के NotebookLM के विकल्प को आज़माने वाला पहला मॉडल भी था। इसने कुछ हासिल किया, लेकिन गुणवत्ता Google के ऑफर के बराबर नहीं थी।
Qwen 3.5 Omni उन सभी को लेता है और एक लंबी कॉन्टेक्स्ट विंडो, बेहतर रीज़निंग, एक बहुत व्यापक भाषा लाइब्रेरी, और रियल-टाइम इंटरैक्शन फीचर्स का एक सेट जोड़ता है जो पिछली पीढ़ी में नहीं थे।
मुख्य अपग्रेड यह है कि जब आप वास्तव में इससे बात करते हैं तो क्या होता है। Qwen3.5-Omni अब सिमेंटिक इंटरप्शन को सपोर्ट करता है: यह यह अंतर बता सकता है कि आप मध्य-वाक्य में "उह-हह" कह रहे हैं या वास्तव में बीच में आना चाहते हैं, इसलिए यह हर बार जब कोई बैकग्राउंड में खांसता है तो बीच विचार में नहीं रुकेगा, जिससे स्पोकन इंटरैक्शन अधिक सहज हो जाता है।
ARIA नामक एक नई तकनीक, जो Adaptive Rate Interleave Alignment का संक्षिप्त रूप है, एक सूक्ष्म लेकिन लगातार परेशानी को भी ठीक करती है: AI सिस्टम जो ज़ोर से पढ़ते समय नंबर या असामान्य शब्दों को गड़बड़ा देते हैं। ARIA आउटपुट को प्राकृतिक और सटीक रखने के लिए टेक्स्ट और स्पीच को गतिशील रूप से सिंक करता है।
फिर वॉइस क्लोनिंग है। यूज़र्स एक वॉइस सैंपल अपलोड कर सकते हैं और मॉडल को अपने रिस्पॉन्स में उस वॉइस को अपनाने के लिए कह सकते हैं, एक फीचर जो Qwen को सीधे ElevenLabs और अन्य समर्पित वॉइस टूल्स के साथ प्रतिस्पर्धा में डालता है। हालांकि, हम इस फीचर को एक्सेस नहीं कर पाए, क्योंकि यह एक ऐसा फीचर है जो, कम से कम अभी के लिए, केवल API के माध्यम से उपलब्ध है।
मल्टीलिंगुअल वॉइस स्टेबिलिटी बेंचमार्क पर, Qwen3.5 Omni- Plus ने 20 भाषाओं में ElevenLabs, GPT-Audio, और Minimax को हराया। मॉडल अब रियल-टाइम वेब सर्च को भी सपोर्ट करता है, जिसका अर्थ है कि यह ब्रेकिंग न्यूज़ या लाइव मार्केट डेटा के बारे में सवालों का जवाब दे सकता है बिना यह दिखावा किए कि वह पहले से ही जानता है।
टीम उस चीज़ को भी हाइलाइट कर रही है जिसे वे "Audio-Visual Vibe Coding" कह रहे हैं, मॉडल एक स्क्रीन रिकॉर्डिंग या कोडिंग टास्क का वीडियो देख सकता है और केवल उसे जो देखता और सुनता है उसके आधार पर फंक्शनल कोड लिख सकता है, कोई टेक्स्ट प्रॉम्प्ट की आवश्यकता नहीं। यह एक छोटा पूर्वावलोकन है कि AI असिस्टेंट अंततः आपके वर्कफ्लो के साथ के बजाय उसके अंदर कैसे काम कर सकते हैं।
यह समझने के लिए कि "ऑम्निमॉडल" का व्यावहारिक रूप से वास्तव में क्या मतलब है, हमने एक त्वरित परीक्षण चलाया: हमने Qwen3.5-Omni और ChatGPT 5.4 दोनों को "thinking" मोड में एक ही YouTube Short फीड किया—Dastan President (Dastan, Decrypt की पैरेंट कंपनी है) और कमेंटेटर Farokh की ब्रेकिंग न्यूज़ पर चर्चा करने वाली एक क्लिप। Qwen 3.5 Omni ने वीडियो को नेटिवली प्रोसेस किया और लगभग एक मिनट में पूर्ण विश्लेषण लौटाया: कौन बोल रहा था, वे क्या चर्चा कर रहे थे, और विषय क्षेत्र के अपने ज्ञान के आधार पर विषय पर एक ठोस टिप्पणी।
ChatGPT 5.4, जो ऑम्निमॉडल नहीं है, को जो मिला उससे मैनेज करना पड़ा। इसने वीडियो से फ्रेम्स निकाले, उन्हें एक विज़न मॉडल के माध्यम से चलाया, ऑडियो को ट्रांसक्राइब करने के लिए Whisper का उपयोग किया, और एम्बेडेड सबटाइटल्स पढ़ने के लिए एक OCR टूल लगाया—तीन अलग-अलग प्रक्रियाएं जो Qwen3.5-Omni एक ही पास में क्या करता है उसे अनुमानित करने के लिए एक साथ स्टिच की गईं। परिणाम को नौ मिनट लगे, और यह आदर्श परिस्थितियों में है: एक अच्छी तरह से रोशन वीडियो जिसमें साफ़ ऑडियो और बर्न-इन सबटाइटल्स हों। वास्तविक दुनिया की सामग्री शायद ही कभी तीनों प्रदान करती है।
कई इनपुट्स पर हमारे त्वरित परीक्षणों में, मॉडल ने स्पैनिश, पुर्तगाली और अंग्रेजी में प्रॉम्प्ट को भी बिना किसी समस्या के हैंडल किया—कॉन्टेक्स्ट खोए बिना बातचीत के बीच में भाषाएं बदलते हुए।
मानक बेंचमार्क पर, Qwen 3.5 Omni Plus ने सामान्य ऑडियो समझ, रीज़निंग, और अनुवाद कार्यों पर Gemini 3.1 Pro को पीछे छोड़ दिया, और ऑडियो-विज़ुअल कॉम्प्रिहेंशन पर इसके बराबर रहा। स्पीच रिकग्निशन अब 113 भाषाओं और बोलियों को कवर करती है—पिछली पीढ़ी में 19 से।
यह छह सप्ताह में Alibaba की दूसरी प्रमुख AI रिलीज़ है। फरवरी में, इसने Qwen 3.5 लॉन्च किया, एक टेक्स्ट-और-विज़न मॉडल जो रीज़निंग और कोडिंग बेंचमार्क पर फ्रंटियर मॉडल्स को मैच या हराता है—एक स्ट्रीक का हिस्सा जिसमें Qwen Deep Research और OpenAI और Google के प्रतिद्वंद्वी टूल्स की एक लाइनअप भी शामिल है। Qwen 3.5 Omni उस गति को पूर्ण मल्टीमॉडल क्षेत्र में बढ़ाता है, एक ऐसे समय में जब हर प्रमुख AI लैब ऐसे सिस्टम बनाने के लिए दौड़ रही है जो मानव संचार के पूर्ण स्पेक्ट्रम को हैंडल करें—न केवल स्क्रीन पर शब्द।
मॉडल अब Alibaba Cloud के API के माध्यम से उपलब्ध है और Qwen Chat पर या Hugging Face के ऑनलाइन डेमो के माध्यम से सीधे परीक्षण किया जा सकता है।
Daily Debrief Newsletter
हर दिन की शुरुआत अभी की शीर्ष समाचार कहानियों के साथ करें, साथ ही मूल फीचर्स, एक पॉडकास्ट, वीडियो और बहुत कुछ।
स्रोत: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

