यह पोस्ट Qwen 3.5 Omni: Alibaba's AI Model Can Now Hear, Watch, and Clone Your Voice BitcoinEthereumNews.com पर प्रकाशित हुई। संक्षेप में Alibaba का Qwen 3.5 Omni लाता हैयह पोस्ट Qwen 3.5 Omni: Alibaba's AI Model Can Now Hear, Watch, and Clone Your Voice BitcoinEthereumNews.com पर प्रकाशित हुई। संक्षेप में Alibaba का Qwen 3.5 Omni लाता है

Qwen 3.5 Omni: अलीबाबा का AI मॉडल अब सुन सकता है, देख सकता है और आपकी आवाज़ की नकल कर सकता है

2026/03/31 04:07
6 मिनट पढ़ें
इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया crypto.news@mexc.com पर हमसे संपर्क करें

संक्षेप में

  • Alibaba का Qwen 3.5 Omni सीमांत दौड़ में वास्तविक रियल-टाइम ऑम्निमॉडल AI लाता है।
  • नेटिव ऑडियो-विज़ुअल प्रोसेसिंग गति और सुसंगति में स्टिच किए गए मल्टीमॉडल पाइपलाइनों को पीछे छोड़ देती है।
  • वॉइस क्लोनिंग, सिमेंटिक इंटरप्शन, और वाइब कोडिंग पूरी तरह से इंटरैक्टिव AI एजेंटों की ओर बदलाव का संकेत देते हैं।

Alibaba ने अभी तक का अपना सबसे महत्वाकांक्षी AI अपग्रेड जारी किया है।

कंपनी की Qwen टीम ने रविवार को Qwen 3.5 Omni जारी किया, जो इसके "ऑम्निमॉडल" AI का एक नया संस्करण है जो टेक्स्ट, इमेज, ऑडियो और वीडियो को एक साथ प्रोसेस करता है, और 36 भाषाओं में रियल टाइम में जवाब देता है, अपने मॉडल को वर्तमान में उपलब्ध नवीनतम अत्याधुनिक AI फाउंडेशनल मॉडल्स के समान युद्धक्षेत्र में रखता है।

"Omni" यहाँ सिर्फ एक मार्केटिंग बज़वर्ड नहीं है। आप जिन अधिकांश AI मॉडल्स के साथ इंटरैक्ट करते हैं वे मुख्य रूप से टेक्स्ट-इन, टेक्स्ट-आउट सिस्टम हैं। कुछ इमेज हैंडल करते हैं, कुछ वॉइस हैंडल करते हैं। Qwen 3.5 Omni उन सभी को नेटिवली, एक ही समय में हैंडल करता है, बिना थर्ड-पार्टी टूल्स के माध्यम से सब कुछ टेक्स्ट में बदलने की आवश्यकता के।

नया मॉडल तीन आकारों में आता है—Plus, Flash, और Light—सभी एक छोटी (आज के मानकों के अनुसार) 256,000-टोकन कॉन्टेक्स्ट विंडो को सपोर्ट करते हैं। इसे 100 मिलियन घंटे से अधिक के ऑडियो-विज़ुअल डेटा पर ट्रेन किया गया था—एक स्केल जो इसे अधिकांश प्रतिस्पर्धियों से अलग वेट क्लास में रखता है।

Qwen 3.5 Omni, Qwen 3 Omni Flash का विकास है, जो Alibaba का पिछला ऑम्निमॉडल मॉडल है जिसे दिसंबर 2025 में जारी किया गया था। वह संस्करण पहले से ही वीडियो और ऑडियो को एक साथ प्रोसेस करने की अपनी क्षमता से प्रभावित कर चुका था—यह कई विज़ुअल इनपुट्स को मिलाकर इमेज एडिटिंग निर्देशों को उन तरीकों से हैंडल कर सकता था जो प्रतिस्पर्धी नहीं कर सकते थे—और 234 मिलीसेकंड जितनी कम लेटेंसी के साथ वॉइस रिस्पॉन्स स्ट्रीम करता था।

यह Google के NotebookLM के विकल्प को आज़माने वाला पहला मॉडल भी था। इसने कुछ हासिल किया, लेकिन गुणवत्ता Google के ऑफर के बराबर नहीं थी।

Qwen 3.5 Omni उन सभी को लेता है और एक लंबी कॉन्टेक्स्ट विंडो, बेहतर रीज़निंग, एक बहुत व्यापक भाषा लाइब्रेरी, और रियल-टाइम इंटरैक्शन फीचर्स का एक सेट जोड़ता है जो पिछली पीढ़ी में नहीं थे।

मुख्य अपग्रेड यह है कि जब आप वास्तव में इससे बात करते हैं तो क्या होता है। Qwen3.5-Omni अब सिमेंटिक इंटरप्शन को सपोर्ट करता है: यह यह अंतर बता सकता है कि आप मध्य-वाक्य में "उह-हह" कह रहे हैं या वास्तव में बीच में आना चाहते हैं, इसलिए यह हर बार जब कोई बैकग्राउंड में खांसता है तो बीच विचार में नहीं रुकेगा, जिससे स्पोकन इंटरैक्शन अधिक सहज हो जाता है।

ARIA नामक एक नई तकनीक, जो Adaptive Rate Interleave Alignment का संक्षिप्त रूप है, एक सूक्ष्म लेकिन लगातार परेशानी को भी ठीक करती है: AI सिस्टम जो ज़ोर से पढ़ते समय नंबर या असामान्य शब्दों को गड़बड़ा देते हैं। ARIA आउटपुट को प्राकृतिक और सटीक रखने के लिए टेक्स्ट और स्पीच को गतिशील रूप से सिंक करता है।

फिर वॉइस क्लोनिंग है। यूज़र्स एक वॉइस सैंपल अपलोड कर सकते हैं और मॉडल को अपने रिस्पॉन्स में उस वॉइस को अपनाने के लिए कह सकते हैं, एक फीचर जो Qwen को सीधे ElevenLabs और अन्य समर्पित वॉइस टूल्स के साथ प्रतिस्पर्धा में डालता है। हालांकि, हम इस फीचर को एक्सेस नहीं कर पाए, क्योंकि यह एक ऐसा फीचर है जो, कम से कम अभी के लिए, केवल API के माध्यम से उपलब्ध है।

मल्टीलिंगुअल वॉइस स्टेबिलिटी बेंचमार्क पर, Qwen3.5 Omni- Plus ने 20 भाषाओं में ElevenLabs, GPT-Audio, और Minimax को हराया। मॉडल अब रियल-टाइम वेब सर्च को भी सपोर्ट करता है, जिसका अर्थ है कि यह ब्रेकिंग न्यूज़ या लाइव मार्केट डेटा के बारे में सवालों का जवाब दे सकता है बिना यह दिखावा किए कि वह पहले से ही जानता है।

टीम उस चीज़ को भी हाइलाइट कर रही है जिसे वे "Audio-Visual Vibe Coding" कह रहे हैं, मॉडल एक स्क्रीन रिकॉर्डिंग या कोडिंग टास्क का वीडियो देख सकता है और केवल उसे जो देखता और सुनता है उसके आधार पर फंक्शनल कोड लिख सकता है, कोई टेक्स्ट प्रॉम्प्ट की आवश्यकता नहीं। यह एक छोटा पूर्वावलोकन है कि AI असिस्टेंट अंततः आपके वर्कफ्लो के साथ के बजाय उसके अंदर कैसे काम कर सकते हैं।

यह समझने के लिए कि "ऑम्निमॉडल" का व्यावहारिक रूप से वास्तव में क्या मतलब है, हमने एक त्वरित परीक्षण चलाया: हमने Qwen3.5-Omni और ChatGPT 5.4 दोनों को "thinking" मोड में एक ही YouTube Short फीड किया—Dastan President (Dastan, Decrypt की पैरेंट कंपनी है) और कमेंटेटर Farokh की ब्रेकिंग न्यूज़ पर चर्चा करने वाली एक क्लिप। Qwen 3.5 Omni ने वीडियो को नेटिवली प्रोसेस किया और लगभग एक मिनट में पूर्ण विश्लेषण लौटाया: कौन बोल रहा था, वे क्या चर्चा कर रहे थे, और विषय क्षेत्र के अपने ज्ञान के आधार पर विषय पर एक ठोस टिप्पणी।

ChatGPT 5.4, जो ऑम्निमॉडल नहीं है, को जो मिला उससे मैनेज करना पड़ा। इसने वीडियो से फ्रेम्स निकाले, उन्हें एक विज़न मॉडल के माध्यम से चलाया, ऑडियो को ट्रांसक्राइब करने के लिए Whisper का उपयोग किया, और एम्बेडेड सबटाइटल्स पढ़ने के लिए एक OCR टूल लगाया—तीन अलग-अलग प्रक्रियाएं जो Qwen3.5-Omni एक ही पास में क्या करता है उसे अनुमानित करने के लिए एक साथ स्टिच की गईं। परिणाम को नौ मिनट लगे, और यह आदर्श परिस्थितियों में है: एक अच्छी तरह से रोशन वीडियो जिसमें साफ़ ऑडियो और बर्न-इन सबटाइटल्स हों। वास्तविक दुनिया की सामग्री शायद ही कभी तीनों प्रदान करती है।

कई इनपुट्स पर हमारे त्वरित परीक्षणों में, मॉडल ने स्पैनिश, पुर्तगाली और अंग्रेजी में प्रॉम्प्ट को भी बिना किसी समस्या के हैंडल किया—कॉन्टेक्स्ट खोए बिना बातचीत के बीच में भाषाएं बदलते हुए।

मानक बेंचमार्क पर, Qwen 3.5 Omni Plus ने सामान्य ऑडियो समझ, रीज़निंग, और अनुवाद कार्यों पर Gemini 3.1 Pro को पीछे छोड़ दिया, और ऑडियो-विज़ुअल कॉम्प्रिहेंशन पर इसके बराबर रहा। स्पीच रिकग्निशन अब 113 भाषाओं और बोलियों को कवर करती है—पिछली पीढ़ी में 19 से।

यह छह सप्ताह में Alibaba की दूसरी प्रमुख AI रिलीज़ है। फरवरी में, इसने Qwen 3.5 लॉन्च किया, एक टेक्स्ट-और-विज़न मॉडल जो रीज़निंग और कोडिंग बेंचमार्क पर फ्रंटियर मॉडल्स को मैच या हराता है—एक स्ट्रीक का हिस्सा जिसमें Qwen Deep Research और OpenAI और Google के प्रतिद्वंद्वी टूल्स की एक लाइनअप भी शामिल है। Qwen 3.5 Omni उस गति को पूर्ण मल्टीमॉडल क्षेत्र में बढ़ाता है, एक ऐसे समय में जब हर प्रमुख AI लैब ऐसे सिस्टम बनाने के लिए दौड़ रही है जो मानव संचार के पूर्ण स्पेक्ट्रम को हैंडल करें—न केवल स्क्रीन पर शब्द।

मॉडल अब Alibaba Cloud के API के माध्यम से उपलब्ध है और Qwen Chat पर या Hugging Face के ऑनलाइन डेमो के माध्यम से सीधे परीक्षण किया जा सकता है।

Daily Debrief Newsletter

हर दिन की शुरुआत अभी की शीर्ष समाचार कहानियों के साथ करें, साथ ही मूल फीचर्स, एक पॉडकास्ट, वीडियो और बहुत कुछ।

स्रोत: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

मार्केट अवसर
Confidential Layer लोगो
Confidential Layer मूल्य(CLONE)
$0.005548
$0.005548$0.005548
-0.23%
USD
Confidential Layer (CLONE) मूल्य का लाइव चार्ट
अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए crypto.news@mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.