मेटा ने लॉन्च किया म्यूज स्पार्क, अपनी अब तक की सबसे सक्षम AI—लेकिन जेमिनी 3.1 प्रो अभी भी आगे है

संक्षेप में

Meta का नया Muse Spark एजेंट-आधारित तर्क के साथ बंद, मूल रूप से मल्टीमॉडल AI की ओर एक बदलाव को चिह्नित करता है।
Meta स्वास्थ्य और खोज में मजबूत बेंचमार्क लाभ की रिपोर्ट करता है, लेकिन मुख्य तर्क और कोडिंग पर अभी भी Gemini से पीछे है।
नौ महीनों में बहुत कम कंप्यूट के साथ निर्मित, यह एक नई दक्षता-संचालित AI रणनीति की ओर इशारा करता है।

Meta ने बुधवार को Muse Spark लॉन्च किया, जो Meta Superintelligence Labs द्वारा निर्मित पहला मॉडल है—यह टीम मुख्य AI अधिकारी Alexandr Wang के तहत Meta के $14 बिलियन Scale AI अधिग्रहण के बाद नौ महीने पहले बनाई गई थी। यह अब meta.ai और Meta AI ऐप पर लाइव है, अगले कुछ हफ्तों में Facebook, Instagram और WhatsApp पर रोलआउट होगा।

यह सिर्फ एक और चैटबॉट अपग्रेड या Llama का नया संस्करण नहीं है। Muse Spark मूल रूप से मल्टीमॉडल है—यह शुरुआत से ही छवियों, टेक्स्ट और आवाज़ को प्रोसेस करता है, मौजूदा टेक्स्ट मॉडल पर विज़न जोड़ने के बजाय। इसमें विजुअल चेन-ऑफ-थॉट, टूल-यूज़ सपोर्ट और कुछ ऐसा है जिसे Meta "Contemplating mode" कह रहा है: एक सेटअप जो कठिन समस्याओं से निपटने के लिए समानांतर में कई AI एजेंट चलाता है। यह Google के Gemini Deep Think और OpenAI के GPT Pro से विस्तारित सोच मोड के लिए Meta का जवाब है।

"Muse Spark हमारी स्केलिंग सीढ़ी पर पहला कदम है और हमारे AI प्रयासों के जमीनी स्तर से ओवरहॉल का पहला उत्पाद है," Meta ने एक आधिकारिक घोषणा में लिखा। "आगे की स्केलिंग का समर्थन करने के लिए, हम पूरे स्टैक में रणनीतिक निवेश कर रहे हैं—अनुसंधान और मॉडल प्रशिक्षण से लेकर बुनियादी ढांचे तक, Hyperion डेटा सेंटर सहित।"

कंपनी ने Muse Spark के चिकित्सा तर्क के लिए प्रशिक्षण डेटा तैयार करने के लिए 1,000 से अधिक चिकित्सकों के साथ काम किया। HealthBench Hard—एक ओपन-एंडेड स्वास्थ्य प्रश्न बेंचमार्क—पर परिणाम आश्चर्यजनक हैं: Muse Spark ने 42.8 अंक प्राप्त किए, GPT 5.4 के 40.1 और Gemini 3.1 Pro के केवल 20.6 की तुलना में। यह कोई मामूली अंतर नहीं है।

एजेंटिक सर्च (DeepSearchQA) पर, Muse Spark भी 74.8 के साथ आगे है, Gemini (69.7) और GPT 5.4 (73.6) को पीछे छोड़ते हुए। CharXiv Reasoning—वैज्ञानिक पेपरों से आंकड़ों की समझ—पर इसने 86.4 अंक प्राप्त किए, तुलना में मॉडलों में सबसे अधिक।

AI को जेलब्रेक करने में रुचि रखने वालों के लिए, मॉडल कुछ ही मिनटों में क्रैक कर दिया गया था:

लेकिन अच्छा महान के समान नहीं है। समग्र बेंचमार्क तस्वीर से पता चलता है कि Gemini 3.1 Pro अभी भी अधिकांश श्रेणियों में आगे चल रहा है। अंतर ARC AGI 2, एब्स्ट्रैक्ट रीजनिंग पज़ल बेंचमार्क पर सबसे अधिक दिखाई देता है: Gemini ने Muse Spark के 42.5 की तुलना में 76.5 अंक प्राप्त किए।

कोडिंग (LiveCodeBench Pro) पर, Gemini का 82.9 Meta के 80.0 से आगे है। MMMU Pro—मल्टीमॉडल अंडरस्टैंडिंग—पर Gemini ने 83.9 बनाम 80.4 अंक प्राप्त किए। Meta का अपना ब्लॉग लॉन्ग-होराइज़न एजेंटिक सिस्टम और कोडिंग वर्कफ़्लो में वर्तमान प्रदर्शन अंतर को स्वीकार करता है।

इस लॉन्च में एक उल्लेखनीय रणनीतिक बदलाव भी शामिल है। Muse Spark एक बंद मॉडल है—इसकी आर्किटेक्चर और वेट सार्वजनिक नहीं किए जाएंगे। यह Llama से एक तीव्र प्रस्थान है, जिसने ओपन AI सर्कल में Meta की प्रतिष्ठा बनाई। इस साल की शुरुआत में Llama 4 की निराशाजनक प्रतिक्रिया के बाद, Meta ने अगला अध्याय अलग तरीके से लिखने का फैसला किया है।

कंपनी का कहना है कि वह Muse के भविष्य के संस्करणों को ओपन-सोर्स करने की उम्मीद करती है, लेकिन अभी के लिए कोड Meta के अंदर ही रहता है। घोषणा के बाद बुधवार को टेक दिग्गज के स्टॉक में लगभग 9% की वृद्धि हुई, और ट्रेडिंग दिवस 6.5% की बढ़त के साथ $612.42 की कीमत पर समाप्त हुआ।

"Contemplating mode" मॉडल की सीमा को ऊंचा धकेलने के लिए समानांतर एजेंट ऑर्केस्ट्रेशन का उपयोग करता है। उस कॉन्फ़िगरेशन में, Muse Spark ने Humanity's Last Exam पर 58% और FrontierScience Research पर 38% हासिल किया—ऐसा क्षेत्र जो इसे Gemini और GPT के मानक रिलीज़ के बजाय उनके सबसे सक्षम संस्करणों के साथ प्रतिस्पर्धी बनाता है।

Meta एक शॉपिंग असिस्टेंट भी रोल आउट कर रहा है जो उत्पादों की तुलना करता है और सीधे खरीदारी से लिंक करता है, और आने वाले हफ्तों में Muse Spark को Facebook, Instagram और WhatsApp पर लाने की योजना बना रहा है—Llama 3 के बाद से लागू की गई उसी स्क्रिप्ट का पालन करते हुए, इसे 3.5 बिलियन से अधिक उपयोगकर्ताओं के सामने रखते हुए। चुनिंदा डेवलपर्स के लिए एक प्राइवेट API पूर्वावलोकन खुल रहा है।

मॉडल नौ महीनों में बनाया गया था, आंतरिक रूप से Avocado कोडनेम दिया गया था, Meta का दावा है कि इसका नया प्रीट्रेनिंग स्टैक 10 गुना से अधिक कम कंप्यूट का उपयोग करके Llama 4 Maverick के समान क्षमता स्तर तक पहुंच सकता है।

Muse Spark को आंतरिक रूप से Muse परिवार में एक "छोटे और तेज़" पहले कदम के रूप में वर्णित किया गया है। एक अधिक सक्षम संस्करण पहले से ही विकास में है।