संक्षेप में
- Google ने कहा कि इसका TurboQuant एल्गोरिथम inference के दौरान बिना किसी सटीकता हानि के एक प्रमुख AI मेमोरी बाधा को कम से कम छह गुना कम कर सकता है।
- पेपर के प्रसारित होने के बाद Micron, Western Digital और Seagate सहित मेमोरी स्टॉक गिर गए।
- यह विधि inference मेमोरी को संपीड़ित करती है, मॉडल वेट को नहीं, और केवल शोध बेंचमार्क में परीक्षण की गई है।
Google Research ने बुधवार को TurboQuant प्रकाशित किया, एक संपीड़न एल्गोरिथम जो सटीकता में शून्य हानि बनाए रखते हुए एक प्रमुख inference-मेमोरी बाधा को कम से कम 6x तक कम करता है।
पेपर ICLR 2026 में प्रस्तुति के लिए निर्धारित है, और ऑनलाइन प्रतिक्रिया तत्काल थी।
Cloudflare के CEO Matthew Prince ने इसे Google का DeepSeek क्षण कहा। उसी दिन Micron, Western Digital और Seagate सहित मेमोरी स्टॉक की कीमतें गिर गईं।
तो क्या यह वास्तविक है?
Quantization दक्षता अपने आप में एक बड़ी उपलब्धि है। लेकिन "शून्य सटीकता हानि" को संदर्भ की आवश्यकता है।
TurboQuant KV cache को लक्षित करता है—GPU मेमोरी का वह हिस्सा जो एक भाषा मॉडल को बातचीत के दौरान याद रखने की आवश्यकता वाली हर चीज़ को संग्रहीत करता है।
जैसे-जैसे संदर्भ विंडो लाखों टोकन की ओर बढ़ती हैं, वे कैश प्रति सत्र सैकड़ों गीगाबाइट में फूल जाते हैं। यही वास्तविक बाधा है। कंप्यूट पावर नहीं बल्कि कच्ची मेमोरी।
पारंपरिक संपीड़न विधियां उन कैश को संख्याओं को घटाकर सिकोड़ने की कोशिश करती हैं—उदाहरण के लिए, 32-bit floats से 16, से 8 से 4-bit integers तक। इसे बेहतर समझने के लिए, एक छवि को 4K से, full HD से, 720p और इसी तरह सिकोड़ने के बारे में सोचें। यह बताना आसान है कि यह समग्र रूप से वही छवि है, लेकिन 4K रिज़ॉल्यूशन में अधिक विवरण है।
समस्या: मॉडल को मूर्ख बनने से रोकने के लिए उन्हें संपीड़ित डेटा के साथ अतिरिक्त "quantization constants" संग्रहीत करने होते हैं। वे constants प्रति मूल्य 1 से 2 bits जोड़ते हैं, जो आंशिक रूप से लाभ को कम करते हैं।
TurboQuant दावा करता है कि यह उस ओवरहेड को पूरी तरह से समाप्त कर देता है।
यह दो उप-एल्गोरिदम के माध्यम से करता है। PolarQuant वैक्टर में दिशा से परिमाण को अलग करता है, और QJL (Quantized Johnson-Lindenstrauss) बचे हुए छोटे अवशिष्ट त्रुटि को लेता है और इसे एक एकल साइन बिट, सकारात्मक या नकारात्मक, शून्य संग्रहीत constants के साथ कम करता है।
परिणाम, Google कहता है, transformer मॉडल को चलाने वाली attention गणनाओं के लिए गणितीय रूप से निष्पक्ष अनुमानक है।
Gemma और Mistral का उपयोग करके बेंचमार्क में, TurboQuant ने 4x संपीड़न के तहत full-precision प्रदर्शन से मेल खाया, जिसमें 104,000 टोकन तक needle-in-haystack कार्यों पर पूर्ण पुनर्प्राप्ति सटीकता शामिल है।
इस संदर्भ के लिए कि वे बेंचमार्क क्यों मायने रखते हैं, गुणवत्ता हानि के बिना एक मॉडल के उपयोग योग्य संदर्भ का विस्तार करना LLM तैनाती में सबसे कठिन समस्याओं में से एक रहा है।
अब, महीन प्रिंट।
"शून्य सटीकता हानि" inference के दौरान KV cache संपीड़न पर लागू होती है—मॉडल के वेट पर नहीं। वेट को संपीड़ित करना पूरी तरह से अलग, कठिन समस्या है। TurboQuant उन्हें छूता नहीं है।
यह जो संपीड़ित करता है वह मध्य-सत्र attention गणनाओं को संग्रहीत करने वाली अस्थायी मेमोरी है, जो अधिक क्षमाशील है क्योंकि उस डेटा को सैद्धांतिक रूप से पुनर्निर्मित किया जा सकता है।
एक स्वच्छ बेंचमार्क और अरबों अनुरोधों की सेवा करने वाली प्रोडक्शन सिस्टम के बीच भी अंतर है। TurboQuant को ओपन-सोर्स मॉडल—Gemma, Mistral, Llama—पर परीक्षण किया गया था, न कि बड़े पैमाने पर Google के अपने Gemini स्टैक पर।
DeepSeek की दक्षता लाभ के विपरीत, जिसमें शुरुआत से ही गहरे वास्तुकला निर्णयों की आवश्यकता थी, TurboQuant को किसी पुन: प्रशिक्षण या फाइन-ट्यूनिंग की आवश्यकता नहीं है और नगण्य रनटाइम ओवरहेड का दावा करता है। सिद्धांत रूप में, यह सीधे मौजूदा inference पाइपलाइनों में गिरता है।
यही वह हिस्सा है जिसने मेमोरी हार्डवेयर क्षेत्र को डरा दिया—क्योंकि यदि यह प्रोडक्शन में काम करता है, तो प्रत्येक प्रमुख AI लैब उसी GPU पर दुबला चलता है जो उनके पास पहले से है।
पेपर ICLR 2026 में जाता है। जब तक यह प्रोडक्शन में शिप नहीं हो जाता, "शून्य हानि" शीर्षक लैब में रहता है।
Daily Debrief Newsletter
हर दिन की शुरुआत अभी की शीर्ष समाचार कहानियों के साथ करें, साथ ही मूल फीचर, एक पॉडकास्ट, वीडियो और बहुत कुछ।
स्रोत: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss


