Tóm tắt
- Google cho biết thuật toán TurboQuant của họ có thể giảm ít nhất sáu lần tắc nghẽn bộ nhớ AI chính mà không làm mất độ chính xác trong quá trình suy luận.
- Cổ phiếu bộ nhớ bao gồm Micron, Western Digital và Seagate giảm sau khi bài báo được công bố.
- Phương pháp này nén bộ nhớ suy luận, không phải trọng số mô hình, và chỉ mới được thử nghiệm trong các bài kiểm tra nghiên cứu.
Google Research đã công bố TurboQuant vào thứ Tư, một thuật toán nén giúp thu nhỏ tắc nghẽn bộ nhớ suy luận chính ít nhất 6 lần trong khi vẫn duy trì độ chính xác không bị mất mát.
Bài báo dự kiến sẽ được trình bày tại ICLR 2026, và phản ứng trực tuyến là ngay lập tức.
CEO Cloudflare Matthew Prince gọi đây là khoảnh khắc DeepSeek của Google. Giá cổ phiếu bộ nhớ, bao gồm Micron, Western Digital và Seagate, đều giảm vào cùng ngày.
Vậy nó có thực sự không?
Hiệu quả lượng tử hóa tự nó đã là một thành tựu lớn. Nhưng "không mất độ chính xác" cần bối cảnh.
TurboQuant nhắm vào bộ nhớ đệm KV—phần bộ nhớ GPU lưu trữ mọi thứ mà một mô hình ngôn ngữ cần ghi nhớ trong suốt cuộc trò chuyện.
Khi cửa sổ ngữ cảnh mở rộng đến hàng triệu token, những bộ nhớ đệm đó phình to thành hàng trăm gigabyte mỗi phiên. Đó mới là tắc nghẽn thực sự. Không phải sức mạnh tính toán mà là bộ nhớ thô.
Các phương pháp nén truyền thống cố gắng thu nhỏ những bộ nhớ đệm đó bằng cách làm tròn số xuống—từ số thực 32-bit xuống 16, xuống 8 đến số nguyên 4-bit, chẳng hạn. Để hiểu rõ hơn, hãy nghĩ đến việc thu nhỏ một hình ảnh từ 4K, xuống full HD, xuống 720p và vân vân. Thật dễ dàng để nhận ra đó là cùng một hình ảnh tổng thể, nhưng có nhiều chi tiết hơn ở độ phân giải 4K.
Vấn đề là: họ phải lưu trữ thêm "hằng số lượng tử hóa" bên cạnh dữ liệu đã nén để giữ cho mô hình không bị lỗi. Những hằng số đó thêm 1 đến 2 bit cho mỗi giá trị, một phần làm giảm lợi ích đạt được.
TurboQuant tuyên bố nó loại bỏ hoàn toàn chi phí đó.
Nó thực hiện điều này thông qua hai thuật toán phụ. PolarQuant tách độ lớn khỏi hướng trong vectơ, và QJL (Quantized Johnson-Lindenstrauss) lấy lỗi dư nhỏ còn lại và giảm nó xuống một bit dấu duy nhất, dương hoặc âm, với không hằng số được lưu trữ.
Kết quả, Google cho biết, là một công cụ ước lượng không thiên lệch về mặt toán học cho các phép tính chú ý điều khiển các mô hình transformer.
Trong các bài kiểm tra sử dụng Gemma và Mistral, TurboQuant đạt hiệu suất độ chính xác đầy đủ dưới mức nén 4x, bao gồm độ chính xác truy xuất hoàn hảo trong các tác vụ tìm kim trong đống cỏ khô lên đến 104,000 token.
Để hiểu tại sao những bài kiểm tra đó quan trọng, việc mở rộng ngữ cảnh có thể sử dụng của mô hình mà không làm giảm chất lượng là một trong những vấn đề khó nhất trong triển khai LLM.
Bây giờ, chi tiết nhỏ.
"Không mất độ chính xác" áp dụng cho nén bộ nhớ đệm KV trong quá trình suy luận—không phải cho trọng số của mô hình. Nén trọng số là một vấn đề hoàn toàn khác, khó hơn. TurboQuant không chạm vào chúng.
Những gì nó nén là bộ nhớ tạm thời lưu trữ các phép tính chú ý giữa phiên, điều này dễ dàng hơn vì dữ liệu đó về lý thuyết có thể được tái tạo lại.
Cũng có khoảng cách giữa một bài kiểm tra sạch và một hệ thống sản xuất phục vụ hàng tỷ yêu cầu. TurboQuant đã được thử nghiệm trên các mô hình mã nguồn mở—Gemma, Mistral, Llama—không phải trên ngăn xếp Gemini của chính Google ở quy mô lớn.
Không giống như lợi ích hiệu quả của DeepSeek, đòi hỏi các quyết định kiến trúc sâu được tích hợp ngay từ đầu, TurboQuant không yêu cầu đào tạo lại hoặc tinh chỉnh và tuyên bố chi phí thời gian chạy không đáng kể. Về lý thuyết, nó có thể áp dụng trực tiếp vào các đường ống suy luận hiện có.
Đó là phần làm khu vực phần cứng bộ nhớ lo lắng—bởi vì nếu nó hoạt động trong sản xuất, mọi phòng thí nghiệm AI lớn sẽ chạy tinh gọn hơn trên cùng những GPU mà họ đã sở hữu.
Bài báo sẽ được trình bày tại ICLR 2026. Cho đến khi nó được triển khai trong sản xuất, tiêu đề "không mất mát" vẫn còn trong phòng thí nghiệm.
Bản tin Daily Debrief
Bắt đầu mỗi ngày với các tin tức hàng đầu ngay bây giờ, cùng với các tính năng gốc, podcast, video và nhiều hơn nữa.
Nguồn: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss


