Google TurboQuant: compressione KV cache a 3 bit per LLM

Google presenta TurboQuant, un algoritmo di compressione AI che riduce la memoria del 6x e accelera l'attention 8x senza perdere accuratezza.

Google ha appena rivoluzionato il modo in cui pensiamo all’efficienza dei Large Language Models: con TurboQuant. Presentato a ICLR 2026, questo algoritmo di compressione AI permette di ridurre la memoria richiesta per la KV cache degli LLM di circa 6 volte, accelerando i calcoli di attention fino a 8x, senza alcuna perdita di accuratezza.

Cosa cambia concretamente?

Il collo di bottiglia principale negli LLM è spesso la gestione della KV cache, quella struttura che memorizza le informazioni contestuali durante l’inferenza. TurboQuant affronta questo problema con due tecniche innovative: PolarQuant e QJL.

Con PolarQuant, i vettori vengono convertiti in coordinate polari, applicando una rotazione casuale per uniformare l’energia prima di procedere con la quantizzazione ottimale Lloyd-Max. In pratica, si “rimescolano” i dati per renderli più stabili alla compressione. La seconda tecnica, QJL (Quantized Johnson-Lindenstrauss), gestisce la compressione residuale a 1 bit, eliminando il bias dell’errore di quantizzazione che solitamente degrada le prestazioni.

Il punto forte è che TurboQuant non richiede training. Non serve calibrazione o tuning specifico per ogni modello. È compatibile con qualsiasi architettura transformer ed è stato testato su modelli come Gemma e Mistral a 3 bit, mantenendo intatta l’accuratezza.

Perché questo conta per le aziende?

L’impatto infrastrutturale è enorme. Meno memoria significa che si possono ospitare più istanze su un singolo server GPU o utilizzare hardware meno costoso (come i memory chip di Samsung o Micron). In contesti con context window lunghi, la latenza cala drasticamente, rendendo l’AI più economica da servire in produzione.

Rispetto alle attuali soluzioni come GGUF/llama.cpp per la quantizzazione locale o gli sforzi su DeepSeek per l’efficienza, TurboQuant si posiziona come un passo avanti significativo grazie all’assenza di overhead di addeamento.

La fonte originale è disponibile qui: Google Research – TurboQuant.

Cosa ne pensate? È il momento di rivedere le nostre stack infrastrutturali AI?