ia
ia
Google TurboQuant promete 6x menos RAM para correr IA: qué significa para los devs que ya no quieren pagar APIs
Google Research lanzó TurboQuant, un algoritmo que comprime el KV cache de los LLMs 6 veces sin perder precisión. Así funciona y qué cambia para quien corre modelos localmente.
Leer