KV Cache: el reto de guardar conversaciones de 100GB

alt text

La KV Cache se ha convertido en uno de los grandes retos para escalar los LLMs: guardar el contexto de una conversación no significa almacenar texto, sino enormes tensores por cada token y capa del modelo. A partir de ahí aparece el verdadero problema: una conversación larga puede ocupar decenas o cientos de GB, saturar la VRAM de las GPUs y obligar a diseñar sistemas capaces de paginar, compartir, mover y reutilizar esa caché entre GPU, RAM, SSD y red. La idea central: los LLMs modernos no escalan solo con más cálculo, sino gestionando una memoria gigantesca de la forma más inteligente posible.

Participan en la tertulia: Paco Zamora, Josu Gorostegui y Guillermo Barbadillo.

Recuerda que puedes enviarnos dudas, comentarios y sugerencias en: https://twitter.com/TERTUL_ia