NVIDIA ha intensificado su carrera por avanzar en la inteligencia artificial agéntica, que busca modelos capaces de encadenar tareas, razonar durante más tiempo y mantener conversaciones con un contexto extendido. En el reciente CES, la compañía centró su atención en un problema clave: la memoria de contexto, un componente esencial para mejorar la coherencia y la continuidad en sistemas de IA de gran escala.
Para abordar este desafío, NVIDIA anunció el desarrollo de la plataforma NVIDIA Inference Context Memory Storage, basada en su procesador de datos BlueField-4. Este DPU (Data Processing Unit) será la pieza central para impulsar el almacenamiento nativo para IA, permitiendo manejar de manera eficiente el volumen de datos y contexto necesarios durante las inferencias y las conversaciones prolongadas. La propuesta busca facilitar la compartición rápida de información entre nodos dentro de clusters de sistemas rack-scale, optimizando además los tokens por segundo y mejorando la eficiencia energética hasta un cinco veces respecto a los métodos tradicionales de almacenamiento.
Uno de los principales obstáculos en esta área es el llamado KV cache (key-value cache), una memoria que mantiene el estado del modelo para garantizar respuestas coherentes en diálogos y tareas de larga duración. Sin embargo, guardar esta memoria en la GPU a largo plazo se ha convertido en un problema de limitada escalabilidad, dado que la memoria de las GPUs es costosa y limitada. La solución propuesta por NVIDIA consiste en externalizar y gestionar esta memoria de contexto mediante la plataforma de almacenamiento, permitiendo que los sistemas de IA puedan mantener diálogos largos sin rendimiento degradado.
El hardware BlueField-4 no es una NIC convencional, sino que se ubica en la categoría de DPUs y se integra en el framework DOCA, el cual permite acelerar y aislar servicios de infraestructura como red, seguridad y almacenamiento. Esto significa que además de gestionar la memoria de contexto, BlueField-4 puede controlar la distribución y el acceso a estos datos de forma segura y eficiente, gestionando la colocación del KV cache mediante aceleración por hardware para reducir sobrecargas y latencias.
La integración de esta plataforma con componentes como DOCA, NIXL, Dynamo y Spectrum-X Ethernet forma un ecosistema pensado para optimizar la infraestructura de inferencia agéntica. La red Spectrum-X, por ejemplo, proporcionará una capa de acceso RDMA a la memoria de contexto, facilitando la comunicación entre nodos a altas velocidades. Esto subraya la visión de que en el futuro, los sistemas de IA no solo responderán a una pregunta única, sino que operarán en contextos con agentes que tienen memoria de corto y largo plazo, haciendo que el almacenamiento deje de ser simplemente un repositorio pasivo para convertirse en un elemento activo que impulsa el rendimiento y la coherencia en las interacciones.
Múltiples actores del sector del almacenamiento, como Dell Technologies, HPE, IBM, Nutanix, Pure Storage, así como especialistas como DDN y Cloudian, ya están alineándose con esta estrategia, desarrollando plataformas de nueva generación con base en BlueField-4. NVIDIA estima que la disponibilidad general de estos sistemas se dará en la segunda mitad de 2026, cuando los socios comerciales presentarán productos que integren estas capacidades para solicitudes de inferrencias a gran escala y multi-agente.
En conclusión, NVIDIA pretende transformar el enfoque del almacenamiento y gestión de memoria en sistemas de IA avanzada, permitiendo que las futuras aplicaciones multifuncionales y de larga duración puedan mantener contexto y rendimiento sin limitaciones impuestas por la memoria de GPU. La apuesta por BlueField-4 y la plataforma de almacenamiento de memoria de contexto marcará un paso decisivo en la evolución de la inteligencia artificial agéntica, aproximándose a un ecosistema donde la memoria y el procesamiento trabajan de forma más integrada y eficiente.
