NVIDIA Vera Rubin is niet meer alleen een GPU: zo verandert de agent-achtige AI - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

NVIDIA ha aprovechado GTC 2026 para dejar claro que su próxima gran apuesta ya no gira en torno a una sola GPU ultrapotente, sino a una plataforma completa diseñada para cubrir todas las fases de la IA moderna. Bajo el nombre de Vera Rubin, la compañía ha presentado un conjunto de siete chips y cinco tipos diferentes de racks que, según su comunicado oficial, ya están en producción y se combinan en un único “superordenador” orientado al preentrenamiento, postentrenamiento, escalado en tiempo de prueba e inferencia agentica en tiempo real.

La innovación no reside únicamente en la potencia, sino en un cambio de enfoque. Durante años, NVIDIA promocionó la idea de que una misma familia de GPU podía cubrir prácticamente cualquier necesidad relevante en IA. Vera Rubin representa una evolución mucho más ambiciosa y también más pragmática: CPU específicas para entornos de agentes y aprendizaje por refuerzo, GPU para entrenamiento y contexto, LPUs de Groq para inferencia de baja latencia, racks de almacenamiento diseñados para memoria contextual, y una capa de red Ethernet e InfiniBand integrada desde el inicio. En la práctica, esto implica reconocer que la era de la IA agéntica ya no se puede resolver solo con incrementar los FLOPS en una GPU.

De componentes individuales a una plataforma de racks y PODs

NVIDIA describe Vera Rubin como un paso desde un servidor aislado hasta un sistema completo de racks y, finalmente, un POD completo de IA fabricado a escala. Esta visión se concreta en varios bloques. El más destacado es Vera Rubin NVL72, un rack con 72 GPU Rubin y 36 CPU Vera conectadas mediante NVLink 6, SuperNIC ConnectX-9 y DPUs BlueField-4. La compañía afirma que esta configuración permite entrenar grandes modelos de mezcla de expertos con solo una cuarta parte de las GPU que requeriría Blackwell, además de lograr hasta 10 veces más throughput de inferencia por vatio, con una décima parte del coste por token. Aunque estas cifras son de NVIDIA y no mediciones independientes, ayudan a entender la magnitud de la promesa.

El segundo elemento clave es el Vera CPU Rack. NVIDIA lo presenta como una infraestructura densa y refrigerada por líquido, equipada con 256 CPU Vera, diseñada para albergar a gran escala los entornos de ejecución utilizados por agentes de IA y sistemas de aprendizaje por refuerzo para probar, validar y orquestar resultados. Es una pista clara del mercado al que apunta la compañía: no solo modelos que responden a prompts, sino sistemas que iteran, prueban rutas, ejecutan herramientas y requieren una infraestructura CPU mucho más visible que en ciclos anteriores.

Groq en el núcleo de Vera Rubin

Quizá el anuncio más simbólico sea la integración de NVIDIA Groq 3 LPX, un rack de inferencia con 256 procesadores LPU, 128 GB de SRAM en chip y 640 TB/s de ancho de banda en escala. NVIDIA asegura que, desplegado junto a Vera Rubin NVL72, este bloque permite acelerar el decodificado al hacer que GPU y LPU calculen juntas cada capa del modelo para cada token de salida. La compañía incluso promete hasta 35 veces más throughput de inferencia por megavatio y hasta 10 veces más oportunidades de ingreso para modelos con alrededor de billón de parámetros. Aunque parte de esta declaración debe entenderse como posicionamiento de producto, marca un cambio de rumbo claro: NVIDIA ya no solo quiere vender GPU, sino que busca dominar también la inferencia especializada de muy baja latencia.

Este enfoque es especialmente relevante en 2026: la inferencia agentica exige contextos largos, respuestas rápidas y una eficiencia energética mucho mayor que la del entrenamiento clásico. La incorporación de Groq como parte integral del sistema refleja la intención de que Vera Rubin no sea una plataforma uniforme, sino configurada por fase de trabajo. Es decir, NVIDIA está diseñando un stack donde diferentes componentes cumplen funciones específicas y colaboran dentro de la misma infraestructura de IA. Quizá la señal más fuerte hasta ahora es que la compañía ha abandonado la visión de “una GPU para todo” en favor de una estrategia que prioriza la infraestructura de IA a escala industrial.

Almacenamiento y red como componentes integrados, no accesorios

La plataforma también incluye BlueField-4 STX, un rack de almacenamiento que NVIDIA define como infraestructura “nativa para IA” para ampliar la memoria de contexto a nivel de POD. La compañía lo relaciona con el nuevo framework DOCA Memos y afirma que esta capa puede aumentar hasta cinco veces el throughput de inferencia al acelerar la gestión del caché KV de los grandes modelos. Además, incorpora Spectrum-6 SPX Ethernet, que actúa como columna vertebral del tráfico este-oeste entre racks y podrá configurarse con Spectrum-X Ethernet o Quantum-X800 InfiniBand. NVIDIA también destaca el uso de ópticas co-packaged para mejorar la eficiencia energética y la resiliencia frente a transceptores enchufables convencionales.

Este conjunto envía una señal clara: la competencia ya no es solo en el acelerador principal. La memoria contextual, el almacenamiento del caché KV, la red interna del POD y la gestión energética están entrando en el mismo plano estratégico que antes ocupaba únicamente la GPU. NVIDIA busca centralizar todo ese valor en un solo diseño de referencia, presentando también DSX Max-Q y DSX Flex como capas para optimizar el presupuesto eléctrico y hacer que las instalaciones de IA sean más flexibles respecto a la infraestructura de red. Según la compañía, DSX Max-Q permitiría desplegar un 30 % más de infraestructura de IA en un centro de datos con potencia fija, mientras que DSX Flex facilitaría convertir esas instalaciones en activos “grid-flexible”.

Disponibilidad, ecosistema y desafíos por delante

NVIDIA afirma que los productos basados en Vera Rubin estarán disponibles a través de socios desde la segunda mitad de 2026. Entre los proveedores de nube mencionados están AWS, Google Cloud, Microsoft Azure y Oracle Cloud Infrastructure, junto a socios de nube como CoreWeave, Crusoe, Lambda, Nebius, Nscale y Together AI. También participan fabricantes como Cisco, Dell, HPE, Lenovo, Supermicro, ASUS, Foxconn, Gigabyte, Inventec, Pegatron, QCT, Wistron y Wiwynn. Paralelamente, laboratorios y desarrolladores de frontera como Anthropic, Meta, Mistral AI y OpenAI figuran como futuros usuarios de la plataforma.

Esto no implica que todo se despliegue de inmediato ni con la misma madurez. La parte más prudente de la evaluación es esa: por ahora, se trata de un anuncio oficial de plataforma con disponibilidad prevista para la segunda mitad de 2026 y un ecosistema ya alineado. Lo que queda por comprobar es el rendimiento real fuera de las demostraciones, la adopción efectiva de racks con LPUs, los costos operativos en comparación con Blackwell, y sobre todo, si el mercado aceptará esta transición desde una GPU como producto central a una infraestructura de IA como una unidad económica completa. Sin embargo, GTC 2026 deja una conclusión indiscutible: Vera Rubin no es solo la próxima GPU de NVIDIA. Es la primera plataforma donde la compañía muestra abiertamente cómo imagina la infraestructura de IA agéntica a nivel industrial.

Preguntas frecuentes

¿Qué es exactamente NVIDIA Vera Rubin?

Es la nueva plataforma de infraestructura de IA presentada por NVIDIA en GTC 2026. Integra siete chips —entre ellos Vera CPU, Rubin GPU, NVLink 6, ConnectX-9, BlueField-4, Spectrum-6 y Groq 3 LPU— y varios tipos de racks para cubrir fases de entrenamiento, postentrenamiento, escalado en tiempo de prueba e inferencia agentica.

¿Qué diferencia a Vera Rubin de generaciones anteriores como Blackwell?

Su principal innovación es que Vera Rubin adopta una arquitectura de fábrica de IA mucho más heterogénea. Ya no gira únicamente en torno a una GPU, sino que combina racks especializados para GPU, CPU, inferencia con LPU, almacenamiento de memoria contextual y redes de alta velocidad, todos funcionando como un sistema integrado.

¿Cuál es el papel de Groq en Vera Rubin?

NVIDIA ha integrado Groq 3 LPX como un rack de inferencia de baja latencia. Sus LPUs trabajarán junto a las GPU Rubin para acelerar especialmente la fase de decodificación en modelos de gran tamaño y contexto extenso.

¿Cuándo estarán disponibles los sistemas Vera Rubin?

NVIDIA indica que los productos basados en Vera Rubin llegarán a través de socios en la segunda mitad de 2026. Entre los socios se encuentran grandes proveedores de nube pública, fabricantes de servidores y laboratorios de IA de primera línea.

X (Twitter) Facebook LinkedIn Email WhatsApp