NVIDIA ha presentado en GTC 2026 un nuevo estándar abierto para abordar uno de los mayores cuellos de botella en la inteligencia artificial física: los datos. La compañía ha anunciado la Physical AI Data Factory Blueprint, una arquitectura diseñada para automatizar la creación, ampliación, evaluación y preparación de datos que entrenarán robots, agentes de visión artificial y sistemas de conducción autónoma a gran escala. La filosofía subyacente es sencilla: sin datos abundantes, diversos y bien validados, no puede existir un robot confiable ni un vehículo autónomo que madure realmente.
Lo destacable del anuncio es que NVIDIA no presenta esta herramienta como un recurso aislado, sino como una cadena completa de procesos que van desde los datos brutos hasta el conjunto final listo para entrenamiento. Esta cadena incluye la curación de datos reales y sintéticos, la generación de escenarios raros o difíciles de capturar en el mundo físico, la validación automática de los resultados y la orquestación de todo el flujo de trabajo en infraestructura cloud o híbrida. Además, aunque el blueprint completo aún no está publicado en GitHub, NVIDIA ha señalado su intención de lanzarlo en abril, con algunos componentes clave disponibles públicamente.
De la simulación a los datos listos para entrenar
El reto que busca abordar NVIDIA es específico. En robótica y conducción autónoma no basta con contar con modelos potentes: es necesario entrenarlos con enormes cantidades de datos que incluyan no solo situaciones estándar, sino también casos raros, fallos, condiciones meteorológicas adversas, cambios en la iluminación o interacciones poco frecuentes. Estos escenarios de “larga cola” son costosos, lentos y en ocasiones peligrosos de recopilar en el entorno real, por eso la generación sintética y la simulación se han convertido en herramientas esenciales en el desarrollo actual.
Según NVIDIA, su nuevo blueprint se apoya en varios componentes ya establecidos en el ecosistema Cosmos. Cosmos Curator se encarga de procesar, refinar y anotar grandes conjuntos de datos tanto reales como sintéticos; Cosmos Transfer amplía y diversifica estos datos para crear una gama más amplia de escenarios; y Cosmos Evaluator, que ya está disponible en GitHub, sirve para evaluar, verificar y filtrar automáticamente la calidad física de los vídeos sintéticos generados. En su repositorio público, NVIDIA define Cosmos Evaluator como un sistema automatizado para evaluar salidas sintéticas de vídeo, verificando aspectos como alucinaciones, obstáculos y atributos del entorno.
La pieza clave que conecta estos componentes es OSMO, el orquestador abierto de NVIDIA para cargas de trabajo de IA física. La compañía lo describe como una plataforma nativa en la nube que coordina clústeres de entrenamiento, simulación y entornos edge mediante flujos definidos en YAML. OSMO no reemplaza a los simuladores ni a los frameworks de entrenamiento, sino que los organiza y coordina; además, ahora se integra con agentes de código como Claude Code, OpenAI Codex y Cursor para automatizar ciertas tareas. En otras palabras, NVIDIA busca que los desarrolladores puedan centrarse más en los modelos y menos en gestionar la infraestructura.
Azure y Nebius hacen que el anuncio sea más tangible
Uno de los aspectos más interesantes del anuncio es que Microsoft Azure y Nebius no se presentan solo como socios de exhibición. Microsoft ya ha lanzado un Azure Physical AI Toolchain en GitHub, descrito en su repositorio como un marco de código abierto y “listo para producción” que integra servicios cloud de Azure con la pila de IA física de NVIDIA. Este proyecto combina Azure Machine Learning, AKS, Azure Arc, almacenamiento, seguridad con Entra ID, simulación con Isaac Sim e Isaac Lab y orquestación con OSMO, orientado claramente a entornos empresariales y despliegues serios, no solo a demostraciones básicas.
Este enfoque más práctico sitúa a GTC en un nivel más aplicable. Microsoft no solo habla de simulación, sino de una cadena completa que abarca desde la captura de datos en dispositivos Jetson, hasta la conversión automática, validación, entrenamiento, evaluación y despliegue de modelos en el edge. Incluso promete que su guía rápida permite entrenar una política de pick-and-place en Isaac Lab en menos de dos horas, usando GPU en Azure, mediante métricas en MLflow y desplegando el modelo en un dispositivo Jetson con GitOps. Es una propuesta ambiciosa, respaldada por repositorio, arquitectura y documentación pública.
Por su parte, Nebius ha presentado la propuesta como un servicio gestionado sobre su AI Cloud. La compañía asegura haber integrado el blueprint de NVIDIA en su infraestructura global, ofreciendo un entorno para generar datos sintéticos basados en física, orquestar flujos con OSMO y combinar esta capa con almacenamiento, etiquetado, ejecución serverless e inferencia gestionada. Además, afirma que algunos de sus primeros usuarios ya están reduciendo ciclos de iteración de semanas a días, aunque estas declaraciones deben leerse como afirmaciones comerciales de la propia Nebius y no como comparaciones independientes.
Por qué esta noticia tiene un impacto mayor de lo que parece
El anuncio refleja una tendencia que NVIDIA ha venido desarrollando en torno a la llamada “physical AI”. En enero presentó Alpamayo, una familia abierta de modelos y herramientas para conducción autónoma basados en escenarios complejos y razonamiento sobre la larga cola de eventos de tráfico. Ahora, NVIDIA explica que utiliza este nuevo blueprint para entrenar y evaluar Alpamayo, mientras otras empresas como Skild AI lo aplican en robots generalistas y Uber lo emplea para acelerar el desarrollo de vehículos autónomos. Esto convierte al blueprint en algo más que una pieza técnica: pasa a ser una infraestructura fundamental para alimentar futuras generaciones de modelos físicos.
Existe también una lectura más amplia a nivel industrial. En robótica y automoción, muchas empresas no fracasan por falta de ideas, sino por la fragmentación entre simulación, entrenamiento, evaluación y despliegue. NVIDIA busca cerrar esa brecha con una propuesta que combina modelos del mundo real, simulación, generación sintética, evaluación automática y orquestación multiinfraestructura. No es una solución mágica ni cerrada a un grupo reducido, pero sí una señal clara de hacia dónde se dirige el mercado: menos herramientas aisladas y más cadenas integradas de datos, validación y despliegue escalable.
Queda por ver cuánto tiempo tomará que esta visión se adopte realmente fuera de los socios anunciados y si el blueprint abierto logrará atraer a desarrolladores independientes, startups y fabricantes fuera del ecosistema NVIDIA. Sin embargo, el mensaje principal ya es claro: en la IA física, la ventaja no dependerá solo del modelo o del chip, sino de quién sea capaz de producir, depurar y validar datos de alta calidad a una velocidad mucho mayor. En ese contexto, NVIDIA busca convertir la computación acelerada en una verdadera fábrica de datos.
Preguntas frecuentes
¿Qué es exactamente NVIDIA Physical AI Data Factory Blueprint?
Es una arquitectura de referencia abierta lanzada por NVIDIA para automatizar la curación, generación sintética, ampliación, evaluación y preparación de datos destinados al entrenamiento de robots, agentes de visión artificial y vehículos autónomos.
¿Ya está disponible para su descarga?
NVIDIA ha mencionado que el blueprint completo estará en GitHub en abril de 2026. Sin embargo, algunos componentes ya son públicos, como Cosmos Evaluator, y partes del ecosistema están accesibles mediante repositorios y servicios relacionados.
¿Qué papel juegan Microsoft Azure y Nebius en este proyecto?
Azure ha integrado el blueprint en un toolchain abierto para IA física en GitHub, mientras que Nebius lo ha incorporado en su AI Cloud como base para flujos gestionados de generación de datos, entrenamiento y despliegue.
¿Por qué son tan importantes los datos sintéticos en robótica y vehículos autónomos?
Porque permiten cubrir casos raros o peligrosos, que son muy difíciles, costosos o lentos de recopilar en el entorno real. Esto resulta esencial para entrenar modelos más robustos y validar su comportamiento antes de su despliegue en producción.
