Google DeepMind ha presentado DiffusionGemma, un modelo experimental de código abierto que desafía uno de los fundamentos más establecidos en los grandes modelos de lenguaje: la generación secuencial de texto. A diferencia de la mayoría de los LLM actuales, que producen respuestas token por token, este nuevo modelo trabaja con bloques completos y puede refinar hasta 256 tokens en paralelo. NVIDIA ha optimizado DiffusionGemma para que funcione con mayor velocidad en GPUs GeForce RTX, estaciones RTX PRO y sistemas DGX Spark, con el objetivo de promover la inteligencia artificial local en dispositivos tanto personales como profesionales.
Este avance es importante porque la IA generativa no solo busca crear modelos más grandes, sino también más rápidos, eficientes y accesibles al usuario. La ejecución local puede reducir la latencia, mejorar la privacidad, eliminar costos asociados a APIs externas y ofrecer a desarrolladores, investigadores y empresas la oportunidad de probar asistentes y agentes sin depender siempre de la nube.
De la generación token a token a los bloques de texto
La mayoría de los modelos de lenguaje actuales son autoregresivos, lo que significa que generan respuestas en orden, una pieza de texto tras otra. Cada token depende del anterior, y esa dependencia secuencial limita la velocidad. Por eso, muchas interfaces de IA parecen escribir lentamente, como si alguien estuviera tecleando en tiempo real.
DiffusionGemma adopta un enfoque diferente. Inspirado en modelos de difusión usados para generación de imágenes, comienza con una representación con ruido que va refinando hasta construir un texto coherente. En lugar de esperar al siguiente token, trabaja en bloques de hasta 256 tokens en paralelo. La intención no es solo acelerar la salida, sino también cambiar la carga computacional.
NVIDIA explica esto de forma técnica: la generación autoregresiva suele estar limitada por memoria, ya que el modelo pasa mucho tiempo moviendo datos. La difusión en bloques desplaza más carga hacia un cómputo paralelo, donde las GPUs modernas sobresalen. Los Tensor Cores y el ecosistema CUDA facilitan la aprovechación de esta estructura desde el inicio.
DiffusionGemma se construye sobre Gemma 4, una arquitectura mixture-of-experts de 26.000 millones de parámetros que activa 3.800 millones en cada paso. A partir de ahí, Google DeepMind integra una cabeza de difusión para generar texto en bloques. Es un enfoque experimental que apunta a una posible vía para modelos de baja latencia en tareas individuales.
| Característica | DiffusionGemma |
|---|---|
| Laboratorio | Google DeepMind |
| Arquitectura base | Gemma 4 |
| Tamaño total | 26.000 millones de parámetros |
| Parámetros activos por paso | 3.800 millones |
| Tipo de generación | Difusión de texto en bloques |
| Tokens por paso | Hasta 256 |
| Licencia | Apache 2.0 |
| Soporte inicial | Hugging Face Transformers, vLLM y Unsloth |
| Despliegue | Local, estaciones de trabajo, DGX Spark y en la nube |
NVIDIA impulsa la IA local de baja latencia
NVIDIA busca convertir DiffusionGemma en una herramienta práctica para generación rápida de texto en local. La compañía afirma que el modelo puede alcanzar hasta 1.000 tokens por segundo en una GPU NVIDIA H100 Tensor Core, 800 tokens por segundo en la DGX Station y 150 tokens por segundo en DGX Spark. Para entornos de un solo usuario, NVIDIA estima una mejora de hasta cuatro veces respecto a un modelo autoregresivo similar.
Estas cifras, aunque en entornos de prueba, marcan una dirección clara: lograr que la IA local responda con la velocidad suficiente para agentes, asistentes, programación, investigación y flujos interactivos. En estos casos, la latencia no es un aspecto menor; si el modelo tarda demasiado, interrumpe el ritmo de trabajo.
DiffusionGemma podrá ejecutarse en sistemas con GeForce RTX utilizando Hugging Face Transformers, y NVIDIA adelanta que próximamente estará disponible el soporte en llama.cpp. Para cargas más exigentes, vLLM proporciona soporte desde el primer día. Además, para personalizar el modelo en tareas específicas, se ofrecerá ajuste fino mediante Unsloth y NVIDIA NeMo.
| Plataforma | Enfoque anunciado |
| NVIDIA H100 | Hasta 1.000 tokens por segundo |
| DGX Station | Hasta 800 tokens por segundo y 748 GB de memoria unificada |
| DGX Spark | 150 tokens por segundo y 128 GB de memoria compartida |
| RTX PRO 6000 | Flujos profesionales con generación local de baja latencia |
| GeForce RTX | Ejecución local para usuarios avanzados y desarrolladores |
| Hugging Face Transformers | Pruebas y prototipos desde el inicio |
| vLLM | Inferencia de alto rendimiento |
| Unsloth y NeMo | Fine-tuning y adaptación a dominios específicos |
El papel de DGX Spark es particularmente interesante. NVIDIA lo presenta como un superordenador personal de IA, basado en el GB10 Grace Blackwell Superchip y equipado con 128 GB de memoria compartida. Su objetivo es acercar el prototipo, el ajuste fino y los agentes locales a equipos que no desean depender de un clúster remoto para cada experimento.
¿Qué aporta frente a los LLM tradicionales?
La gran promesa de DiffusionGemma reside en su velocidad percibida. Un asistente capaz de generar bloques completos con baja latencia puede parecer menos una conversación lenta y más una herramienta inmediata. Esto resulta especialmente útil en entornos donde el usuario realiza iteraciones constantes: codificación, revisión de documentación, generación de borradores, prueba de ideas, análisis de logs o creación de agentes que planifican y ejecutan pasos.
También tiene potencial en flujos agenticos. Un agente de IA no solo responde a una consulta; analiza el contexto, decide acciones, consulta herramientas, revisa resultados y vuelve a actuar. Si cada paso tarda demasiado, el sistema completo se vuelve pesado. Reducir la latencia en la generación puede mejorar la experiencia y aumentar la cantidad de ciclos de razonamiento o acción en menos tiempo.
Aún así, el modelo debe demostrar su calidad en tareas prácticas. Generar texto rápidamente no es suficiente si las respuestas pierden precisión, coherencia o capacidad de seguir instrucciones. Los modelos autoregresivos, tras años de optimización, siguen siendo la referencia en muchas cargas de trabajo de razonamiento, programación, redacción y análisis. DiffusionGemma abre una línea alternativa, aunque no reemplaza automáticamente a los modelos líderes.
Su licencia Apache 2.0 ofrece una ventaja clara para desarrolladores y empresas que deseen experimentar. Los pesos abiertos con licencia permisiva facilitan pruebas, integración en productos, investigación y despliegue, sin las restricciones de modelos cerrados. En un mercado que busca reducir la dependencia de APIs propietarias, esto resulta importante.
La IA local gana terreno frente a la nube
El lanzamiento refleja una tendencia mayor: la vuelta de ciertos aspectos de la IA al dispositivo. Aunque los grandes modelos seguirán operando en centros de datos debido a la demanda de escalas enormes de cómputo, no todo necesita estar en la nube. Asistentes personales, modelos especializados, agentes de desarrollo, generación rápida de texto, análisis privado y prototipos pueden beneficiarse de la ejecución en local.
Las ventajas no son solo técnicas. La IA local permite proteger datos sensibles, reducir la latencia de red, controlar costos variables y posibilitar uso sin conexión en determinados escenarios. Para las empresas, esto puede ser clave en entornos con información confidencial o requisitos de soberanía, y para los desarrolladores, facilita explorar y probar modelos sin preocuparse por el gasto en tokens o dependencias externas.
NVIDIA tiene un interés directo en impulsar esta tendencia. Su vasta base instalada de GPUs GeForce RTX y estaciones de trabajo capacita a muchos usuarios. Si el ecosistema de modelos abiertos crece y mejora, estas GPUs pueden consolidarse como plataforma para IA personal y de desarrollo, sin depender de la nube.
Por su parte, Google DeepMind refuerza su presencia en el mundo de modelos abiertos con una arquitectura innovadora y un enfoque experimental. Gemma ya era un camino para modelos abiertos dentro de Google; DiffusionGemma añade una variante que prioriza la velocidad y la generación en paralelo.
Diversificación en la evolución de los modelos de IA
La IA generativa está dejando atrás la carrera por modelos más grandes y apunta hacia múltiples caminos: modelos especializados y más pequeños, arquitecturas mixture-of-experts, modelos multimodales, razonamiento, agentes, inferencia local, cuantización, difusión de texto y aceleración por hardware.
DiffusionGemma encaja en esta tendencia diversificada. No busca resolver todos los casos, sino abrir una vía para aplicaciones donde la respuesta rápida prima sobre una precisión absoluta en benchmarks generales. Si mantiene una buena calidad, los modelos de difusión para generación de texto podrían consolidarse junto a los autoregresivos.
Desde la perspectiva del sector tecnológico, la conclusión es clara: la próxima etapa de la IA no dependerá solo de más centros de datos y GPUs en la nube. También se buscará llevar modelos útiles al escritorio, a estaciones de trabajo y a hardware local. La combinación de pesos abiertos, baja latencia y aceleración en GPUs de consumo puede ser la clave para ampliar el uso de la IA más allá de las grandes plataformas.
Google DeepMind aporta el modelo, NVIDIA aporta la aceleración y el ecosistema de ejecución. Este experimento es relevante, porque plantea una interrogante fundamental: ¿qué parte de la inteligencia artificial del futuro residirá en la nube y qué parte operará en los equipos del usuario?
Preguntas frecuentes
¿Qué es DiffusionGemma?
Es un modelo experimental abierto de Google DeepMind que genera texto mediante difusión, refinando bloques de hasta 256 tokens en paralelo.
¿Por qué NVIDIA lo ha optimizado?
Porque su arquitectura aprovecha eficientemente el cómputo paralelo de las GPUs. NVIDIA busca acelerar su ejecución en GeForce RTX, RTX PRO, DGX Spark, DGX Station y hardware de centros de datos.
¿Qué ventajas tiene frente a un modelo autoregresivo?
Permite reducir la latencia al generar en bloques en lugar de token por token. Según NVIDIA, puede ser hasta cuatro veces más rápido en entornos de usuario único.
¿Para qué sirve ejecutarlo en local?
La ejecución local ofrece menor latencia, mayor privacidad, menor coste y la posibilidad de crear prototipos sin depender de APIs en la nube.
