GB300 versnelt DeepSeek in lange contexten: LMSYS meet tot 1,53× meer prestaties dan GB200

La competencia en inferencia ya no se limita solo a cuántos tokens por segundo puede generar una GPU en prompts cortos. En 2026, el nuevo campo de batalla es el contexto largo: modelos que leen bases de código completas, mantienen memoria a través de flujos agénticos y responden con baja latencia, incluso cuando los prompts crecen hasta tamaños que parecían inviables en producción hace poco tiempo.

En este escenario, LMSYS (el equipo responsable de desarrollos y evaluaciones muy seguidas en el ecosistema de serving) ha publicado resultados de rendimiento de DeepSeek ejecutándose sobre NVIDIA GB300 NVL72 (Blackwell Ultra), comparándola con GB200 NVL72. La conclusión es clara: en un caso de uso con contexto largo (128.000 tokens de entrada y 8.000 de salida), el sistema alcanza un rendimiento de 226,2 TPS/GPU, lo que supone una mejora de 1,53 veces respecto a GB200 en picos de rendimiento. La diferencia resulta aún más significativa cuando se analiza la experiencia por usuario y la degradación bajo restricciones de latencia, aspectos críticos para agentes y asistentes de programación.

Una máquina completa como unidad de medición (en lugar de una GPU aislada)

El GB300 NVL72 no es simplemente una tarjeta gráfica independiente, sino un sistema en formato rack: 72 GPUs Blackwell Ultra junto con 36 CPUs Grace, interconectados de manera que funcionan como una “fábrica” de inferencia. NVIDIA lo presenta como una plataforma diseñada para acelerar tareas de atención y razonamiento en escenarios de alta exigencia, donde la memoria y el ancho de banda son tan importantes como la capacidad de cómputo.

Es precisamente aquí donde el contexto largo redefine las reglas: el cuello de botella generalmente se desplaza hacia el KV cache (la memoria que el modelo usa para “recordar” el contexto durante la generación) y hacia la capacidad de HBM (memoria de alto ancho de banda), que permite manejar más peticiones simultáneas sin perder estado.

Qué midieron LMSYS y por qué es relevante

LMSYS evaluó DeepSeek-R1 en un patrón típico de servicio con contexto largo: entrada enorme (ISL de 128.000 tokens) y salida significativa (OSL de 8.000 tokens). Para ello, aplicaron técnicas ya consideradas “manuales” en serving moderno, pero ajustadas para aprovechar al máximo el hardware:

  • Prefill-Decode (PD) Disaggregation: separar la fase de prefill (procesar el prompt) de la fase de decode (generar tokens) para evitar que un solo nodo se convierta en cuello de botella.
  • Chunking dinámico: dividir el prefill en bloques que se procesan de forma sobrepuesta, reduciendo el TTFT (Time To First Token), un indicador que influye en qué tan “ágil” o “lento” percibe un asistente la respuesta.
  • MTP (Multi-Token Prediction): técnica que mejora el rendimiento por usuario sin reducir el throughput total, útil especialmente cuando se necesita una respuesta rápida en flujos de trabajo agénticos.

Números clave: picos, rendimiento por usuario y escenarios con restricciones de latencia

En su sección de “Highlights”, LMSYS resume los resultados más destacados: 226,2 TPS/GPU en GB300 sin MTP, frente a 147,9 TPS/GPU en GB200. Con MTP activado, el throughput agregado se mantiene alto, pero la verdadera diferencia está en la velocidad percibida por cada sesión: la experiencia de usuario.

Tabla 1 — Resultados principales (contexto largo 128.000/8.000)

MétricaGB300 NVL72GB200 NVL72Diferencia
Pico sin MTP (TPS/GPU)226,2147,91,53×
Con MTP (TPS/GPU)224,2169,11,33×
TPS por usuario con MTP (TPS/Usuario)4323+87%

Además, LMSYS destaca que, en condiciones comparables de latencia, GB300 ofrece entre 1,38 y 1,58 veces más TPS/GPU, dependiendo del escenario, con mayor ventaja en situaciones donde la latencia tenga mayor impacto en la degradación del sistema. Por ejemplo, en un escenario “latency–throughput equilibrado”, la mejora sin MTP llega a 1,58×.

Tabla 2 — Ganancias en escenarios con restricciones de latencia

EscenarioSin MTP (GB300 vs GB200)Con MTP (GB300 vs GB200)
Alto throughput (latencia relajada)+38,4%+44,9%
Balance latencia–throughput1,58×1,40×

Por qué GB300 tiene ventaja: más memoria para mantener sesiones “vivas”

En contextos largos, el rendimiento no suele limitarse por la capacidad de cómputo bruta, sino por la cantidad de solicitudes concurrentes que puede sostener en memoria sin tener que expulsar o replegar estados (retraction). Aquí, LMSYS destaca que GB300 cuenta con 1,5 veces más memoria HBM (288 GB frente a 192 GB), permitiendo aumentar el batch de decode y soportar más sesiones simultáneas sin penalización.

En resumen: no es solo más rápido, sino también más resistente ante picos de tráfico y escenarios donde el contexto debe mantenerse en múltiples sesiones activas.

Mejoras en TTFT: el tiempo hasta el primer token también cae

El prefill de 128.000 tokens suele ser una fuente de lentitud o de que el asistente “se quede pensando”. LMSYS propone el chunking dinámico y logra en el mejor caso 8,6 segundos de TTFT con bloques de 32.000 tokens. Sin esta optimización, el TTFT superaba los 15 segundos en ambos sistemas, lo que muestra por qué estas técnicas se han vuelto imprescindibles en despliegues serios.

Tabla 3 — TTFT en prefill largo (128.000 tokens)

ConfiguraciónGB300GB200Nota
Sin chunking15,2 s18,6 sMayor diferencia sin optimización
Chunk dinámico 32K8,6 sReducción significativa del TTFT

El gran tema: energía, costes y el “precio del rack”

La comparación entre GB300 y GB200 se centra en rendimiento, pero en el mercado se pregunta también por el costo total: energía, amortización y despliegue. Ahí surgen dos narrativas paralelas:

  • NVIDIA afirma, basado en datos de SemiAnalysis InferenceX y análisis de terceros, que GB300 puede ofrecer hasta 50 veces más throughput por megavatio y hasta 35 veces menores costes por token en ciertos rangos de latencia, además de mejorar la economía en escenarios de contexto largo.
  • Por otro lado, incluso en medios especializados que celebran el salto en rendimiento, se mantiene la cautela: aún no hay una visión completa y pública del TCO (coste total de propiedad) del GB300 frente al GB200 en todos los escenarios, y el despliegue de un rack de esta escala requiere inversión significativa.

En resumen, los datos de LMSYS indican que Blackwell Ultra entra con fuerza en el terreno de los “agentes largos” y escenarios de baja latencia. Sin embargo, las decisiones sobre costes reales se definirán con números concretos y disponibilidad, no solo con gráficos o comparaciones preliminares.


Preguntas frecuentes

¿Qué significa “contexto largo 128.000/8.000” en inferencia?
Que el sistema puede procesar entradas de hasta 128.000 tokens y generar salidas de hasta 8.000 tokens, un patrón habitual en asistentes que revisan gran cantidad de código o texto antes de responder.

¿Qué es PD Disaggregation y por qué mejora el rendimiento?
Es una técnica que divide el procesamiento del prompt (prefill) de la generación de tokens (decode) en nodos distintos, reduciendo cuellos de botella y permitiendo mayor escalabilidad y menor latencia.

¿Qué aporta MTP en producción?
Según LMSYS, MTP permite responder a múltiples tokens en una sola pasada, acelerando la velocidad de respuesta por usuario sin reducir el throughput total del sistema, haciendo posible respuestas más rápidas en flujos agénticos.

¿Por qué la memoria HBM es tan clave en contextos largos?
Porque la caché de claves y valores crece con el tamaño del contexto; si no cabe en la memoria, el sistema debe replegar o expulsar estado, afectando latencia y rendimiento. Más HBM permite mantener más sesiones simultáneamente sin penalización.

vía wccftech

Scroll naar boven