UC San Diego versterkt onderzoek in LLM-inferentie met NVIDIA DGX B200-systeem

La carrera por ofrecer modelos de lenguaje con baja latencia ya no se decide únicamente en artículos académicos y benchmarks: cada vez más, se gana (o se pierde) en los laboratorios de sistemas, donde el cuello de botella suele estar en cómo se “sirve” el modelo en producción. En este contexto, el Hao AI Lab de la Universidad de California en San Diego ha incorporado un sistema NVIDIA DGX B200 para acelerar su trabajo en inferencia de grandes modelos. Esta infraestructura no solo beneficia al laboratorio, sino que también está disponible para la comunidad universitaria a través del San Diego Supercomputer Center.

Este anuncio va más allá de la simple adición de hardware: varios enfoques que hoy se consideran estándar —o, al menos, inevitables— en plataformas de inferencia a gran escala tienen raíces en investigaciones desarrolladas en este grupo. NVIDIA destaca que conceptos de investigación provenientes del Hao AI Lab han influido en soluciones actuales para la inferencia en producción, incluyendo proyectos como DistServe, que se centra en mejorar la eficiencia sin sacrificar la experiencia del usuario.

Una de las principales evoluciones en la evaluación del rendimiento de motores de inferencia ha sido el paso del enfoque en throughput (tokens por segundo) hacia métricas que consideren la calidad de la experiencia en tiempo real, como el goodput. Durante años, el throughput fue la métrica estándar para medir la capacidad del sistema, pero esta no refleja cómo percibe un usuario la rapidez de respuesta. En la práctica, reducir la latencia a menudo requiere sacrificar parte del throughput para asegurar una respuesta rápida y consistente.

El concepto de goodput busca medir el rendimiento “útil”: aquel throughput que se mantiene dentro de los objetivos de latencia (SLO). Con la popularización de los grandes modelos de lenguaje en aplicaciones reales, ya no basta con generar mucho contenido, sino que es crucial que la generación sea rápida, confiable y con costes controlados para ofrecer una experiencia de usuario satisfactoria.

Otra estrategia relevante es la separación de las fases de prefill y decode. En una inferencia típica, primero se realiza el prefill para procesar el prompt y generar el primer token, y luego se entra en la fase de decode, que genera los tokens secuencialmente. Tradicionalmente, ambas fases se ejecutaban en la misma GPU, lo que generaba competencia por recursos entre ellas: el prefill suele ser más intensivo en cálculo, mientras que el decode depende más de memoria y acceso eficiente a cachés.

La estrategia de “disagregación” —separar prefill y decode en diferentes GPUs— busca reducir esa interferencia y mejorar el goodput. NVIDIA enmarca esta aproximación como una vía para escalar sin perder latencia baja, apoyándose en soluciones como NVIDIA Dynamo, una propuesta open source para implementar inferencia disgregada con eficiencia operativa en entornos productivos.

El uso del sistema DGX B200 en el Hao AI Lab responde a la necesidad de iterar, prototipar y experimentar de manera más rápida y eficiente. Para un laboratorio que trabaja en servir modelos en tiempo real, disponer de esta infraestructura no solo implica tener más GPU, sino contar con una plataforma que permita probar hipótesis, validar la infraestructura y acelerar la investigación sin fricciones. El DGX B200, basado en ocho GPUs NVIDIA B200 con una memoria total de 1.440 GB y una interconexión NVLink/NVSwitch de alta velocidad, está diseñado para altas exigencias tanto en entrenamiento como en inferencia, garantizando bajas latencias y alto rendimiento sostenido.

Entre los proyectos tecnológicos en marcha en el Hao AI Lab destaca FastVideo, que busca entrenar modelos de generación de vídeos cortos en unos cinco segundos, pasando así de una experiencia de espera a una interacción en tiempo real. Además, el laboratorio ha desarrollado Lmgame-bench, un conjunto de pruebas que evalúan modelos utilizando videojuegos como Tetris o Super Mario Bros., donde decisiones secuenciales y respuesta rápida son clave, condiciones similares a las que enfrentan los sistemas en producción.

En definitiva, la adquisición y puesta en marcha de plataformas como el DGX B200 reflejan que la inferencia comienza a consolidarse como una disciplina propia, con métricas especializadas, arquitecturas específicas y herramientas que buscan industrializar la baja latencia sin que los costes sean un obstáculo insuperable. Para la comunidad de inteligencia artificial, esto es una señal clara: la próxima ventaja competitiva no solo radicará en entrenar modelos más grandes, sino en ofrecer un servicio de inferencia eficiente, controlado y de alta calidad.

Scroll naar boven