LineShine: de Chinese supercomputer die AI traint zonder GPU

China ha presentado una aproximación poco convencional para entrenar modelos de inteligencia artificial a escala extrema: un superordenador basado en CPU Armv9, sin depender del esquema dominante de grandes clústeres acelerados por GPU. Este sistema se llama LineShine, está instalado en el National Supercomputing Center in Shenzhen (NSCC-SZ) y ha sido descrito en un artículo científico publicado como preprint en arXiv el 09/05/2026.

Lo que realmente llama la atención no es solo el rendimiento, sino también su arquitectura. LineShine combina 20.480 nodos de cálculo y 40.960 procesadores LX2 basados en Armv9. Cada procesador integra 304 núcleos, por lo que, según los datos técnicos del artículo, el total teórico de núcleos CPU asciende a aproximadamente 12.451.840. Esta cifra supera ampliamente los 2,4 millones de núcleos que han circulado en algunas lecturas rápidas del sistema, y no encaja simplemente con la multiplicación directa de nodos, procesadores y núcleos por procesador descritos en el documento, lo que sugiere una arquitectura aún más compleja y optimizada.

El proyecto surge en un contexto marcado por las restricciones estadounidenses a los chips avanzados para China, que desde 2022 afectan a semiconductores de alta computación y ciertos usos de supercomputación. Estas limitaciones han impulsado a China a desarrollar arquitecturas propias, procesadores nacionales y diseños capaces de sostener cargas de IA sin depender por completo de GPU extranjeras.

Un superordenador CPU para entrenar modelos científicos de IA

LineShine no se presenta solo como una demostración de hardware. Se ha empleado para entrenar un modelo generativo de compresión aplicado a datos de observación terrestre. La meta es reducir de forma significativa el volumen de datos satelitales, con ratios que varían entre 100× y 10.000×, y luego reconstruir la información mediante un modelo entrenado con archivos históricos de observación del planeta.

Este enfoque tiene sentido porque los satélites observan repetidamente el mismo territorio, generando patrones geográficos, temporales y espectrales que pueden aprenderse. En lugar de tratar cada imagen como un archivo aislado que requiere transmisión, almacenamiento y procesamiento casi en bruto, el sistema propone usar la historia global de observaciones como una memoria generativa. El modelo no solo comprime, sino que también aprende conocimiento previo del territorio para mejorar la reconstrucción de detalles perdidos durante la compresión.

Según el artículo, el entrenamiento alcanzó 1,54 exaFLOP/s sostenidos en BFloat16, con un pico de 2,16 exaFLOP/s en carga de evaluación. Estas cifras son importantes porque no provienen de un clúster GPU convencional, sino de una máquina CPU basada en Armv9 con memoria jerárquica HBM y DDR, una red de interconexión propia, y un esfuerzo considerable en optimización de software.

ElementoDatos descriptivos
Nodos de cálculo20.480
Procesadores LX240.960
Núcleos por procesador304
Total de núcleos CPU12.451.840
Memoria por procesador32 GB HBM + 256 GB DDR
Ancho de banda HBM por procesadorhasta 4 TB/s
Red por nodoLQLink, 1,6 Tb/s
Rendimiento sostenido reportado1,54 exaFLOP/s
Pico reportado2,16 exaFLOP/s

El procesador LX2 descrito en el estudio combina dos dies de cálculo, ocho clústeres de CPU y una integración de memoria HBM en el paquete junto a memoria DDR. Esta arquitectura no busca imitar fielmente el modelo GPU, sino aprovechar una mezcla de múltiples núcleos, memoria de alto ancho de banda, mayor capacidad de memoria y optimizaciones específicas para operaciones de entrenamiento densas.

¿Por qué es relevante que no use GPU?

Gran parte de la IA moderna a gran escala se entrena y ejecuta en GPUs o aceleradores especializados. NVIDIA domina buena parte de ese mercado gracias a sus chips, software y ecosistema CUDA, lo que ha generado una ventaja difícil de replicar. La muestra de China de un resultado de entrenamiento exascale basado en CPUs Armv9 resulta, por tanto, un indicio importante: no significa que las GPUs hayan dejado de ser necesarias, pero sí que existen caminos alternativos para ciertos tipos de cargas científicas.

Este matiz es clave. LineShine no debe compararse simplemente con los grandes clústeres de IA generativa orientados a entrenar modelos enormes de lenguaje. Su caso de uso es distinto: compresión generativa y reconstrucción de datos satelitales multispectrales. Aquí influyen mucho aspectos como la ingesta de datos, memoria, comunicaciones, organización de tensores y la capacidad de sostener tareas científicas prolongadas sobre archivos de grandes dimensiones.

El artículo destaca que los archivos de observación terrestre ya alcanzan tamaños de cientos de petabytes y que, para muchas tareas científicas, mover y reprocesar datos a esa escala se está convirtiendo en un cuello de botella. La propuesta D2AR, un marco empleado en el entrenamiento, intenta convertir estos archivos históricos en modelos capaces de ofrecer reconstrucciones bajo demanda con diferentes niveles de compresión.

Este enfoque también puede influir en cómo se diseñan futuras infraestructuras científicas. En lugar de que cada investigador descargue grandes volúmenes de datos, los centros de supercomputación podrían proveer representaciones comprimidas, reconstrucciones adaptadas a cada tarea o productos derivados generados cerca del archivo, siguiendo la tendencia de llevar el análisis a donde están los datos en lugar de mover los datos hacia los usuarios.

La importancia de la cooptimización

El rendimiento de LineShine no se explica únicamente por sumar millones de núcleos. La clave está en una optimización coordinada entre el modelo, los kernels, la memoria, el runtime y el paralelismo. En CPU, los costos asociados a planificación, sincronización y movimiento de datos pueden ser mayores que en GPU si el software no está específicamente adaptado. Por ello, los investigadores desarrollaron estrategias específicas para Armv9, SVE y SME, la extensión vectorial de la arquitectura.

Uno de los mayores retos es la gestión de memoria. Cada clúster dispone de una cantidad limitada de memoria HBM local, por lo que no todos los parámetros, activaciones, gradientes y estados del optimizador pueden residir en la memoria más rápida. El sistema decide qué tensores deben almacenarse en HBM y cuáles pueden mantenerse en DDR según su impacto en el rendimiento y su ciclo de vida durante el entrenamiento.

Asimismo, se ajusta la comunicación. LineShine emplea paralelismo en secuencia y una estrategia híbrida de datos alineada con la topología física del superordenador. El objetivo es que las comunicaciones más frecuentes permanezcan en dominios de baja latencia y que los estados del optimizador no se repliquen innecesariamente, facilitando un escalado eficiente.

El salto en rendimiento reportado en el estudio es notable. Para un modelo de 6.000 millones de parámetros, el tiempo por paso en un nodo se reduce de 51,31 segundos a solo 4,98 segundos tras aplicar gestión de memoria, kernels optimizados, mejoras en comunicación y ejecución asíncrona. Esa mejora local permite escalar a miles de nodos sin que la eficiencia se desplome.

El resultado final, con 20.480 nodos, mantiene una eficiencia de escalado débil del 76%. En la práctica, esto significa que al aumentar el número de nodos, la carga total también crece sin que la eficiencia se reduzca en exceso. Para entrenar con archivos históricos globales, este equilibrio resulta más relevante que acelerar pruebas pequeñas y fijas.

LineShine demuestra que China no solo busca reemplazos directos de las GPUs occidentales, sino que también está explorando diseños integrales de supercomputación donde procesador, red, memoria y software se ajustan a cargas específicas. Aunque esta estrategia no elimina la ventaja de los aceleradores en IA comercial, amplía el panorama de posibilidades.

Una lectura destacada para el sector cloud y de infraestructura es que la IA no tendrá una única arquitectura dominante. Los distintos ámbitos —modelos conversacionales, inferencia empresarial, simulación científica, observación terrestre y compresión generativa— requerirán combinaciones diversas de computación, memoria, red y almacenamiento. LineShine encaja en esta segunda categoría: menos visible para el público general que ChatGPT o DeepSeek, pero muy relevante para entender cómo se reorganiza la supercomputación en medio de una rivalidad tecnológica en auge.

Preguntas frecuentes

¿Qué es LineShine?
LineShine es un superordenador chino instalado en el National Supercomputing Center in Shenzhen. Está basado en procesadores LX2 Armv9 y se ha empleado para entrenar modelos de IA científica a escala exascale.

¿Cuántos núcleos tiene LineShine?
Según los datos del artículo, cuenta con 20.480 nodos, cada uno con dos procesadores y 304 núcleos por procesador, alcanzando un total de 12.451.840 núcleos CPU.

¿LineShine usa GPUs?
No. La arquitectura se basa en CPU Armv9 LX2 y se ha presentado como una máquina exascale completamente CPU. Su interés radica en mostrar una alternativa a los modelos tradicionales que dependen de clústeres GPU.

¿Puede competir con los grandes clústeres de NVIDIA?
Depende de la carga. Para entrenar modelos de lenguaje masivos, las GPUs siguen siendo superiores. Sin embargo, en tareas científicas específicas como la compresión y reconstrucción de datos satelitales, LineShine demuestra que los CPUs Armv9 pueden ser viables a escala exascale.

Scroll naar boven